Оптимизация сайта для Человека
Парсинг данных с сайтов распространенное "явление" в Интернете, для некоторых компаний и оптимизаторов это становится даже проблемой. Существуют те, кто создает уникальную информацию, те кто ее дублирует и те, кто существующие данные "перефразирует" и выдает за свои.
Существуют множество программ и скриптов, с помощью которых можно копировать данные с других источников (в нашем случае с сайтов). Для отсеивания большинства подобных угроз необходимо просто заблокировать доступ к данным, если используется парсер. Используйте проверку вхождения имени парсера в "User-Agent".
Ниже расположен список встречающихся мне парсеров в практике. Блокировка этих парсеров на уровне сервера не навредит поисковой оптимизации вашего сайта, даже напротив способствует сохранению уникального контента (парсерам не удастся автоматически скопировать данные с сайта).
Имя парсера | Ссылка на официальный сайт |
---|---|
Diffbot | https://www.diffbot.com/ |
Microsoft.Data.Mashup | https://go.microsoft.com/fwlink/?LinkID=304225 |
xpymep.exe | |
ANAM | https://github.com/dutchcoders/anam |
is-link-working | https://github.com/IndigoUnited/node-is-link-working |
win7ie80 | |
Mechanize | https://github.com/sparklemotion/mechanize/ |
LinkChecker | https://wummel.github.io/linkchecker/ |
crawler4j | https://github.com/yasserg/crawler4j/ |
Mojolicious | http://mojolicious.org/ |
PulsePoint-Ads.txt-Crawler | |
adstxtlab.com Crawler | http://adstxtlab.com/ |
libwww-perl | https://github.com/libwww-perl/libwww-perl |
aliveadvisor-crawler | |
python-http.client | |
go-httpclient | https://github.com/ddliu/go-httpclient |
Codular Sample cURL Request | http://codular.com/curl-with-php |
Typhoeus | https://github.com/typhoeus/typhoeus |
test Crawl | |
MrCrewl | |
Nmap Scripting Engine | https://nmap.org/book/nse.html |
Apache-HttpClient | |
Needle | https://www.npmjs.com/package/needle |
Screaming Frog SEO Spider | https://www.screamingfrog.co.uk/seo-spider/ |
PycURL | http://pycurl.io/ |
python-requests | http://docs.python-requests.org/en/latest/ |
Python-urllib | https://docs.python.org/2/library/urllib2.html |
PhantomJS | http://phantomjs.org/ |