WHITE-HAT-SEO-KLIMIN

Оптимизация сайта для Человека

Парсеры для блокировки

Парсинг данных с сайтов распространенное "явление" в Интернете, для некоторых компаний и оптимизаторов это становится даже проблемой. Существуют те, кто создает уникальную информацию, те кто ее дублирует и те, кто существующие данные "перефразирует" и выдает за свои.

Существуют множество программ и скриптов, с помощью которых можно копировать данные с других источников (в нашем случае с сайтов). Для отсеивания большинства подобных угроз необходимо просто заблокировать доступ к данным, если используется парсер. Используйте проверку вхождения имени парсера в "User-Agent".

Список парсеров для блокировки

Ниже расположен список встречающихся мне парсеров в практике. Блокировка этих парсеров на уровне сервера не навредит поисковой оптимизации вашего сайта, даже напротив способствует сохранению уникального контента (парсерам не удастся автоматически скопировать данные с сайта).

Не забывайте про быстрый поиск
Имя парсераСсылка на официальный сайт
Diffbothttps://www.diffbot.com/
Microsoft.Data.Mashuphttps://go.microsoft.com/fwlink/?LinkID=304225
xpymep.exe
ANAMhttps://github.com/dutchcoders/anam
is-link-workinghttps://github.com/IndigoUnited/node-is-link-working
win7ie80
Mechanizehttps://github.com/sparklemotion/mechanize/
LinkCheckerhttps://wummel.github.io/linkchecker/
crawler4jhttps://github.com/yasserg/crawler4j/
Mojolicioushttp://mojolicious.org/
PulsePoint-Ads.txt-Crawler
adstxtlab.com Crawlerhttp://adstxtlab.com/
libwww-perlhttps://github.com/libwww-perl/libwww-perl
aliveadvisor-crawler
python-http.client
go-httpclienthttps://github.com/ddliu/go-httpclient
Codular Sample cURL Requesthttp://codular.com/curl-with-php
Typhoeushttps://github.com/typhoeus/typhoeus
test Crawl
MrCrewl
Nmap Scripting Enginehttps://nmap.org/book/nse.html
Apache-HttpClient
Needlehttps://www.npmjs.com/package/needle
Screaming Frog SEO Spiderhttps://www.screamingfrog.co.uk/seo-spider/
PycURLhttp://pycurl.io/
python-requestshttp://docs.python-requests.org/en/latest/
Python-urllibhttps://docs.python.org/2/library/urllib2.html
PhantomJShttp://phantomjs.org/
Для удобства использования представленного списка нажмите на кнопку и их можно скопировать списком для дальнейших манипуляций.