Оптимизация сайта для Человека
Парсинг данных с сайтов распространенное "явление" в Интернете, для некоторых компаний и оптимизаторов это становится даже проблемой. Существуют те, кто создает уникальную информацию, те кто ее дублирует и те, кто существующие данные "перефразирует" и выдает за свои.
Существуют множество программ и скриптов, с помощью которых можно копировать данные с других источников (в нашем случае с сайтов). Для отсеивания большинства подобных угроз необходимо просто заблокировать доступ к данным, если используется парсер. Используйте проверку вхождения имени парсера в "User-Agent".
Ниже расположен список встречающихся мне парсеров в практике. Блокировка этих парсеров на уровне сервера не навредит поисковой оптимизации вашего сайта, даже напротив способствует сохранению уникального контента (парсерам не удастся автоматически скопировать данные с сайта).
| Имя парсера | Ссылка на официальный сайт |
|---|---|
| Diffbot | https://www.diffbot.com/ |
| Microsoft.Data.Mashup | https://go.microsoft.com/fwlink/?LinkID=304225 |
| xpymep.exe | |
| ANAM | https://github.com/dutchcoders/anam |
| is-link-working | https://github.com/IndigoUnited/node-is-link-working |
| win7ie80 | |
| Mechanize | https://github.com/sparklemotion/mechanize/ |
| LinkChecker | https://wummel.github.io/linkchecker/ |
| crawler4j | https://github.com/yasserg/crawler4j/ |
| Mojolicious | http://mojolicious.org/ |
| PulsePoint-Ads.txt-Crawler | |
| adstxtlab.com Crawler | http://adstxtlab.com/ |
| libwww-perl | https://github.com/libwww-perl/libwww-perl |
| aliveadvisor-crawler | |
| python-http.client | |
| go-httpclient | https://github.com/ddliu/go-httpclient |
| Codular Sample cURL Request | http://codular.com/curl-with-php |
| Typhoeus | https://github.com/typhoeus/typhoeus |
| test Crawl | |
| MrCrewl | |
| Nmap Scripting Engine | https://nmap.org/book/nse.html |
| Apache-HttpClient | |
| Needle | https://www.npmjs.com/package/needle |
| Screaming Frog SEO Spider | https://www.screamingfrog.co.uk/seo-spider/ |
| PycURL | http://pycurl.io/ |
| python-requests | http://docs.python-requests.org/en/latest/ |
| Python-urllib | https://docs.python.org/2/library/urllib2.html |
| PhantomJS | http://phantomjs.org/ |