Оптимизация сайта для Человека
Практически на все сайты рано или поздно будут приходить куча-кучная роботов, парсеров, анализаторов и прочая "живность". Многие из них не представляют интереса непосредственно Вашему сайту, а некоторые даже "вредят".
В списке ниже присутствует робот поисковой системы Китая "Baiduspider" (официальное описание Baiduspider) доступ которому я блокирую из-за нецелесообразности, целевую аудиторию я отуда не получу (если не будет сайта по международной доставке или тематической тематике). Но не всем этот робот бесполезен, так что бдите, господа.
В описании страницы я упомянул, что именую многих подобных ботов как "тупые". Так называемые тупые боты "не слушают" кода ответа сервера и указания сайта, хотя по "правилам хорошего тона" каждый современный робот должен анализировать обратную связь: в первую очередь запроси файл /robots.txt, посмотри код ответа сервера, если 200, то продолжаем запросы; переходим к файлу /robots.txt, вдруг владелец сайта не хочет, чтобы "я сканировал его сайт", если в этом файле также блокировок не обнаружено - зелёный свет. Но если робот обнаружил код ответа блокировки (403, 423), то отложи свои визиты на неделю, пришел через неделю, опять нашел запрет, приходи через месяц, ну а если и потом заблокировано, то добро пожаловать через полгода (если SEO-оптимизатор случайно заблокировал доступ нужному роботу у него хватит времени обнаружить это по логам доступа и исправить ситуацию).
Весь список "необязательных ботов", которые мне попадались, можно посмотреть на странице Ненужные боты.
| Имя UserAgent | Частота вхождения |
|---|---|
| Baiduspider | 49,1% |
| Cliqzbot | 13% |
| Go-http-client | 12,5% |
| SurdotlyBot | 2% |
| Sogou web spider | 1,7% |
| zgrab | 1,4% |
| python-http.client | 1,4% |
| SeopultContentAnalyzer | 0,9% |
| SemrushBot | 0,5% |
| Exabot | 0,5% |
| Имя UserAgent | Частота вхождения |
|---|---|
| Baiduspider | 59,2% |
| Cliqzbot | 7,7% |
| Sogou web spider | 3,7% |
| SurdotlyBot | 2,3% |
| python-requests | 2,1% |
| Jorgee | 2,0% |
| DataMiner | 1,8% |
| Scrapy | 1,1% |
| coccocbot-web | 1,0% |
| Exabot | 0,5% |