WHITE-HAT-SEO-KLIMIN

Оптимизация сайта для Человека

DomainCrawler

В целом бота DomainCrawler можно назвать "вежливым", но "напористым". Далее рассмотрим его поведение, откуда он и что хочет, что пишется в логи и дополнительную информацию об этом боте.

Информации о боте

Как и все "порядочные" боты он указывает контактные данные для подробной информации о нем и обратной связи. В Useragent передает два вида контактов:

На официальном сайте бота, на странице "About Us" указывается его миссия. Как я понял главной миссией этого бота - сбор информации о сайтах и SEO данных в национальных доменных зонах (ccTLDs). В целом сайт походит на онлайн-сервис для анализа основных параметров сайта, где введя адрес желаемого сайта вам покажут известную информацию о нем.

главная страница сайта бота DomainCrawler

DomainCrawler в логах

В логах указано значение "%DOMAIN%" - это доменное имя сайта, который он сканирует, т.е. вашего сайта, раз вы увидели это в логах.

80.248.225.79 [10/Mar/2019:14:26:24 +0300] "GET / HTTP/1.1" 200 274633 0.453 "-" "DomainCrawler/3.0 (info@domaincrawler.com; http://www.domaincrawler.com/%DOMAIN%)"


Кроме него по похожим контактным данным приходит и бот "CipaCrawler", который запрашивает файлы: /robots.txt, /ads.txt, /humans.txt и главную страницу. Бот CipaCrawler уже не входит в рамки описания этого материала и при необходимости будет рассмотрен отдельно.

80.248.227.208 [05/Feb/2019:08:43:08 +0300] "GET / HTTP/1.1" 200 22418 0.151 "-" "CipaCrawler/3.0 (info@domaincrawler.com; http://www.domaincrawler.com/%DOMAIN%)"

Поведение бота

Перед началом сканирования этот бот запрашивает файл /robots.txt, следует полагать, что он может слушаться указаний вебмастера - это хорошо. Поведение бота вызывает подозрения со стороны частоты запросов в секунду - по 1 запросу в секунду на протяжении 2-4 часов. Например за 10 марта 2019 года этот бот произвел 9821 запросов к сайту. Этот бот действует как типичный "паук" - запрашивает главную страницу, берет ссылки, обходит эти ссылки, берет с них ссылки и т.д.

Частота сканирования непредсказуема, этот бот может прийти в любой момент. За все случаи его появления бот производил обращения с двух IP: 185.6.8.9 и 80.248.225.79. Оба IP адреса находятся в Швеции и по мнению других вебмастеров, в базе AbuseIPDB, есть жалобы на запросы с этих IP адресов, где есть упоминания и о том, что игнорируются директивы в "/robots.txt" (хотя администрация AbuseIPDB и внесла эти IP в "белый список").

информация о жалобе на IP 80.248.225.79 в AbuseIPDB

Сводная информация о боте

Исходя из вышеописанного можно понять следующее:

Есть что дополнить или нашли что можно исправить? Напишите, пожалуйста, об этом в "Есть что добавить" (слева синяя кнопка)
В группе ВКонтакте публикуются новости для SEO специалистов