WHITE-HAT-SEO-KLIMIN

Оптимизация сайта для Человека

PetalBot

PetalBot - это робот поисковой системы «Petal Search» от компании Huawei (первый выпуск которой был объявлен 19 июня 2020 года). Подробнее о поисковой системы "Petal Search" можно узнать из официального источника. Информация о боте, способы блокировки в robots.txt и как определить подлинность, описаны на официальной странице.

О боте

PetalBot является также "вежливым ботом" и периодически запрашивает файл "/robots.txt" для того, чтобы следовать указаниям вебмастера сайта. Это бот, как и многие другие индексирующие роботы поисковых систем, запрашивает страницы сайта и изображения. Не замечено, чтобы бот запрашивал JS и CSS файлы, следовательно визуальная составляющая его не интересует, только контент.

По IP адресу можно увидеть прозрачную информацию о его происхождении и инициаторе:

информация об одном из IP адресов бота PetalBot

Например по примеру выше можно понять, что запросы с IP 114.119.167.227 выполнялись подлинным ботом: сервер находится в Сингапуре, провайдер Huawei International Pte Ltd и хост aspiegel.com. Для валидации советую использовать валидатор ботов.

Поведение бота

Этот бот был замечен в логах сервера, в моем случае, с 20 мая 2020:

активность PetalBot в логах

В 99,9% случаев бот делал запросы с User-Agent:

Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)

Все запросы производятся по методу GET и, как оказалось, все они были от PetalBot (mobile), а "PC" так и не пришёл. Исходя из данных в логах заметно равномерное распределение запросов между IP адресами. В среднем кол-во запросов каждого IP адреса бота составляет 2,4% от общего кол-ва запросов.

Также стоит отметить что запросы PetalBot производятся с большого кол-ва IP адресов. В моем случае с 20 мая по 26 июля бот делал запросы к серверу с 451 различного IP адреса (скачать список). За июнь бот сделал 166К запросов к серверу (около 4 запросов в минуту), но уже в июле число запросов превышает 204К (на 26 июля, аппетит растет). В моем случае на проекте более 20М страниц, следовательно еще и поэтому такое кол-во запросов. Исходя из такой интенсивности бота нагрузку на сервер он не должен создать.

Выводы

Исходя из наблюдений делаю краткие выводы: