WHITE-HAT-SEO-KLIMIN

Оптимизация сайта для Человека

О чем говорят логи. Краулинговый бюджет

С помощью логов сервера мы можем извлекать важную информацию для больших и очень больших сайтов с более чем 1М страниц. Речь пойдет о так называемом выделенном поисковой системой лимитом запросов к конкретному сайту.

В зависимости от репутации сайта и его технических возможностей (и не только этого) формируются лимиты обращений робота к страницам и файлам сайта.

Лимиты поисковых систем могут изменяться в зависимости от текущего состояния проекта и их значение поможет определить существующие проблемы сайта – текущие и будущие.

Лично от меня (Климин Виктор)

Нижеописанное является моим мнением и оно построено на практическом опыте, а также из информации официальных источников и руководств. Нижеописанное также будет касаться, по умолчанию, поисковых систем Google и Яндекс.

Обращу внимание: использование методик из официальных источников и соблюдение спецификаций языка разметки – это самый верный способ формирования качественного сайта в глазах SEO на все времена и формирования грамотного «белошляпочного» SEO-специалиста. Помните о том, что публикуемая информация на форумах и блогах – это лишь следствие личного опыта автора статьи и не является единственным верным решением для всех направлений и типов контента (как и в данной статье).

Простая логика обхода и индексирования

Робот поисковой системы делает GET запрос к главной странице сайта и получает содержимое страницы, из этого содержимого также получает ссылки на другие страницы сайта. В следующем визите поисковый робот уже имея свою составленную базу ссылок производит запросы к найденным страницам и повторяет однотипную операцию снова и снова. Адреса страниц для последующего обхода поисковый робот получает не только из внутренних ссылок на сайте, а также из карты сайта (sitemap.xml) и внешних ссылок на сайт.

Начальный краулинговый бюджет

В период «рождения» сайта поисковая система определяет для него лимит запросов, которые индексирующий робот может делать для индексирования содержимого сайта. Исходя из «репутации» сайта ему назначается определенный лимит запросов. Далее поисковый робот производит запросы к сайту в отведенном для него кол-ве запросов и получает разнообразную информацию: страницы, изображения, файлы стилей, js и т.д.

Дальнейшее распределение краулингового бюджета завит от самого ресурса, его развития и популярности. Соответственно чем интереснее ресурс, чем чаще его цитируют пользователи на других сайтах, уникальнее и на котором периодически появляется интересная информация для пользователей, а также больше может выделяться бюджет для ежедневного обхода сайта.

Динамическое изменение краулингового бюджета

Чем больше сайт, тем более востребован факт ведения статистических данных обхода сайта роботами поисковых систем. Исходя из ежедневных данных в процессе работы Вы увидите, как меняется краулинговый бюджет изо дня в день в зависимости от зафиксированных Вами факторов в работе:

На основе данных по статистике делайте выводы об успешности сайта в глазах поисковых систем. По простой логике: чем больше запросов делает поисковая система к сайту, тем (по мнению поисковой системы) сайт полезнее и на него стоит уделить внимание и ресурсы.

Исходя из вышеописанного логичный вывод будет в противоположном случае - поисковая система уменьшает краулинговый бюджет потому что:

Краулинговый бюджет у каждой поисковой системы свой и динамику изменения бюджета можно наблюдать также разную, даже кардинально измененную. Например, вполне возможна ситуация, когда Яндекс производит в сутки по 200К запросов в то время, как Google будет делать всего 5К запросов.

Исходя из этого стоит оценивать время, потраченное на индексирование большого сайта. Если на сайте более 30М страниц и все они уникальны и полезны, то их индексация займет немало времени:

Если говорить о реальных ситуациях, то эти цифры могут быть как гораздо меньше, так и чуть больше. Все зависит от результатов работы сайта, его репутации и популярности. Те, кто вели ститистику логов сервера,те наблюдали скачки бюджета и замечали, что в самом «начале жизни сайта» этот лимит запросов либо сильно скачет, либо сначала завышен и потом падает, либо в лучшем исходе лимит постепенно повышается – что символизируется успешно развивающийся ресурс и «здоровье» сайта.

Советы для экономии краулингового бюджета

При проектировании сайта и его запуском (или перед открытием сайта для поисковых роботов) следует учитывать факторы:

Официальные источники данных

Для того, чтобы отслеживать краулинговый бюджет своего сайта существует несколько основных источников данных в зоне «Вебмастер»:

Ручная регулировка краулингового бюджета у Google

У Google есть возможность ограничения кол-ва запросов к сайту путем установки лимита максимума в Search Console . Данной возможностью вы можете воспользоваться в разделе «Настройки сайта» (справа иконка шестеренки в кабинете вебмастера).

Google. Частота сканирования

Увеличить кол-во минимальных запросов не получится, но есть возможность ограничения запросов от робота Google к сайту.

Ручная регулировка краулингового бюджета у Яндекса

Не так давно у Яндекса появился инструмент для вебмастеров под названием «Скорость обхода» (Индексирование - Скорость обхода). При помощи данной инструмента вебмастер может напрямую дать рекомендацию поисковому роботу Яндекса о повышении или понижении лимита запросов к сайту.

Яндекс. Настройка скорости обхода

Задавая вручную скорость обхода будьте внимательны и помните, что в случае малых мощностей сервера это может существенно повлиять на его работоспособность, пусть даже на один день.

Скорость обхода следует увеличивать постепенно и смотреть по логам не увеличилось ли кол-во возвращаемых 500-х кодов, а также не забывать посматривать скорость ответа страниц (может быть и повышение времени загрузки страницы, что приводит к задержкам и «зависаниям» и как следствие ухода посетителя не дождавшись загрузки страницы).

Не смотря на рекомендации вебмастера поисковый робот Яндекса может и не производить такого кол-ва запросов к серверу. Например из скрина выше видим, что задано значение «9 запросов в секунду», что якобы равняется около 777К запросам в сутки. В реальности же кол-во запросов может быть и 70К и 200К.

Поисковые системы сами определяют, какое кол-во запросов «заслуживает сайт» и можно ли их повышать – для поисковых систем всегда было есть и будет первой целью это интересы пользователей и чтобы их нагрузка не помешала пользователям просматривать сайт.