WHITE-HAT-SEO-KLIMIN

Оптимизация сайта для Человека

На что указывает [modtime] в Яндекс XML

Подробнее о Яндекс XML вы можете узнать из официального источника. Если вы уже пришли сюда, то скорее всего понимаете о чем идет речь. Тема статьи о практической пользе [modtime] в Яндекс XML.

В ответ на запрос к Яндекс.XML приходит ответ, в котором присутствует параметр "[modtime]" со значением в формате "20180618T173445". Значением является временна́я метка, если перевести на человеко-удобный формат из примера, то получится: 18 июня 2018 года в 17 часов 34 минуты 45 секунд.

На что НЕ указывает дата из [modtime]

Опытным путем было обнаружено, что эта временна́я метка НЕ указывает на:

Проверив на нескольких десятков примеров обнаружено, что ни по одному вышеописанному пункту метки не прошли проверку.

На что указывает дата из [modtime]

Метка близка к времени, когда в систему сканирования и индексирования Яндекса поступил данный URL, образно говоря - когда Яндекс был уведомлен/узнал, что где-то на просторе Интернет появился этот URL. Спустя некоторое время данный URL запрашивает YandexBot и далее по схеме.

Почему такие выводы

Мои выводы сделаны на основании проведенного анализа, в работе я сталкиваюсь с большим объемом страниц и без технического анализа и анализа логов сервера не обойтись. Рассмотрим реальный пример. Делаю запрос к Яндекс.XML и получаю один из ответов:

Пример 1

первый пример ответа на запрос в Яндекс.XML

Для анализа возьмем параметры: url и modtime. По этим параметрам из логов сервера мы можем узнать, когда приходил YandexBot. Получаем входные данные: [url] => https://GisAuto.ru/poisk-po-nomeru/ac-delco/25999906 и [modtime] => 20180614T010816. В ответе указано, что нас интересует дата 14 июня 2018 года. Идем в логи...

Для анализа и для большей уверенности я провожу выборку из логов с начала 2018 года и по 03 июня 2020. В логах нашлись записи:

95.108.213.22 - - [11/Feb/2020:11:28:11 +0300] "GET /poisk-po-nomeru/ac-delco/25999906 HTTP/1.1" 200 54437 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
95.108.213.26 - - [22/Aug/2019:07:54:34 +0300] "GET /poisk-po-nomeru/ac-delco/25999906 HTTP/1.1" 200 156306 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
141.8.142.6 - - [19/Apr/2019:02:57:30 +0300] "GET /poisk-po-nomeru/ac-delco/25999906 HTTP/1.1" 200 62327 0.564 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
178.154.200.51 - - [02/Sep/2018:18:01:22 +0300] "GET /poisk-po-nomeru/ac-delco/25999906 HTTP/1.1" 200 27448 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots)"
178.154.200.51 - - [02/Sep/2018:18:01:22 +0300] "GET /poisk-po-nomeru/ac-delco/25999906 HTTP/1.0" 200 130940 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots)"
178.154.200.51 - - [12/Aug/2018:13:20:22 +0300] "GET /poisk-po-nomeru/ac-delco/25999906 HTTP/1.1" 200 21022 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
178.154.171.2 - - [17/Jun/2018:03:59:46 +0300] "GET /poisk-po-nomeru/ac-delco/25999906 HTTP/1.1" 200 21074 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

Из логов мы видим, что впервые бот Яндекса запрашивал URL 17 июня 2018 года, а дата в [modtime] установлена 14 июня 2018 года (т.е. за три дня до первого сканирования).

Пример 2

Чтобы проверить гипотезу возьмем пример, где значением [modtime] будет 5 марта 2020 - типа якобы "свежак", по идее робот ранее его мог уже сканировать, еще в 2018 году. Получаем входные данные: [url] => https://GisAuto.ru/poisk-po-nomeru/ae/aem910027010 и [modtime] => 20200305T083155.

второй пример ответа на запрос в Яндекс.XML

Для анализа логов взял тот же период, с начала 2018 года и по 03 июня 2020. Что нашлось:

178.154.200.56 [15/Apr/2020:18:52:23 +0300] "GET /poisk-po-nomeru/ae/aem910027010 HTTP/1.1" 200 23801 0.300 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
141.8.142.182 [19/Mar/2020:07:17:35 +0300] "GET /poisk-po-nomeru/ae/aem910027010 HTTP/1.1" 200 23294 0.400 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
95.108.213.22 [09/Mar/2020:12:55:10 +0300] "GET /poisk-po-nomeru/ae/aem910027010 HTTP/1.1" 200 24167 0.600 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
37.9.113.18 [07/Mar/2020:06:53:45 +0300] "GET /poisk-po-nomeru/ae/AEM910027010 HTTP/1.1" 301 641 0.100 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"

На этот раз мы видим, что первый раз YandexBot запрашивал URL 7 марта 2020 года, а дата в [modtime] установлена 5 марта 2020 года (т.е. за 2 дня до первого сканирования).

Я привел только два примера, но проверил я на нескольких десятках страниц, ситуация аналогичная, единственное отличие во "времени простоя" (сам придумал), когда есть пауза между тем когда Яндекс узнал об URL и дате сканирования этого URL.