Ползучий бюджет: Что это и как он оптимизирован?
Не так уж много людей в Италии говорят о ползучем бюджете, и это неудивительно, так как это одна из самых технических и часто неправильно понятых концепций SEO.
Проще говоря, гусеничный бот Google сканирует веб-страницы, добавляя их в индекс позже. Во время работы программа ищет другие ссылки, по которым можно самостоятельно или по URL-адресам сайта sitemap.xml всегда анализировать новое содержание.
Для идентификации во время доступа боты обычно используют пользовательский агент, т.е. строку распознавания. Проконсультировавшись с лог-файлом Apache на нашем сервере, мы можем увидеть посещения от Googlebot, но есть также BingBot от Microsoft, Baiduspider для китайского рынка и ЯндексБот для России.
Выполнение задачи сканирования 100, 1000 или 10000 страничных сайтов может быть особенно обременительным и особенно дорогостоящим с точки зрения аппаратных ресурсов, но и трудоемким, так как существуют миллиарды сайтов, которые необходимо периодически проверять, чтобы отслеживать любые новые обновления или изменения в контенте.
Отсюда вытекает необходимость ограничения времени и ресурсов, выделяемых на каждый сайт, в зависимости от ряда факторов, которые вознаграждают одни сайты более частым сканированием, в то время как другие будут проверяться лишь изредка.
Каков бюджет Google?
Чтобы дать практическое определение, мы можем определить, сколько раз Googlebot сканирует сайт в данный момент времени. Например, если бы Googlebot посещал ваш сайт 40 раз в два дня, то ваш бюджет пополз бы в 600 раз в месяц. Для сайта компании, насчитывающего около десяти страниц, это, наверное, не так уж и важно, но для блога, который ежедневно публикует 5 новых контентов, или для электронной коммерции с тысячами продуктов.
Как следить за тем, как ползет твой бюджет?
Чтобы получить конкретное представление о ситуации на вашем сайте, вы должны обязательно положиться на систему мониторинга доступа Googlebot и существуют различные решения. Самый простой и бесплатный способ — это использовать ваш аккаунт в консоли поиска в области Crawl > Crawl Stats, где вы можете найти график активности Google за последние 90 дней, показывающий среднее, максимальное и минимальное количество страниц, отсканированных каждый день.
Более продвинутым решением является использование программного обеспечения на основе ElasticSearch для анализа лог-файлов веб-сервера, позволяющего получать более конкретные данные о доступе Googlebot, в отношении которых страницы посещаются чаще и которые проверяются реже.
Таким образом, мы могли бы обнаружить, что на определенный пост приходят 2 раза в день, а на другой — каждые 20 дней. В результате, мы могли бы рассмотреть возможность улучшения второй статьи путем добавления содержимого или просто изменения внутренней структуры ссылок, чтобы сделать ее более видимой для ползунков и передать больше ссылочного сока.
В этом примере мы также можем решить протолкнуть первую статью, которая так «нравится» Google, возможно, добавив более качественный контент или проведя специальную кампанию по созданию ссылок.