Продолжаю рассказывать про роботов гугла и их назначения, информация будет полезна тем, кто изучает логи сайта и хотел бы понимать что это за гугл боты.
В первой части Список всех актуальных айпи адресов гугл ботов и User Agent Googlebot на 2024 год (часть 1) — Ваш Фрилансер (vashfreelancer.com) мы разобрали:
Сегодняшний материал — продолжение. И поговорим мы про остальных ботов гугл сервиса, их названия и что они делают на Вашем сайте. Продолжение материала, поможет более детально изучить логи Вашего сайта и узнать кто посещает его — плохие или хорошие боты. Помните, что Вы всегда можете заказать защиту сайта под ключ.
Основные роботы Google и их назначения
Основные поисковые роботы компании Google предназначены для формирования индексов в поисковой системе Google, а также для анализа и выполнения различных операций сканирования в зависимости от конкретного продукта. Эти роботы всегда соблюдают правила, установленные в файле robots.txt
GoogleBot
Googlebot — это веб-паук, который используется поисковой системой Google для автоматического сканирования и индексации веб-страниц. Это ключевой элемент процесса работы поисковой системы Google, который позволяет обновлять информацию в их поисковом индексе. Когда Googlebot обращается к веб-страницам, он анализирует их содержимое и следит за ссылками, чтобы определить, какие страницы следует индексировать.
Подробнее рассказывали про него в 1-й части. Пожалуйста, ознакомьтесь с материалом.
Googlebot Image
Googlebot Image — это робот используемый поисковой системой Google для сканирования и индексации изображений в сети Интернет . Этот бот специально предназначен для обработки и индексации изображений на веб-страницах, что позволяет Google включать эти изображения в свой поисковый индекс.
Некоторые ключевые аспекты Googlebot-Image:
Сканирование изображений: Googlebot-Image обходит различные веб-ресурсы, анализируя и сканируя изображения, которые встречаются на этих страницах. В ходе этого процесса бот извлекает информацию о каждом изображении, такую как размер, формат, описание и другие метаданные.
Индексация изображений: Полученная информация о изображениях затем индексируется и включается в поисковую базу данных Google. Это позволяет пользователям выполнять поиск не только по текстовым запросам, но и по изображениям, используя поисковую функцию Google Images.
Атрибуты для изображений: Веб-мастера могут использовать различные HTML-атрибуты, такие как «alt» и «title», для предоставления дополнительной информации о содержании изображений. Эти атрибуты играют важную роль в процессе индексации и предоставляют дополнительный контекст для поисковой системы.
Особенности файла robots.txt: Веб-мастера могут использовать файл robots.txt, чтобы указать инструкции для Googlebot-Image относительно доступа к определенным областям и изображениям на своем сайте.
Googlebot-Image играет важную роль в том, чтобы сделать доступными изображения из сети Интернет для пользователей поиска Google Images и обеспечить более обширный опыт поиска на основе изображений.
User agent Googlebot Image
Юзер агент робота Googlebot Image выглядит вот так: Googlebot-Image/1.0
Googlebot-News
Googlebot-News — бот, предназначенный для сканирования новостных веб-ресурсов и индексации их содержимого в поисковой системе Google. Этот бот является частью семейства Googlebot и ориентирован на сбор информации из новостных изданий для предоставления актуальных новостных результатов в результатах поиска Google News .
Пользовательские агенты (User Agent) от робота Googlebot, их множество, примеры рассматривали в первой части материала — обязательно посмотрите.
Googlebot Video
Googlebot Video — этот бот предназначен для сканирования видеоданных для поисковой системы Google Видео и связанных продуктов, где эти данные могут быть использованы.
Но как показывает практика, обычный GoogleBot также кушает видеоданные.
Пользовательский агент у бота: Googlebot-Video/1.0
Google StoreBot
Google StoreBot — бот-программа, которая осуществляет сканирование веб-страниц с последующим сбором и анализом данных. Этот робот работает в рамках поисковой системы и используется для сканирования страниц, содержащих информацию о товарах и страниц оплаты. Путем применения алгоритмов машинного обучения поисковой робот способен автоматически заполнять анкеты на веб-сайтах , включая указание адреса доставки, а также собирать информацию о ценах, условиях доставки, оплаты и других деталях.
Если у Вас интерне магазин, то скорее всего Вы замечали такого работа в логах Вашего сайта.
Роль Google StoreBot на вашем сайте
Сканирование определенных страниц
Google StoreBot активно сканирует различные типы страниц, включая страницы с информацией о товаре, страницы корзины и страницы оплаты. Обнаружить присутствие поискового робота можно в логах, где он идентифицируется как пользователь Storebot-Google или пользователь, указавший Google в качестве имени и Storebot в качестве фамилии. Этот пользователь проходит все этапы оформления покупки, за исключением оплаты.
Собираемая информация Google StoreBot
Поисковый робот проходит полный путь оформления заказа, фиксируя важные детали, такие как:
Сведения о доставке
Цена в обычном магазине
Промокоды
Итоговая стоимость
Платежная информация
Наличие товара онлайн и в магазине
Условия возврата
Как Google использует собранную информацию
Google использует данные, собранные Google StoreBot, для улучшения процесса поиска и покупок товаров, делая его более удобным для пользователей. Кроме того, эти сведения помогают увеличивать количество заинтересованных пользователей, переходящих в ваш магазин через Google. Путем анализа информации, собранной поисковыми роботами, мы также проверяем предоставленные вами данные в Merchant Center, чтобы обеспечивать их точность и актуальность.
Примеры User Agent Google StoreBot
Версия для компьютеров:
Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36
Мобильная версия:
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36
На новостных сайтах не замечен, только интернет-магазины.
Google-InspectionTool
Google-InspectionTool — робот использует инструменты тестирования Search Console , включая функции для проверки расширенных результатов и анализа URL. Этот робот имитирует работу Googlebot и обеспечивает проверку и анализ веб-страниц.
User Agent Google-InspectionTool
Мобильная версия:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
Версия для компьютеров:
Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
Этот робот использует указанный агент пользователя и токен для эмуляции характеристик Googlebot, что позволяет проводить тестирование и проверку веб-страниц с использованием инструментов Search Console.
GoogleOther
GoogleOther — представляет собой универсальный поисковый робот, который может быть задействован различными командами для извлечения публичного контента с веб-сайтов. Этот робот предназначен для выполнения временных операций сканирования, что делает его полезным инструментом для внутренних исследований и разработки в различных проектах и продуктах.
Вот пример User Agent этого бота: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.6167.85 Mobile Safari/537.36 (compatible; GoogleOther)
Такой бот заходит на один из моих крупных сайтов, но логику его заходов еще не понял.
Google-Extended
Google-Extended — представляет собой отдельный токен продукта, который предоставляет веб-издателям возможность указать, поддерживают ли их сайты оптимизацию с использованием Bard и Vertex (API для создания контента с использованием искусственного интеллекта), а также последующих поколений моделей, лежащих в основе этих продуктов.
Нет своего User Agent: В Google-Extended нет отдельной строки User Agent в HTTP-запросе. Сканирование выполняется с использованием существующих строк агента пользователя Google. При этом токен агента пользователя из файла robots.txt применяется в целях проверки.
Другие специальные поисковые роботы APIs-Google, AdsBot, AdSense, Google-Safety
Специальные поисковые роботы применяются определенными продуктами в соответствии с соглашениями, заключенными между ними и веб-сайтами, подвергаемыми сканированию. Например, AdsBot может проигнорировать глобальный агент пользователя из файла robots.txt (*), если это разрешено издателем объявлений. Такие роботы могут игнорировать правила файла robots.txt, поэтому их работа ограничивается диапазоном IP-адресов, не используемым основными поисковыми роботами. Диапазоны IP-адресов опубликованы в объекте special-crawlers.json.
APIs-Google
Токен агента пользователя: APIs-Google
Полная строка агента пользователя: APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdsBot Mobile Web Android
Токен агента пользователя: AdsBot-Google-Mobile
Полная строка агента пользователя:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot Mobile Web iOS
Токен агента пользователя: AdsBot-Google-Mobile
Полная строка агента пользователя:
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot-Google
Токен агента пользователя: AdsBot-Google
Полная строка агента пользователя: AdsBot-Google (+http://www.google.com/adsbot.html)
AdSense
Робот AdSense посещает ваш сайт для определения его содержания с целью размещения релевантных объявлений.
Токен агента пользователя: Mediapartners-Google
Полная строка агента пользователя: Mediapartners-Google
Тут важно отметить, что подобные рекламные боты (с другим User Agent) могут идти и от партнеров, обычно я их блокирую, цена рекламы становится выше. Воспользуйтесь это информацией правильно.
CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)
ias-ie/3.3 (former https://www.admantx.com + https://integralads.com/about-ias/)
Mozilla/5.0 (compatible; proximic; +https://www.comscore.com/Web-Crawler)
ias-va/3.3 (former https://www.admantx.com + https://integralads.com/about-ias/)
и так далее, это лишь 1/4 список подобных рекламных ботов (самые популярные)
Mobile AdSense
Робот Mobile AdSense анализирует содержание вашего сайта для размещения релевантных объявлений.
Токен агента пользователя: Mediapartners-Google
Полная строка агента пользователя: (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html )
Google-Safety
Агент пользователя Google-Safety выполняет сканирование, связанное с злоупотреблениями, например, поиск вредоносного программного обеспечения по общедоступным ссылкам, размещенным в сервисах Google. Этот агент игнорирует правила в файле robots.txt.
Полная строка агента пользователя: Google-Safety