Nová tištěná kniha o SEO
SEO Akademie Collabim
S láskou a vidinou klientů píše Collabim Nejpoužívanější český SEO nástroj

Přehled crawlerů a fetcherů (uživatelských agentů) Google

Společnost Google používá crawlery a fetchery k provádění akcí pro své produkty, a to buď automaticky, nebo na základě požadavku uživatele.

Crawler (někdy také nazývaný „robot“ nebo „pavouk“) je obecný termín pro jakýkoli program, který se používá k automatickému vyhledávání a skenování webových stránek sledováním odkazů z jedné webové stránky na druhou. Hlavní crawler společnosti Google se nazývá Googlebot.

Nemáte představu, kolik tržeb ze SEO Vašemu webu či e-shopu měšíčně utíká? Rádi Vám budeme věnovat čas osobně. Ukážeme Vám, o kolik peněz byste mohli každý měsíc vydělat více jen díky SEO! A to ZDARMA. Chci konzultaci ZDARMA >>

Fetchery jsou nástroji, které si, podobně jako prohlížeče, na výzvu uživatele vyžádají jednu adresu URL.

Následující tabulky ukazují, jaké crawlery a fetchery Google používají různé produkty a služby, jak je můžete vidět v protokolech odkazů a jak je zadat v souboru robots.txt.

  • Token user agent se používá v řádku User-agent: v souboru robots.txt k přiřazení typu crawleru při psaní pravidel pro procházení webu. Některé crawlery mají více než jeden token, jak je uvedeno v tabulce; aby se pravidlo použilo, je třeba přiřadit pouze jeden token crawleru. Tento seznam není úplný, ale pokrývá většinu crawlerů, se kterými se můžete na svých webových stránkách setkat.
  • Úplný řetězec user agent je úplným popisem crawleru a objevuje se v požadavku HTTP a ve vašich webových protokolech.

Upozornění: Řetězec user agent může být podvržen. Zjistěte, jak ověřit, zda je návštěvník Google crawler.

Běžné crawlery

Běžné crawlery společnosti Google se používají k vytváření indexů vyhledávání Google, k provádění dalších crawlů specifických pro daný produkt a k analýze. Vždy se řídí pravidly robots.txt a obvykle procházejí z IP adres zveřejněných v objektu googlebot.json.

Běžné crawlery
Googlebot Smartphone                User agent tokeny
Googlebot
Celý řetězec user agent
Mozilla/5.0 (Linux;
Android 6.0.1; Nexus 5X Build/MMB29P) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/W.X.Y.Z Mobile Safari/537.36 
(compatible; Googlebot/2.1; 
+http://www.google.com/bot.html)
Googlebot Desktop User agent tokeny
Googlebot

Celý řetězec user agent

Mozilla/5.0 AppleWebKit/537.36 
(KHTML, like Gecko; compatible; 
Googlebot/2.1; +http://www.google.com/bot.html) 
Chrome/W.X.Y.Z Safari/537.36

Zřídka:

Mozilla/5.0 (compatible; Googlebot/2.1; 
+http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
Obrázek Googlebot Slouží k procházení bajtů obrázků pro Google Images a produktů závislých na obrázcích.
User agent tokeny
Googlebot-Image
Googlebot
Celý řetězec user agent
Googlebot-Image/1.0
Googlebot zprávy Googlebot News používá pro procházení zpravodajských článků Googlebot, respektuje však svůj historický token uživatelského agenta Googlebot-News.
User agent tokeny
Googlebot-News
Googlebot
Celý řetězec user agent

Uživatelský agent Googlebot-News používá různé řetězce uživatelského agenta Googlebot.

Googlebot video Slouží k procházení bajtů videa pro službu Google Video a produkty závislé na videích.
User agent tokeny
Googlebot-Video
Googlebot
Celý řetězec user agent
Googlebot-Video/1.0
Google Favicon Upozornění: V případě požadavků iniciovaných uživatelem ignoruje Google Favicon pravidla robots.txt a v takovém případě provede požadavek z jiného rozsahu IP adres.
User agent tokeny
Googlebot-Image
Googlebot
Celý řetězec user agent
Mozilla/5.0 (X11; Linux x86_64)
AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Google StoreBot Google Storebot prochází určité typy stránek, mimo jiné stránky s podrobnostmi o produktu, stránky košíku a stránky pokladny.
User agent tokeny
Storebot-Google
Celý řetězec user agent
Agent pro stolní počítače:

Mozilla/5.0 (X11; Linux x86_64;
 Storebot-Google/1.0)
AppleWebKit/537.36 (KHTML, jako Gecko)
Chrome/79.0.3945.88 Safari/537.36

Mobilní agent:

Mozilla/5.0 (Linux; Android 8.0;
Pixel 2 Build/OPD3.170816.012;
Storebot-Google/1.0) AppleWebKit/537.36 
(KHTML, jako Gecko) Chrome/81.0.4044.138 
Mobile Safari/537.36
GoogleOther Obecný crawler, který mohou používat různé produktové týmy pro získávání veřejně přístupného obsahu z webů. Může být například použit pro jednorázové prohledávání pro interní výzkum a vývoj.
User agent tokeny
GoogleOther
Celý řetězec user agent
GoogleOther

Crawlery pro speciální případy

Crawlery pro zvláštní případy jsou používány specifickými produkty, u nichž existuje dohoda mezi procházeným webem a produktem o procesu procházení. Například AdsBot se souhlasem vydavatele reklamy ignoruje globální robots.txt (*). Crawlery pro speciální případy mohou ignorovat pravidla robots.txt, a proto pracují z jiného rozsahu IP než běžné crawlery. Rozsahy IP jsou zveřejněny v objektu special-crawlers.json.

Crawlery pro speciální případy
APIs-Google Používá se rozhraním Google API k doručování oznámení push. Ignoruje globální uživatelský agent (*) v souboru robots.txt.
User agent tokeny
AdsBot-Google-Mobile
Celý řetězec user agent
APIs-Google
(+https://developers.google.com/
webmasters/APIs-Google.html)
AdsBot Mobile Web Android Kontroluje kvalitu reklamy na webové stránce systému Android. Ignoruje globální uživatelský agent (*) v souboru robots.txt.
User agent tokeny
AdsBot-Google-Mobile
Celý řetězec user agent
Mozilla/5.0 (Linux; Android 6.0.1; 
Nexus 5X Build/MMB29P) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/W.X.Y.Z 
Mobile Safari/537.36 (compatible; 
AdsBot-Google-Mobile; 
+http://www.google.com/mobile/adsbot.html)
AdsBot Mobile Web Kontroluje kvalitu reklamy na webové stránce iPhone. Ignoruje globální uživatelský agent (*) v souboru robots.txt.
User agent tokeny
AdsBot-Google-Mobile
Celý řetězec user agent
Mozilla/5.0 (iPhone; 
CPU iPhone OS 14_7_1 like Mac OS X) 
AppleWebKit/605.1.15 (KHTML, like Gecko) 
Version/14.1.2 Mobile/15E148 Safari/604.1 
(compatible; AdsBot-Google-Mobile; 
+http://www.google.com/mobile/adsbot.html)
AdsBot Kontroluje kvalitu reklamy na webových stránkách pro stolní počítače. Ignoruje globální uživatelský agent (*) v souboru robots.txt.
User agent tokeny
AdsBot-Google
Celý řetězec user agent
AdsBot-Google (+http://www.google.com/adsbot.html)
AdSense Prohlížeč AdSense navštěvuje vaše stránky a zjišťuje jejich obsah, aby mohl poskytovat relevantní reklamy. Ignoruje globální uživatelský agent (*) v souboru robots.txt.

 

User agent tokeny
Mediapartners-Google
Celý řetězec user agent
Mediapartners-Google
Mobile AdSense Prohlížeč služby Mobile AdSense navštěvuje vaše stránky a zjišťuje jejich obsah, aby mohl poskytovat relevantní reklamy. Ignoruje globální uživatelský agent (*) v souboru robots.txt.

 

User agent tokeny
Mediapartners-Google
Celý řetězec user agent
(Various mobile device types) 
(compatible; Mediapartners-Google/2.1; 
+http://www.google.com/bot.html)

 

Uživatelem spouštěné fetchery

Tyto fetchery jsou spouštěny uživateli, aby provedly některou specifickou funkci. Například nástroj Google Site Verifier funguje na základě požadavku uživatele. Protože o načtení požádal uživatel, tyto fetchery obvykle ignorují pravidla robots.txt. Rozsahy IP, které fetchery spouštěné uživatelem používají, jsou zveřejněny v objektu user-triggered-fetchers.json.

Uživatelem spouštěné fetchery
Feedfetcher

 

Feedfetcher slouží k procházení kanálů RSS nebo Atom pro služby Google Podcasts, Google News a PubSubHubbub.
User agent tokeny
FeedFetcher-Google
Celý řetězec user agent
FeedFetcher-Google;
(+http://www.google.com/feedfetcher.html)
Google Publisher Center Sbírá a zpracovává kanály, které vydavatelé výslovně poskytli prostřednictvím Centra pro vydavatele Google a které mají být použity na vstupních stránkách Zpráv Google.
Celý řetězec user agent
GoogleProducer; (+http://goo.gl/7y4SX)
Google Read Aloud Na žádost uživatele Google Read Aloud načte a přečte webové stránky pomocí převodu textu na řeč (TTS).
Celý řetězec user agent

Současní agenti:

Agent pro stolní počítače:

(X11; Linux x86_64) AppleWebKit/537.36 
(KHTML, jako Gecko) Chrome/41.0.2272.118 Safari/537.36 
(kompatibilní; Google-Read-Aloud; 
+https://developers.google.com/search/docs/
crawling-indexing/overview-google-crawlers)

Mobilní agent:

Mozilla/5.0 (Linux; Android 7.0; SM-G930V 
Build/NRD90M) AppleWebKit/537.36 
(KHTML, jako Gecko) Chrome/59.0.3071.125 
Mobile Safari/537.36 (kompatibilní; Google-Read-Aloud; 
+https://developers.google.com/search/docs/
crawling-indexing/overview-google-crawlers)

Dřívější agent (zastaralý):

Google-speakr
Google Site Verifier Nástroj Google Site Verifier načte na žádost uživatele ověřovací tokeny služby Search Console.
Celý řetězec user agent
Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Poznámka o Chrome/W.X.Y.Z v uživatelských agentech

Všude tam, kde v tabulce vidíte řetězec Chrome/W.X.Y.Z v řetězcích uživatelských agentů, je W.X.Y.Z ve skutečnosti zástupný symbol, který představuje verzi prohlížeče Chrome používanou daným uživatelským agentem: například 41.0.2272.96. Toto číslo verze se časem zvýší tak, aby odpovídalo nejnovější verzi Chromu používané Googlebotem.

Pokud prohledáváte protokoly nebo filtrujete server pro uživatelského agenta s tímto vzorem, použijte pro číslo verze raději zástupné znaky, než abyste zadávali přesné číslo verze.

Uživatelští agenti v souboru robots.txt

Pokud je v souboru robots.txt rozpoznáno několik uživatelských agentů, bude se Google řídit tím nejkonkrétnějším. Pokud chcete, aby vaše stránky mohl procházet celý Google, soubor robots.txt vůbec nepotřebujete. Pokud chcete zablokovat nebo povolit přístup k některému svému obsahu všem crawlerům Google, můžete to provést tak, že jako uživatelského agenta uvedete Googlebot. Pokud například chcete, aby se všechny vaše stránky zobrazovaly ve vyhledávači Google, a pokud chcete, aby se na vašich stránkách zobrazovaly reklamy AdSense, soubor robots.txt opět nepotřebujete. Podobně pokud chcete některé stránky zcela zablokovat pro Google, zablokováním uživatelského agenta Googlebot zablokujete i všechny ostatní uživatelské agenty Google.

Pokud však chcete mít lepší kontrolu, můžete být konkrétnější. Například můžete chtít, aby se ve vyhledávání Google zobrazovaly všechny vaše stránky, ale nechcete, aby byly procházeny obrázky v osobním adresáři. V takovém případě použijte soubor robots.txt, který zakáže uživatelskému agentu Googlebot-Image procházet soubory v osobním adresáři (a zároveň umožní Googlebotovi procházet všechny soubory), například takto:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Jako další příklad uveďme, že chcete mít na všech svých stránkách reklamy, ale naopak nechcete, aby se tyto stránky zobrazovaly ve vyhledávání Google. V tomto případě byste zablokovali Googlebot, ale povolili uživatelského agenta Mediapartners-Google, například takto:

User-agent: Googlebot
Disallow: / 
User-agent: Mediapartners-Google
Disallow:

Řízení rychlosti procházení

Každý crawler společnosti Google přistupuje k webům za určitým účelem a různou rychlostí. Google používá algoritmy, které určují optimální rychlost procházení pro každý web. Pokud prochází váš web příliš často, můžete rychlost procházení snížit.

Vyřazené vyhledávače Google

Následující vyhledávače Google se již nepoužívají a jsou zde uvedeny pouze z historických důvodů.

Vyřazené vyhledávače Google
Duplex na webu Podpora funkce Duplex ve webové službě.
User agent tokeny
DuplexWeb-Google
Celý řetězec user agent
Mozilla/5.0 (Linux; Android 11; 
Pixel 2; DuplexWeb-Google/1.0) 
AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/86.0.4240.193 Mobile Safari/537.36
Upozornění: Duplex na webu může zástupný znak * ignorovat.
Web Light Zkontrolujte přítomnost záhlaví bez transformace, kdykoliv uživatel kliknul na vaši stránku ve vyhledávání za vhodných podmínek. Uživatelský agent Web Light byl používán pouze pro explicitní požadavky na procházení lidského návštěvníka, a proto ignoroval pravidla robots.txt, která se používají k blokování automatizovaných požadavků na procházení.
User agent tokeny
googleweblight
Celý řetězec user agent
Mozilla/5.0 (Linux; Android 4.2.1; 
en-us; Nexus 5 Build/JOP40D) 
AppleWebKit/535.19 (KHTML, like Gecko; 
googleweblight) 
Chrome/38.0.1025.166 Mobile Safari/535.19
Mobilní aplikace pro Android Kontroluje kvalitu reklamy na stránce aplikace Android. Dodržuje pravidla robotů AdsBot-Google, ale ignoruje globální uživatelský agent (*) v souboru robots.txt.
User agent tokeny
AdsBot-Google-Mobile-Apps
Celý řetězec user agent
AdsBot-Google-Mobile-Apps

 

Více pro Crawl Budget, jak ho zlepšit, ale i na co si dát pozor, se dočtete v článku Crawl Budget.

Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ

Použité zdroje

  1. Google Crawler (User Agent) Overview | Google Search Central  |  Documentation  |  Google Developers. Google for Developers – Software Development Guides, Tools & More  |  Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers

Související články

Základy vyhledávání

Základy SEO

Procházení a indexování

Ranking a možnosti zobrazení ve výsledku vyhledávání

Monitorování a odstraňování chyb

Průvodce pro konkrétní stránky

Nemáte představu, kolik tržeb ze SEO Vašemu webu či e-shopu měšíčně utíká? Rádi Vám budeme věnovat čas osobně. Ukážeme Vám, o kolik peněz byste mohli každý měsíc vydělat více jen díky SEO! A to ZDARMA. Chci konzultaci ZDARMA >>

Další články

Jak se hýbe český internet? Sledujte denní statistiky!

Zobrazit