Soubor robots.txt určuje vyhledávačům, na které adresy URL na vašem webu mohou přistupovat. Používá se hlavně k tomu, aby se zabránilo přetížení webu požadavky; není to mechanismus, který by zabránil tomu, aby se webová stránka dostala do Googlu. Chcete-li webovou stránku udržet mimo Google, zablokujte indexování pomocí noindex nebo stránku zaheslujte.
★ Pokud používáte CMS, například Wix nebo Blogger, nemusíte (nebo nemůžete) soubor robots.txt upravovat přímo. Místo toho může váš CMS zobrazit stránku s nastavením vyhledávání nebo nějaký jiný mechanismus, který vyhledávačům sdělí, zda mají vaši stránku procházet, nebo ne.
Pokud chcete skrýt nebo zrušit skrytí některé ze svých stránek před vyhledávači, vyhledejte ve svém CMS návod na úpravu viditelnosti stránky ve vyhledávačích (například vyhledejte „wix hide page from search engines“ – „wix skrývá stránku z vyhledávačů“).
K čemu slouží soubor robots.txt?
Soubor robots.txt slouží především ke správě návštěvnosti vašeho webu crawlery a obvykle také k tomu, aby se soubor nedostal do vyhledávače Google, v závislosti na typu souboru:
Vliv robots.txt na různé typy souborů | |
Webová stránka
|
Soubor robots.txt můžete použít pro webové stránky (HTML, PDF nebo jiné nemediální formáty, které Google dokáže přečíst), abyste mohli řídit procházení, pokud si myslíte, že váš server bude zahlcen požadavky od vyhledávače Google, nebo abyste zabránili procházení nedůležitých nebo podobných stránek na vašem webu. Varování: Nepoužívejte soubor robots.txt jako prostředek ke skrytí webových stránek před výsledky vyhledávání Google. Pokud na vaši stránku odkazují jiné stránky s popisným textem, Google může adresu URL indexovat i bez návštěvy stránky. Pokud chcete stránku zablokovat před výsledky vyhledávání, použijte jinou metodu, například ochranu heslem nebo noindex. Pokud je vaše webová stránka zablokována pomocí souboru robots.txt, může se její adresa URL stále zobrazovat ve výsledcích vyhledávání, ale výsledek vyhledávání nebude obsahovat popis. Obrázkové soubory, videosoubory, soubory PDF a další soubory jiné než HTML budou vyloučeny. Pokud se u vaší stránky zobrazí tento výsledek vyhledávání a chcete to napravit, odstraňte položku robots.txt, která stránku blokuje. Pokud chcete stránku před vyhledáváním zcela skrýt, použijte jinou metodu. |
Mediální soubor | Soubor robots.txt slouží ke správě procházení a také k zabránění zobrazování obrázků, videí a zvukových souborů ve výsledcích vyhledávání Google. Tím nezabráníte jiným stránkám nebo uživatelům v odkazování na váš obrázek, video nebo zvukový soubor. |
Soubor se zdroji | Soubor robots.txt můžete použít k zablokování souborů se zdroji, jako jsou nedůležité soubory obrázků, skriptů nebo stylů, pokud se domníváte, že stránky načtené bez těchto zdrojů nebudou ztrátou významně ovlivněny. Pokud však nepřítomnost těchto zdrojů ztěžuje procházení stránky vyhledávačem Google, neblokujte je, jinak Google nebude dobře analyzovat stránky, které jsou na těchto zdrojích závislé. |
Porozumějte omezením souboru robots.txt
Před vytvořením nebo úpravou souboru robots.txt byste měli znát omezení této metody blokování adres URL. V závislosti na vašich cílech a situaci možná budete chtít zvážit jiné mechanismy, které zajistí, že vaše adresy URL nebudou na webu k nalezení.
- Pravidla souboru robots.txt nemusí být podporována všemi vyhledávači.
Pokyny v souborech robots.txt nemohou vynutit chování vyhledávače na vašem webu; je na něm, aby je dodržoval. Zatímco Googlebot a další webové crawlery pokyny v souboru robots.txt dodržují, jiné crawlery je dodržovat nemusí. Pokud tedy chcete zajistit bezpečnost informací před webovými crawlery, je lepší použít jiné metody blokování, například ochranu soukromých souborů na serveru heslem.
- Různé crawlery interpretují syntaxi různě.
Přestože webové crawlery Google dodržují pravidla v souboru robots.txt, každý crawler může tato pravidla interpretovat jinak. Měli byste znát správnou syntaxi pro oslovení různých webových crawlerů, protože některé z nich nemusí některým pokynům rozumět.
- Stránka, která je v souboru robots.txt zakázána, může být stále indexována, pokud na ni vedou odkazy z jiných webů.
Zatímco společnost Google nebude procházet ani indexovat obsah zablokovaný souborem robots.txt, zakázanou adresu URL můžeme stále najít a indexovat, pokud na ni vedou odkazy z jiných míst na webu. V důsledku toho se adresa URL a případně další veřejně dostupné informace, jako je anchor text v odkazech na stránku, mohou stále objevovat ve výsledcích vyhledávání Google. Chcete-li správně zabránit zobrazení adresy URL ve výsledcích vyhledávání Google, zaheslujte soubory na serveru, použijte metaznačku noindex nebo hlavičku odpovědi nebo stránku zcela odstraňte.
Upozornění: Kombinace více pravidel pro procházení a indexování může způsobit, že některá pravidla budou působit proti jiným pravidlům. Zjistěte si, jak kombinovat pravidla procházení s pravidly indexování a obsluhy.
Vytvoření nebo aktualizace souboru robots.txt
Pokud jste se rozhodli, že soubor robots.txt potřebujete, zjistěte, jak ho vytvořit. Nebo pokud již soubor máte, naučte se ho aktualizovat.
Když chcete najít všechny důležité informace o robots.txt na jednom místě – k čemu slouží soubor robots.txt, jak jej vytvořit, aktualizovat i jak pracovat se sitemapou robots.txt – tohle vše naleznete v přehledném článku Robots.txt: Kompletní průvodce, návod, tipy a rady.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
- Robots.txt Introduction and Guide | Google Search Central | Documentation | Google Developers. Google for Developers – Software Development Guides, Tools & More | Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/intro
Související články
Procházení a indexování
- Mapy stránek
- Správa crawlingu
- Robots.txt
- Kanonizace
- Mobilní web a indexování podle mobilních zařízení
- AMP
- JavaScript
- Metadata stránek a obsahu
- Odstranění
- Přesuny a změny webu
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky