Nová tištěná kniha o SEO
SEO Akademie Collabim
S láskou a vidinou klientů píše Collabim Nejpoužívanější český SEO nástroj

Jak napsat a odeslat soubor robots.txt


Pokud používáte CMS, například Wix nebo Blogger, nemusíte (nebo nemůžete) soubor robots.txt upravovat přímo. Místo toho může váš CMS zobrazit stránku s nastavením vyhledávání nebo nějaký jiný mechanismus, který vyhledávačům sdělí, zda mají vaši stránku procházet, nebo ne.

Pokud chcete skrýt nebo zrušit skrytí některé ze svých stránek před vyhledávači, vyhledejte ve svém CMS návod na úpravu viditelnosti stránky ve vyhledávačích (například vyhledejte „wix hide page from search engines“ – „wix skrývá stránku z vyhledávačů“).

Nemáte představu, kolik tržeb ze SEO Vašemu webu či e-shopu měšíčně utíká? Rádi Vám budeme věnovat čas osobně. Ukážeme Vám, o kolik peněz byste mohli každý měsíc vydělat více jen díky SEO! A to ZDARMA. Chci konzultaci ZDARMA >>

Pomocí souboru robots.txt můžete kontrolovat, ke kterým souborům na vašem webu mají prohlížeče přístup.

Soubor robots.txt se nachází v kořenovém adresáři webu. Pro web www.collabim.cz je tedy soubor robots.txt umístěn na adrese www.collabim.cz/robots.txt. Robots.txt je prostý textový soubor, který se řídí standardem Robots Exclusion Standard. Soubor robots.txt se skládá z jednoho nebo více pravidel. Každé pravidlo blokuje nebo povoluje přístup všem nebo určitému procházení k zadané cestě k souboru na doméně nebo subdoméně, kde je soubor robots.txt umístěn. Pokud není v souboru robots.txt uvedeno jinak, jsou všechny soubory implicitně povoleny k procházení.

Zde je jednoduchý soubor robots.txt se dvěma pravidly:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.collabim.cz/sitemap.xml

Zde je popis toho, co soubor robots.txt znamená:

  1. Uživatelský agent s názvem Googlebot nesmí procházet žádnou adresu URL začínající na https://collabim.cz/nogooglebot/.
  2. Všichni ostatní uživatelští agenti mohou procházet celý web. Toto by mohlo být vynecháno a výsledek by byl stejný; výchozí chování je, že user agents (uživatelští agenti) mají povoleno procházet celý web.
  3. Soubor s mapou webu se nachází na adrese https://www.collabim.cz/sitemap.xml.

Další příklady naleznete v části o syntaxi níže.

Základní pokyny pro vytvoření souboru robots.txt

Vytvoření souboru robots.txt a jeho obecné zpřístupnění a využití zahrnuje čtyři kroky:

  1. vytvoření souboru robots.txt,
  2. přidání pravidel do souboru robots.txt,
  3. nahrání souboru robots.txt do kořenového adresáře webu,
  4. otestování souboru robots.txt.

Vytvoření souboru robots.txt

K vytvoření souboru robots.txt můžete použít téměř jakýkoli textový editor. Platné soubory robots.txt mohou vytvářet například programy Notepad, TextEdit, vi a emacs. Nepoužívejte textový procesor; textové procesory často ukládají soubory v proprietárním formátu a mohou přidávat neočekávané znaky, například kudrnaté uvozovky, které mohou způsobit problémy procházením. Ujistěte se, že jste soubor uložili v kódování UTF-8, pokud jste k tomu vyzváni v dialogovém okně pro uložení souboru.

Pravidla pro formát a umístění:

  • Soubor se musí jmenovat robots.txt.
  • Váš web může mít pouze jeden soubor robots.txt.
  • Soubor robots.txt musí být umístěn v kořenovém adresáři hostitele webu, kterého se týká. Chcete-li například řídit procházení všech adres URL pod adresou https://www.collabim.cz/, musí být soubor robots.txt umístěn na adrese https://www.collabim.cz/robots.txt. Nemůže být umístěn v podadresáři (například na adrese https://collabim.cz/akademie/robots.txt). Pokud si nejste jisti, jak získat přístup ke kořenovému adresáři webu, nebo k tomu potřebujete oprávnění, obraťte se na poskytovatele webhostingových služeb. Pokud nemáte přístup ke kořenovému adresáři webu, použijte alternativní metodu blokování, například meta tagy.
  • Soubor robots.txt může být umístěn na subdoméně (například https://subdomena.collabim.cz/robots.txt) nebo na nestandardních portech (například https://collabim.cz:8181/robots.txt).
  • Soubor robots.txt se vztahuje pouze na cesty v rámci protokolu, hostitele a portu, kde je umístěn. To znamená, že pravidla v https://collabim.cz/robots.txt se vztahují pouze na soubory v https://collabim.cz/, nikoli na subdomény, například https://m.collabim.cz/, nebo jiné protokoly, například http://collabim.cz/.
  • Soubor robots.txt musí být textový soubor v kódování UTF-8 (což zahrnuje ASCII). Společnost Google může ignorovat znaky, které nejsou součástí rozsahu UTF-8, což může způsobit neplatnost pravidel robots.txt.

Jak psát pravidla robots.txt

Pravidla jsou pokyny pro roboty, které části webu mohou procházet. Při přidávání pravidel do souboru robots.txt se řiďte těmito pokyny:

  • Soubor robots.txt se skládá z jedné nebo více skupin (sad pravidel).
  • Každá skupina se skládá z několika pravidel (známých také jako směrnice), přičemž na každém řádku je jedno pravidlo. Každá skupina začíná řádkem User-agent, který určuje cíl skupin.
  • Skupina uvádí následující informace:
    • na koho se skupina vztahuje (agent uživatele),
    • ke kterým adresářům nebo souborům může tento agent přistupovat,
    • ke kterým adresářům nebo souborům nemá agent přístup.
  • Prohlížeče zpracovávají skupiny shora dolů. Uživatelský agent může odpovídat pouze jedné sadě pravidel, což je první, nejkonkrétnější skupina, která odpovídá danému uživatelskému agentovi. Pokud existuje více skupin pro stejného uživatelského agenta, budou tyto skupiny před zpracováním sloučeny do jedné skupiny.
  • Výchozí předpoklad je, že uživatelský agent může procházet jakoukoli stránku nebo adresář, které nejsou blokovány pravidlem zákazu – disallow.
    • Pravidla rozlišují malá a velká písmena. Například disallow: /soubor.asp platí pro https://www.collabim.cz/soubor.asp, ale ne pro https://www.collabim.cz/SOUBOR.asp.
  • Znak # označuje začátek komentáře. Komentáře jsou při zpracování ignorovány.

Prohlížeče Google podporují následující pravidla v souborech robots.txt:

  • user-agent: [Povinné, jeden nebo více na skupinu] Pravidlo určuje název automatického klienta známého jako vyhledávač, na kterého se pravidlo vztahuje. Jedná se o první řádek pro každou skupinu pravidel. Názvy uživatelských agentů Google jsou uvedeny v seznamu uživatelských agentů Google. Použití hvězdičky (*) odpovídá všem crawlerům kromě různých crawlerů AdsBot, které musí být výslovně jmenovány. Například:
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot 
(AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
  • disallow – zakázat: [Alespoň jeden nebo více záznamů „disallow“ nebo „allow“ v každém pravidle] Adresář nebo stránka, která se vztahuje ke kořenové doméně a kterou nechcete, aby uživatelský agent procházel. Pokud pravidlo odkazuje na stránku, musí to být celý název stránky, jak se zobrazuje v prohlížeči. Musí začínat znakem /, a pokud odkazuje na adresář, musí končit znakem /.
  • allow – povolit: [Alespoň jeden nebo více záznamů „disallow“ nebo „allow“ na pravidlo] Adresář nebo stránka vzhledem ke kořenové doméně, kterou může procházet právě zmíněný uživatelský agent. Používá se k potlačení pravidla disallow, které povoluje procházení podadresáře nebo stránky v zakázaném adresáři. Pro jednu stránku zadejte celý název stránky, jak se zobrazuje v prohlížeči. Musí začínat znakem /, a pokud odkazuje na adresář, musí končit znakem /.
  • sitemap – mapa stránek: [Nepovinné, nula nebo více na soubor] Umístění mapy stránek pro tuto webovou stránku. Adresa URL mapy stránek musí být plně kvalifikovaná adresa URL; Google nepředpokládá ani nekontroluje alternativy http / https / s www / bez www. Mapy stránek jsou dobrým způsobem, jak uvést, který obsah by měl Google procházet, na rozdíl od toho, který obsah může nebo nemůže procházet. Příklad:
Sitemap: https://collabim.cz/sitemap.xml
Sitemap: https://www.collabim.cz/sitemap.xml

Všechna pravidla kromě mapy stránek podporují zástupný znak * pro prefix path (cesty), příponu nebo celý řetězec.

Řádky, které neodpovídají žádnému z těchto pravidel, jsou ignorovány.

Přečtěte si stránku o interpretaci specifikace robots.txt společností Google, kde najdete úplný popis jednotlivých pravidel.

Nahrání souboru robots.txt

Jakmile jste soubor robots.txt uložili do počítače, můžete jej zpřístupnit vyhledávačům. Neexistuje žádný nástroj, který by vám s tím pomohl, protože způsob nahrání souboru robots.txt na váš web závisí na architektuře vašeho webu a serveru. Obraťte se na svou hostingovou společnost nebo vyhledejte dokumentaci své hostingové společnosti; například vyhledejte „upload files infomaniak“.

Po nahrání souboru robots.txt otestujte, zda je veřejně přístupný a zda jej Google dokáže analyzovat.

Testování souboru robots.txt

Chcete-li otestovat, zda je nově nahraný soubor robots.txt veřejně přístupný, otevřete v prohlížeči okno soukromého prohlížení (nebo jeho ekvivalent) a přejděte na umístění souboru robots.txt. Například na adrese https://collabim.cz/robots.txt. Pokud se zobrazí obsah souboru robots.txt, můžete značku otestovat.

Google nabízí dvě možnosti testování značek robots.txt:

  1. Tester robots.txt v Google Search Console. Tento nástroj můžete použít pouze pro soubory robots.txt, které jsou již na vašem webu přístupné.
  2. Pokud jste vývojář, podívejte se na open source knihovnu robots.txt společnosti Google, která se používá i ve vyhledávání Google, a vytvořte si ji. Tento nástroj můžete použít k testování souborů robots.txt lokálně na svém počítači.

Odeslání souboru robots.txt společnosti Google

Jakmile soubor robots.txt nahrajete a otestujete, vyhledávače Google automaticky najdou a začnou používat váš soubor robots.txt. Nemusíte nic dělat. Pokud jste soubor robots.txt aktualizovali a potřebujete co nejdříve obnovit kopii v mezipaměti Google, naučte se, jak odeslat aktualizovaný soubor robots.txt.

Užitečná pravidla robots.txt

Zde je několik běžných užitečných pravidel robots.txt:

Užitečná pravidla
Zakázat procházení celého webu Mějte na paměti, že v některých situacích mohou být adresy URL z webu indexovány, i když nebyly procházeny.

★Poznámka: To neodpovídá různým crawlerům AdsBot, které musí být explicitně pojmenovány.

User-agent: *
Disallow: /
Zakázat procházení adresáře a jeho obsahu Připojením lomítka dopředu k názvu adresáře zakážete procházení celého adresáře.

Upozornění: Nezapomeňte, že k blokování přístupu k soukromému obsahu nepoužívejte soubor robots.txt, ale řádné ověřování. Adresy URL zakázané souborem robots.txt mohou být stále indexovány, aniž by byly procházeny, a soubor robots.txt si může kdokoli prohlédnout, což může vést k odhalení umístění vašeho soukromého obsahu..

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Povolení přístupu k jednomu prohlížeči Celý web může procházet pouze Googlebot-news.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Povolit přístup všem kromě jediného prohlížeče Unnecessarybot nesmí stránky procházet, ostatní roboti ano.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /
Zakázat procházení jedné webové stránky Zakažte například stránku useless_file.html umístěnou na adrese https://example.com/useless_file.html a other_useless_file.html v adresáři junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html
Zakázat procházení celého webu kromě podadresáře Prohlížeče mohou přistupovat pouze do veřejného podadresáře.

User-agent: *
Disallow: /
Allow: /public/
Blokování konkrétního obrázku z Obrázků Google Zakážete například obrázek dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Blokování všech obrázků na webu z Obrázků Google Google nemůže indexovat obrázky a videa, aniž by je prohledal.

User-agent: Googlebot-Image
Disallow: /
Zakázat procházení souborů určitého typu Například zakažte procházení všech souborů .gif.

User-agent: Googlebot
Disallow: /*.gif$
Zakázat procházení celého webu, ale povolit Mediapartners-Google Tato implementace skryje vaše stránky z výsledků vyhledávání, ale webový crawler Mediapartners-Google je přesto může analyzovat a rozhodnout, jaké reklamy zobrazit návštěvníkům vašeho webu.

User-agent: *
Disallow: / 

User-agent: Mediapartners-Google
Allow: /
Pomocí zástupných znaků * a $ můžete porovnávat adresy URL, které končí určitým řetězcem Například zakažte všechny soubory .xls.

User-agent: Googlebot
Disallow: /*.xls$

 

Když chcete najít všechny důležité informace o robots.txt na jednom místě – k čemu slouží soubor robots.txt, jak jej vytvořitaktualizovat i jak pracovat se sitemapou robots.txt – vše naleznete v přehledném článku Robots.txt: Kompletní průvodce, návod, tipy a rady.

Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ

Použité zdroje

  1. Create and Submit a robots.txt File | Google Search Central  |  Documentation  |  Google Developers. Google for Developers – Software Development Guides, Tools & More  |  Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt

Související články

Základy vyhledávání

Základy SEO

Procházení a indexování

Ranking a možnosti zobrazení ve výsledku vyhledávání

Monitorování a odstraňování chyb

Průvodce pro konkrétní stránky

Nemáte představu, kolik tržeb ze SEO Vašemu webu či e-shopu měšíčně utíká? Rádi Vám budeme věnovat čas osobně. Ukážeme Vám, o kolik peněz byste mohli každý měsíc vydělat více jen díky SEO! A to ZDARMA. Chci konzultaci ZDARMA >>

Další články

Jak se hýbe český internet? Sledujte denní statistiky!

Zobrazit