Nová tištěná kniha o SEO
SEO Akademie Collabim
S láskou a vidinou klientů píše Collabim Nejpoužívanější český SEO nástroj

Robots.txt

Robots.txt je soubor uložený v kořenovém adresáři, jenž vyhledávačům sděluje pravidla procházení webu. Můžete tak vyhledávačům říct, ať na náš web nechodí vůbec, nebo jen do některých částí viz článek: Skrývání obsahu nebo odkazů.

Dále slouží k optimalizaci crawl budgetu, který limituje počet návštěv stránek vyhledávačem při procházení vašeho webu. Jde o to, že zde není neomezený zdroj a tudíž potřebují nějaký systém. Jsou zde dva faktory, kterými jsou Crawl limit a Crawl demand.

Nemáte představu, kolik tržeb ze SEO Vašemu webu či e-shopu měšíčně utíká? Rádi Vám budeme věnovat čas osobně. Ukážeme Vám, o kolik peněz byste mohli každý měsíc vydělat více jen díky SEO! A to ZDARMA. Chci konzultaci ZDARMA >>

Současně by měl obsahovat odkaz na sitemapu, ve které je seznam všech stránek webu, které si přejete odeslat do indexu.

Příklad zápisu Robots.txt

V ukázce od Shoptetu vidíte například zákaz procházení stránek pro řazení produktů (Disallow: /*?order) podle ceny, prodávanosti a abecedy, vyloučení parametrů (Disallow: /*?pv*=*,), které nechcete posílat do výsledků vyhledávání, zákaz procházení košíku (Disallow: /kosik/), registračních stránek (Disallow: /registrace/) a další podmínky.

User-agent: *
Disallow: /admin/
Disallow: /script/
Disallow: /api/
Disallow: /action/
Disallow: /*?priceMax
Disallow: /*?priceMin
Disallow: /*?parameterId
Disallow: /*?order
Disallow: /*?availabilityId
Disallow: /*?manufacturerId
Disallow: /*?stock
Disallow: /*?pv*=*,
Disallow: /*&pv*=*,
Disallow: /*?pv*=*&pv*=
Disallow: /*&pv*=*&pv*=
Disallow: /*:*,*/
Disallow: /*?currency=
Disallow: /*/?backTo=
Disallow: /*?dd=*,
Disallow: /*&dd=*,
Disallow: /*?dd=*&pv*=
Disallow: /*?pv*=*&dd=
Disallow: /vyhledavani/
Disallow: /kosik/
Disallow: /login/
Disallow: /registrace/
Disallow: /klient/zapomenute-heslo/
Disallow: /affiliate-registrace/
Disallow: /affiliate-zapomenute-heslo/

Disallow: /*:diskuse
Disallow: /*:dotaz
Disallow: /*:hlidat-cenu
Disallow: /*:hodnoceni
Disallow: /*:wysiwyg

Sitemap: https://www.dudlu.cz/sitemap.xml

Každý redakční systém (dodavatel řešení) používá jiné schéma zápisu URL a mělo by tak být na jeho iniciativě správně napodmínkovat robots.txt tak, aby se zbytečně nečerpal crawl budget a roboti se mohli věnovat stránkám, které mají přidanou hodnotu a chcete je dostat co nejdříve do výsledků vyhledávání (produkty, kategorie, články atd.).

Zde je několik rychlých tipů a poznatků k souboru robots.txt:

  • aby jej roboti našli, musí být umístěn v adresáři nejvyšší úrovně webové stránky (tzv. root),
  • je třeba rozlišovat velká písmena – soubor se musí jmenovat robots.txt (nikoliv Robots.txt, robots.TXT apod.)
  • robots.txt je veřejně dostupný, kdokoliv tak může vidět jeho obsah a veškeré pokyny v něm zanesené,
  • obecně se doporučuje uvést umístění všech souborů sitemap spojených s touto doménou v dolní části souboru robots.txt.

Špatně napodmínkovaný robots.txt může vést k blokaci procházení důležitých stránek, ale jeho existence není přímý hodnotící faktor. Přesto se jedná o důležitý prvek v oblasti SEO, a proto si také přečtěte, jak správně nastavit robots.txt.

Konec podpory direktiv noindexu v souboru robots.txt Googlem

Robots.txt a Sitemap.xml

Úkolem sitemapy, seznamu URL adres, které se na vašich webových stránkách nacházejí, je usnadnit orientaci na vašem webu uživatelům i vyhledávačům. Tento soubor v podstatě vyhledávačům říká, které ze stránek na vašem webu jsou nejdůležitější a které je třeba indexovat.

Přidání mapy do souboru robots.txt je nejlepším způsobem, jak zajistit, aby tyto vaše důležité stránky roboti vyhledávačů snadno našli. Proto se stal soubor robots.txt pro webmastery ještě významnějším, jelikož mohou připravit snadnou cestu pro roboty, aby objevili všechny stránky na jejich webu.

Soubor sitemap.xml se odesílá do indexu Google prostřednictvím Google Search Console nebo například Bing Webmaster Tools.

Existuje několik užitečných pravidel pro připojení sitemapy do souboru robots.txt:

  • odkazujte na sitemapu absolutním URL,
  • lze odkazovat na více sitemap,
  • na sitemapu můžete odkazovat i na jiné doméně,
  • do konzole můžete odeslat sitemapu ve formátu XML nebo v podobě indexu souborů sitemap (seznam URL adres sitemap, resp. mapa sitemap).

Podle pokynů pro sitemapy vyhledávačů Google nebo Bing by soubory sitemap neměly obsahovat více než 50 000 adres URL a po rozbalení by neměly být větší než 50 Mb.

V případě většího webu s mnoha adresami URL je tak vhodné vytvořit více souborů sitemap.xml. Obzvlášť v tomto případě se pak vyplatí odesílat vyhledávačům sitemapy v podobě sitemap indexu. Více informací o indexu souborů sitemap najdete v našem článku Proč je sitemapa užitečná.

Kontrola správně nastaveného souboru robots.txt a funkční sitemapy je předmětem technického SEO. Začínáte-li pracovat na SEO nového projektu, právě technické SEO je prvním krokem, který byste neměli opomenout. Včas tak odhalíte případné technické problémy, které mohou bránit indexaci.

Když se chcete dozvědět více pro robots.txt, k čemu slouží soubor robots.txt, jak jej vytvořit, aktualizovat i jak pracovat se sitemapou robots.txt – tohle vše naleznete v přehledném článku Robots.txt: Kompletní průvodce, návod, tipy a rady.

Autor faktoru: David Haták (Collabim) & Tomáš Zahálka (SEO konzultant)

Nemáte představu, kolik tržeb ze SEO Vašemu webu či e-shopu měšíčně utíká? Rádi Vám budeme věnovat čas osobně. Ukážeme Vám, o kolik peněz byste mohli každý měsíc vydělat více jen díky SEO! A to ZDARMA. Chci konzultaci ZDARMA >>

Které vyhledávače tento faktor ovlivňuje?

: Google
Bez vlivu
: Seznam
Bez vlivu

Míra závažnosti: Vysoká
Typ SEO:
Technické (vývojáři)

Příklady z praxe

Děkuji za pomoc a užitečný článek.

Přidat příklad z praxe

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Jak se hýbe český internet? Sledujte denní statistiky!

Zobrazit