Víte, že návštěvnost obsahu zaměřeného částečně nebo úplně na AI Overview, AI Mode, ChatGPT
Search nebo jiné AI vyhledávače může být technicky zbytečná – i když máte obsah výborně
optimalizovaný? Důvod je jednoduchý: většinu z nich vám v pozadí omezuje nebo blokuje
poskytovatel hostingu.
Blokace AI crawlerů hostingem – proč vás AI přehledy nevidí
Na řadě webů dnes AI vyhledávače a jejich crawlery představují větší desítky procent vytíženosti serveru, což zpomaluje odpověď, zvyšuje využití CPU a může zhoršit zážitek pro reálné čtenáře a klienty. Zároveň je chybou cíleně zhoršovat přístupnost obsahu pro AI – vydáváte pak mnohem více peněz do tvorby obsahu a PPC, aniž by vás AI nálezy přinesly výsledky.
V článku se podíváme, kdo všechno na váš web „chodí jako AI", jak vám to ovlivňuje viditelnost a jak
ověřit, zda vás AI Overviews, ChatGPT Search nebo Perplexity vůbec vidí.

Proč AI crawlery dnes mnoho hostingů štve
AI crawlery jsou dnes v sítích jedni z největších návštěvníků. Zvláště v USA, ale i v Česku to roste.
Podle nezávislých zdrojů tvoří AI boti v průměru několik procent všech HTML požadavků, a v některých měsících se tyto hodnoty pohybují výrazně výš. Sdílený hosting je přitom navržen primárně pro lidské návštěvy a běžný Google provoz.
Pro jejich provozovatele to pak znamená:
– spike v CPU a RAM při intenzivním crawlingu,
– použití throttlingu (omezení rychlosti) nebo restrikce IP,
– plošné blokování IP adres a user-agentů, které mají v záznamech větší zátěž.
Výsledkem je, že některé crawlery váš web nevidí vůbec, nebo ho indexují minimálně a s vysokým
zpožděním.
Kdo všechno na váš web chodí jako AI crawler / AI bot?
Největší objemy provozu od AI crawlerů přicházejí z několika hlavních zdrojů:
– Googlebot – jeho tradiční crawler Google Search, který často slouží i pro AI Overviews, AI Mode a další AI‑řízené funkce.
– GPTBot – crawler od OpenAI, využívaný pro indexaci obsahu pro ChatGPT Search.
– ClaudeBot – crawler Anthropic, který indexuje weby pro model Claude.
– PerplexityBot a další AI vyhledávače, které potřebují kvalitně a včas aktualizovaný obsah.
Tyto crawlery spolu s dalšími AI boty mohou u doménového provozovatele či hostingu představovat i desítky procent veškerého bot trafiku. Zdaleka ne všechny domény jsou přitom pod reálnou zátěží ve stejný okamžik – a na takový provoz není žádný sdílený hosting stavěný. A to je důvod, proč na ně hosting reaguje plošně, bez konzultace s vlastníkem webu.
Co omezení AI bota znamená pro SEO/GEO a AI‑viditelnost
Omezení přístupu AI botů pro danou doménu lze realizovat několika způsoby: blokací konkrétních IP adres, úpravou .htaccess nebo souboru robots.txt. Pokud máte web optimalizovaný například na „lokální SEO Praha 6" nebo na „SEO v roce 2026", ale vaše stránky blokuje firewall, .htaccess nebo robots.txt nastavený hostingem, AI přehledy váš obsah jednoduše nevidí – bez ohledu na kvalitu textů.
Konkrétní dopady:
– nižší šance na citaci v AI Overviews, AI Mode nebo v odpovědích dalších AI vyhledávačů,
– horší výsledky v AI‑řízených formátech, kde je obsah výsledkem kombinace klasického SEO a AI indexování,
– zhoršení efektivity SEO a PPC kampaní, protože přínos z AI‑závislých kanálů je minimální.
Tři důležité kontexty:
- GEO je nová vrstva SEO – a má své technické předpoklady. Generative Engine Optimization (GEO) předpokládá, že AI crawlery váš obsah pravidelně a bez omezení indexují. Pokud tato technická
podmínka není splněna, GEO strategie nemůže fungovat – bez ohledu na kvalitu obsahu nebo strukturovaná data. - Hosting rozhoduje bez vašeho vědomí. Hostingové platformy aktivují blokaci bez upozornění
vlastníků webů. Majitel webu přitom investuje do obsahu a SEO v dobré víře, že vše funguje.
Dopad se prohlubuje s rostoucím podílem AI Search. Podíl uživatelů hledajících přes AI vyhledávače (ChatGPT Search, Perplexity, Claude) roste. Web, který je pro tyto crawlery nedostupný, nevybuduje žádnou znalostní bázi v LLM modelech – a dohnat tento deficit bude v budoucnu výrazně nákladnější. - Je to vlastně jednoduché: pokud máte v robots.txt zakázanou indexaci pro Google, asi se nebudete
divit, že vás Google Search nenabízí. Totéž platí pro AI Search – když omezíte přístup AI crawlerům, ztrácíte cennou AI‑přidanou hodnotu.
Toto není pouze technická záležitost pro správce serverů. Je to strategická GEO realita, která ovlivňuje každého, kdo dnes pracuje s obsahem a jeho viditelností.
Jak ověřit, zda AI crawlery váš web vidí
Pro přesné zjištění, kdo a jak na web přistupuje, nestačí jen klasická GA4 analytika (kde lze nastavit filtr na AI boty). Důkladný test zahrnuje simulaci jednotlivých AI crawlerů podle jejich reálného chování – headers, frekvence požadavků, request‑patterny.
Konkrétně test zahrnuje:
– analýzu přístupu konkrétních crawlerů (GPTBot, ClaudeBot, PerplexityBot, Google‑Extended apod.),
– kontrolu robots.txt a zda neobsahují šablony z hostingu blokující AI boty,
– test reakce serveru (odezva, throttling, blokování IP),
– diagnostiku hlaviček (např. X‑Robots‑Tag) a případného negativního signálu pro AI indexování.
Vlastní test: jedna reálná doména, 123 URL, 11 crawlerů
Abychom téma nepopsali jen teoreticky, provedl jsem vlastní test na reálné doméně. Pomocí vlastní aplikace jsem simuloval chování 11 různých AI crawlerů na 123 URL stejného webu – s reálnými User- Agent strings, HTTP hlavičkami a request patterny odpovídajícími skutečným crawlerům.

Výsledky: které AI crawlery vidí váš web?

Výsledky jsou dost vypovídající. Při interpretaci je ale třeba zohlednit:
- Tester sám mohl způsobit rate limiting (429). Crawlování 123 URL postupně v krátkém
čase pro každý UA zvlášť mohlo způsobit, že server vyhodnotil opakované crawly ze stejné IP
jako útok – bez ohledu na User-Agent. Testy však proběhly opakovaně s podobným výsledkem a
v různém pořadí. - Googlebot je na whitelistu – ostatní ne. Technicky jde o jiný mechanismus než záměrnou
blokaci, výsledek pro GEO viditelnost je však stejný. - Kód 509 = vyčerpání bandwidth limitu. Na sdíleném hostingu s bandwidth limitem mohl kumulativní provoz tento limit vyčerpat. Při 123 stránkách se to ale jeví jako nepravděpodobné.
- Narůstající počet blokovaných URL v čase naznačuje kumulativní reakci serveru na provoz ze stejné IP, nikoli selektivní blokaci podle UA. Srovnávací GoogleBoty jsem přitom pouštěl až na závěr – a ty prošly bez problémů.
Ať už jde o záměrnou blokaci, whitelist pouze pro Googleboty, nebo vyčerpaný bandwidth limit – výsledek je pro AI viditelnost stejný: příslušný AI crawler váš obsah nevidí, i když pro GEO děláte vše správně. A to je problém, který je potřeba řešit.
Test přístupnosti u rozsáhlých webů
U rozsáhlých webů není nutné testovat celý web ani celou sitemap.xml. Podívejte se do GA4 analytikynna TOP 100–200 stránek a otestujte ty nejdůležitější. Rovněž zpravidla není nutné testovat statický obsah mimo HTML – AI crawlery zajímá hlavně text. Pozor ale na:
– ALT popis u obrázků – jde o text s důležitým významem pro AI indexování,
– PDF přílohy – mohou být samy o sobě významným textovým obsahem; u obrázků i PDF může docházet k omezování přístupnosti kvůli velikosti a bandwidth limitům.
Prostě musíte znát business logiku testovaného webu – vědět, co testujete a proč.
AI crawler mě nevidí – co s tím dělat?
Budoucnost AI crawlerů je podobná situaci u Google Search. Bez nich se s vysokou pravděpodobností v budoucnu neobejdeme. A pokud s tvorbou obsahu pro AI pracujete již dnes, jedná se o konkurenční výhodu, o kterou by vás neměl připravovat doménový hosting.
Základní rada: pokud jde o zásah do vašeho AI provozu u doménového operátora – požádejte ho o odstranění blokace. Pokud nevyhoví, přejděte jinam.
Obecně pak platí zásada neblokovat AI crawlery:
– Zkontrolujte, zda váš robots.txt neobsahuje globální Disallow: / nebo Disallow pro GPTBot, ClaudeBot apod.
– Pokud omezujete přístup crawlerům, udělejte to pouze na neveřejné části webu (interní sekce, testovací URL) – nenechte si blokovat hlavní obsahové části.
– Na úrovni domény ověřte „crawler‑friendly" nastavení: rychlé odpovědi, chytrá cache, throttling crawlingu, přístupnost klíčového obsahu bez JS.
– Při výběru hostingu ověřte předem, zda umožňuje otevřený přístup AI botům.
Časté otázky k viditelnosti obsahu pro AI crawlery
Jak otestovat viditelnost rozsáhlého webu pro AI crawlery?
Pro velké weby (1 000+ URL) není nutné testovat vše – zaměřte se na sitemap.xml a top 100–200 stránek podle organické návštěvnosti (GA4 / GSC). Simulujte přístup klíčových AI crawlerů (GPTBot, ClaudeBot, PerplexityBot, Google-Extended) se skutečnými User-Agent strings a sledujte HTTP kódy (200 vs. 429/509). Srovnejte s Googlebotem jako referencí – pokud AI crawlery dostávají jinou odpověď tam, kde Googlebot dostává 200 OK, máte potvrzenou selektivní blokaci. Navíc vždy otestujte
5–10 klíčových PDF (case studies, whitepapers) a produkty s obrázky – hostingy je často omezují selektivně kvůli větší velikosti souborů.
Jak poznám, zda mi hosting blokuje AI crawlery?
Nejčastěji to poznáte ze serverových logů (hlášky o odepření přístupu pro AI user‑agenty jako GPTBot, ClaudeBot nebo Google-Extended) nebo z chyb „connection refused" pro jejich IP adresy. Existují i tzv. AI‑bot checker nástroje – pozor však:
– naprostá většina testovaných online verzí
– testovala výhradně stav robots.txt, nikoli přístup na konkrétní URL.
Má smysl AI crawlery blokovat úplně?
Není to úplně chybná úvaha. Blokace má své výhody i rizika:
– Výhoda: chrání obsah před nekompenzovaným využíváním pro trénování modelů, snižuje zatížení serveru.
– Riziko: ztrácíte možnost, že váš obsah bude citován v AI přehledech (Overviews, ChatGPT Search, Perplexity, Gemini apod.).
Rozumný přístup: pokud musíte blokovat, blokujte pouze vybrané tréningové crawlery, ale ponechte přístup těm, které přinášejí AI‑search návštěvy a citace.
Jak se blokace AI crawlerů dělá technicky?
Nejčastější metody:
– robots.txt: zápis User-agent: GPTBot + Disallow: /
– Server / firewall: přes .htaccess, Nginx nebo CDN lze blokovat požadavky podle user‑agentu nebo IP rozsahů.
– Rate limiting / throttling: omezení počtu požadavků v daném čase, aby AI crawlery zbytečně nezatěžovaly server.
Zhorší blokování AI crawlerů moje SEO v klasickém vyhledávání?
Ne. Klasické SEO a indexace u Google/Bing se kvůli blokaci AI crawlerů nezhorší. GPTBot, ClaudeBot, Google-Extended a další AI-training crawlery jsou zvláštní typy botů, odlišné od Googlebot nebo Bingbot. Pokud v robots.txt blokujete pouze AI boty, tradiční vyhledávače vás indexují nadále jako dříve.
Jak zajistit, aby AI crawlery web viděly, ale zbytečně ho nezatěžovaly?
Základem je crawler‑friendly nastavení na úrovni domény:
– V robots.txt povolit AI crawlery ke klíčovým sekcím, ale zablokovat interní, technické nebo transakční URL.
– Správně nastavit sitemapy, aby AI crawlery nemusely prohledávat vše náhodně.
– Na serveru nebo CDN omezit počet požadavků za čas a zajistit rychlé odpovědi (cache), aby AI crawlery zbytečně nezatěžovaly hosting. Tím zajistíte, že AI vyhledávače váš web vidí a citují, ale nezatíží doménu ani hosting více, než je nutné.
Hlavní zdroje:
Vlastní analytická práce, testování domény a přístupu LLM crawlerů na obsah v čase a intenzitě
Does Your Web Host Block AI Crawlers? – Chunky Squirrel
How Do I Ensure LLMs Can Crawl My Site? – Hosting.com
Autor: Ivo Ščuka, SEO & GEO konzultant | scuka.cz
Původně publikováno: www.scuka.cz/jak-vam-hosting-

