Google je plně automatizovaný vyhledávač, který používá software známý jako web crawler. Ten pravidelně prozkoumává web a vyhledává stránky, které přidává do indexu. Naprostá většina stránek uvedených ve výsledcích vyhledávání není do indexu zařazována ručně, ale je vyhledávána a přidávána automaticky právě při procházení webu crawlery.
Tento dokument vysvětluje jednotlivé fáze fungování vyhledávání v kontextu vašich webových stránek. Tyto základní znalosti vám pomohou odstranit problémy s procházením, zajistit indexaci stránek a naučit se optimalizovat zobrazení webu ve vyhledávání Google.
Několik poznámek, než začneme
Než se dostaneme k podrobnostem fungování vyhledávání, je důležité poznamenat, že Google nepřijímá platby za častější procházení webu nebo jeho vyšší hodnocení. Pokud vám někdo tvrdí opak, mýlí se.
Google nezaručuje, že vaši stránku prohledá, zaindexuje nebo zobrazí, a to ani v případě, že se vaše stránka řídí základními zásadami vyhledávání Google.
Představení tří fází vyhledávání Google
Vyhledávání Google probíhá ve třech fázích a ne všechny stránky projdou každou z nich:
- Procházení: Google stahuje text, obrázky a videa ze stránek, které našel na internetu, pomocí crawlerů.
- Indexování: Google analyzuje text, obrázky a video soubory na stránce a ukládá informace do indexu Google, což je jeho rozsáhlá databáze.
- Podávání výsledků vyhledávání: Když uživatel vyhledává na Googlu, Google mu vrátí informace, které odpovídají jeho dotazu.
Procházení
První fází je zjištění, jaké stránky na webu existují. Neexistuje centrální registr všech webových stránek, takže Google musí neustále vyhledávat nové a aktualizované stránky a přidávat je do seznamu známých stránek. Tento proces se nazývá „zjišťování adres URL“. Některé stránky jsou známé, protože je Google již navštívil. Jiné stránky jsou objeveny, když Google sleduje odkaz ze známé stránky na novou stránku: například ústřední stránka, jako je stránka kategorie, odkazuje na nový příspěvek na blogu. Další stránky jsou objeveny, když odešlete sitemapu, aby ji Google prohledal.
Jakmile Google zjistí adresu URL stránky, může ji navštívit (neboli „procházet“) a zjistit, co se na ní nachází. K procházení miliard stránek na webu Google používá obrovskou sadu počítačů. Program, který provádí načítání, se nazývá Googlebot (známý také jako crawler, robot, bot nebo pavouk).
Googlebot pomocí algoritmického procesu určuje, které weby má procházet, jak často a kolik stránek má z každého webu načíst. Každá webová stránka má tedy svůj tzv. crawl budget. Roboti Google jsou také naprogramováni tak, že se snaží neprohledávat stránky příliš rychle, aby nedošlo k jejich přetížení. Tento mechanismus vychází z odpovědí webu (například chyby HTTP 500 znamenají „zpomalení“) a nastavení v Google Search Console.
Googlebot však neprohlíží všechny stránky, které objevil. Některé stránky může majitel webu zakázat procházet, jiné stránky nemusí být přístupné bez přihlášení k webu.
Během procházení Google vykreslí stránku a spustí všechny nalezené JavaScripty pomocí nejnovější verze prohlížeče Chrome, podobně jako váš prohlížeč vykresluje navštívené stránky. Vykreslování je důležité, protože webové stránky se často spoléhají na JavaScript, který přináší obsah na stránku, a bez vykreslování by Google tento obsah nemusel vidět.
Vykreslování závisí na tom, zda mají prohlížeče společnosti Google přístup k webu. Mezi běžné problémy s přístupem robota Google k webům patří např:
- problémy se serverem, který stránky zpracovává,
- problémy se sítí,
- pravidla robots.txt, která brání robotu Google v přístupu na stránku.
Indexování
Po procházení stránky se Google snaží zjistit, o čem stránka je. Tato fáze se nazývá indexování a zahrnuje zpracování a analýzu textového obsahu, HTML značek a atributů obsahu (např. <title> a atributy alt, obrázky, videa a další).
Během procesu indexování Google určuje, zda je stránka duplikátem jiné stránky na internetu, nebo zda je kanonická. Kanonická je stránka, která se může zobrazit ve výsledcích vyhledávání. Pro výběr kanonické stránky nejprve seskupíme (také se tomu říká shlukování) stránky, které jsme našli na internetu a které mají podobný obsah, a poté vybereme tu, která je pro skupinu nejreprezentativnější. Ostatní stránky ve skupině jsou alternativní verze, které se mohou zobrazovat v různých kontextech, například pokud uživatel vyhledává z mobilního zařízení nebo hledá velmi specifickou stránku z tohoto shluku.
Společnost Google také shromažďuje signály o kanonické stránce a jejím obsahu, které lze využít v další fázi, kdy stránku zobrazujeme ve výsledcích vyhledávání. Mezi některé signály patří jazyk stránky, země, pro kterou je obsah lokální, použitelnost stránky atd.
Shromážděné informace o kanonické stránce a jejím shluku mohou být uloženy v indexu Google, což je rozsáhlá databáze umístěná na tisících počítačů. Indexování není zaručeno; ne každá stránka, kterou Google zpracuje, bude indexována.
Indexování závisí také na obsahu stránky a jejích metadatech. Běžné problémy s indexací mohou být způsobeny následujícími problémy:
- kvalita obsahu stránky je nízká,
- meta pravidla robotů znemožňují indexování,
- design webové stránky může indexování ztěžovat.
Výsledky vyhledávání
Když uživatel zadá dotaz, Google vyhledá v indexu odpovídající stránky a vrátí výsledky, které považuje za nejkvalitnější a nejrelevantnější k dotazu uživatele. Relevance se určuje na základě stovek faktorů, které mohou zahrnovat informace, jako je poloha uživatele, jazyk a zařízení (počítač nebo telefon). Například při vyhledávání “opravny jízdních kol” se uživateli v Paříži zobrazí jiné výsledky než uživateli v Hongkongu.
Na základě dotazu uživatele se mění také funkce vyhledávání, které se zobrazují na stránce s výsledky vyhledávání. Například při hledání „opravny jízdních kol“ se pravděpodobně zobrazí místní výsledky a žádné výsledky s obrázky, avšak při hledání “moderní jízdní kolo” se pravděpodobněji zobrazí výsledky s obrázky, nikoliv místní výsledky.
Služba Google Search Console vám může sdělit, že stránka je indexována, ale ve výsledcích vyhledávání se nezobrazuje. Důvodem může být např:
- obsah stránky je pro dotazy uživatelů irelevantní,
- kvalita obsahu je nízká,
- meta pravidla robotů brání zobrazení.
I když tento průvodce vysvětluje, jak vyhledávání funguje, Google neustále pracuje na vylepšování algoritmů, které se tak v čase vyvíjí.
Překlad, odborná a obsahová korektura: SEOPRAKTICKY.CZ
Použité zdroje
-
In-Depth Guide to How Google Search Works | Google Search Central | Documentation | Google Developers. Google Developers [online]. Dostupné z: https://developers.google.com/search/docs/fundamentals/how-search-works
Související články
Základy SEO
- Dostaňte své webové stránky do indexu Google
- Podrobný průvodce fungováním vyhledávání Google
- Vytváření užitečného, spolehlivého a pro lidi důležitého obsahu
- Příručka optimalizace pro vyhledávače (SEO)
- Potřebujete SEO specialistu?
- Údržba SEO vašich webových stránek
- Začněte s vyhledáváním: průvodce pro vývojáře
Ranking a možnosti zobrazení ve výsledku vyhledávání
Monitorování a odstraňování chyb
Průvodce pro konkrétní stránky