Počet stránek ve vyhledávání Yandex. Stránky ve vyhledávání. Rozdíl ve statistice

Indexování webových stránek ve vyhledávačích je důležité pro každého webmastera. Pro kvalitní propagaci projektu byste totiž měli sledovat jeho indexaci. Popíšu proces kontroly indexování v Yandexu.

Indexování v Yandex

Robot Yandex skenuje stránky den za dnem a hledá něco „chutného“. Shromažďuje v nejlepších výsledcích ty weby a stránky, které si to podle něj nejvíce zaslouží. Nebo to možná Yandex jen tak chtěl, kdo ví?

My jako skuteční webmasteři se budeme držet teorie, že čím kvalitnější je web, tím vyšší je jeho pozice a větší návštěvnost.

Existuje několik způsobů, jak zkontrolovat indexování stránek v Yandexu:

  • pomocí Yandex Webmaster;
  • používání operátorů vyhledávačů;
  • používání rozšíření a pluginů;
  • pomocí online služeb.

Indexování webových stránek v Yandex Webmaster

Chcete-li porozumět tomu, co vyhledávač vykopal na našem webu, musíte přejít na našeho milovaného webmastera Yandex v sekci „Indexování“.

Obejít statistiky v Yandex Webmaster

Nejprve přejděte k položce „Obejít statistiku“. Tato sekce vám umožňuje zjistit, které stránky vašeho webu robot prochází. Můžete identifikovat adresy, které robot nedokázal načíst kvůli nedostupnosti serveru, na kterém se stránka nachází, nebo kvůli chybám v obsahu stránek samotných.

Sekce obsahuje informace o stránkách:

  • nové - stránky, které se na webu nedávno objevily nebo je robot právě prolezl;
  • změněné - stránky, které dříve viděl vyhledávač Yandex, ale změnily se;
  • historie procházení - počet stránek, které Yandex procházel, s ohledem na kód odpovědi serveru (200, 301, 404 a další).

Graf zobrazuje nové (zelené) a změněné (modré) stránky.

A toto je graf historie procházení.

Tato položka zobrazuje stránky, které Yandex našel.

N/a — URL robot nezná, tzn. robot se s ní nikdy předtím nesetkal.

Jaké závěry lze vyvodit ze snímku obrazovky:

  1. Yandex nenašel adresu /xenforo/xenforostyles/, což je ve skutečnosti logické, protože tato stránka již neexistuje.
  2. Yandex našel adresu /bystrye-ssylki-v-yandex-webmaster/, což je také docela logické, protože stránka je nová.

Takže v mém případě Yandex Webmaster odráží to, co jsem očekával, že uvidím: co není potřeba, Yandex odstranil, a co je potřeba, Yandex přidal. To znamená, že s obchvatem je vše v pořádku, nejsou žádné ucpávky.

Stránky ve vyhledávání

Výsledky vyhledávání se neustále mění – přibývají nové weby, staré se mažou, upravují se pozice ve výsledcích vyhledávání a tak dále.

Můžete použít informace v sekci „Stránky ve vyhledávání“:

  • sledovat změny v počtu stránek v Yandexu;
  • sledovat přidané a vyloučené stránky;
  • zjistit důvody pro vyloučení webu z výsledků vyhledávání;
  • získat informace o datu, kdy vyhledávač navštívil web;
  • získat informace o změnách ve výsledcích vyhledávání.

Tato sekce je potřebná pro kontrolu indexování stránek. Zde Yandex Webmaster zobrazuje stránky přidané do výsledků vyhledávání. Pokud jsou do sekce přidány všechny vaše stránky (do týdne bude přidána nová), pak je se stránkami vše v pořádku.

Kontrola počtu stránek v indexu Yandex pomocí operátorů

Kromě webu Yandex Webmaster můžete přímo v samotném vyhledávání zkontrolovat indexování stránky pomocí operátorů.

Použijeme dva operátory:

  • „site“ – vyhledávání ve všech subdoménách a stránkách zadaného webu;
  • „hostitel“ – vyhledá stránky hostované na daném hostiteli.

Použijme operátor „site“. Všimněte si, že mezi operátorem a webem není mezera. 18 stránek je ve vyhledávání Yandex.

Použijme operátor „host“. 19 stránek indexovaných Yandexem.

Kontrola indexování pomocí pluginů a rozšíření

Zkontrolujte indexování stránek pomocí služeb

Takových služeb je spousta. Ukážu vám dva.

Serphunt

Serphunt je online služba pro analýzu webových stránek. Mají užitečný nástroj pro kontrolu indexování stránek.

Současně můžete zkontrolovat až 100 webových stránek pomocí dvou vyhledávačů - Yandex a Google.

Klikněte na „Spustit skenování“ a po několika sekundách dostaneme výsledek:


Stránky webu mohou z výsledků vyhledávání Yandex zmizet z několika důvodů:

  • Chyba při načítání nebo zpracování stránky robotem – pokud odpověď serveru obsahovala stav HTTP 3XX, 4XX nebo 5XX. Nástroj vám pomůže identifikovat chybu Kontrola odpovědi serveru .
  • Indexování stránek je zakázáno v souboru robots.txt nebo pomocí metaznačky s direktivou noindex.
  • Stránka přesměruje robota na jiné stránky.
  • Stránka duplikuje obsah jiné stránky.
  • Stránka není kanonická.

Robot nadále navštěvuje stránky vyloučené z vyhledávání a speciální algoritmus kontroluje pravděpodobnost jejich zobrazení ve výsledcích vyhledávání před každou aktualizací vyhledávací databáze. Stránka se tak může objevit ve vyhledávání do dvou týdnů poté, co se robot o její změně dozví.

Pokud jste vyřešili důvod pro smazání stránky, odešlete stránku k opětovnému procházení. Tím bude robot informován o změnách.

Otázky a odpovědi týkající se stránek vyloučených z vyhledávání

Meta tagy Description, Keywords a title jsou na stránce správně vyplněny, stránka splňuje všechny požadavky. Proč není v hledáčku?

Algoritmus kontroluje stránky webu nejen na přítomnost všech potřebných značek, ale také na jedinečnost, úplnost materiálu, jeho relevanci a relevanci a mnoho dalších faktorů. Zároveň byste měli věnovat pozornost meta tagům. Například metaznačka Description a prvek title mohou být vytvořeny automaticky a vzájemně se opakovat.

Pokud je na webu velké množství téměř identických produktů, které se liší pouze barvou, velikostí nebo konfigurací, nemusí být také zařazeny do vyhledávání. Do tohoto seznamu můžete také přidat stránkovací stránky, stránky pro výběr nebo porovnání produktů, stránky s obrázky, které nemají vůbec žádný textový obsah.

Stránky, které se zobrazují jako vyloučené stránky, se v prohlížeči normálně otevírají. co to znamená?

To se může stát z několika důvodů:

  • Záhlaví, které robot požaduje od serveru, se liší od záhlaví požadovaných prohlížečem. Vyloučené stránky se proto mohou v prohlížeči správně otevřít.
  • Pokud je stránka vyloučena z vyhledávání kvůli chybě při jejím načítání, zmizí ze seznamu vyloučených stránek pouze v případě, že bude robot dostupný na nový požadavek. Zkontrolujte odezvu serveru na adrese URL, která vás zajímá. Pokud odpověď obsahuje stav HTTP 200 OK, počkejte, až robot znovu navštíví.

Seznam „Vyloučené stránky“ zobrazuje stránky, které již na webu nejsou. Jak je odstranit?

V části Stránky ve vyhledávání v seznamu Vyloučené stránky, zobrazí se stránky, ke kterým robot přistupoval, ale neindexoval je (může se jednat o stránky, které již neexistují, pokud je robot dříve znal).

Stránka je odstraněna ze seznamu vyloučených, pokud:

  • je pro robota nějakou dobu nedostupná;
  • neodkazují na něj jiné stránky webu nebo externí zdroje.

Přítomnost a počet vyloučených stránek ve službě by neměly ovlivnit pozici webu ve výsledcích vyhledávání.

Dobré odpoledne, čtenáři. Od webmasterů, majitelů stránek a bloggerů vždy dostávám spoustu otázek ohledně chyb a zpráv, které se objevují v Yandex.Webmaster. Mnoho lidí se takových zpráv děsí.

Ale chci říct, že ne všechny zprávy jsou pro web kritické. A v nadcházejících článcích se pokusím co nejúplněji pokrýt všechny možné otázky, které webmasteři mohou mít. Tento článek se bude zabývat sekcemi:

  1. Diagnostika – Diagnostika místa
  2. Indexování – Stránky ve vyhledávání

O tom, proč a proč je to potřeba, jsem psal před pár lety. Pokud tento nástroj neznáte, přečtěte si nejprve článek na odkazu.

Diagnostika místa

Možné problémy

1. Direktiva Host není v souboru robots.txt uvedena

Tato poznámka od společnosti Yandex je pozoruhodná v tom, že direktiva Host není standardizovaná direktiva, je podporována pouze vyhledávačem Yandex. Je potřeba, pokud Yandex nesprávně identifikuje zrcadlo webu.

Zrcadlo webu zpravidla určuje automaticky Yandex na základě adres URL, které CMS sám generuje, a na základě externích odkazů, které vedou na web. Pro specifikaci hlavního zrcadla webu to není nutné uvádět v souboru robots.txt. Hlavním způsobem je použití přesměrování 301, které se buď automaticky nakonfiguruje v CMS, nebo se potřebný kód přidá do souboru .htachess.

Vezměte prosím na vědomí, že musíte v souboru robots.txt zadat směrnici v případech, kdy Yandex nesprávně určí hlavní zrcadlo webu a nemůžete to ovlivnit jiným způsobem.

CMS, se kterým jsem nedávno pracoval, WordPress, Joomla, ModX, standardně přesměrovává adresu z www na bez, pokud systémová nastavení specifikují adresu webu bez předpony. Jsem si jistý, že všechny moderní CMS mají tuto funkci. I můj milovaný Blogger správně přesměrovává adresu blogu umístěného na vlastní doméně.

2. Chybějící meta tagy

Problém není kritický, není třeba se ho bát, ale pokud je to možné, je lepší jej opravit, než nedávat pozor. Pokud váš CMS standardně neposkytuje vytváření meta tagů, pak začněte hledat plugin, doplněk, rozšíření nebo jak se to nazývá ve vašem CMS, abyste mohli ručně nastavit popis stránky nebo mít popis generováno automaticky z prvních slov článku.

3. Robot nepoužívá žádné soubory Sitemap

Samozřejmě je lepší tuto chybu opravit. Upozorňujeme však, že problém může nastat jak v případech, kdy existuje soubor sitemap.xml, tak v případech, kdy skutečně neexistuje. Pokud máte soubor, ale Yandex ho nevidí, přejděte do sekce Indexování - Soubory Sitemap. A ručně přidejte soubor do Yandex.Webmaster. Pokud takový soubor vůbec nemáte, hledejte řešení v závislosti na CMS, který používáte.

Soubor sitemap.xml se nachází na adrese http://your-domain.ru/sitemap.xml

4. Soubor Robots.txt nebyl nalezen

Přesto tento soubor musí existovat, a pokud máte možnost jej připojit, je lepší tak učinit. A věnujte pozornost položce s direktivou Host.

Soubor robots.txt se nachází na adrese http://vash-domen.ru/robots.txt

V tuto chvíli už mi vyschla studnice chyb na záložce Diagnostika webu.

Indexování

Stránky ve vyhledávání

Začněme od tohoto bodu. Usnadní to strukturování informací.

Vyberte ve filtru „Všechny stránky“.
Přejděte níže, na pravé straně stránky „Stáhnout tabulku“ vyberte XLS a otevřete soubor v aplikaci Excel.


Dostaneme seznam stránek, které jsou ve vyhledávání, tzn. Yandex o nich ví, řadí je a ukazuje uživatelům.
Podívejme se, kolik záznamů je v tabulce. Mám 289 stran.

Jak víte, kolik by to mělo být? Každý web je jedinečný a pouze vy můžete vědět, kolik stránek jste publikovali. Ukážu vám jako příklad svůj blog WordPress.
Blog v době psaní obsahuje:

  • Přihlášek - 228
  • Stránky – 17
  • Nadpisy - 4
  • Štítky - 41
  • + domovská stránka webu

Celkem máme 290 stránek, které by měly být v rejstříku. Oproti tabulkovým údajům je rozdíl pouze 1 strana. To můžeme s klidem považovat za velmi dobrý ukazatel. Ale na radost je ještě brzy. Stává se, že matematicky se vše shoduje, ale když začnete analyzovat, objeví se nesrovnalosti.

Existují dva způsoby, jak najít stránku, která není ve vyhledávání. Podívejme se na obojí.

Metoda jedna. Ve stejné tabulce, kterou jsem si stáhl, jsem rozdělil hledání do několika fází. Nejprve jsem si vybral stránky Rubrik. Mám jen 4 kategorie. Chcete-li optimalizovat svou práci, použijte textové filtry v Excelu.


Poté jsem z vyhledávání vyloučil Tagy a v tabulce zůstaly pouze články. A tady, bez ohledu na to, kolik článků je, budete muset projít každý, abyste našli ten, který není v rejstříku.

Vezměte prosím na vědomí, že každý CMS má svou vlastní strukturu. Každý webmaster má svůj vlastní soubor SEO, canonical, robots.txt.

Opět na příkladu WordPressu věnujte pozornost tomu, které sekce vašeho webu jsou indexovány a které jsou zavřené. Mohou zde být také stránky archivu podle měsíce a roku, stránky autora a stránkování stránek. Všechny tyto sekce jsem uzavřel s nastavením metaznaček robots. U vás to může být jinak, proto zvažte vše, co není pro indexování zakázáno.

Vezmeme-li jako příklad Blogger, pak majitelům blogů stačí počítat publikované příspěvky, stránky a domovskou stránku. Všechny ostatní stránky archivů a značek jsou pro indexování podle nastavení uzavřeny.

Metoda dva. Vrátíme se na webmastera a ve filtru vyberte „Vyloučené stránky“.

Nyní máme seznam stránek, které jsou z vyhledávání vyloučeny. Seznam může být velký, mnohem větší než u stránek zahrnutých do vyhledávání. Není třeba se bát, že na webu není něco v pořádku.

Při psaní článku jsem se snažil pracovat v rozhraní Webmaster, ale nezískal jsem požadovanou funkčnost, možná je to dočasný jev. Proto, stejně jako v předchozí verzi, budu pracovat s tabulkovými údaji, můžete si stáhnout i tabulku ve spodní části stránky.

Opět pomocí svého blogu WordPress jako příkladu se podívám na typické důvody výjimek.

Ve výsledné tabulce je pro nás nejdůležitější sloupec „httpCode“. Pro ty, kteří nevědí, co jsou odpovědi serveru, si přečtěte Wikipedii. To vám usnadní pochopení dalšího materiálu.

Začněme kódem 200. Pokud se na nějakou stránku na internetu dostanete neoprávněně, pak bude mít taková stránka stav 200. Všechny takové stránky mohou být z vyhledávání vyloučeny z následujících důvodů:

  1. Zakázáno metaznačkou robots
  2. Indexování v souboru robots.txt je zakázáno
  3. Jsou nekanonické, je nastavena kanonická metaznačka

Vy jako vlastník webu musíte vědět, které stránky mají jaká nastavení. Pochopení seznamu vyloučených stránek by proto nemělo být obtížné.

Nastavte filtry, vyberte ve sloupci D - 200

Nyní nás zajímá sloupec E - „stav“, pojďme ho seřadit.

Stav BAD_QUALITY- Není dostatečně kvalitní. Nejnepříjemnější stav ze všech. Pojďme to rozebrat.

V mé tabulce bylo pouze 8 URL se stavem Nedostatečná kvalita. Očísloval jsem je v pravém sloupci.

URL 1, 5, 7 — stránky zdroje, 2,3,4,5,8 — stránky služeb v adresáři webu wp-json. Všechny tyto stránky nejsou HTML dokumenty a v zásadě by neměly být na tomto seznamu.

Proto pečlivě zkontrolujte svůj seznam stránek a zvýrazněte pouze stránky HTML.

Stav META_NO_INDEX. Stránkovací stránky a stránka autora jsou z indexu vyloučeny kvůli nastavení metaznaček robots

Ale na tomto seznamu je stránka, která by tam být neměla. Url jsem zvýraznil modře.

Stav NOT_CANONICAL. Název mluví sám za sebe. Nekanonická stránka. Na jakoukoli stránku webu můžete nainstalovat kanonickou metaznačku, ve které můžete zadat kanonickou adresu URL.

Yandex se snaží najít odpověď na žádost uživatele poskytováním informací a odkazů na ni na internetu na stránce s výsledky. Vytvářeli jsme a vyvíjíme vyhledávání na základě našeho porozumění tomu, co uživatelé potřebují a jaké informace jsou cenné.

Dodržování níže uvedených doporučení vám proto pomůže při indexování a lepším hodnocení vašich stránek, zatímco použití podvodných technik může vést k tomu, že vaše stránky budou sníženy nebo vyloučeny z vyhledávání.

Základní principy

    Vytvářejte webové stránky s originálním obsahem nebo službami. Reklama není hodnota, za kterou uživatelé na web přicházejí.

    Myslete na uživatele, ne na vyhledávače. Vytvořili byste web, stránku nebo její prvek, kdyby vyhledávače neexistovaly? Přicházejí uživatelé na váš web nebo internetový obchod nejen z vyhledávačů?

    Design si dobře promyslete – měl by návštěvníkům pomoci vidět hlavní informace, pro které byl web vytvořen.

    Buďte upřímní. Přilákání uživatelů na dotazy, na které váš web nedokáže adekvátně odpovědět, neznamená, že si je udržíte. Přemýšlejte o tom, co uživatel získá, když přijde na váš web.

Příklady k principům

Pokud tato část nepopisuje nějakou techniku, která pomáhá uměle ovlivňovat hodnocení stránek v Yandexu, neznamená to, že ji vítáme. Dodržujte zdravý rozum a výše popsané zásady.

Snažíme se neindexovat nebo hodnotit vysoko:

  • Stránky, které klamou návštěvníky: při stahování souboru (audio, video, torrent soubor atd.) se stahuje program třetí strany. Nebo je pod masku oblíbené aplikace umístěn program třetí strany apod. Příkladem takového porušení jsou tzv. wrapper programy.
  • Stránky, které využívají zařízení návštěvníků k těžbě kryptoměn.
  • Weby, které kopírují nebo přepisují informace z jiných zdrojů a nevytvářejí původní obsah.

  • Weby, které kopírují nebo přepisují informace z jiných zdrojů, s nekvalitním automatickým překladem obsahu do jiného jazyka, které nevytvářejí původní obsah.
  • Stránky a weby, jejichž jediným účelem je přesměrovat návštěvníka na jiný zdroj, automaticky („přesměrování“) nebo dobrovolně.

    Automaticky generovaný (nesmyslný) text.

    Stránky s katalogy (články, programy, podniky atd.), pokud jsou pouze agregátory obsahu, samy o sobě nevytvářejí texty a popisy a neposkytují žádnou jedinečnou službu.

    Stránky s neviditelným nebo málo viditelným textem nebo odkazy.

    Stránky, které poskytují návštěvníkům a robotům vyhledávačů odlišný obsah („maskování“)

    Stránky, které poskytují produkty nebo informace prostřednictvím přidružených programů, ale návštěvníkům nepřinášejí žádnou hodnotu.

    Weby, které používají klamavé techniky (například škodlivý kód, CMS a nastavení serveru, která jsou nebezpečná pro návštěvníky webu, viry v přidružených programech, škodlivá mobilní přesměrování), přesměrovávají návštěvníky na zdroje třetích stran nebo mění okno s výsledky vyhledávání na stránky jiných zdroje při přechodu z vyhledávačů.

    Stránky, které se snaží ovlivnit vyhledávač simulací chování návštěvníků.

    Stránky, jejichž hlavním účelem je agresivní předvádění reklamních materiálů (včetně popup, popunder, clickunder).

Výsledky vyhledávání Yandex jsou pravidelně aktualizovány. Stránky na vašem webu se mohou zobrazovat ve výsledcích vyhledávání nebo mimo ně.

Pomocí informací uvedených na stránce Yandex.Webmaster Indexování → Stránky ve vyhledávání můžete:

  • sledovat změny v počtu stránek ve výsledcích vyhledávání Yandex a poměr počtu Stránka, která se účastní vyhledávání Yandex. Strana se nemusí\\n dostat do výsledků vyhledávání, pokud duplikuje obsah jiné stránky, obsahuje spam\\n nebo viry, přesměrovává na jinou stránku nebo se při načítání vyskytla chyba\\n na straně serveru."}}\">přidáno A \\n

    Stránka, která byla přidána do výsledků vyhledávání Yandex, ale později\\n vyloučena.

    \\n "))\"> vyloučeno

    stránky;
  • přijímat informace o datu poslední návštěvy robota na webu a aktualizace výsledků vyhledávání;
  • Zjistěte, proč byla stránka vyloučena z výsledků vyhledávání.

Ve výchozím nastavení služba poskytuje data o webu jako celku. Chcete-li zobrazit informace o konkrétní sekci, vyberte ji ze seznamu v poli s adresou webu. Dostupné sekce odpovídají struktuře webu známé Yandexu (kromě sekcí přidaných ručně).

  1. Dynamika stavu stránky
  2. Filtrování dat
  3. Nahrávání informací do souboru

Dynamika stavu stránky

Informace o stránce jsou prezentovány takto:

  • Nové a smazané- poměr počtu stránek, které se objevily ve výsledcích vyhledávání, a těch, které jsou z něj vyloučeny.
  • Vyloučeno – dynamika počtu stránek vyloučených z výsledků vyhledávání.
  • Historie – dynamika počtu stránek, které se účastní vyhledávání. Každý segment grafu odpovídá samostatné části webu.
  • Distribuce – počet stránek účastnících se vyhledávání se zobrazuje na koláčovém grafu, kde každý segment odpovídá části webu.

Celkový počet stránek účastnících se vyhledávání může přesáhnout součet stránek v diagramech (zobrazení nebere v úvahu jednotlivé stránky a sekce, které nejsou zahrnuty v sekci služby Struktura webu).

Změny stránek ve výsledcích vyhledávání

Webmaster hlásí změny ve výsledcích vyhledávání za poslední tři měsíce:

  • datum aktualizace výsledků vyhledávání;
  • zda byla stránka přidána do výsledků vyhledávání (adresa stránky je zobrazena zeleně) nebo z ní odstraněna (zobrazena modře);
  • důvod odstranění stránky z vyhledávání.

Prudká změna v počtu přidaných stránek nebo zapojených do vyhledávání může být způsobena změnami na webu. Například se změnou struktury webu nebo souboru robots.txt.

Kromě toho služba zobrazuje obecné informace o stránce:

Chcete-li zobrazit změny, nastavte přepínač na Nejnovější změny. Zobrazí se až 50 000 změn.

Seznam stránek účastnících se vyhledávání

Můžete zobrazit seznam stránek účastnících se vyhledávání a následující informace o nich:

  • datum poslední návštěvy stránky robotem;
  • adresa stránky vzhledem ke kořenovému adresáři webu;
  • titulek stránky (prvek HTML title).

Chcete-li zobrazit seznam stránek, nastavte přepínač na Všechny stránky. Seznam může obsahovat až 50 000 stránek webu.

Pokud seznam neobsahuje všechny stránky, které by měly být zahrnuty do vyhledávání, upozorněte na ně Yandex pomocí nástroje Page Re-Crawl.

Seznam stránek vyloučených z vyhledávání

Chcete-li zobrazit seznam vyloučených stránek (až 50 000), přejděte na Indexování → Stránky ve vyhledávání nastavte přepínač do polohy Vyloučené stránky. Zobrazí se následující informace o stránce:

  • datum poslední návštěvy stránky robotem;
  • adresa stránky vzhledem ke kořenovému adresáři webu;
  • stav (důvod vyloučení stránky).

Poznámka. Přítomnost a počet vyloučených stránek v Yandex.Webmaster neovlivňuje pozici webu ve výsledcích vyhledávání.

Stránka na nějakou dobu zmizí ze seznamu vyloučených, pokud jsou současně splněny následující podmínky:

  • stránka je pro indexovacího robota nedostupná (odpověď serveru HTTP 404 Nenalezeno) nebo je na stránce nakonfigurováno přesměrování s kódem HTTP 301;
  • jiné zdroje neodkazují na vyloučenou stránku.

Pokud v seznamu vyloučených stránek najdete adresu URL stránky, která byla z webu již dlouho odstraněna nebo vůbec neexistuje, je pravděpodobné, že na ni odkazují jiné zdroje. Chcete-li odstranit stránku ze seznamu vyloučených stránek, zakažte její indexování v souboru robots.txt.

Filtrování dat

Služba umožňuje rychle najít informace o stránce pomocí filtrování kliknutím na ikonu. Data můžete filtrovat podle všech uvedených parametrů. Můžete například použít filtrování adres URL:

Zadání konkrétního fragmentu adresy URL

Chcete-li vytvořit seznam stránek, jejichž adresy obsahují konkrétní fragment, vyberte ze seznamu hodnotu Obsahuje a do pole zadejte požadovanou hodnotu.

Označení speciálních znaků

Speciální znaky umožňují určit nikoli přesnou shodu řetězce, ale jeho začátek, podřetězec a složitější podmínky pomocí regulárních výrazů. Chcete-li je použít, vyberte ze seznamu hodnotu Podmínka a do pole zadejte samotnou podmínku. Můžete přidat více podmínek – každá z nich musí začínat na novém řádku.

Pravidla dostupná pro podmínky:

  • splňovat některou z podmínek (odpovídá operátoru „OR“);
  • splnit všechny podmínky (odpovídá operátoru „AND“).
Symbol Popis Příklad
*

Pomocí symbolu *

@
~ regulární výraz
! Negace podmínky
Znaky použité pro filtrování
Symbol Popis Příklad
* Odpovídá libovolnému počtu libovolných znaků

Zobrazit data pro všechny stránky, které začínají https://example.com/tarif/ , včetně zadané stránky: /tariff/*

Pomocí symbolu *

Symbol * může být užitečný při hledání adres URL, které obsahují dva nebo více konkrétních prvků.

Můžete například najít novinky nebo oznámení pro konkrétní rok: /novinky/*/2017/.

@ Vybraná data obsahují zadaný řetězec (ale nemusí se přesně shodovat) Zobrazit data pro všechny stránky, jejichž adresa URL obsahuje zadaný řetězec: @tarif
~ Podmínkou je regulární výraz Zobrazit data pro stránky, jejichž adresa URL odpovídá regulárnímu výrazu. Můžete například vybrat všechny stránky, jejichž adresa obsahuje jednu nebo více zmínek: ~table|sofa|bed
! Negace podmínky Vyloučit data pro stránky, jejichž adresa URL začíná řádkem https://example.com/tarif/ : !/tarif/*

Symboly nerozlišují velká a malá písmena.

Symboly @, !, ~ lze použít pouze na začátku řádku, jsou pro ně k dispozici následující kombinace:

Nahrávání informací do souboru

Informace o stránce lze stáhnout ve formátu XLS nebo CSV. Obsah souboru se liší v závislosti na poloze přepínače.

  • Nejnovější změny
  • Všechny stránky
  • Vyloučené stránky
  • updateDate - hledání data aktualizace databáze;
  • url - adresa stránky;
  • httpCode - HTTP kód přijatý robotem během posledního procházení;
  • stav - stav stránky;
  • cíl - adresa stránky, na kterou dochází k přesměrování, nebo adresa zobrazená ve výsledcích vyhledávání;
  • title - titulek stránky (obsah HTML prvku title);
  • událost – akce, ke které došlo se stránkou (přidání nebo vyloučení z vyhledávání).
Stavy stránek ve vyhledávání
Stav ve webovém rozhraní Stav v souboru Dekódování Doporučení
Nedostatečná kvalita BAD_QUALITY Podívejte se na pokyny.
Vyloučeno podle Clean-param CLEAN_PARAMS Čistý-param. robots.txt.
Dvojnásobek DUPLIKÁT

přesměrování pomocí kódu HTTP 301 nebo atributu rel=\"canonical\".

poslat je k opětovnému bypassu

Chyba při připojování k serveru HOST_ERROR

Robot Yandex na straně poskytovatele.

Chyba HTTP HTTP_ERROR

poslat ji na re-bypass.

Nepovoleno prvkem noindex META_NO_INDEX robotů poslat ji na re-bypass.
Nekanonický NE_KANONICKÉ

rel=\"kanonický\"

poslat ji na re-bypass.

Sekundární zrcadlo NOT_MAIN_MIRROR zrcadlo webu
Stav neznámý OSTATNÍ

Pokud problém přetrvává, kontaktujte správce webu nebo serveru. Pokud je stránka již dostupná, projděte ji znovu.

Stránku se nepodařilo stáhnout PARSER_ERROR

Pokud problém přetrvává, kontaktujte správce webu nebo serveru. Pokud je stránka již dostupná, projděte ji znovu.

Hledám REDIRECT_SEARCHABLE Stránka se přesměrovává, ale je ve vyhledávání.
Přesměrování REDIRECT_NOTSEARCHABLE Stránka přesměruje
ROBOTS_HOST_ERROR robots.txt.
ROBOTS_TXT_ERROR Indexování stránek je v souboru robots.txt zakázáno. Robot začne stránku automaticky navštěvovat, jakmile bude web dostupný pro indexování. V případě potřeby proveďte změny v souboru robots.txt.
Hledám HLEDAT Stránka je ve vyhledávání.
Stavy stránek ve vyhledávání
Stav ve webovém rozhraní Stav v souboru Dekódování Doporučení
Nedostatečná kvalita BAD_QUALITY Stránka je považována za nekvalitní. Podívejte se na pokyny.
Vyloučeno podle Clean-param CLEAN_PARAMS Stránka byla vyloučena z vyhledávání v důsledku robota zpracovávajícího direktivu Clean-param. Aby byla stránka indexována, upravte soubor robots.txt.
Dvojnásobek DUPLIKÁT Stránka duplikuje stránku webu, která již byla uvedena ve vyhledávání.

Poskytněte robotovi preferovanou adresu pomocí přesměrování s kódem HTTP 301 nebo atributem rel=\"canonical\".

Pokud se obsah stránek liší, pošlete je k opětovnému procházení, abyste urychlili aktualizaci dat ve vyhledávací databázi.

Chyba při připojování k serveru HOST_ERROR Při přístupu na stránku se robotovi nepodařilo navázat spojení se serverem.

Zkontrolujte odpověď serveru a ujistěte se, že robot Yandex není blokován na straně poskytovatele.

Pokud se web stane přístupným pro robota, začne se automaticky indexovat.

Chyba HTTP HTTP_ERROR Při přístupu na stránku došlo k chybě.

Pokud problém přetrvává, kontaktujte správce webu nebo serveru. Pokud je stránka již dostupná, projděte ji znovu.

Nepovoleno prvkem noindex META_NO_INDEX Stránka byla vyloučena z vyhledávání kvůli zákazu indexování (pomocí metaznačky robots s direktivou content=\"noindex\" nebo content=\"none\"). Aby se stránka zobrazila ve vyhledávání, odstraňte zákaz a odešlete ji k opětovnému procházení.
Nekanonický NE_KANONICKÉ Stránka je indexována podle kanonické adresy, která byla uvedena v atributu rel=\"canonical\" v jejím zdrojovém kódu.

Opravte nebo odeberte atribut rel=\"canonical\", pokud je zadán nesprávně. Robot bude automaticky sledovat změny.

Chcete-li urychlit aktualizaci dat stránky, odešlete ji k opětovnému procházení.

Sekundární zrcadlo NOT_MAIN_MIRROR Stránka patří do jiného než hlavního zrcadla webu, takže byla z vyhledávání vyloučena.
Stav neznámý OSTATNÍ Stránka je robotovi známá, ale není zahrnuta do vyhledávání.

Pokud problém přetrvává, kontaktujte správce webu nebo serveru. Pokud je stránka již dostupná, projděte ji znovu.

Stránku se nepodařilo stáhnout PARSER_ERROR Při přístupu na stránku nebyl robot schopen načíst její obsah.

Pokud problém přetrvává, kontaktujte správce webu nebo serveru. Pokud je stránka již dostupná, projděte ji znovu.

Hledám REDIRECT_SEARCHABLE Stránka se přesměrovává, ale je ve vyhledávání.
Přesměrování REDIRECT_NOTSEARCHABLE Stránka provede přesměrování, které indexuje její cíl. Zkontrolujte indexování stránky, na kterou se přesměrování provádí.
Zákaz v souboru robots.txt (celý web) ROBOTS_HOST_ERROR Indexování stránek je v souboru robots.txt zakázáno. Robot začne stránku automaticky navštěvovat, jakmile bude web dostupný pro indexování. V případě potřeby proveďte změny v souboru robots.txt.
Zákaz v souboru robots.txt (stránka) ROBOTS_TXT_ERROR Indexování stránek je v souboru robots.txt zakázáno. Robot začne stránku automaticky navštěvovat, jakmile bude web dostupný pro indexování. V případě potřeby proveďte změny v souboru robots.txt.
Hledám HLEDAT Stránka je ve vyhledávání.

Soubor může obsahovat následující údaje:

  • url - adresa stránky;
  • lastAccess - datum poslední návštěvy stránky robotem;
  • title - titulek stránky (HTML title element).

Soubor může obsahovat následující údaje:

  • url - adresa stránky;
  • stav - stav stránky;
  • lastAccess - datum poslední návštěvy robota na stránce.
Vyloučené stavy stránek ve vyhledávání
Stav ve webovém rozhraní Stav stránky Dekódování Doporučení
Nedostatečná kvalita BAD_QUALITY Stránka je považována za nekvalitní. Podívejte se na pokyny.
Vyloučeno podle Clean-param CLEAN_PARAMS Stránka byla vyloučena z vyhledávání v důsledku robota zpracovávajícího direktivu Clean-param. Aby byla stránka indexována, upravte soubor robots.txt.
Dvojnásobek DUPLIKÁT Stránka duplikuje stránku webu, která již byla uvedena ve vyhledávání.

Poskytněte robotovi preferovanou adresu pomocí přesměrování s kódem HTTP 301 nebo atributem rel=\"canonical\".

Pokud se obsah stránek liší, pošlete je k opětovnému procházení, abyste urychlili aktualizaci dat ve vyhledávací databázi.

Chyba při připojování k serveru HOST_ERROR Při přístupu na stránku se robotovi nepodařilo navázat spojení se serverem.

Zkontrolujte odpověď serveru a ujistěte se, že robot Yandex není blokován na straně poskytovatele.

Pokud se web stane přístupným pro robota, začne se automaticky indexovat.

Chyba HTTP HTTP_ERROR Při přístupu na stránku došlo k chybě.

Pokud problém přetrvává, kontaktujte správce webu nebo serveru. Pokud je stránka již dostupná, projděte ji znovu.

Nepovoleno prvkem noindex META_NO_INDEX Stránka byla vyloučena z vyhledávání kvůli zákazu indexování (pomocí metaznačky robots s direktivou content=\"noindex\" nebo content=\"none\"). Aby se stránka zobrazila ve vyhledávání, odstraňte zákaz a odešlete ji k opětovnému procházení.
Nekanonický NE_KANONICKÉ Stránka je indexována podle kanonické adresy, která byla uvedena v atributu rel=\"canonical\" v jejím HTML kódu.

Opravte nebo odeberte atribut rel=\"canonical\", pokud je zadán nesprávně. Robot bude automaticky sledovat změny.

Chcete-li urychlit aktualizaci dat stránky, odešlete ji k opětovnému procházení.

Sekundární zrcadlo NOT_MAIN_MIRROR Stránka patří do jiného než hlavního zrcadla webu, takže byla z vyhledávání vyloučena.
Stav neznámý OSTATNÍ Stránka je robotovi známá, ale není zahrnuta do vyhledávání.



Nahoru