Vyhledávací robot: co to je a jak to funguje? Často kladené otázky o vyhledávacích robotech

Vyhledávací robot (bot, pavouk, pavouk, prohledávač) je speciální vyhledávač určený k prohledávání stránek na internetu.

Mnoho lidí neví, že skenovací roboti pouze shromažďují a ukládají informace. Nezpracovávají to. Jiné programy to dělají.

Pokud se chcete na web podívat očima vyhledávacího robota, můžete to udělat prostřednictvím panelu webmastera.

Na panelu webmasterů se můžete podívat, jak Google funguje. Tam musíte přidat svůj web a pak se můžete podívat na stránku:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=cz

Yandex můžete zobrazit prostřednictvím uložené kopie stránky. Chcete-li to provést, vyhledejte požadovanou stránku ve vyhledávání Yandex, klikněte na „uložená kopie“ a poté na „zobrazit textovou verzi“.

Níže je uveden seznam vyhledávacích robotů, kteří navštěvují naše stránky. Některé z nich indexují webové stránky, jiné sledují kontextovou reklamu. Existují specializovaní roboti, kteří vykonávají určité úzké úkoly. Například indexují obrázky nebo zprávy.

Když robota znáte od vidění, můžete mu zakázat nebo povolit procházení po webu, čímž snížíte zatížení serveru. No, nebo chránit vaše informace před vstupem do sítě.

Vyhledávací roboty Yandex

Vyhledávač Yandex má tucet a půl vyhledávacích robotů, které známe. Seznam robotů, které se mi podařilo vykopat, včetně z oficiální nápovědy, je níže.

YandexBot je hlavní indexovací robot;
YandexMedia je robot, který indexuje multimediální data;
YandexImages - indexátor Yandex.Images;
YandexCatalog - nástroj pro „klepání“ pro Yandex.Catalog, který se používá k dočasnému odstranění nedostupných stránek z publikace v katalogu;
YaDirectFetcher – robot Yandex.Direct;
YandexBlogs je robot pro vyhledávání blogů, který indexuje příspěvky a komentáře;
YandexNews – robot Yandex.News;
YandexWebmaster – přichází při přidávání webu prostřednictvím fóra AddURL;
YandexPagechecker - mikro validátor značek;
YandexFavicons - indexátor favicon
YandexMetrika – robot Yandex.Metrica;
YandexMarket – robot Yandex.Market;
YandexCalendar je robot Yandex.Calendar.

Vyhledávací roboti Google (boti)

Googlebot je hlavní indexovací robot;
Googlebot Nes – indexátor zpráv;
Googlebot Images – indexátor obrázků;
Googlebot Video – robot pro video data;
Google Mobile – indexátor mobilního obsahu;
Google Mobile AdSense – mobilní robot AdSense
Google AdSense – robot AdSense
Google AdsBot – robot pro kontrolu kvality vstupní stránky
Mediapartners-Google – robot AdSense

Roboti jiných vyhledávačů

V protokolech vašeho webu také můžete narazit na některé roboty jiných vyhledávačů.

Rambler - StackRambler
Mail.ru – Mail.Ru
Yahoo! — Slurp (nebo Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Živě - MSNBot
Zeptejte se - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Webalta – WebAlta (WebAlta Crawler/2.0)

Kromě robotů z vyhledávačů po stránkách běhá obrovská armáda všemožných levicových pavouků. Jedná se o různé parsery, které shromažďují informace ze stránek, obvykle pro sobecké účely jejich tvůrců.

Někteří kradou obsah, jiní kradou obrázky, další hackují webové stránky a tajně umísťují odkazy. Pokud si všimnete, že se takový analyzátor připojil k vašemu webu, zablokujte mu přístup všemi možnými způsoby, včetně prostřednictvím

Vyhledávače používají k procházení webových stránek roboti (pavouci, prolézači) - programy pro indexování stránek a vložení přijatých informací do databáze. Princip fungování pavouka je podobný jako u prohlížeče: vyhodnocuje obsah stránky, ukládá jej na server vyhledávače a sleduje hypertextové odkazy na další sekce.

Vývojáři vyhledávačů mohou omezit maximální objem naskenovaného textu a hloubku pronikání robota do zdroje. Pro efektivní propagaci webových stránek jsou proto tyto parametry upraveny v souladu se zvláštnostmi indexování stránek různými pavouky.

Frekvence návštěv, pořadí procházení stránek a kritéria pro určování relevance informací pro požadavky uživatelů jsou nastaveny vyhledávacími algoritmy. Pokud na propagovaný zdroj vede alespoň jeden odkaz z jiného webu, roboti jej časem zaindexují (čím větší váha odkazu, tím rychleji). V opačném případě je pro urychlení propagace webu jeho URL přidána do databáze vyhledávače ručně.

Druhy pavouků

V závislosti na účelu se rozlišují následující typy vyhledávacích robotů.

  • národní nebo hlavní. Shromažďovat informace z jedné národní domény, například .ru nebo .su, a webů přijatých k indexování;
  • globální. Sbírejte data ze všech národních webových stránek;
  • indexátory obrázků, audio a video souborů;
  • tvůrci zrcadel. Definujte zdrojová zrcadla;
  • odkaz. Spočítejte počet odkazů na webu;
  • podsvícení. Formátují výsledky vyhledávače, například zvýrazní požadované fráze v textu;
  • inspektoři. Kontrolují dostupnost zdroje v databázi vyhledávače a počet indexovaných dokumentů;
  • informátoři (nebo datli). Pravidelně určujte dostupnost webu, stránky nebo dokumentu, na který odkaz vede;
  • špioni. Hledat odkazy na zdroje, které ještě nebyly indexovány vyhledávači;
  • pečovatelé. Spouštějí se v ručním režimu a znovu kontrolují získané výsledky;
  • výzkumníci. Používá se k ladění vyhledávacích algoritmů a ke studiu jednotlivých stránek;
  • rychlé roboty. Automaticky kontrolují datum poslední aktualizace a rychle indexují nové informace.

Označení

Při optimalizaci webu pro vyhledávače je některý obsah blokován roboty před indexováním (osobní korespondence návštěvníků, košíky objednávek, stránky s profily registrovaných uživatelů atd.). Chcete-li to provést, zadejte do souboru robots.txt do pole User-agent jména robotů: pro vyhledávač Yandex - Yandex, pro Google - Googlebot, pro Rambler - StackRambler, pro Yahoo - Yahoo! Slurp nebo Slurp, pro MSN - MSNBot, pro Alexa - ia_archiver atd.

Na rozdíl od všeobecného přesvědčení se robot přímo nepodílí na žádném zpracování naskenovaných dokumentů. Pouze je načte a uloží, poté je zpracují jiné programy. Vizuální potvrzení lze získat analýzou protokolů webu, který je indexován poprvé. Při první návštěvě si bot nejprve vyžádá soubor robots.txt a poté hlavní stránku webu. To znamená, že sleduje jediný odkaz, který je mu znám. Zde vždy končí první návštěva robota. Po nějaké době (obvykle druhý den) si bot vyžádá následující stránky – pomocí odkazů, které se nacházejí na stránce, která již byla přečtena. Poté proces pokračuje ve stejném pořadí: vyžádání stránek, na které již byly nalezeny odkazy - pauza pro zpracování přečtených dokumentů - další relace s požadavkem na nalezené odkazy.

Parsování stránek za chodu by znamenalo podstatně více Ó větší spotřeba zdrojů robota a ztráta času. Každý skenovací server spouští paralelně několik procesů botů. Musí jednat co nejrychleji, aby měli čas přečíst si nové stránky a znovu přečíst ty stávající. Proto roboti pouze čtou a ukládají dokumenty. Cokoli uloží, je zařazeno do fronty ke zpracování (analýza kódu). Odkazy nalezené během zpracování stránky jsou umístěny do fronty úloh pro roboty. Takto je průběžně skenována celá síť. Jediná věc, kterou bot může a měl by analyzovat za běhu, je soubor robots.txt, aby nepožadoval adresy, které jsou v něm zakázané. Během každé relace procházení webu si robot nejprve vyžádá tento soubor a po něm se všechny stránky zařadí do fronty k procházení.

Typy vyhledávacích robotů

Každý vyhledávač má svou vlastní sadu robotů pro různé účely.
V zásadě se liší svým funkčním účelem, i když hranice jsou velmi libovolné a každý vyhledávač je chápe po svém. U systémů pouze pro fulltextové vyhledávání stačí jeden robot pro všechny příležitosti. Pro ty vyhledávače, které se zabývají nejen textem, jsou roboti rozděleni alespoň do dvou kategorií: pro texty a kresby. Existují také samostatné roboty věnované konkrétním typům obsahu – mobil, blog, zprávy, video atd.

Roboti Google

Všichni roboti Google se souhrnně nazývají Googlebot. Hlavní robot indexer se „představí“ takto:

Mozilla/5.0 (kompatibilní; Googlebot/2.1; +http://www.google.com/bot.html)

Tento robot je zaneprázdněn procházením stránek HTML a dalších dokumentů pro základní vyhledávání Google. Občas také čte soubory CSS a JS – toho si lze všimnout hlavně v rané fázi indexování webu, když robot prochází webem poprvé. Přijímané typy obsahu jsou všechny (Přijmout: */*).

Druhý z hlavních robotů je zaneprázdněn skenováním obrázků z webu. Jednoduše se „představí“:

Googlebot-Image/1.0

V protokolech byli také vidět nejméně tři roboti, kteří byli zaneprázdněni shromažďováním obsahu pro mobilní verzi vyhledávání. Pole User-agent všech tří končí řádkem:

(kompatibilní; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

Před touto řadou je model mobilního telefonu, se kterým je tento bot kompatibilní. Mezi spatřenými roboty jsou modely Nokia, Samsung a iPhone. Přijatelné typy obsahu jsou všechny, ale s uvedenými prioritami:

Přijmout: application/vnd.wap.xhtml+xml,application/xhtml+xml;q=0,9,text/vnd.wap.wml;q=0,8,text/html;q=0,7,*/*;q=0,6

roboty Yandex

Z vyhledávačů aktivních na RuNet má Yandex největší sbírku robotů. V sekci nápovědy pro webmastery můžete najít oficiální seznam všech členů pavouka. Nemá smysl jej zde uvádět v plném znění, protože v tomto seznamu dochází pravidelně ke změnám.
Pro nás nejdůležitější roboty Yandex je však třeba zmínit samostatně.
Základní indexovací robot aktuálně volané

Mozilla/5.0 (kompatibilní; YandexBot/3.0; +http://yandex.com/bots)

Dříve zastoupená jako

Yandex/1.01.001 (kompatibilní; Win16; I)

Čte webové stránky HTML a další dokumenty pro indexování. Seznam akceptovaných typů médií byl dříve omezen:

Přijmout: text/html, application/pdf;q=0.1, application/rtf;q=0.1, text/rtf;q=0.1, application/msword;q=0.1, application/x-shockwave-flash;q=0.1, aplikace/vnd.ms-excel;q=0,1, aplikace/vnd.ms-powerpoint;q=0,1

Od 31. července 2009 bylo zaznamenáno výrazné rozšíření tohoto seznamu (počet typů se téměř zdvojnásobil) a od 10. listopadu 2009 je seznam zkrácen na */* (všechny typy).
Tento robot se živě zajímá o velmi specifickou sadu jazyků: ruština, o něco méně ukrajinština a běloruština, o něco méně angličtina a velmi málo - všechny ostatní jazyky.

Přijímaný jazyk: ru, uk;q=0,8, be;q=0,8, en;q=0,7, *;q=0,01

Robotický skener obrázků nese v poli User-agent následující řádek:

Mozilla/5.0 (kompatibilní; YandexImages/3.0; +http://yandex.com/bots)

Zabývá se skenováním grafiky různých formátů pro vyhledávání v obrázcích.

Na rozdíl od Google má Yandex samostatné roboty, které slouží některým speciálním obecným vyhledávacím funkcím.
Robot "zrcadlo"

Mozilla/5.0 (kompatibilní; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)

Nedělá nic zvlášť složitého – pravidelně se zobrazuje a kontroluje, zda se hlavní stránka webu shoduje při přístupu na doménu s www. a bez. Také kontroluje paralelní „zrcadlové“ domény na shodu. Zrcadla a kanonická forma domén v Yandexu jsou zjevně řešeny samostatným softwarovým balíčkem, který přímo nesouvisí s indexováním. Jinak neexistuje absolutně nic, co by vysvětlovalo existenci samostatného bota pro tento účel.

Sběratel ikon favicon.ico

Mozilla/5.0 (kompatibilní; YandexFavicons/1.0; +http://yandex.com/bots)

Pravidelně se zobrazuje a požaduje ikonu favicon.ico, která se pak objeví ve výsledcích vyhledávání vedle odkazu na web. Z jakých důvodů sběratel obrázků tuto odpovědnost nesdílí, není známo. Ve hře je zřejmě i samostatný softwarový balík.

Ověřovací robot pro nové weby funguje po přidání do formuláře AddURL

Mozilla/5.0 (kompatibilní; YandexWebmaster/2.0; +http://yandex.com/bots)

Tento robot kontroluje odpověď webu odesláním požadavku HEAD na kořenovou adresu URL. Tímto způsobem se kontroluje existence hlavní stránky v doméně a analyzují se HTTP hlavičky této stránky. Robot také požaduje soubor robots.txt v kořenovém adresáři webu. Po odeslání odkazu na AddURL se tedy zjistí, že stránka existuje a ani robots.txt ani HTTP hlavičky nezakazují přístup na hlavní stránku.

Robot Rambler

V současné době již nefunguje, protože Rambler nyní používá vyhledávání Yandex
Indexovací robot Rambler lze v protokolech snadno identifikovat pomocí pole User-agent

StackRambler/2.0 (MSIE nekompatibilní)

Ve srovnání se svými „kolegy“ z jiných vyhledávačů se tento robot zdá docela jednoduchý: neuvádí seznam typů médií (podle toho obdrží požadovaný dokument jakéhokoli typu), v požadavku chybí pole Accept-Language, a pole If-Modified-since se v požadavcích robota nenachází .

Robot Mail.Ru

O tomto robotovi se zatím ví jen málo. Portál Mail.Ru již dlouhou dobu vyvíjí vlastní vyhledávání, ale stále se nedostal ke spuštění tohoto vyhledávání. Proto je s jistotou známo pouze jméno robota v User-agent - Mail.Ru/2.0 (dříve - Mail.Ru/1.0). Jméno robota pro direktivy souboru robors.txt nebylo nikde zveřejněno, existuje předpoklad, že by se bot měl jmenovat Mail.Ru.

Ostatní roboti

Internetové vyhledávání se samozřejmě neomezuje pouze na dva vyhledávače. Proto existují další roboti – například robot Bing – vyhledávač od Microsoftu a další roboti. Zejména v Číně existuje národní vyhledávač Baidu - ale jeho robot pravděpodobně nedosáhne středu řeky a nedostane se na ruskou stránku.

Kromě toho se v poslední době rozšířilo mnoho služeb – zejména solomono – které, ačkoliv nejsou vyhledávači, také prohledávají stránky. Hodnota přenosu informací o webu do takových systémů je často sporná, a proto mohou být jejich roboti zakázáni

Hodnocení článku (5/1)

Při prohlížení protokolů serverů můžete někdy pozorovat nadměrný zájem vyhledávacích robotů o stránky. Pokud jsou boti užiteční (například indexovací boti PS), zbývá pouze pozorovat, i když se zatížení serveru zvýší. Existuje však také mnoho menších robotů, jejichž přístup na stránku není vyžadován. Pro sebe a pro vás, milý čtenáři, jsem shromáždil informace a převedl je do pohodlného tabletu.

Kdo jsou vyhledávací roboti

Vyhledat robota, nebo jak se jim také říká, robot, crawler, pavouk - nic jiného než program, který vyhledává a skenuje obsah webových stránek pomocí odkazů na stránkách. Nejsou to jen vyhledávače, které mají vyhledávací roboty. Například služba Ahrefs využívá pavouky ke zlepšení dat o zpětných odkazech, Facebook provádí webový seškrabování kódu stránky pro zobrazení repostovaných odkazů s názvy, obrázky a popisy. Web scraping je shromažďování informací z různých zdrojů.

Použití pavoučích jmen v souboru robots.txt

Jak vidíte, každý seriózní projekt související s vyhledáváním obsahu má své vlastní pavouky. A někdy je naléhavým úkolem omezit přístup určitých pavouků na lokalitu nebo její jednotlivé části. To lze provést prostřednictvím souboru robots.txt v kořenovém adresáři webu. Více o nastavení robotů jsem psal dříve, doporučuji si to přečíst.

Upozorňujeme, že vyhledávací roboti mohou ignorovat soubor robots.txt a jeho příkazy. Direktivy jsou pouze doporučení pro roboty.

Direktivu pro vyhledávacího robota můžete nastavit pomocí sekce - kontaktování uživatelského agenta tohoto robota. Sekce pro různé pavouky jsou odděleny jedním prázdným řádkem.

User-agent: Googlebot Povolit: /

User-agent: Googlebot

Dovolit: /

Výše je příklad volání do hlavního vyhledávače Google.

Původně jsem plánoval přidat do tabulky záznamy o tom, jak se vyhledávací roboti identifikují v protokolech serveru. Ale protože tato data jsou pro SEO málo důležitá a pro každý token agenta může existovat několik typů záznamů, bylo rozhodnuto vystačit si pouze s názvem robotů a jejich účelem.

Vyhledávací roboty G o o g l e

User-agent Funkce
Googlebot Hlavní crawler-indexer stránek pro PC a optimalizovaný pro chytré telefony
Mediální partneři – Google Robot reklamní sítě AdSense
API-Google API-Google User Agent
AdsBot-Google Kontroluje kvalitu reklamy na webových stránkách určených pro PC
AdsBot-Google-Mobile Kontroluje kvalitu reklamy na webových stránkách určených pro mobilní zařízení
Googlebot-Image (Googlebot) Indexuje obrázky na webových stránkách
Googlebot-News (Googlebot) Vyhledá stránky k přidání do Zpráv Google
Googlebot-Video (Googlebot) Indexuje video materiály
AdsBot-Google-Mobile-Apps Kontroluje kvalitu reklamy v aplikacích pro zařízení Android, funguje na stejných principech jako běžný AdsBot

Vyhledávací roboty indexuji

User-agent Funkce
Yandex Když zadáte tento token agenta v robots.txt, požadavek se dostane ke všem robotům Yandex
YandexBot Základní indexovací robot
YandexDirect Stahuje informace o obsahu partnerských stránek YAN
Obrázky Yandex Indexuje obrázky webových stránek
YandexMetrika Robot Yandex.Metrica
YandexMobileBot Stáhne dokumenty pro analýzu přítomnosti rozvržení pro mobilní zařízení
YandexMedia Robot indexuje multimediální data
YandexNews Yandex.News Indexer
YandexPagechecker Micro markup validator
YandexMarket robot Yandex.Market;
YandexCalenda Robot Yandex.Calendar
YandexDirectDyn Generuje dynamické bannery (přímé)
YaDirectFetcher Stáhne stránky s reklamami, aby si ověřil jejich dostupnost a objasnil předmět (YAN)
YandexAccessibilityBot Stáhne stránky a zkontroluje jejich dostupnost pro uživatele
YandexScreenshotBot Pořídí snímek (screenshot) stránky
YandexVideoParser Pavouk služby Yandex.Video
YandexSearchShop Stahuje soubory YML katalogů produktů
YandexOntoDBAPI Robot s odezvou objektu stahuje dynamická data

Další oblíbené vyhledávací roboty

User-agent Funkce
Baiduspider Pavouk čínského vyhledávače Baidu
Cliqzbot Robot anonymního vyhledávače Cliqz
AhrefsBot Vyhledávací robot Ahrefs (analýza odkazů)
Genieo Servisní robot Genieo
Bingbot Prohledávač vyhledávače Bing
Slurp Prohledávač pro vyhledávače Yahoo
DuckDuckBot Webový prohledávač PS DuckDuckGo
facebot Facebook robot pro procházení webu
WebAlta (WebAlta Crawler/2.0) Vyhledávací prohledávač PS WebAlta
BomboraBot Skenuje stránky zapojené do projektu Bombora
CCBot Prohledávač založený na Nutch, který používá projekt Apache Hadoop
MSNBot PS MSN bot
Mail.Ru Prohledávač vyhledávače Mail.Ru
ia_archiver Odstraňování dat pro službu Alexa
Teoma Zeptejte se servisního robota

Vyhledávacích robotů je spousta, vybral jsem jen ty nejoblíbenější a nejznámější. Pokud existují boti, se kterými jste se setkali kvůli agresivnímu a vytrvalému skenování stránek, uveďte to prosím v komentářích, také je přidám do tabulky.

Dobrý den, přátelé! Dnes se dozvíte, jak fungují vyhledávací roboty Yandex a Google a jakou funkci plní při propagaci webových stránek. Tak pojďme!

Vyhledávače provádějí tuto akci, aby našly deset WEB projektů z milionu stránek, které mají vysoce kvalitní a relevantní odpověď na požadavek uživatele. Proč jen deset? Protože se skládá pouze z deseti pozic.

Vyhledávací roboti jsou přátelé webmasterů i uživatelů

Proč je důležité, aby vyhledávací roboti navštívili stránky, již bylo jasné, ale proč to uživatel potřebuje? To je pravda, aby uživatel viděl pouze ty stránky, které plně odpoví na jeho žádost.

Vyhledávací robot- velmi flexibilní nástroj, dokáže najít web, i ten, který byl právě vytvořen, a majitel tohoto webu na něm ještě nepracoval. Proto se tomuto robotovi říkalo pavouk, dokáže si natáhnout nohy a dostat se kamkoli na virtuální web.

Je možné ovládat vyhledávacího robota ve svůj prospěch?

Existují případy, kdy některé stránky nejsou zahrnuty do vyhledávání. Je to způsobeno především tím, že tato stránka ještě nebyla indexována vyhledávacím robotem. Samozřejmě si této stránky dříve nebo později všimne vyhledávací robot. Chce to ale čas a někdy i dost času. Zde však můžete pomoci vyhledávacímu robotu navštívit tuto stránku rychleji.

Chcete-li to provést, můžete svůj web umístit do speciálních adresářů nebo seznamů, sociálních sítí. Obecně na všech stránkách, kde vyhledávací robot prostě žije. Například sociální sítě se aktualizují každou sekundu. Zkuste svůj web inzerovat a vyhledávací robot na váš web přijde mnohem rychleji.

Z toho vyplývá jedno hlavní pravidlo. Pokud chcete, aby vaše stránky navštěvovali roboti vyhledávačů, musíte jim pravidelně dodávat nový obsah. Pokud si všimnou, že se obsah aktualizuje a stránka se vyvíjí, začnou váš internetový projekt navštěvovat mnohem častěji.

Každý vyhledávací robot si může pamatovat, jak často se váš obsah mění. Hodnotí nejen kvalitu, ale i časové intervaly. A pokud se materiál na webu aktualizuje jednou za měsíc, bude na web přicházet jednou za měsíc.

Pokud je tedy web aktualizován jednou týdně, vyhledávací robot bude přicházet jednou týdně. Pokud aktualizujete stránky každý den, pak vyhledávací robot navštíví stránky každý den nebo každý druhý den. Existují stránky, které jsou indexovány během několika minut po aktualizaci. Jedná se o sociální sítě, agregátory zpráv a weby, které zveřejňují několik článků denně.

Jak zadat robotovi úkol a zakázat mu cokoliv?

Brzy jsme se dozvěděli, že vyhledávače mají více robotů, kteří provádějí různé úkoly. Někdo hledá obrázky, někdo odkazy a tak dále.

Pomocí speciálního souboru můžete ovládat jakéhokoli robota robots.txt . Právě z tohoto souboru se robot začíná seznamovat s webem. V tomto souboru můžete určit, zda robot může indexovat web, a pokud ano, které sekce. Všechny tyto instrukce mohou být vytvořeny pro jednoho nebo všechny roboty.

Školení propagace webových stránek

Mluvím podrobněji o složitosti propagace webových stránek SEO ve vyhledávačích Google a Yandex na mém Skype. Přivedl jsem všechny své WEB projekty do větší návštěvnosti a mám z toho vynikající výsledky. Mohu to naučit i vás, pokud máte zájem!




Horní