Lokální vyhledávací algoritmy. Co je místní vyhledávání

Je to nepříjemný pocit, když můžete najít soubor na internetu rychleji než na svém počítači... Na pozadí rychlého pokroku internetových vyhledávačů vypadá žánr vyhledávání na ploše jako tichá, zarostlá louže okřehku. Dříve existující nabídky od velkých účastníků trhu, a zde najednou byly zaznamenány jak Google, tak Yandex, nebyly roky aktualizovány, korporace považovaly tento směr za neperspektivní a ztratily o něj zájem. Problém ale nezmizel. Nativní vyhledávání ve Windows je dobré, ale k dokonalosti má daleko. Dobrým doplňkem k němu budou hrdinové naší recenze.

Chcete-li začít, pojďme se rychle podívat na možnosti, které nám nabízí standardní vyhledávací systém Windows 8. Jak víte, můžete zde vyhledávat přímo z úvodní obrazovky Metro. Stačí začít psát text, automaticky se otevře vyhledávací panel, který zobrazí výsledky hledání nainstalovaných programů, souborů a složek. Méně známý je režim vyhledávání nastavení systému Windows, ale opravdu šetří čas, který by jinak strávil procházením četných nepřehledných nabídek. Mimochodem, pomocí klávesových zkratek můžete rychle vstupovat do různých režimů vyhledávání. Win+F otevře panel v režimu hledání souborů a Win+Q otevře programy. Kombinace Win+W vyhledá systémové parametry.

Při vyhledávání přímo z Průzkumníka Windows jsou všechny další možnosti umístěny na samostatném panelu nástrojů, který se užitečně otevře, když začneme něco psát do vyhledávacího pole. V souladu s tím se navrhuje, aby se složité dotazy skládaly pomocí přepínačů. Na jednu stranu je to přehledné a celkem jednoduché. Na druhou stranu při pokusu o vytvoření složitějších dotazů začínají potíže. Chcete-li například určit přesné časové období pro vytvoření požadovaného souboru, budete muset napoprvé hodně makat. Aby další funkce fungovaly, je nutné, aby byl požadovaný zdroj samostatně předindexován. Odpovídající možnost lze nalézt ve vlastnostech logických jednotek systému. Rychlost práce není příliš vysoká. Částečně je to dáno tím, že při vyhledávání systém produkuje ve výsledcích velký informační šum. Ve výchozím nastavení Windows Search hledá zadané znaky i ve fragmentech názvů souborů, přičemž původní požadavek zpracovává zcela volně. Taková nezávislost má smysl u poměrně vágních dotazů, ale když potřebujete najít něco konkrétního, toto chování vás prostě rozzuří, protože se nakonec musíte podívat na dlouhé seznamy všech nepotřebných maličkostí, jejichž název obsahuje několik znaky ve stejném pořadí jako v daném požadavku. To vše ponechává prostor pro řešení třetích stran. Zaměřme se na bezplatné aplikace.

Aniž by to bylo příliš technické, existují dva hlavní způsoby, jak hledat soubory ve Windows. První je sekvenční prohlížení struktury souboru. Pro urychlení vyhledávání mohou programy vytvářet své vlastní pomocné indexové databáze. Nevýhodou této metody je relativně nízká rychlost. Výhody - schopnost současně indexovat a prohledávat obsah souborů a dostupnost dalších možností v tomto ohledu. Druhým způsobem je použití existujících protokolů systému souborů NTFS. Jeho výhodou je velmi vysoká rychlost, ale jeho nevýhodou je možnost vyhledávání pouze podle názvů souborů.

Zdá se, že kombinace těchto přístupů v jednom programu je nejzřetelnějším krokem, který vám umožní získat to nejlepší z obou. Ale i ten nejzajímavější nápad může zhatit nedostatečně kvalitní realizace. Proto zde bohužel zatím neexistuje žádný univerzální šampion, který by vyhovoval našim požadavkům. Zaznamenám pouze jednu vysoce kvalitní komerční aplikaci - Ultra File Search. Proto má smysl poznat nejlepší zástupce specializovaných vyhledávačů z každého tábora.

Začněme Listary (www.listary.com), který se integruje přímo do rozhraní Průzkumníka Windows, takže není potřeba se po spuštění šťourat s novými okny. Software vyvoláte dvojklikem v Průzkumníku nebo jedním kliknutím prostředním tlačítkem myši, což se mi osobně líbí víc. Pokud se zaměříte na metodu nezávislou na klávesnici, je lepší použít k volání kombinaci kláves. Můžete si jej přiřadit sami při prvním spuštění aplikace. Tak či onak se otevře malý vyskakovací panel, ve kterém se při psaní dotazu zobrazují relevantní výsledky. Program používá protokoly NTFS, takže tato aplikace pracuje pouze s názvy souborů. Výhody oproti standardnímu vyhledávání ve Windows – vysoká rychlost a striktní dodržení zadaného požadavku.

Listary má celkem flexibilní nastavení, ve kterém si můžete doladit jak chování programu, tak jeho vzhled. Nechybí ani doplňkové funkce v duchu vlastní historie vyhledávání, oblíbených položek a příkazů.

Pokud jde o samostatné vyhledávací aplikace, které spoléhají na možnosti NTFS, jednou z nejznámějších je Search Everything (www.voidtools.com). Zpočátku je přenosný a nevyžaduje instalaci. Jedinou výhradou je, že aplikace může vyžadovat další práva ke spuštění, což poněkud omezuje její použití v přenosné podobě. S největší pravděpodobností je to způsobeno přidáním vlastních vestavěných serverů HTTP a FTP/ETP. Při prvním spuštění si program vytvoří vlastní indexovou databázi, kterou následně automaticky aktualizuje. Vyhledávání je rychlé a celkem přesné. Rozhraní softwaru je jednoduché. Je podporováno použití plnohodnotných regulárních výrazů. Mezi užitečnými drobnostmi zmíním podporu pro práci z příkazového řádku - k tomu si budete muset stáhnout odpovídající modul.

Vývojář programu má ve zvyku na dlouhou dobu vypadávat z našeho hříšného světa, takže jeho vývoj probíhá nerovnoměrně. Pokud se tedy objeví dotazy nebo problémy, je lepší počítat s podporou ostatních uživatelů softwaru na fóru. Kromě samotného programu nabízí vlastní SDK, takže aplikace má již řadu doplňků a rozšíření.

Dobrou alternativou k tomuto programu je aplikace FileSearchy (www.filesearchy.com). Za prvé, byl přeložen do ruštiny. Za druhé, software se může pochlubit rozhraním postaveným na záložkách, takže můžete provádět několik vyhledávání najednou a přistupovat k nim podle potřeby. Výsledky vyhledávání se načtou okamžitě, vše se děje velmi rychle a pohodlně.

Zajímavostí programu je, že pokud se najdou adresáře a soubory, jejichž názvy jsou téměř stejné (to se může stát např. u adresářů s hudbou nebo obrázky), zobrazí se v seznamu výsledků pouze ikony adresářů. To se mi zdálo výhodné, protože stránka s výsledky není přeplněná zbytečnými prvky a z výsledků pravděpodobně přejdeme do katalogu.

Podporovány jsou všechny klasické možnosti dotazu: vyhledávání podle přesné fráze, fragmentu (substituce) i použití regulárních výrazů. Neexistuje žádná úprava pro správu seznamu nalezených položek, kromě třídění podle různých kritérií. Režim zobrazení: pouze seznam prostého textu. To není příliš výhodné, pokud je cílem vyhledávání obrázek. Většina obrázků ve skutečných archivech na našich počítačích vygenerovala názvy, které při hledání málo pomáhají, nejedná se o grafickou miniaturu.

Program SearchMyFiles (www.nirsoft.net/utils/search_my_files.html) pracuje v souladu s jiným modelem organizace vyhledávání a dokáže vyhledávat nejen podle názvů, ale také podle obsahu souborů. Zpočátku je přenosný, takže ke spuštění aplikace stačí stažený archiv rozbalit. Chcete-li rozhraní rusifikovat, budete si muset stáhnout a zkopírovat soubor ruského překladu, který je k dispozici na jeho webových stránkách, do adresáře programu. Není třeba měnit žádná nastavení, při příštím spuštění SearchMyFiles vás přivítá ruské rozhraní. Standardní režim vyhledávání je rozšířený. Docela podrobné možnosti jsou shromážděny v jednom dialogovém okně, pomocí kterého můžete vytvářet docela sofistikované dotazy. Atributy souboru lze také použít jako funkce vyhledávání. Je podporováno vyhledávání podle masek. Osobně se mi velmi líbí možnost vyhledávat několik rozsahů dat vytvoření souboru najednou - v některých případech to opravdu pomohlo a ušetřilo spoustu času. V souborech můžete vyhledávat nejen text, ale také libovolná data. Je velmi výhodné, že ve fulltextovém režimu můžete používat logické operátory vyloučení. Kromě jednoduchého vyhledávání lze tuto aplikaci využít i k identifikaci duplicitních souborů.

Jak často vyhledáváte divadla, restaurace nebo svatební salony v okolí vašeho bydliště nebo jinde? Téměř všechny velké vyhledávače mají službu místního vyhledávání. V dubnu 2009 Google představil své místní vyhledávání, kdy vám žádost obsahující spolu s klíčovým slovem vaši polohu zobrazí mapu oblasti s nalepenými štítky a seznam okolních provozoven. V jakých případech se na Googlu používá místní vyhledávání, jak se do něj dostat a co ovlivňuje pořadí v tomto seznamu? Odpovědi na všechny tyto otázky najdete v tomto článku.

Co je místní vyhledávání.

Do vyhledávacího pole Google zadejte moskevská divadla. Uvidíte přibližně následující obrázek s prezentovanou mapou Moskvy a adresami divadel v této oblasti:

Pokud požadavek obsahuje souřadnice místa, často v podobě města, pak se klíčové slovo vyhledává kromě hlavních výsledků také v Google Places (Google Places v anglické verzi) a výsledky se zobrazí na mapa. Existuje mnoho klíčových frází, u kterých nemusíte uvádět souřadnice a vyhledávač vás sám vyzve k zadání vaší polohy. Nemohl jsem najít příklad mezi ruskojazyčnými slovy, ale v anglickém příkladu můžete zkusit tento: zubař. Pole bude vypadat takto:

Pokud potřebujete změnit umístění, bude v horní části mapy příslušný odkaz, když na něj kliknete, můžete odebrat předchozí hodnotu města nebo zadat novou.

Do místního vyhledávání lze přidat jakoukoli společnost a instituci, která má fyzickou adresu (i bez vlastní webové stránky). V současné době firemní zápisy (tzv. záznam v Google Places) zahrnují restaurace, taxislužby, notáře a další služby, obchody a provozovny. Výsledky vyhledávání firemních zápisů jsou k dispozici nejen v hlavních výsledcích vyhledávání, ale také při vyhledávání na chytrých telefonech a PDA a také při vyhledávání na mapách (maps.google.com). Pokud chcete, aby vaše stránky byly také nalezeny tímto způsobem, není to problém – čtěte dále.

Jak získat firemní zápis na Googlu a získat hodnocení v místním vyhledávání.

Abyste mohli umístit svůj firemní zápis a dostat se do místní vyhledávací databáze, musíte svou společnost zaregistrovat místa na mapě Google. Při vyplňování formuláře je nutné uvést adresu, telefonní číslo a kategorii společnosti (kategorií může být více).

Vyplňte také popis, bude v budoucnu použit při vyhledávání v inzerátech. Poté, co vše vyplníte a přejdete k dalšímu kroku, budete také požádáni o poskytnutí informací o vaší obslužné oblasti, adresách kanceláří (mohou se nacházet v různých regionech země), otevírací době, možnostech platby (v případě potřeby) a přidejte fotografie výlohy nebo produktů (až 10 kusů), videosoubory a další doplňující informace. Při vyplňování formuláře budete v každém kroku dostávat rady, které vám celý proces usnadní.

A nakonec úplně posledním krokem je potvrzení poskytnutých informací třemi způsoby: telefonicky, SMS nebo mailem.

Nejpohodlnějším způsobem je potvrzení pomocí SMS, kdy vám do pár sekund přijde PIN kód na váš telefon a po potvrzení přibližně druhý den můžete očekávat, že se váš zápis objeví ve vyhledávání.

Faktory ovlivňující hodnocení v místním vyhledávání

Konkurence ve firemních zápisech samozřejmě existuje stejně jako v hlavních výsledcích vyhledávání a počet záznamů na jedné stránce je omezen na 7 záznamů, zbytek bude v doplňkových výsledcích vyhledávání. Jaké faktory ovlivňují pozici vašeho zápisu v místním vyhledávání?

Výběrem správných kategorií nebo přidáním vlastních již odvedete skvělou práci při optimalizaci svého zápisu. Kategorie je nejúčinnějším interním hodnotícím faktorem, pojmenujte je podle vašich vysokofrekvenčních klíčových slov v sémantickém jádru.

2. Klíčová slova v popisu

Popis činnosti firmy při přidávání zápisu by měl obsahovat klíčová slova, která dobře zapadnou do marketingového textu. V popisu používejte pouze smysluplná slova a fráze.

3. Zlaté stránky

Každý, kdo využívá zahraniční Google propagaci, může využít tento seznam stránek, kde si můžete zdarma zaregistrovat svůj zápis a získat tak výhodu nad svými konkurenty v počtu citací z jiných zdrojů.

4. Úplná adresa na kontaktní stránce

Adresa na stránce (je-li k dispozici) se musí shodovat s adresou (adresami) zadanou při registraci, což dodává společnosti další důvěryhodnost a váhu nabídky.

Významnými faktory jsou také:

5. Klíčová slova v názvu (jménu) společnosti
6. Kladné recenze o místě (zápisu)
7. Počet zákaznických recenzí
8. Počet a kvalita příchozích odkazů na stránky (pokud existují)
9. Přítomnost názvu města a klíčových slov v externích kotvách na webu
10. Zahrnutí názvu města (regionu) do titulků na stránkách webu

Je třeba poznamenat, že kromě pozitivních existují také negativní faktory a jedním z nich je přítomnost několika záznamů se stejnou adresou ().

Nějaké nápady?

Zajímavé je, že návštěvnost z vyhledávání míst na mapě konvertuje dobře, protože návštěvník studiem mapy a recenzí s největší pravděpodobností hledá podobnou službu (firmu), a je tedy potenciálním klientem. Při péči o SEO v lokálním vyhledávání Google proto nezapomínejte také na návštěvníky tím, že budete maximálně informativní, zveřejníte lákavé fotografie a další údaje. Registrace v Adresáři míst Google je nyní zdarma, měli byste toho využít jako další příležitost, jak se více zviditelnit na internetu.

Disky moderních počítačů se často stávají skutečnými pokladnicemi informací shromážděných z různých zdrojů, ale pokud majitel počítače zapomněl umístění požadovaného souboru, je to téměř ekvivalentní jeho absenci. Operační systémy mají samozřejmě nástroje pro vyhledávání souborů podle jejich názvů nebo obsahu dokumentu. Využívají však přímé vyhledávání, které obnáší prohledávání všech souborů, což trvá nepřijatelně dlouho.

Alternativou k přímému vyhledávání je vyhledávač s předkompilovaným indexem. Internetové vyhledávače používají roboty, kteří načítají webové stránky, analyzují slova, která obsahují, zaznamenávají výsledky do indexu a následují odkazy na další stránku. Takto nashromážděný index slouží k přípravě odpovědi na požadavek uživatele. Když stroj obdrží požadavek, vyhledá v indexu záznamy, které odpovídají slovům tohoto požadavku, a poté podle určitých pravidel sloučí výsledek, aby jej mohl předložit uživateli.

Praxe indexového vyhledávání však není snadné přenést na individuální počítač nebo dokonce do podnikové sítě. Internet využívá k získávání informací standardizované technologie. Většina dokumentů na webu používá formát HTML, který lze snadno převést na text, který se pak použije k indexování dokumentu. HTML navíc definuje speciální značky (např. nadpisy, odkazy, obrázky), které také slouží k sestavení indexového souboru. V posledních letech je možné prohledávat jak ve složitých formátech (např. DOC nebo PDF), tak i v netextových datech (obrázky, zvukové soubory), ale při jejich indexování to nejsou multimediální soubory, jsou analyzovány, ale texty odkazů na ně.

Jednotka místního počítače obvykle používá souborový systém, který se výrazně liší od HTML, a soubory na něm uložené mají širokou škálu formátů. Proto není možné přímo přenést zkušenosti s indexováním internetu na místní počítač, ale po zvážení zkušeností internetových vyhledávačů a identifikaci slabých stránek technologie indexování je můžete zkusit aplikovat na PC.

Index je okamžitý snímek informací získaných z původního zdroje. Pokud změníte dokument poté, co byl indexován, index již nebude odpovídat skutečnosti. Na internetu musí vyhledávač neustále vyhledávat změny ve stejném dokumentu, a pokud je přesunut na jiné místo nebo se změní jeho formátování, vyhledávač s ním zachází jako s jiným dokumentem. Místní vyhledávače mohou sledovat změny a pohyb dokumentů a udržovat místní index aktuální. Zejména vyhledávače Superior Search 2005 a DVYGUN Smart Search mají agenta, který běží na pozadí a okamžitě aktualizuje index, když se soubor změní.

Důležitými vlastnostmi jsou velikost indexu a rychlost indexování. V internetových vyhledávačích je většinou velikost indexu nezajímá – to je problém majitele vyhledávače. Ale rychlost opakovaného průchodu již indexovanými zdroji závisí na rychlosti indexování. U lokálního vyhledávání je důležitost charakteristik obrácená: velikost indexu je na prvním místě a rychlost indexování je méně důležitá, protože k indexování a opětovnému indexování dochází zřídka a může čekat na dokončení. Současně může indexový soubor zabírat poměrně velký objem, což by bylo užitečné pro jiné účely.

Místní vyhledávání

Když lokální vyhledávač sestavuje indexový soubor, musí být schopen získat informace o obsahu dokumentů v nejrůznějších formátech a standardní HTML, PDF a DOC pro internetové vyhledávání již nestačí. Kromě nich jsou na lokálních discích často uloženy dokumenty 1C, archivy e-mailových zpráv, multimediální knihovny atd., a pokud místní vyhledávač není schopen analyzovat obsah všech typů souborů potřebných uživatelem, jeho účinnost se stává diskutabilní. V tomto případě je téměř nemožné použít metody internetového vyhledávání k indexování multimediálních informací, protože souborový systém neobsahuje podrobný popis uloženého souboru, ale pouze datum jeho vytvoření, velikost a typ. Místní vyhledávače musí poctivě analyzovat formáty obrázků a textových souborů v naději, že najdou textové popisy multimediálních informací. Ve skutečnosti platí, že čím více formátů souborů místní vyhledávač „rozumí“, tím cennější je pro uživatele (ačkoli o rozpoznávání obsahu multimediálních souborů se ještě nehovoří).

Dalším rozdílem mezi lokálním a internetovým vyhledáváním je požadavek úplnosti, tedy zohlednění všech dokumentů odpovídajících požadavku uložených na jednotkách lokálních počítačů nebo na indexovaných externích médiích (CD, DVD, flash paměti). Protože World Wide Web není zcela koherentní systém, problém úplnosti není pro internetové vyhledávače relevantní. Ale u lokálního vyhledávání je tento požadavek zásadní, protože přítomnost či nepřítomnost požadovaného dokumentu může být pro uživatele zásadně důležitá. Při lokálním vyhledávání lze zaručit úplnost, protože všechna data jsou uložena v souborovém systému, který je pro vyhledávač zcela transparentní a neobsahuje nepřístupné shluky dokumentů, což je možné na webu. Bylo by však hezké, aby místní vyhledávač měl přístup k oddílům „cizí“ operační systémy, například pro Windows - oddíly Linuxu a dalších operačních systémů podobných Unixu nainstalovaných na místním počítači.

Dalším problémem úplnosti je vyhledávání sbírek externích médií. Technologie indexování umožňují vyhledávat i na odcizených discích, ale problém nastává s velikostí indexu, který musí být vždy k dispozici pro čtení, tedy uložený na disku lokálního počítače. Nicméně například systém Archivarius 3000 nabízí možnost indexovat vyměnitelná média a síťové zdroje.

Místní vyhledávače musí spolupracovat nebo se integrovat s místními aplikacemi, jako jsou e-mailové systémy, klienti pro rychlé zasílání zpráv atd. (zejména za účelem spuštění příslušné aplikace při detekci požadovaného dokumentu a přenesení nalezeného souboru do ní). Například systém DVYGUN Smart Search má speciální mechanismus pro náhled nalezených dokumentů se zvýrazněním klíčových slov dotazu, ale bylo by logické, kdyby samotný lokální vyhledávací systém měl moduly pro transparentní integraci s různými aplikacemi. Pokud by se místní vyhledávání dalo jednoduše zpřístupnit z nabídky takových aplikací, bylo by to pohodlnější než v případech, kdy je potřeba otevřít další aplikaci a hledat v ní.

Lokální vyhledávač má schopnosti, které jsou v internetové verzi těžko implementovatelné. Například na webu je téměř nemožné implementovat vyhledávání s přihlédnutím k synonymům, protože v objemu webu bude produkovat spoustu hluku a vyžadovat další výpočetní zdroje, což je pro internetové projekty nezbytné. Při lokálním vyhledávání se skromnějšími datovými archivy je docela dobře možné vzít v úvahu synonyma (zejména vyhledávač SearchInform to nabízí). Internetové vyhledávače navíc tradičně implementují vyhledávání podle jednotlivých klíčových slov, nikoli podle celé fráze: při indexování internetu si vyhledávač „nepamatuje“ posloupnost slov v dokumentu, což je ve frázi důležité. Místní vyhledávání umožňuje provádět složitější analýzu textu před vygenerováním indexu, takže někteří výrobci nabízejí vyhledávání včetně frází, což zvyšuje jeho přesnost. Znalost posloupnosti slov poskytuje vyhledávání podobných dokumentů, které zohledňuje nejen podobnost distribuce slovní zásoby, ale také posloupnost slov v dokumentu. Obě tyto funkce jsou implementovány také ve vyhledávači SearchInform.

Při sestavování indexu může místní vyhledávač vzít v úvahu také typ dokumentu, který se používá k sestavení indexu. Ve formátu MP3 tedy existují speciální pole, ve kterých je obvyklé zaznamenat autora kompozice, stylu a dalších charakteristik. Místní vyhledávač může tyto dodatečné informace použít ke zpřesnění vyhledávání.

Dalším rysem místního vyhledávání je, že majitelé stránek se často snaží použít specifické techniky k oklamání vyhledávače, snaží se zvýšit výsledky svého duchovního dítěte a vývojáři internetových vyhledávačů musí přijmout vhodná protiopatření. Zejména autoři vyhledávačů obvykle tají, v jakém poměru jsou zohledňovány vlastnosti dokumentu. Místní vyhledávání se zpravidla zabývá logičtější datovou strukturou než internet a dochází k němu o něco méně rušení než při vyhledávání na internetu. Při navrhování lokálních vyhledávačů tedy není nutné používat inteligentní vyhledávací techniky, které internetové vyhledávače potřebují k ochraně před webovým spamem.

Firemní vyhledávání

Pokud má společnost mnoho počítačů, na kterých jsou cenné informace uloženy v „rozházené“ podobě, není snadné je najít. Kromě toho zaměstnanci někdy potřebují najít řešení svého problému analogicky s dříve přijatými rozhodnutími jiných zaměstnanců, ale takové dokumenty jsou uloženy na discích místních počítačů nebo na podnikovém serveru. K řešení takových problémů je navržen podnikový vyhledávací systém. Často se takové systémy mění v komplexní datové sklady, které umožňují nejen vyhledávání, ale i ukládání informací do jediné databáze. Firemní vyhledávací systém se od nich liší tím, že se zabývá pouze indexováním a nevyžaduje zvláštní disciplínu pro práci s dokumenty.

Podnikový vyhledávací systém zdědí všechny vlastnosti lokálního systému a přidává k nim své vlastní problémy, zejména problém s organizací přístupu. Každá společnost má dokumenty, které nejsou veřejné a neměly by se objevit v otevřených výsledcích vyhledávání a vyhledávač potřebuje vědět, pro koho vzor dokumentů připravuje. Kromě toho musí podnikový vyhledávač podporovat různé protokoly pro přístup k datům: prostřednictvím síťových disků nebo NFS, HTTP nebo protokolů pro přístup k databázi. Z tohoto důvodu jsou firemní vyhledávače někdy nazývány webovými vyhledávači. Místní vyhledávače mají zpravidla „velké bratry“, kteří kromě lokálních disků skenují také síťové zdroje (jak se tomu například děje v DVYGUN Smart Search Enterprise Edition). Indexování síťových disků však k tomu, aby se vyhledávač stal korporátním, nestačí.

Nepleťte si podnikové vyhledávače se serverovými, které jsou instalovány na webových serverech nebo na portálech (včetně interních). Obvykle jsou založeny na principech internetových vyhledávačů a jsou navrženy tak, aby sloužily návštěvníkům webových stránek. Takové stroje jsou omezeny na sadu dokumentů publikovaných na webových serverech nebo databázích, ale neobsahují koncepty ani jiné nezpracované informace, které by mohly být užitečné pro ostatní ve společnosti. Přitom stačí na počítač, na kterém chcete informace vyhledávat, nainstalovat síťový vyhledávací systém, aby byly všechny jeho dokumenty k dispozici pro vyhledávání. V systému Archivarius 3000 je tedy možné nainstalovat vzdáleného vyhledávacího agenta, který umožňuje vyhledávání na vzdáleném počítači.

Bohužel zatím neexistuje žádný vyhledávací systém, který by adekvátně řešil problémy lokálního, tím méně firemního vyhledávání. Neexistují žádné systémy, které by podporovaly systém distribuovaného indexování, při jehož použití musí být na každém počítači nainstalován místní systém indexování, který spolupracuje s ostatními a organizuje vyhledávání ve všech zdrojích společnosti. Ale bylo vyvinuto poměrně mnoho místních vyhledávačů: Superior Search, SearchInform, „Ischeika“, „Archivarius 3000“, DVYGUN. Navzdory velkému množství produktů se trh s místními a podnikovými vyhledávacími systémy ještě nezformoval - nyní jsou podnikoví uživatelé v procesu pochopení složitosti úkolu místního a podnikového vyhledávání.

Lokální vyhledávací systémy

Poptávka po vyhledávacích systémech, které pracují s dokumenty různých formátů a uloženými v DBMS, e-mailových zprávách a dalších zdrojích (na pevném disku počítače, v podnikové lokální síti atd.), je způsobena neustálým růstem objemu dostupných informací. pro celou společnost a každého jejího zaměstnance. Ještě před pár lety stačily k uspokojení požadavků firemního uživatele kategorie v DBMS nebo přímé vyhledávání, ale s gigantickými objemy dat ustupuje přímé vyhledávání do pozadí.

Dá se říci, že nejdůležitějším parametrem každého vyhledávacího systému je rychlost jeho provozu, a to platí jak pro indexaci, tak pro samotné vyhledávání dokumentů. Důležitými faktory jsou schopnost pracovat s různými datovými zdroji, podporované formáty souborů a další funkce (podpora morfologie, synonym, různé typy vyhledávání). Podívejme se na výsledky testování řady programů, které prokázaly vcelku přijatelnou rychlost vyhledávání a rozsáhlou funkčnost. Všechny byly nainstalovány na počítači s procesorem Athlon/2,2 GHz, 1 GB RAM, 160GB disk Seagate IDE se systémem Windows XP. Pro testování byla vytvořena databáze dokumentů ve formátech DOC, TXT a HTML o velikosti cca 20 GB.

dtSearch Desktop

Vývoj dtSearch zahrnuje řadu vyhledávačů pro domácí použití a práci v podnikové síti. Program dtSearch Desktop s modulem dtSearch Spider dokáže indexovat a vyhledávat nejen soubory v počítači uživatele, ale také webové stránky, místní síťové zdroje a také používat externí indexy vytvořené na jiných počítačích.

Rozhraní dtSearch je poměrně jednoduché. Jediným nepříjemným bodem je, že toto rozhraní je výhradně anglické, ačkoli program může vyhledávat dokumenty v několika jazycích. Rychlost indexování dokumentů dtSearch se ukázala být na správné úrovni: program obsadil druhé místo mezi nejrychlejšími. Testovací databáze byla indexována za 6 hodin a 13 minut a pro následné vyhledávání byl vytvořen index o velikosti téměř 8 GB. Možnosti dtSearch jsou na správné úrovni. Poskytuje vyhledávání ve všech morfologických formách slov a vyhledávání s opravou chyb, tedy práci se slovy obsahujícími syntaktické chyby (překlepy, „překryvy“ v dokumentech získaných pomocí systémů rozpoznávání znaků atd.). Jsou podporována nastavení, která umožňují určit míru možné chyby. K dispozici je vyhledávání pomocí synonym, ale hotový slovník synonym není součástí dtSearch.

Program umí vyhledávat na základě frází, jejichž slova jsou spojena logickými operacemi. Každému slovu v dotazu lze přiřadit určitou „váhu“. Užitečnou možností je použít slovník nedůležitých slov, ale ten je zpočátku prázdný a budete si ho muset vyplnit sami.

Google Desktop Search s GDE Enterprise

Bezplatný vývoj společnosti Google je určen k vyhledávání informací na počítači uživatele, na internetu a v podnikové síti. Google však nabízí placené konzultace a instalaci systému GDS Enterprise v podniku (10 tisíc dolarů na 1 tisíc uživatelů).

GDS funguje v okně prohlížeče, a proto bylo celé rozhraní desktopové verze zděděno z vyhledávače Google. Naneštěstí pro profesionální uživatele a naštěstí pro nezkušené, po instalaci GDS začne indexovat vše na počítači a nelze vybrat indexovací cesty. Budete si muset nainstalovat samostatný program TweakGDS, který vám umožní určit cesty nezbytné pro indexování. TweakGDS vyžaduje ke svému fungování rozhraní .Net Framework a Microsoft Scripting Runtime. Instalace a konfigurace GDE pro práci s lokální sítí není snadný úkol ani pro kvalifikovaného správce systému.

Z hlediska analýzy vyhledávacích dotazů a poskytování výsledků je GDS naprosto identický s Googlem pro internet: má stejný systém pro zobrazování výsledků a nabízí stejnou standardní sadu logických operací pro vyhledávací dotazy. Google Desktop Search je určen výhradně pro vyhledávání souborů – neexistuje žádný interní vizualizér souborů. Počet formátů souborů podporovaných programem je zcela dostatečný; Můžete také vyhledávat na webových stránkách. Rychlost vyhledávání a indexování je pro domácí použití celkem přijatelná. GDS dokončil testovací databázi za osm hodin, ale velikost indexového souboru se ukázala jako jedna z nejmenších – 4,5 GB.

Výhodou (kterou lze považovat i za nevýhodu) Google Desktop Search je, že podporuje další moduly, ale nejdříve je potřeba takových modulů nainstalovat velké množství. A abyste programu sdělili, které soubory a složky je třeba indexovat, musíte nainstalovat další komponentu gdetweak. Bez něj budou všechny informace v počítači uživatele a v podnikové síti indexovány. Složitost kompletní instalace je kompenzována velmi flexibilním nastavením při použití v podnikových sítích. Důležitým aspektem provozu GDS v lokální síti je použití skupinových zásad, které umožňují osobní nastavení pro každého uživatele.

Copernic Desktop Search

Tento program je zaměřen na domácího uživatele a umožňuje vyhledávat dokumenty jak na lokálním počítači, tak na internetu. Rozhraní programu vyvolává extrémně pozitivní emoce - nic zbytečného, ​​pohodlného a krásného. Při prvním spuštění programu vás program vyzve k vytvoření indexů vyhledávání. Pravda, samotný proces indexace probíhá na pozadí, což se pro domácího uživatele docela hodí, ale do firemního použití se nehodí. Program poskytuje nastavení pro automatické vytváření indexů: vestavěný plánovač, indexování, když je počítač nečinný na pozadí nebo se zadanou prioritou. Indexování testovací databáze trvalo téměř 11 hodin.

Zpočátku vám Copernic Desktop Search umožňuje vybrat dokumenty, obrázky, videa a hudbu pro indexování. Kromě toho můžete index nakonfigurovat tak, aby například obrázky menší než 16x16 nebo zvukové soubory menší než 10 sekund nebyly indexovány. Kromě toho může program pracovat s e-maily a kontakty z adresáře Outlook a Outlook Express a indexovat záložky Internet Exploreru. Analýza dotazů je poměrně slabá, ale můžete vybrat typ souboru a zadat vyhledávací dotaz s atributy specifickými pro tento konkrétní typ souboru. Například u zvukových souborů to mohou být hodnoty z tagů mp3 (interpret, album, datum atd.) a u obrázků si můžete vybrat jejich velikost.

Samostatně stojí za zmínku okno pro zobrazení výsledků a zpracování ruskojazyčných textů. Pod seznamem nalezených souborů je zobrazen jejich obsah. Je pravda, že prohlížení souborů je možné pouze pomocí programu, ve kterém byly vytvořeny. Neexistuje režim zobrazení prostého textu, což není vždy pohodlné, protože otevření dokumentu trvá déle. Většinu dokumentů obsahujících ruský text ve formátech HTML a TXT, přestože byly indexovány, bylo možné najít pouze podle názvu.

iSYS Desktop

Produkty ISYS jsou zaměřeny na firemní uživatele a jsou určeny pro vyhledávání jak na stolních počítačích, tak na firemních sítích a internetu.

Rozhraní dotyčného systému je velmi pěkné, není v něm nic nadbytečného, ​​ale pro začátečníka nebude snadné zjistit, kde a co se nachází, kam kliknout a jak hledat. Neexistuje žádná podpora pro ruský jazyk. Okna nejsou přetížená ovládacími prvky, ale to jsme museli zaplatit multimoduly a použitím přídavných oken. Například vyhledávací dotazy jsou zadávány pomocí jednoho programu a indexy jsou spravovány pomocí jiného. V samostatných oknech se také zadávají vyhledávací dotazy.

Program zjednodušuje instalaci možností nového indexu tím, že obsahuje hotové šablony pro vytváření indexů pro složky „Dokumenty“, „Pošta“, „Pošta a dokumenty“, „Konkrétní složka“, „Složka s výběrem souboru typy“ atd. Tyto šablony zjednodušují vytváření indexů v první fázi organizace vyhledávání. ISYS Desktop může indexovat data z různých zdrojů a poskytuje mnoho flexibilních nastavení a možností indexování. Program vytvořil index pro testovací databázi za 6 hodin a 13 minut a vygeneroval soubor o velikosti 7,9 GB.

Funkce vyhledávání obsažená v ISYS je mnohem výkonnější než obvyklá podpora booleovských operací a je na stejné úrovni jako funkce dtSearch. Mezi „pokročilé“ funkce jsou nabízeny synonymické a třídicí filtry (podle cesty, názvu a data vytvoření souboru). Program také umožňuje pracovat s mnoha operátory, které mohou nahradit některé typy vyhledávání (například použít speciální znaky místo analýzy vyhledávání). Je překvapivé, že program nemá vyhledávání pomocí morfologie, ale požaduje takové funkce jako „přibližné vyhledávání“ a „heuristická analýza“. ISYS nabízí několik „vizuálních“ typů vyhledávacích dotazů, ze kterých si můžete vybrat.

Výsledky vyhledávání jsou poměrně informativní a zobrazují se jako seznam dokumentů seřazených podle relevance. Na rozdíl například od Copernic Desktop Search je v tomto případě prohlížení výsledků možné pouze ve formě plochého textu. Program umožňuje rozdělit nalezené dokumenty do skupin podle určitých kritérií (standardně jsou rozděleny podle relevance). Můžete také prohlížet dokumenty, které již byly nalezeny, výběrem jednotlivých složek (to je výhodné, když se výsledek skládá z velkého počtu dokumentů).

Použití programu v podnikové síti je také opodstatněné: poskytuje dobré příležitosti pro organizaci vyhledávání v síti. Vyhledávací systém je založen na vytvoření veřejného indexu, který obsahuje indexovaná data z veřejně dostupných online zdrojů. Za zmínku stojí také dobře propracovaná kategorizace dokumentů, která je velmi důležitá pro použití v podnikových sítích.

SearchInform Desktop Professional

Tento program pro fulltextové vyhledávání dokumentů na osobním počítači kombinuje možnosti vyhledávání frází na základě morfologie a slovníku synonym s technologií pro vyhledávání podobných dokumentů.

Rozhraní SearchInform Desktop Professional je poněkud těžkopádné – zpočátku není tak snadné si zapamatovat, na které nabídce nebo kartě je požadovaná možnost. Proces vytváření indexu v SearchInform je jednoduchý a rychlost indexování produktu je vyšší než u jiných vyhledávačů. Program indexoval testovací databázi za 3 hodiny a 17 minut a vytvořil indexový soubor o velikosti 4,4 GB. Kromě běžných souborů a složek podporuje SearchInform indexování e-mailů, připojování a indexování databází a dalších externích zdrojů. Při indexování můžete určit slovník pro provádění morfologického vyhledávání.

Mezi schopnosti tohoto systému je třeba uvést vyhledávání frází: jedná se o morfologické a citační vyhledávání, logické operace, vyhledávání se syntaktickou analýzou slova (podle začátku slova, jeho konce, podle střední části nebo úplné shody ), vyhledávání smíšených nabídek (v dokumentu musí být přítomna všechna slova z dotazu, ale ne nutně v zadaném pořadí), vyhledávání s opravou chyb, použití synonym atd. Kromě toho můžete využít slovník nedůležitých slov (jejich seznam má program již připravený) a pro vyhledávání použít slovník prioritních slov.

Vrcholem programu je možnost vyhledávat dokumenty obsahově podobné textu požadavku. Na rozdíl od standardního vyhledávání frází je v tomto případě možné vyhnout se předběžnému výběru klíčových slov, což umožňuje zkrátit dobu relace vyhledávání. Pro práci se sítí je navržena architektura klient-server a politika pro konfiguraci přístupu k indexovaným dokumentům.

Pojďme si to shrnout

Programy Google Desktop Search a Copernic Desktop Search jsou docela vhodné pro nezkušené uživatele jako domácí informační vyhledávací systémy. Dělají dobrou práci s jednoduchými dotazy, poskytují slušnou rychlost a jsou zdarma. Pro plný provoz je však potřeba program Google vybavit dalšími moduly a proces nastavení sítě je náročný. Uživatelům jsou nabízeny desktopové verze výkonnějších, profesionálních řešení dtSearch, iSYS a SearchInform, nikoli však zdarma. Vývojáři takových programů se zaměřují především na firemní sektor – jejich produkty se vyznačují schopností práce se sítí, funkčností, indexováním a rychlostí vyhledávání.

Max Maglyas ( [e-mail chráněný]) - nezávislý autor (Moskva).

Možnosti vyhledávání zabudované do Windows 7 a 8.x jsou výjimečně výkonné a užitečné nástroje, které vám pomohou během několika sekund najít přesně to, co v počítači potřebujete, od jednotlivých souborů a nastavení systému až po webové stránky.

Použití těchto možností je velmi snadné, ale existuje několik malých triků, které vám umožní používat je efektivněji.

Základní vlastnosti

Chcete-li hledat ve Windows 7 nebo 8.x, stačí jednou stisknout klávesu a začít psát.

Výsledky se začnou objevovat okamžitě po zadání prvních znaků a můžete si z nich okamžitě vybrat přesně to, co potřebujete. Můžete také pokračovat v psaní klíčových slov, abyste co nejvíce zúžili možné odpovědi.

Pokud například chcete rychle spustit Chrome, jednoduše stiskněte klávesu a napište „Chr“ a poté stiskněte Enter. Tím se de facto spustí první nalezený výsledek.

Pokud potřebujete konkrétní dokument – ​​například Text.doc, napište jeho název do vyhledávacího pole a stiskněte Enter – otevře se ve výchozím textovém editoru.

Stejnou metodu lze také použít k vyhledání konkrétních nastavení systému v Ovládacích panelech. Pokud do vyhledávacího pole napíšete „Firewall“, zobrazí se všechny vestavěné možnosti pro správu brány Windows Firewall.

Nabídku vyhledávání lze také použít k otevření webových stránek. Pokud napíšete web a stisknete Enter, náš web se otevře ve vašem výchozím prohlížeči.

Hledat soubory

Windows poskytuje vyhledávání přímo v Průzkumníku. Chcete-li najít požadovaný soubor uložený na místním disku zařízení, vyberte požadovaný disk (pro prohledání celého disku) nebo konkrétní adresář (pokud uhodnete, kde se požadovaný soubor nachází) ve stromu složek a poté zadejte klíčové slovo v odpovídajícím poli, které se nachází v pravém horním rohu Průzkumníka. Pomocí dostupných možností v rozevírací nabídce můžete zúžit výsledky filtrováním podle data vytvoření souboru, velikosti, typu a dalších.

Správa vyhledávání

Pro rychlé a efektivní vyhledávání systém Windows neustále provádí akci známou jako indexování. O to se stará speciální systémový modul, který neustále sleduje změny ve struktuře souborů – stejně jako Google neustále sleduje globální síť, aby urychlil proces vyhledávání. Ve výchozím nastavení systém Windows pevně drží nejdůležitější systémové složky, jako je složka C:\Users, kde jsou umístěny všechny uživatelské soubory a nastavení, se kterými denně komunikujete.

Pokud chcete rozšířit pokrytí indexovací služby, můžete tak učinit v příslušné systémové sekci pro konfiguraci. Do vyhledávacího pole zadejte „Možnosti indexování“ a stiskněte Enter. Poté můžete pomocí tlačítka Upravit přidat další důležité adresáře, aby byly indexovány častěji než zbytek stromu souborů na oddílech disku.

Bing Search

Toto je možnost, která byla představena ve Windows 8.1 a je velmi pohodlná. Kdykoli hledáte něco místního prostřednictvím nabídky Hledat, systém zobrazí další výsledky s informacemi z vyhledávače společnosti Microsoft, Bing.

Níže popsaná strategie často vede k optimálnímu řešení problému.

1. Začněte s náhodným řešením.

2. Chcete-li zlepšit současné řešení, použijte na něj jakoukoli transformaci z dané sady transformací. Toto vylepšené řešení se stává novým „aktuálním“ řešením.

3. Tento postup opakujte, dokud žádná z transformací v dané množině nezlepší aktuální řešení.

Výsledné řešení může, i když ne nutně, být optimální. V zásadě platí, že pokud „daná množina transformací“ zahrnuje všechny transformace, které berou jedno řešení jako vstup a nahrazují ho nějakým jiným, proces „zdokonalování“ neskončí, dokud nezískáme optimální řešení. Ale v tomto případě bude čas potřebný k dokončení kroku 2) stejný jako čas potřebný k analýze všech rozhodnutí, takže popsaný přístup jako celek bude zcela nesmyslný. Tato metoda má smysl pouze tehdy, pokud dokážeme omezit naši množinu transformací na její malou podmnožinu, což umožňuje provést všechny transformace v relativně krátkém čase: pokud je „velikost“ problému rovna , pak můžeme povolit nebo transformace. Pokud je množina transformací malá, je přirozené považovat řešení, která lze transformovat z jedné na druhou v jednom kroku, za „blízká“. Takové transformace se nazývají „lokální“ a odpovídající metoda se nazývá lokální vyhledávání.

Příklad. Jedním z problémů, které lze vyřešit pomocí metody lokálního vyhledávání, je problém najít minimální kostru. Lokální transformace jsou takové, ve kterých vezmeme hranu nesouvisející s aktuální kostrou, přidáme ji do tohoto stromu (ve výsledku bychom měli dostat cyklus) a pak z tohoto cyklu odebereme právě jednu hranu (pravděpodobně hranu s nejvyšší hodnotou ) vytvořit nový strom.

Algoritmy místního vyhledávání fungují nejlépe jako heuristické algoritmy pro řešení problémů, jejichž přesná řešení vyžadují exponenciální čas. Obecně přijímaný způsob vyhledávání je následující.

Měli byste začít s řadou libovolných řešení a na každé z nich aplikovat lokální transformace, dokud nezískáte lokálně optimální řešení, tzn. takovou, kterou žádná transformace nemůže zlepšit. Jak je znázorněno na Obr. 10.19, na základě většiny (nebo dokonce všech) libovolných počátečních řešení často získáme různá lokálně optimální řešení. Pokud budeme mít štěstí, jeden z nich se ukáže jako globálně optimální, tzn. lepší než jakékoli jiné řešení.

V praxi nemusíme najít globálně optimální řešení zobrazené na Obr. 10.19, protože počet místně optimálních řešení může být kolosální. Můžeme však alespoň vybrat lokálně optimální řešení, které má minimální náklady mezi všemi řešeními, která najdeme. Protože počet typů lokálních transformací používaných k řešení různých problémů je velmi velký, uzavřeme tuto část popisem dvou příkladů: problému obchodního cestujícího a problému jednoduchého umístění (přepínání) bloku.

Problém cestovního prodejce

Metody místního vyhledávání jsou zvláště vhodné pro řešení problému obchodního cestujícího. Nejjednodušší transformací, kterou lze v tomto případě použít, je takzvaná „dvojitá volba“. Spočívá v tom, že vybereme libovolné dvě hrany, například hrany (A, B) a (C, D), znázorněné na Obr. 10.20 je smažeme a jimi propojené body „znovu spojíme“ tak, aby vznikla nová trasa. Na Obr. 10.20 tato nová trasa začíná v bodě B, pokračuje ve směru hodinových ručiček do C, vede podél hrany (C, A), poté proti směru hodinových ručiček z A do D a nakonec podél hrany (D, B). Pokud je součet délek (A, C) a (B, D) menší než součet délek (A, B) a (C, D), pak se nám podařilo získat vylepšenou trasu.1 Poznámka že nemůžeme spojit body A a D, B ~ a C, protože výsledným výsledkem nebude trasa, ale dva od sebe izolované cykly.




Nahoru