Technologie pro efektivní analýzu textových dat: Dolování znalostí. Těžba textu. Hlavními úkoly Text Mining Text Mining je algoritmická identifikace dříve neznámých spojení a korelací v existujících textových textech.

Nemyslím si, že budu objevovat Ameriku, když řeknu, že ne všechny informace jsou stejně užitečné. Někdy je potřeba napsat hodně textu k vysvětlení konceptu a někdy se stačí podívat na jednoduchý diagram, abyste vysvětlili složité problémy. Pro snížení redundance informací byly vynalezeny matematické vzorce, výkresy, symboly, programový kód atd. Důležité navíc nejsou jen informace samotné, ale také jejich prezentace. Je jasné, že kotace akcií lze jasněji demonstrovat pomocí grafu a matematické vzorce popíší Newtonovy zákony v kompaktnější podobě.

V procesu vývoje informačních technologií, ale i systémů pro sběr a ukládání dat – databází, datových skladů a v poslední době i cloudových úložišť, vyvstává problém analyzovat velké objemy dat, když analytik nebo manažer není schopen ručně zpracovávat velké množství dat a rozhodovat se. Je jasné, že analytik potřebuje nějakým způsobem prezentovat původní informaci v kompaktnější podobě, kterou lidský mozek zvládne v přijatelném čase.

Zdůrazněme několik úrovní informací:

  • zdrojová data (surová data, historická data nebo jen data) - surová datová pole získaná jako výsledek pozorování určitého dynamického systému nebo objektu a odrážející jeho stav v konkrétních okamžicích (například data o kurzech akcií za poslední rok) ;
  • informace – zpracovávaná data, která mají pro uživatele nějakou informační hodnotu; nezpracovaná data prezentovaná v kompaktnější podobě (například výsledky vyhledávání);
  • znalost - nese určité know-how, zobrazuje skryté vztahy mezi objekty, které nejsou veřejně dostupné (jinak to budou jen informace); data s vysokou entropií (nebo mírou nejistoty).
Podívejme se na příklad. Řekněme, že máme nějaké údaje o měnových transakcích na Forexovém trhu za určité časové období. Tato data mohou být uložena v textové podobě, ve formátu XML, v databázi nebo v binární podobě a sama o sobě nenesou žádnou užitečnou sémantickou zátěž. Dále analytik načte tato data např. do Excelu a sestaví graf změn, čímž získá informace. Poté načte data (zcela nebo částečně zpracovaná v Excelu) například do Microsoft SQL Serveru a pomocí Analysis Services zjistí, že je lepší akcie prodat zítra. Analytik pak může využít již nabyté znalosti k novým odhadům, čímž získá zpětnou vazbu v informačním procesu.

Mezi úrovněmi nejsou jasné hranice, ale taková klasifikace nám v budoucnu umožní vyhnout se záměně s terminologií.

Dolování dat

Historicky má termín Data Mining několik možností překladu (a významů):
  • extrakce dat, sběr dat, data mining (využívají také Information Retrieval nebo IR);
  • extrakce znalostí, data mining (Knowledge Data Discovery nebo KDD, Business Intelligence).
IR pracuje s prvními dvěma úrovněmi informace, respektive KDD pracuje s třetí úrovní. Pokud mluvíme o metodách implementace, první možnost se vztahuje k aplikované oblasti, kde hlavním cílem jsou samotná data, druhá - k matematice a analytice, kde je důležité získat nové poznatky z velkého množství existujících dat. Extrakce dat (sběr) je nejčastěji přípravným krokem pro extrakci znalostí (analýzu).

Dovolím si zavést jiný termín pro první bod - Extrakce dat, který využiji i v budoucnu.

Problémy řešené dolováním dat:

  1. Klasifikace je přiřazení vstupního vektoru (objekt, událost, pozorování) do jedné z dříve známých tříd.
  2. Shlukování je rozdělení množiny vstupních vektorů do skupin (shluků) podle míry vzájemné „podobnosti“.
  3. Redukce popisu - pro vizualizaci dat, zjednodušení výpočtu a interpretace, komprimaci objemu shromážděných a uložených informací.
  4. Asociace - hledání opakujících se vzorů. Například hledání „udržitelných spojení v nákupním košíku“.
  5. Forecasting – hledání budoucích stavů objektu na základě předchozích stavů (historická data)
  6. Analýza anomálií – například identifikace atypické síťové aktivity vám umožní detekovat malware.
  7. Vizualizace dat.

Vyhledávání informací

Vyhledávání informací se používá k získání strukturovaných dat nebo reprezentativního vzorku menší velikosti. Podle naší klasifikace funguje vyhledávání informací na datech první úrovně a v důsledku toho vytváří informace druhé úrovně.

Nejjednodušším příkladem vyhledávání informací je vyhledávač, který na základě určitých algoritmů získá část informací z kompletní sady dokumentů. Kromě toho každý systém, který tak či onak pracuje s testovacími daty, metainformacemi nebo databázemi, používá nástroje pro vyhledávání informací. Nástroje mohou být metody indexování, filtrování, třídění dat, parsery atd.

Těžba textu

Další názvy: textová data mining, textová analýza, velmi blízký pojem je koncernová těžba.

Text mining může pracovat jak s nezpracovanými daty, tak s částečně zpracovanými daty, ale na rozdíl od získávání informací analyzuje textové dolování textové informace pomocí matematických metod, což umožňuje získat výsledky s prvky znalostí.

Úlohy, které text mining řeší, jsou: hledání vzorů dat, získávání strukturovaných informací, budování hierarchií objektů, klasifikace a shlukování dat, identifikace témat nebo oblastí znalostí, automatické abstrahování dokumentů, úlohy automatického filtrování obsahu, identifikace sémantických vztahů a další.

K řešení úloh dolování v textu se používají statistické metody, interpolační, aproximační a extrapolační metody, fuzzy metody a metody obsahové analýzy.

Web Mining

A nakonec jsme se dostali k web miningu – souboru přístupů a technik pro extrakci dat z webových zdrojů.
Protože webové zdroje obvykle nejsou textová data, přístupy k procesu extrakce dat jsou v tomto případě odlišné. V první řadě je potřeba si pamatovat, že informace na webu se ukládají ve formě speciálního značkovacího jazyka HTML (i když existují i ​​jiné formáty - RSS, Atom, SOAP, ale o tom později), webové stránky mohou mít další meta informace a také informace o struktuře (sémantice) dokumentu, každý webový dokument se nachází v určité doméně a lze na něj aplikovat pravidla optimalizace pro vyhledávače (SEO).

Toto je první článek ze série věnované dolování dat / extrahování / dolování z webu. Přijímáme návrhy a odůvodněnou kritiku.

Technologie analýzy dat (Text Mining, Data Mining)

Vedoucí: Bayandin Nikolaj Ivanovič.

Vzdělávací instituce: Federální státní rozpočtová instituce pro vyšší odborné vzdělávání „Moskevská státní univerzita ekonomie, statistiky a informatiky (MESI)“, Moskva

Kdo vlastní informace, vlastní svět. V dnešní době je těžké přeceňovat význam analýzy a monitorování sociálních médií. Pro rychlý a úspěšný rozvoj podnikání a efektivní propagaci na internetu jsou tyto kroky prostě nezbytné.

V dnešní době jsou stále populárnější úkoly spojené se získáváním a shromažďováním nových znalostí pomocí analýzy dříve získaných informací. Je potřeba vytvořit velké datové sklady a systémy pro podporu rozhodování.

Podívejme se blíže na technologii analýzy dat.

Nejslibnější oblasti analýzy dat:

· analýza textových informací

· data mining

1. Analýza textových informací Text Mining

Analýza strukturovaných informací uložených v databázích vyžaduje předběžné zpracování: návrh databáze, zadávání informací podle určitých pravidel, jejich umístění do speciálních struktur (například relačních tabulek) atd. Textové dokumenty je téměř nemožné převést na tabulkovou reprezentaci bez ztráty sémantiky textu a vztahů mezi entitami. Z tohoto důvodu jsou takové dokumenty uloženy v databázi bez transformace, jako textová pole (pole BLOB). Zároveň se v textu skrývá obrovské množství informací, ale jeho nestrukturovaný charakter neumožňuje použití algoritmů Data Mining. Tento problém je řešen metodami analýzy nestrukturovaného textu (Text Mining).

Definice dolování textu: Zjišťování znalostí textu je netriviální proces objevování skutečně nových, potenciálně užitečných a srozumitelných vzorců v nestrukturovaných textových datech. „Nestrukturovaná textová data“ je soubor dokumentů, které představují logicky sdružený text bez omezení jeho struktury (webové stránky, e-mail, regulační dokumenty).

Proces analýzy textových dokumentů může být reprezentován jako sled několika kroků:

Hledejte informace. Nejprve je nutné pochopit, které dokumenty je třeba analyzovat plus přístup. Uživatelé mohou definovat sadu dokumentů, které mají být analyzovány nezávisle - ručně.

Předzpracování dokumentů. Na dokumentech se provádějí nezbytné transformace, aby byly předloženy v požadované podobě. Odstranění zbytečných slov a dodání přísnější formy textu.

Extrakce informací. Identifikace klíčových pojmů pro analýzu.

Aplikace metod dolování textu. Vzory a vztahy přítomné v textech jsou extrahovány.

Interpretace výsledků. Prezentace výsledků v přirozeném jazyce, případně jejich vizualizace v grafické podobě.

Předzpracování dokumentu

Odstraňování zastavovacích slov. Stop slova jsou slova, která jsou pomocná a nesou málo informací o obsahu dokumentu.

Stamming je morfologické hledání. Spočívá v převodu každého slova do jeho normální podoby.

L-gramy jsou alternativou k morfologické analýze a odstranění zastavovacích slov. Umožňují vám zpřísnit text, ale neřeší problém snížení počtu neinformativních slov;

Konverze případu. Tato technika zahrnuje převod všech znaků na velká nebo malá písmena.

Nejúčinnější je kombinované použití všech metod.

Textové těžební úkoly

Klasifikace - určení pro každý dokument jedné nebo více předdefinovaných kategorií, do kterých tento dokument patří, automatická identifikace skupin sémanticky podobných dokumentů mezi danou pevnou množinou

Automatická anotace (sumarizace) text redukuje a zachovává jeho význam. Výsledek zahrnuje nejvýznamnější věty v textu.

Extrakce klíčových pojmů (feature extract) - identifikace faktů a vztahů v textu (podstatná jména a obecná podstatná jména: jména a příjmení osob, názvy organizací atd.).

Navigace na základě textu – pohyb v dokumentech na konkrétní témata a termíny. To se provádí identifikací klíčových pojmů a některých vztahů mezi nimi.

Analýza trendů umožňuje identifikovat trendy v sadách dokumentů za určité časové období.

Hledejte asociace. V daném souboru dokumentů jsou identifikovány asociativní vztahy mezi klíčovými pojmy.

Existuje poměrně velké množství odrůd uvedených problémů a také způsobů jejich řešení. To opět potvrzuje důležitost analýzy textu.

Příklady nástrojů pro analýzu textových informací:

Nástroje Oracle – Oracle Text2.

Nástroje od IBM - Intelligent Miner for Text1

Nástroje SAS Institute - Text Miner

Dolování dat Dolování dat

Inteligentní analýza dat (anglicky: Data mining, jiné překlady - “data mining”, “data excavation”) - detekce implicitních vzorců v datových sadách.

· specializované "krabicové" softwarové produkty pro inteligentní analýzu;

· matematické balíčky;

· tabulky (a různé druhy doplňků nad nimi);

· nástroje integrované do systémů správy databází (DBMS);

· další softwarové produkty.

Úkoly dolování dat:

Úkolem klasifikace je určit kategorii a třídu každého objektu.

Účelem regrese je najít vzory pro určení číselné hodnoty.

Úkolem předpovídat nové hodnoty na základě existujících hodnot číselné sekvence. Trendy se berou v úvahu.

analýza dolování textových dat

Úkolem shlukování je rozdělení množiny objektů do skupin (clusterů) s podobnými parametry. V tomto případě, na rozdíl od klasifikace, může být počet shluků a jejich charakteristiky předem neznámé a mohou být určeny během konstrukce shluků na základě stupně blízkosti kombinovaných objektů na základě sady parametrů.

Úkolem určování vztahů je identifikovat často se vyskytující množiny objektů mezi mnoha podobnými množinami.

Sekvenční analýza - objevování zákonitostí v sekvencích událostí.

Analýza odchylek - hledání událostí, které se liší od normy.

Na základě způsobu řešení problémů dolování dat je lze rozdělit do dvou tříd: učení pod dohledem a učení bez dozoru. V prvním případě je vyžadována trénovací datová sada, na které je vytvořen a trénován model dolování dat. Hotový model je testován a následně použit k predikci hodnot v nových souborech dat. Ve druhém případě je cílem identifikovat vzory existující v existující sadě dat.

Závěr

Data mining je jednou z nejdůležitějších a nejoblíbenějších oblastí aplikované matematiky. Moderní obchodní a výrobní procesy generují obrovské množství dat, takže je pro lidi stále obtížnější interpretovat a reagovat na velké množství dat, která se během běhu dynamicky mění. Z vícerozměrných, heterogenních, neúplných, nepřesných, protichůdných, nepřímých dat je nutné vytěžit maximum užitečných znalostí. A hlavní věcí je dělat to efektivně, pokud se objem dat měří v gigabajtech nebo dokonce terabajtech.

Je důležité chránit lidi před přetížením informacemi, převádět provozní data na užitečné informace, aby bylo možné podniknout správné kroky ve správný čas.

Seznam použité literatury a internetových zdrojů

1.L.M. Ermakova Metody klasifikace textů a stanovení kvality obsahu. Bulletin Permské univerzity 2011. MDT 004.912

3.

4.

5.

6.

Článek Dmitry Lande"Knowledge Mining" byl jeden z prvních článků, které jsem četl o Text Mining - který byl publikován v časopise CHIP v říjnu 2003.

Nezpracovaná nestrukturovaná data tvoří minimálně 90 % informací, se kterými uživatelé nakládají. Najít v takových datech něco cenného je možné pouze pomocí specializovaných technologií.

Elektronické informace hrají v moderní společnosti stále důležitější roli ve všech sférách života. Terabajty textových dat se shromažďují v informačních úložištích distribuovaných po celém světě. Rozvoj internetových informačních zdrojů opakovaně prohluboval problém přetížení informacemi.

Výzkumná služba Cyveillance uvedla, že v roce 2001 přesáhl celkový počet stránek na internetu 4 miliardy. Průměrná velikost webové stránky je 10 KB, průměrná stránka obsahuje 23 interních odkazů, 5,6 externích odkazů a 14-15 obrázků. Pokud k tomu přidáme pole nestrukturovaných dokumentů v podnikových kartotékách a databázích, je snadné pochopit, proč se mnoho organizací zajímá o technologie pro automatizovanou analýzu a klasifikaci informací prezentovaných v přirozeném jazyce. Podle stávajících odhadů tvoří nestrukturovaná data – především text – minimálně 90 % informací, se kterými firmy a organizace nakládají. A pouze 10 % pochází ze strukturovaných dat načtených do relačních DBMS.

"Lidé budou hledat to, co znají, přístupem k úložištím dokumentů. Nicméně nebudou nebo prostě nemohou hledat to, co neznají, i když mají přístup ke sbírce dokumentů," řekl Jim Nisbet, viceprezident Semio. která je jedním z předních výrobců systémů pro dolování dat. "Typ efektivní textové analýzy - Těžba textu- využití výpočetního výkonu musí identifikovat vztahy, které mohou vést k získání nových znalostí uživatelem.“

Technologie pro efektivní analýzu textu Těžba textu je schopen vystupovat jako tutor, který po prostudování celého kurzu naučí jen ty nejdůležitější a nejdůležitější informace. Uživatel tak nemusí sám „prosekávat“ obrovské množství nestrukturovaných informací. Vyvinuto na základě statistických a lingvistických analýz a technologií umělé inteligence Těžba textu Jsou přesně navrženy tak, aby prováděly sémantickou analýzu, poskytovaly navigaci a vyhledávání v nestrukturovaných textech. Použitím systémů postavených na jejich základě budou moci uživatelé získávat nové cenné informace – znalosti.

Oddělování pšenice od plev...

CIA nedávno zveřejnila svůj Strategický investiční plán pro analýzu zpravodajské komunity. V plánu představitelé zpravodajských služeb přiznávají, že plně nevyužili sílu otevřených zdrojů a práce s nimi by se nyní měla stát „nejvyšší prioritou investic“. Nyní CIA důvodně věří, že získávání informací z otevřených zdrojů je bezpečnější a levnější než používání zpravodajských informací. Technologie hloubkové analýzy textu - Těžba textu- toto je samotná sada nástrojů, která vám umožňuje analyzovat velké objemy informací při hledání trendů, vzorců a vztahů, které mohou pomoci při strategických rozhodnutích. Kromě, Těžba textu je nový typ vyhledávání, který na rozdíl od tradičních přístupů nejen najde seznamy dokumentů, které jsou formálně relevantní pro dotazy, ale také pomůže odpovědět na otázku: „Pomozte mi pochopit význam, vypořádat se s tímto problémem.“ Claude Vogel, spoluzakladatel a technologický ředitel společnosti Semio, vysvětluje: „Použitím analogie knihovny, technologie Těžba textu je jako otevřít čtenáři knihu s přeškrtnutými potřebnými informacemi. Porovnejte to s tím, že byste čtenáři předložili hromadu dokumentů a knih, které někde obsahují informace, které čtenář potřebuje, ale nebude je moci snadno najít." Proces smysluplného vyhledávání zdaleka není triviální, často ve sbírce dokumentů existuje pouze náznak potřebných informací Výkonná inteligence je vyžadována příležitostí k nalezení toho, co je požadováno Ve jménu technologie působí slovo „těžba“ jako metafora pro nalezení hluboce „zakopaných“ informací.

Je třeba poznamenat, že technologii hluboké textové analýzy historicky předcházela technologie data miningu, jejíž metodika a přístupy jsou široce používány v metodách Těžba textu. Pro dolování textu je definice, kterou pro dolování dat uvedl jeden z předních světových odborníků, Grigory Pyatetsky-Shapiro z GTE Labs, celkem spravedlivá: „Proces objevování dříve neznámých, netriviálních, prakticky užitečných a interpretovatelných znalostí v nezpracovaných datech. nezbytné pro rozhodování v různých sférách lidské činnosti“. Jako většina kognitivních technologií - Těžba textu je algoritmická identifikace dříve neznámých spojení a korelací v existujících textových datech.

Technologie, která se zformovala v polovině 90. let 20. století jako směr pro analýzu nestrukturovaných textů Těžba textu okamžitě přijal klasické metody dolování dat, jako je klasifikace nebo shlukování. V Těžba textu Objevily se i další funkce, jako je automatická sumarizace textů a výběr pojmů, jevů a faktů. Schopnosti moderních systémů Těžba textu mohou být použity ve znalostním managementu k identifikaci vzorů v textu, k automatickému „vytahování“ nebo umístění informací do profilů, které uživatele zajímají, a vytváření recenzí dokumentů. Technologie Těžba textu Kromě toho je objektivita vlastní – neexistuje žádný subjektivismus charakteristický pro lidského analytika.

Důležitá součást technologie Těžba textu je spojena s extrakcí z textu jeho charakteristických prvků nebo vlastností, které lze použít jako metadata dokumentu, klíčová slova a anotace. Dalším důležitým úkolem je přiřadit dokument do určitých kategorií z daného systemizačního schématu. Těžba textu také poskytuje novou úroveň sémantického vyhledávání dokumentů.

Základy technologie dolování textu

V souladu s již zavedenou metodikou hlavní prvky Těžba textu zahrnují shrnutí, extrakci funkcí, shlukování, klasifikaci, zodpovídání otázek, tematické indexování a vyhledávání klíčových slov. V některých případech je sada doplněna o nástroje pro podporu a tvorbu taxonomií (oftaxonomií) a tezaury.

Alexander Linden, ředitel Gartner Research, identifikoval čtyři hlavní typy technologických aplikací Těžba textu:

Klasifikace textu, která využívá statistické korelace ke konstrukci pravidel pro umisťování dokumentů do předem definovaných kategorií. Shlukování založené na vlastnostech dokumentu, pomocí lingvistických a matematických metod bez použití předem definovaných kategorií. Výsledkem je taxonomie nebo vizuální mapa, která poskytuje efektivní pokrytí velkých objemů dat. Sémantické sítě nebo analýza odkazů, které určují vzhled deskriptorů (klíčových frází) v dokumentu a poskytují navigaci. Extrakce faktů je navržena k získání některých faktů z textu za účelem zlepšení klasifikace, vyhledávání a shlukování.

Stává se tak, že se nejčastěji vyskytuje v Těžba textuúkolem je klasifikace - přiřazování databázových objektů do předdefinovaných kategorií. Klasifikační úloha je ve skutečnosti klasickým rozpoznávacím úkolem, kdy systém na základě trénovacího vzorku přiřadí nový objekt do té či oné kategorie. Funkce systému Těžba textu je, že počet objektů a jejich atributů může být velmi velký; proto musí být k dispozici inteligentní mechanismy pro optimalizaci procesu klasifikace. Ve stávajících systémech se dnes klasifikace používá například v následujících úkolech: seskupování dokumentů na intranetech a webových stránkách, umísťování dokumentů do konkrétních složek, třídění e-mailových zpráv, selektivní distribuce novinek předplatitelům.

Druhým úkolem je shlukování – identifikace kompaktních podskupin objektů s podobnými vlastnostmi. Systém musí samostatně najít znaky a rozdělit objekty do podskupin. Obvykle předchází klasifikační úloze, protože umožňuje definovat skupiny objektů. Existují dva hlavní typy shlukování – hierarchické a binární. Hierarchické shlukování spočívá v sestavení stromu shluků, z nichž každý obsahuje malou skupinu dokumentů. Příklad obslužného programu pro binární klastrování je k dispozici na serveru IBM na adrese http://www.software.ibm.com/data/iminer/fortext. Binární shlukování poskytuje seskupování a procházení shluků dokumentů na základě podobnostních vazeb. Dokumenty, které jsou svými vlastnostmi nejblíže, jsou umístěny v jednom clusteru. Během procesu shlukování se vytváří základ odkazů z dokumentu do dokumentu na základě vah a společného použití definovaných klíčových slov. Clustering se dnes používá při abstrahování velkých dokumentárních polí, identifikaci vzájemně souvisejících skupin dokumentů, zjednodušení procesu procházení při hledání potřebných informací, hledání jedinečných dokumentů z kolekce, identifikaci duplikátů nebo dokumentů, které jsou obsahově velmi podobné.

Můžeme jmenovat několik dalších technologických výzev Těžba textu, například prognózování, které spočívá v předpovídání hodnot ostatních na základě hodnot některých vlastností objektu.

Dalším úkolem je nacházet výjimky, tedy hledat předměty, které svými vlastnostmi vyčnívají z davu. K tomu jsou nejprve určeny průměrné parametry objektů a poté jsou zkoumány ty objekty, jejichž parametry se nejvíce liší od průměrných hodnot. Jak známo, hledání výjimek se hojně využívá například v práci zpravodajských agentur. Tento typ analýzy se často provádí po klasifikaci, aby se zjistilo, jak přesná byla klasifikace.

Poněkud odděleně od úkolu shlukování je úkol vyhledávání souvisejících znaků (oborů, pojmů) jednotlivých dokumentů.

Tato úloha se od predikce liší tím, že není předem známo, jakými vlastnostmi je vztah realizován; Cílem je právě najít souvislosti mezi funkcemi. Tento úkol je podobný shlukování, ale ne pomocí sady dokumentů, ale podle sady jejich inherentních charakteristik. Těžba textu Nakonec zpracovat a interpretovat výsledky Těžba textu Velký význam má vizualizace. Vizualizace dat zahrnuje zpracování strukturovaných číselných dat, ale je také klíčová pro reprezentaci vzorů v nestrukturovaných textových dokumentech. Zejména moderní třídní systémy

dokáže analyzovat velké množství dokumentů a vytvářet předmětové rejstříky pojmů a témat obsažených v těchto dokumentech. Vizualizace se obvykle používá jako prostředek k prezentaci obsahu celé řady dokumentů a také k implementaci navigačního mechanismu, který lze použít při studiu dokumentů a jejich tříd.

Implementace systému

  • V současné době mnoho předních výrobců softwaru nabízí své produkty a řešení v oblasti Text mining. Zpravidla se jedná o škálovatelné systémy, které implementují různé matematické a lingvistické algoritmy pro analýzu textových dat. Mají dobře vyvinutá grafická rozhraní, bohaté možnosti vizualizace a manipulace s daty, poskytují přístup k různým zdrojům dat a fungují v architektuře klient-server. Zde je několik příkladů takových systémů:
  • Intelligent Miner for Text (IBM)
  • TextAnalyst, WebAnalyst (Megacomputer Intelligence)
  • Text Miner (SAS)
  • SemioMap (Semio Corp.)
  • Oracle Text (Oracle)
  • Knowledge Server (autonomie)
  • Galaktika-ZOOM (Galaktika Corporation)

InfoStream (Informační centrum "ELVISTI")

Níže se podíváme na některé z těchto systémů podrobněji.

Produkt IBM Intelligent Miner for Text je sada samostatných nástrojů spouštěných z příkazového řádku nebo skriptů nezávisle na sobě. Tento systém je jedním z nejlepších nástrojů pro hloubkovou analýzu textu. Systém obsahuje následující základní nástroje (Nástroje) pro vytváření aplikací pro správu znalostí:

Language Identification Tool - nástroj pro identifikaci jazyka - pro automatické určení jazyka, ve kterém je dokument zkompilován.

Categorization Tool - klasifikační nástroj - automatické přiřazení textu do určité kategorie (vstupní informace pro tréninkovou fázi tohoto nástroje mohou být výsledkem další utility - Clusterisation Tool).

Nástroj Clusterisation Tool – nástroj pro shlukování – rozděluje velkou sadu dokumentů do skupin na základě blízkosti stylu, formy a různých frekvenčních charakteristik identifikovaných klíčových slov.

Feature Extraction Tool - nástroj pro identifikaci nových věcí - identifikaci nových klíčových slov v dokumentu (vlastní jména, názvy, zkratky) na základě analýzy předdefinovaného slovníku.

Annotation Tool – nástroj pro „identifikaci významu“ textů a sestavování abstraktů – anotací ke zdrojovým textům.

IBM Intelligent Miner for Text kombinuje výkonnou sadu nástrojů založenou především na mechanismech vyhledávání informací, což je specifikum celého produktu. Systém obsahuje řadu základních komponent, které mají nezávislý význam přesahující hranice technologie „text mining“ - jedná se o systém vyhledávání informací Text Search Engine, nástroj pro skenování webového prostoru Web crawler, Net Question Solution - řešení pro vyhledávání a místní web nebo několik intranetových/internetových serverů, Java Sample GUI - sada rozhraní Java Beans pro správu a organizaci vyhledávání na základě textového vyhledávače.

Intelligent Miner for Text jako produkt IBM je součástí komplexu "Information Integrator for Content" pro DB2 DBMS jako nástroj pro dolování informací.

Náklady na produkty různých úrovní rodiny Intelligent Miner se pohybují od 18 do 75 tisíc dolarů.

TextAnalyst

Ruská společnost Megaputer Intelligence, známá svým systémem třídy PolyAnalyst Data Mining, vyvinula také systém TextAnalyst (http://www.megaputer.com/products/ta/index.php3, který takové problémy řeší Těžba textu: vytvoření sémantické sítě velkého textu, příprava textových souhrnů, vyhledávání v textu a automatická klasifikace a shlukování textů. Budování sémantické sítě je hledáním klíčových pojmů v textu a navazováním vztahů mezi nimi. Pomocí takové sítě můžete nejen porozumět tomu, co je řečeno v textu, ale také provádět kontextovou navigaci. Příprava shrnutí je zvýraznění vět v textu, ve kterých se slova, která jsou pro tento text významná, nacházejí častěji než jiná. V 80 % případů to stačí k získání představy o textu. Pro vyhledávání informací v systému je zajištěno použití dotazů v přirozeném jazyce. Na požádání je vybudována unikátní sémantická síť, která při interakci se sítí dokumentů umožňuje vybrat potřebné textové fragmenty. Shlukování a klasifikace se provádí pomocí standardních metod dolování dat.

Systém textového analytika, uvažuje Těžba textu jako samostatný matematický aparát, který mohou vývojáři softwaru zabudovat do svých produktů, aniž by se spoléhali na platformy systému vyhledávání informací nebo DBMS. Hlavní platformou pro použití systému je MS Windows 9x/2000/NT. Existuje plugin TextAnalyst pro Microsoft Internet Explorer.

WebAnalyst

Systém WebAnalyst (http://www.megaputer.com/products/wa/index.php3) – také produkt společnosti Megaputer Intelligence – je inteligentní, škálovatelné řešení klient/server pro společnosti, které chtějí maximalizovat dopad analýzy dat v prostředí webu. Server WebAnalyst funguje jako expertní systém pro sběr informací a správu obsahu webové stránky. Moduly WebAnalyst řeší tři problémy: shromažďování maximálního množství informací o návštěvnících stránek a zdrojích, které požadují; zkoumání shromážděných dat a generování personalizovaného obsahu na základě výsledků výzkumu. Společné řešení těchto problémů by podle názoru vývojářů systému mělo vést k maximalizaci počtu nových návštěvníků webu a udržení stávajících, a tedy ke zvýšení popularity zdroje, který je WebAnalyst schopen integrovat Těžba textu přímo na webové stránky organizace. To vám umožňuje nabízet personalizovaný, automatizovaný a cílený marketing, automatizované získávání zdrojů a křížový prodej a rozšířenou škálu uživatelsky přizpůsobitelných dat. WebAnalyst je ve svém jádru inteligentní aplikační server pro e-commerce.

Technická platforma je stejná jako u TextAnalyst.

Text Miner

Americká společnost SAS Institute vydala systém SAS Text Miner pro porovnávání určitých gramatických a verbálních sekvencí v psaném projevu. Text Miner je velmi univerzální, protože dokáže pracovat s textovými dokumenty v různých formátech – v databázích, souborových systémech a dokonce i na webu.

Text Miner poskytuje logické zpracování textu v rámci výkonného balíčku SAS Enterprise Miner. To umožňuje uživatelům obohatit proces analýzy dat integrací nestrukturovaných textových informací se stávajícími strukturovanými daty, jako je věk, příjem a vzorce spotřebitelské poptávky. Text Miner.

Příkladem úspěšného využití logických schopností Text Mineru je společnost Compaq Computer Corp., která v současné době testuje Text Miner analýzou více než 2,5 gigabajtů textových dokumentů přijatých e-mailem a shromážděných zástupci společnosti. Dříve bylo téměř nemožné taková data zpracovat

Program Text Miner vám umožňuje určit, jak pravdivý je konkrétní textový dokument. Detekce lží v dokumentech se provádí analýzou textu a identifikací změn ve stylu psaní, ke kterým může dojít při pokusu o zkreslení nebo skrytí informací. Při hledání takových změn se používá princip hledání anomálií a trendů mezi databázovými záznamy, aniž by se zjišťoval jejich význam. Text Miner zároveň obsahuje rozsáhlou sadu dokumentů různého stupně pravdivosti, jejichž struktura je brána jako šablony. Každý dokument „běh“ na detektoru lži je analyzován a porovnán s těmito standardy, načež program dokumentu přiřadí ten či onen index pravdivosti. Program může být užitečný zejména v organizacích, které dostávají velké množství elektronické korespondence, a také v orgánech činných v trestním řízení pro analýzu důkazů na stejné úrovni jako detektory lži, jejichž činnost je založena na sledování emočního stavu člověka.

Zajímavý příklad použití Text Miner v medicíně: jedna z amerických národních zdravotnických organizací shromáždila přes 10 tisíc lékařských záznamů o srdečních chorobách shromážděných z klinik po celé zemi. Analýzou těchto dat pomocí aplikace Text Miner odborníci objevili některé administrativní nesrovnalosti ve vykazování a byli také schopni určit vztah mezi kardiovaskulárním onemocněním a jinými onemocněními, které nebyly určeny tradičními metodami.

SAS zároveň poznamenává, že svůj produkt Text Miner uvolní především proto, aby přitáhl pozornost podnikatelské inteligence.

SemioMap

SemioMap je produkt Entrieva vytvořený v roce 1996 sémiotickým vědcem Claudem Vogelem. V květnu 1998 byl produkt vydán jako průmyslový komplex SemioMap 2.0 - první systém Těžba textu, pracující v architektuře klient-server. Systém SemioMap se skládá ze dvou hlavních komponent – ​​serveru SemioMap a klienta SemioMap. Systém funguje ve třech fázích:

  • indexování; server SemioMap automaticky čte pole nestrukturovaného textu, extrahuje klíčové fráze (pojmy) a vytváří z nich index;
  • Seskupování pojmů; server SemioMap identifikuje spojení mezi extrahovanými frázemi a na základě společného výskytu z nich vytvoří lexikální síť („mapa pojmů“);
  • Grafický displej a navigace; vizualizace myšlenkových map, která poskytuje rychlou navigaci v klíčových frázích a souvislostech mezi nimi a také možnost rychlého přístupu ke konkrétním dokumentům.

SemioMap podporuje rozdělování materiálu do „složek“, vytváření samostatné databáze pro každou složku. Spojení mezi pojmy, které SemioMap identifikuje, jsou založena na společném výskytu frází v odstavcích pole zdrojového textu.

Centrálním blokem SemioMap je lexikální extraktor - program, který extrahuje fráze z textové sbírky a identifikuje společný výskyt těchto frází (jejich vzájemné vazby). Lexikální extraktor je založen na patentované technologii SEMIOLEX. Implementuje myšlenky výpočetní sémiotiky, vědy o znacích v lingvistické komunikaci, vyvinuté Claudem Vogelem.

InterMedia Text, Oracle Text

Prostředek Těžba textu, počínaje Textovým serverem v Oracle DBMS 7.3.3 a interMedia Text cartridge v Oracle8i, jsou nedílnou součástí produktů Oracle. V Oracle9i se tyto nástroje vyvinuly a dostaly nový název – Oracle Text – softwarový balík integrovaný do DBMS, který vám umožní efektivně pracovat s dotazy souvisejícími s nestrukturovanými texty. V tomto případě je zpracování textu kombinováno s možnostmi poskytovanými uživateli pro práci s relačními databázemi. Zejména se stalo možné používat SQL při psaní aplikací pro zpracování textu.

Hlavním úkolem, na jehož řešení jsou nástroje Oracle Text zaměřeny, je úkol vyhledávat dokumenty podle jejich obsahu - slov nebo frází, které se v případě potřeby kombinují pomocí booleovských operací. Výsledky vyhledávání jsou seřazeny podle relevance s přihlédnutím k frekvenci výskytu dotazovaných slov v nalezených dokumentech. Pro zvýšení úplnosti vyhledávání poskytuje Oracle Text řadu nástrojů pro rozšíření vyhledávacích dotazů, mezi nimiž lze rozlišit tři skupiny. Za prvé se jedná o rozšíření dotazovacích slov o všechny morfologické formy, které je realizováno zapojením znalostí o morfologii jazyka. Za druhé, Oracle Text umožňuje rozšíření dotazovaných slov o slova významově blízká spojením tezauru – sémantického slovníku, a také rozšíření dotazu o slova podobná pravopisu a zvuku – fuzzy vyhledávání a hledání souhláskových slov. Fuzzy vyhledávání je vhodné používat při hledání chybně napsaných slov, stejně jako v případech, kdy vzniknou pochybnosti o správném pravopisu – příjmení, názvy organizací atd.

Systém Oracle Text poskytuje tematickou analýzu textů v angličtině. Text každého dokumentu je při zpracování podrobován lingvistickým a statistickým analytickým postupům, v jejichž důsledku jsou stanovena jeho klíčová témata a sestaveny tematické souhrny a také souhrnné shrnutí - abstrakt.

Všechny popsané nástroje lze používat společně, což je podporováno dotazovacím jazykem v kombinaci s tradiční syntaxí SQL a PL/SQL pro vyhledávání dokumentů. Oracle Text poskytuje možnost pracovat s moderními relačními DBMS v kontextu komplexního víceúčelového vyhledávání a analýzy textových dat.

Možnosti zpracování textových informací v ruštině v aplikaci Oracle Text jsou značně omezené. K vyřešení tohoto problému vyvinula společnost Garant-Park-Internet modul Russian Context Optimizer (RCO), určený pro použití společně s interMedia Text (nebo Oracle Text). Kromě podpory morfologie ruského jazyka obsahuje RCO nástroje pro fuzzy vyhledávání, tematickou analýzu a abstrahování dokumentů.

Autonomní znalostní server

Systémová architektura společnosti Autonomy, známá svým vývojem v oblasti statistické analýzy obsahu, kombinuje inteligentní analýzu vzorů se sofistikovanou kontextovou analýzou a technikami extrakce významu pro řešení problémů automatické klasifikace a křížových odkazů. Hlavní výhodou systému Autonomy jsou výkonné inteligentní algoritmy založené na statistickém zpracování. Tyto algoritmy jsou založeny na teorii informace Clauda Shannona, Bayesových pravděpodobností a neuronových sítích.

Koncept adaptivního pravděpodobnostního modelování (APCM) umožňuje Autonomy identifikovat vzory v textu dokumentu a automaticky detekovat podobné vzory v řadě dalších dokumentů.

Důležitým bodem v systému Autonomy Knowledge Server je schopnost analyzovat texty a identifikovat klíčové pojmy v dokumentech pomocí analýzy korelace frekvencí a vztahů termínů s významem textu. Komponenta Autonomy - Agentware využívá jedinečnou technologii analýzy vzorů (nelineární adaptivní digitální zpracování signálu) k extrakci významu z dokumentů a určení charakteristik obsažených v textech. APCM vám umožňuje identifikovat jedinečné "podpisy" významu textu a také vytvářet koncepční agenty, kteří hledají podobné položky na webových stránkách, zprávách, e-mailových archivech a dalších dokumentech. Protože systém není založen na předdefinovaných klíčových slovech, může pracovat s libovolným jazykem.

Jádrem systému agentů Autonomy je dynamický uvažovací engine (DRE), založený na technologii zpracování vzorů, která využívá techniky neuronové sítě pocházející z mateřské společnosti Autonomy, Neurodynamics. DRE využívá koncept adaptivního pravděpodobnostního modelování k implementaci čtyř hlavních funkcí: zjišťování konceptů, vytváření agentů, školení agentů a standardní textové vyhledávání. DRE přijímá dotazy v přirozeném jazyce nebo výrazy spojené logickými operátory a vrací seznam dokumentů seřazených podle relevance k dotazu. Tento mechanismus je základem všech produktů Autonomy agent system. Autonomy's Knowledge Server je popsán na http://www.autonomy.com/tech/whitepaper.pdf.

Galaktika-ZOOM

Systém Galaktika-ZOOM je produktem ruské korporace Galaktika. Hlavním účelem systému je inteligentní vyhledávání pomocí klíčových slov s přihlédnutím k morfologii ruského a anglického jazyka a také k vytváření informačních polí o konkrétních aspektech. Objem informací přitom může dosahovat stovek gigabajtů. Jde o zaměření na velké informační objekty - mediální sdělení a články, oborový tisk, regulační dokumentace, obchodní korespondence a materiály toku interních dokumentů podniku, informace z internetu. Systém zároveň poskytuje určité nástroje pro analýzu objektivních sémantických souvislostí vybraných dat a vytváření „obrazu“ problému – vícerozměrného modelu v toku informací ve formě seřazeného seznamu významných slov používaných ve spojení s tématem problému. Velká pozornost je v systému věnována identifikaci trendů v dynamice vývoje studovaného problému. Systém obsahuje převodníky pro běžné formáty: prostý text, RTF, DOC, HTML. Galaktika-ZOOM pracuje v prostředí OS Windows 2000.

InfoStream

Pokrytí a zobecnění velkých dynamických informačních polí průběžně generovaných na webu vyžadovalo kvalitativně nové přístupy. Je potřeba vytvořit metody pro sledování informačních zdrojů, které úzce souvisí s metodikou obsahové analýzy – sledování obsahu. Pro získání kvalitativních a kvantitativních údajů musí být takové sledování prováděno nepřetržitě po předem neurčenou dobu. K vyřešení tohoto problému byla na Ukrajině v Informačním centru ELVISTI vyvinuta technologie InfoStream™. Softwarové a technologické nástroje InfoStream zahrnují tři hlavní součásti:

  • centrum pro sběr a zpracování informací;
  • centrum pro organizování interaktivního přístupu k databázím;
  • centrum pro sledování obsahu.

Jádrem mechanismu zpracování obsahu InfoStreamu je fulltextový systém vyhledávání informací InfoReS. Tato technologie umožňuje vytvářet fulltextové databáze a vyhledávat informace, vytvářet tematické informační kanály, automaticky kategorizovat informace, generovat výtahy, tabulky vztahů mezi pojmy (vzhledem k jejich výskytu v online publikacích), histogramy rozložení hodnot váhy ​​jednotlivých pojmů a také dynamiky jejich výskytu v čase. Technologie InfoStream umožňuje zpracovávat data ve formátech MS WORD (DOC, RTF), PDF a všech textových formátech (prostý text, HTML, XML). Systémy založené na InfoStreamu v současné době fungují na následujících platformách OS: FreeBDS, Linux, Solaris.

Podívejme se do budoucnosti

Není to tak dávno, co americká Ústřední zpravodajská služba představila široké veřejnosti své technologie „dolování dat“ používané k vyhledávání informací v textech, rozhlasovém a televizním vysílání The Advanced Information Technology Division, která je součástí ředitelství pro vědu a technologie amerického Central Zpravodajská agentura předvedla veřejnosti technologii „Text Data Mining, která se používá k vyhledávání smysluplných informací v obrovském množství dokumentů a v rozhlasovém a televizním vysílání v různých jazycích. Vyhledávání se provádí pomocí systemizovaných i náhodných zdrojů a hledanými objekty jsou texty v tištěných publikacích i v digitální podobě, grafické obrázky, zvukové informace ve 35 jazycích. K odfiltrování zvukových informací se používá technika „Oasis“, která rozpozná řeč a převede ji na text. Technologie zároveň umožňuje oddělit mužské hlasy od ženských a také hlasy patřící různým lidem a zaznamenat je ve formě dialogů. Technika "Oasis" vám umožňuje vybrat ze zvukového proudu pouze ty hlasy nebo konkrétní informace, které jsou zahrnuty v nastavení vyhledávání.

Další počítačová technologie s názvem Fluent umožňuje jednotkám CIA vyhledávat informace v textových dokumentech. Tato technologie zahrnuje vyhledávání klíčových slov, kdy je slovo nebo kombinace zadáno v angličtině, které je okamžitě přeloženo do řady dalších jazyků a informace nalezené z databáze v různých jazycích jsou po automatickém překladu odeslány výzkumníkovi. Další program, Text Data Mining, umožňuje automaticky vytvářet předmětové rejstříky pro textové dokumenty a také získávat data o frekvenci používání určitých slov v dokumentech. CIA dnes používá tyto technologie ke sledování nelegálních finančních transakcí a obchodu s drogami.

Výše zmíněné technologie má na starosti oddělení pokročilých informačních technologií (AIT) ředitelství pro vědu a technologie CIA. „Nerosteme dostatečně rychle, abychom drželi krok s explozí informací, které sem každý den proudí,“ řekl ředitel AIT Larry Fairchild moucha."

Z hlediska profesionálního použití nářadí Těžba textu CIA zdaleka není monopolistou. Podle prognóz analytické společnosti IDC se poptávka po takových programech v příštích 4-5 letech výrazně zvýší. Očekává se tedy, že do roku 2005 se zisky z takového softwaru zvýší z 540 milionů dolarů (v roce 2002) na jednu a půl miliardy dolarů. Příležitosti, jako je expresní analýza nalezených informací, rekognoskace informací (extrakce rozptýlených přímých a nepřímých informací o určitém problému), tvorba a údržba tematických spisů se schopností identifikovat trendy a vztahy mezi osobami, událostmi a procesy jsou již k dispozici. používá řada velkých podniků a jistě bude dále poptáván.

Do roku 2006 se tyto typy programů stanou dominantními v analýze informací od zákazníků ve společnostech jakékoli úrovně, ať už jde o call centra, internetové agentury nebo analytické agentury, říká expert Alessandro Zanasi, dříve ze skupiny META. HR oddělení budou používat programy pro dolování textu k vyhledávání životopisů, které odpovídají složité mřížce ukazatelů. A marketingová oddělení najdou využití pro takové programy, jako jsou analyzátory situace na trhu, sledování trendů, pozice konkurence a další ukazatele založené na informacích a různých zdrojích – zpravodajství, výzkumné zprávy, recenze, patenty.

Technologie Text Mining, vyvinuté na základě statistické a lingvistické analýzy, stejně jako metod umělé inteligence, jsou navrženy tak, aby prováděly analýzy, poskytovaly navigaci a vyhledávání v nestrukturovaných textech. Pomocí systémů tříd Text Mining uživatelé získávají nové znalosti.

Technologie textové těžby - soubor metod určených k získávání informací z textů založených na moderních ICT, který umožňuje identifikovat vzorce, které mohou vést k získání užitečných informací a nových znalostí uživateli.

Je to nástroj, který poskytuje možnost analyzovat velké objemy informací při hledání trendů, vzorců a vztahů, které mohou pomoci při strategických rozhodnutích.

Je třeba poznamenat, že technologii textové analýzy historicky předcházelo vytvoření technologie analýzy dat, jejíž metodika a přístupy jsou také široce používány v metodách dolování textu, například klasifikační nebo shlukovací metody. V Text Miningu se objevily nové funkce: automatické abstrahování textů a identifikace jevů, tedy pojmů a faktů. Schopnosti moderních systémů dolování textu lze využít v systémech správy znalostí k identifikaci vzorů v textu, distribuci informací mezi profily a vytváření recenzí dokumentů. Text Mining poskytuje novou úroveň sémantického vyhledávání dokumentů.

Důležitá složka technologie Text Mining je spojena s extrakcí jeho charakteristických vlastností z textu, které se pak používají jako klíčová slova a anotace. Dalším důležitým úkolem je přiřadit dokument do určitých kategorií z daného systemizačního schématu. Hlavním cílem Text Mining je

dát analytikovi možnost pracovat s velkými objemy zdrojových dat automatizací procesu získávání potřebných informací.

Základní prvky dolování textu:

1) získávání jevů - Extrakce rysů (Entity) - extrahování slov nebo skupin slov, které jsou z pohledu uživatele důležité pro popis obsahu dokumentu. Může se jednat o informace o osobě, organizaci, zeměpisné poloze, časovém rámci nebo jiné fráze - Extrakce asociace funkce (Entity) - z technologického hlediska složitější sady slov;

2) automatická abstrakce, anotace (summarizace)

Vytvoření shrnutí dokumentu s jeho plným textem;

3) klasifikace, která využívá statistické korelace ke konstrukci pravidel pro zařazování dokumentů do specifikovaných kategorií;

4) shlukování, které je založeno na charakteristikách dokumentů, využívá lingvistické a matematické metody bez použití poskytnutých kategorií;

5) odpovídání na otázky (odpovídání na otázky);

6) tematické indexování;

7) vyhledávání podle klíčových slov;

8) konstrukce sémantických hranic nebo analýza spojení (Relationship, Event a Fact Extraction), které určují vzhled deskriptorů (klíčových frází) v dokumentu pro zajištění vyhledávání a navigace. Jedná se o nejkomplexnější možnost získávání informací, která zahrnuje vytěžení podstaty, rozpoznání faktů a událostí a také vytěžení informací z těchto skutečností. Získání faktů

Jedná se o extrakci určitých faktů z textu za účelem zlepšení klasifikace, vyhledávání a shlukování.

U klasifikačních metod se v současnosti používají inteligentní mechanismy pro optimalizaci klasifikačního procesu. Klasifikace se používá například k řešení problémů, jako je seskupování dokumentů v podnikových sítích, na webových stránkách a třídění e-mailových zpráv.

Clustering je široce používán při abstrahování velkých informačních polí nebo při identifikaci vzájemně propojených skupin dokumentů, stejně jako pro zjednodušení procesu procházení při hledání potřebných informací, k nalezení jedinečných dokumentů z kolekce, k identifikaci duplikátů nebo dokumentů, které jsou svým obsahem velmi podobné. .

Existují dva hlavní typy shlukování: hierarchické a binární. Hierarchické shlukování spočívá v sestavení stromu shluků, z nichž každý obsahuje malou skupinu dokumentů. Binární shlukování poskytuje seskupování a prohlížení shluků dokumentů na základě podobnosti. Dokumenty s podobnými vlastnostmi jsou umístěny v jednom clusteru. Proces shlukování vytváří základ odkazů z dokumentu do dokumentu, který je založen na vahách a sdílení klíčových slov.

Jedna z důležitých aplikací Text Mining vám umožňuje předpovídat hodnoty ostatních na základě hodnot některých charakteristik objektů. Nalezení výjimek (hledání objektů, které svými vlastnostmi vyčnívají z obecného obrazu) je také důležitou oblastí výzkumu Text Mining.

Úkol vyhledávání souvisejících znaků (pojmů) jednotlivých dokumentů je obdobný jako shlukování, provádí se však pomocí určitého souboru charakteristických znaků.

Moderní systémy třídy Text Mining dokážou analyzovat velká pole dokumentů a generovat předmětové rejstříky pojmů a témat obsažených v těchto dokumentech.

Od 60. let, s příchodem automatizačních nástrojů a textů v elektronické podobě, se rozvinula obsahová analýza velkoobjemových informací. Data mining je z pohledu obsahové analýzy chápán jako mechanismus pro identifikaci nových znalostí v datovém toku, jako jsou modely, návrhy, asociace, změny, anomálie a strukturální nové formace.

Obsahová analýza - jedná se o kvalitativně-kvantitativní, systematické zpracování, hodnocení a interpretaci formy a obsahu textu.

V současné době se používá několik přístupů k prezentaci informací v databázích, aby bylo možné tyto informace dále získávat. Nejběžnějšími přístupy jsou booleovské modely a modely vyhledávání ve vektorovém prostoru.

Booleovský model je založen na teorii množin, a proto je modelem vyhledávání informací založeným na matematické logice. V dnešní době je populární kombinovat booleovský s vektorově prostorovým modelem algebry reprezentace dat, který umožňuje na jedné straně rychlé vyhledávání pomocí matematických logických operátorů a na druhé straně řazení dokumentů na základě vah klíčových slov.

Při použití booleovského modelu databáze obsahuje index organizovaný jako invertované datové pole, které pro každý termín z databázového slovníku obsahuje seznam dokumentů, ve kterých se tento termín vyskytuje.

Index může také ukládat frekvenci výskytu tohoto výrazu v každém dokumentu, což pomáhá seřadit seznam v sestupném pořadí výskytu.

Většina známých systémů vyhledávání informací a systémů klasifikace informací je založena na použití modelu popisu vektorových dat (Vector Space Model). Vektorový model je klasický algebraický model. V rámci tohoto modelu je dokument popsán vektorem v euklidovském prostoru, ve kterém je v každém dokumentu spojen termín s jeho váhovým koeficientem, který je určen na základě statistických informací o jeho výskytu v samostatném dokumentu nebo v pole dokumentů. Popis dotazu, který odpovídá danému tématu, je také vektorem ve stejném euklidovském termínovém prostoru. K vyhodnocení blízkosti dotazu a dokumentu se používá skalární součin odpovídajícího vektoru popisu tématu a dokumentu.

Model reprezentace vektorových prostorových dat automaticky poskytuje systémům následující schopnosti: zpracování velkých dotazů; jednoduchá implementace režimu vyhledávání pro dokumenty podobné nalezeným; uložení výsledků vyhledávání do informačního pole s následným zpřesněním vyhledávání.

V praxi se však nejčastěji používají kombinované přístupy, které kombinují schopnosti booleovského a vektorově-prostorového modelu a přidávají originální metody zpracování sémantických informací. Nejčastěji se v systémech pro vyhledávání informací postup vyhledávání provádí v souladu s booleovským modelem a výsledky jsou seřazeny podle vah podle vektorového prostorového modelu.

V současné době existuje mnoho výrobců softwaru, kteří nabízejí své produkty a řešení v oblasti Text Mining.

Jedná se o škálovatelné systémy, které implementují různé matematické a lingvistické algoritmy pro analýzu textových dat a mají přátelská grafická rozhraní, vizualizace a možnosti manipulace s daty, poskytují přístup k různým zdrojům dat a fungují v architektuře klient-server. Například Intelligent Miner for Text (IBM), PolyAnalyst, WebAnalyst, Text Miner (SAS), SemioMap (Semio Corp.), Oracle Text (Oracle), Knowledge Server (Autonomy), GALAKTIKA-ZOOM, InfoStream (ElVisti).

Moderní systémy vyhledávání informací jsou definovány na základě dvou hlavních trendů: zpracování znalostí a využití otevřených systémů. Právě na průsečíku těchto oblastí se objevily technologie agentů. Aktivní vývoj metod a technologií distribuované umělé inteligence, pokroky v oblasti hardwaru a softwaru podporující koncept separace a otevřenosti vedly k rozvoji multiagentních systémů, ve kterých softwaroví agenti společně řeší složité problémy v informačním prostoru.

Schopnost softwarových agentů autonomně plánovat a koordinovat své akce, vyjednávat s ostatními distribuovanými aplikacemi ve složitém heterogenním informačním prostředí a pružně a inteligentně se rozhodovat v dynamicky se měnících a nepředvídatelných situacích vede k tomu, že technologie založené na agentech se stávají jednou z klíčové technologie zpracování informací.


Hlavními úkoly Text Mining Text Mining je algoritmická identifikace dříve neznámých spojení a korelací v existujících textových datech. Důležitý úkol technologie Text Mining souvisí s extrakcí jejích charakteristických prvků nebo vlastností z textu, které lze použít jako metadata dokumentu, klíčová slova a anotace. Dalším důležitým úkolem je přiřadit dokument do určitých kategorií z daného systemizačního schématu. Text Mining také poskytuje novou úroveň sémantického vyhledávání dokumentů. Schopnosti moderních systémů pro dolování textu lze využít ve správě znalostí k identifikaci vzorů v textu, k automatickému „vysunutí“ nebo umístění informací do profilů, které uživatele zajímají, ak vytváření recenzí dokumentů.


Základní prvky Text Mining V souladu s již vytvořenou metodikou mezi hlavní prvky Text Mining patří: klasifikace, shlukování, budování sémantických sítí, vytěžování faktů, konceptů (extrakce rysů), sumarizace, odpovídání na dotazy (otázky) odpovídání), tematické indexování , vyhledávání klíčových slov. V některých případech je sada doplněna podpůrnými nástroji a tvorbou taxonomií (oftaxonomií) a tezaurů.


© ElVisti 4 Klasifikace Při klasifikaci textů se k vytvoření pravidel pro zařazování dokumentů do určitých kategorií používají statistické korelace. Klasifikační úloha je klasická rozpoznávací úloha, kdy systém na základě nějakého kontrolního vzorku přiřadí nový objekt do té či oné kategorie. Zvláštností systémů dolování textu je, že počet objektů a jejich atributů může být velmi velký, takže musí být k dispozici inteligentní mechanismy pro optimalizaci procesu klasifikace. Ve stávajících systémech se dnes klasifikace používá například v následujících úkolech: seskupování dokumentů na intranetech a webových stránkách, umísťování dokumentů do konkrétních složek, třídění e-mailových zpráv, selektivní distribuce novinek předplatitelům.


© ElVisti 5 Clustering Clustering je založen na vlastnostech dokumentu, které využívají lingvistické a matematické metody bez použití specifických kategorií. Výsledkem je taxonomie nebo vizuální mapa, která poskytuje efektivní pokrytí velkých objemů dat. Clustering v Text Mining je považován za proces identifikace kompaktních podskupin objektů s podobnými vlastnostmi. Systém musí samostatně najít znaky a rozdělit objekty do podskupin. Klastrování má zpravidla přednost před klasifikací, protože umožňuje definovat skupiny objektů. Existují dva hlavní typy shlukování – hierarchické a binární. Clustering se používá při abstrahování velkých dokumentárních polí, identifikaci vzájemně souvisejících skupin dokumentů, zjednodušení procesu procházení při hledání potřebných informací, hledání jedinečných dokumentů z kolekce, identifikaci duplikátů nebo dokumentů, které jsou obsahově velmi podobné.


© ElVisti 6 Další prvky Konstrukce sémantických sítí Konstrukce sémantických sítí nebo analýza spojení, které určují vzhled deskriptorů (klíčových frází) v dokumentu pro zajištění navigace. Extrakce faktů Extrakce faktů je navržena tak, aby extrahovala některá fakta z textu za účelem zlepšení klasifikace, vyhledávání a shlukování. Prognóza spočívá v předpovídání hodnot ostatních na základě hodnot některých vlastností objektu. Hledání výjimek Hledejte předměty, které svými vlastnostmi vyčnívají z davu. Vizualizace. Vizualizace se používá jako prostředek k prezentaci obsahu textových polí a také k implementaci navigačních mechanismů.


© ElVisti 7 Automatické shrnutí Automatické shrnutí textu je kompilace krátkých souhrnů materiálů, anotací nebo výtahů, tzn. extrahování nejdůležitějších informací z jednoho nebo více dokumentů a generování stručných a informačně bohatých zpráv na jejich základě. Existují dva směry automatické abstrakce – kvaziabstrakce a shrnutí obsahu. Kvaziabstrakce je založena na vytěžování fragmentů dokumentů – zvýraznění nejinformativnějších frází a vytváření kvaziabstraktů z nich. Stručné shrnutí zdrojového materiálu je založeno na izolaci nejdůležitějších informací z textů pomocí metod umělé inteligence a speciálních informačních jazyků a generování nových textů, které smysluplně shrnují primární dokumenty. Sémantické metody pro tvorbu abstraktů umožňují dva hlavní přístupy: metodu syntaktické analýzy vět a metody založené na porozumění přirozenému jazyku a metodách umělé inteligence.


Sledování toku zpráv. Vysvětlení problému Uživatel potřebuje: Na jednom místě získat nějakou mapu zpráv Zjistit, co různé zdroje říkají o stejných zprávách, aniž byste museli věnovat zvláštní úsilí; časem


Zpravodajská zpráva je zveřejněná zpráva, která má tyto vlastnosti: datum, čas zveřejnění (může se lišit od data/času události) a zdroj (název média). Zpravodajská zpráva je zveřejněná zpráva, která má tyto vlastnosti: datum, čas zveřejnění (může se lišit od data/času události) a zdroj (název média). Zpráva je soubor informací (zprávy) o určitých entitách a jevech (o lidech, věcech, vztazích, činech, procesech, vlastnostech atd.), jakož i o souvisejících entitách a jevech. Vychází se z předpokladu, že skupina zpráv, které mají podobný obsah a jsou časově blízké, odpovídá zpravodajské zprávě. Zvýrazňování zpráv tedy spočívá v rozdělení zpráv do skupin. Zpráva je soubor informací (zprávy) o určitých entitách a jevech (o lidech, věcech, vztazích, činech, procesech, vlastnostech atd.), jakož i o souvisejících entitách a jevech. Vychází se z předpokladu, že skupina zpráv, které mají podobný obsah a jsou časově blízké, odpovídá zpravodajské zprávě. Zvýrazňování zpráv tedy spočívá v rozdělení zpráv do skupin. Tisková zpráva je seznam zpráv seřazených podle určitých kritérií. Tisková zpráva je seznam zpráv seřazených podle určitých kritérií. Sledování toku zpráv. Prohlášení o problému


Nový směr pro výzkum IR: Nový směr pro výzkum IR: Sledování toku zpráv. Prohlášení o problému Detekce a sledování tématu TDT??? Jak se nová úloha liší od standardních IR úloh? ???Jsou standardní IR metody použitelné na nový problém? TDT jsou technologie, které slouží nejen k vyhledávání podobných zpráv, ale také ke sledování jednotlivých událostí a získávání informačního obrazu světa v určité době.


Sledování toku zpráv. Vyjádření problému Seznam hlavních úkolů Segmentace článků (Story Segmentation) má za úkol rozdělit souvislý proud na zprávy související se stejnou událostí. Sledování témat – Vyhledání všech zpráv, které jsou podobné mnoha referenčním zprávám. Detekce témat - shlukování všech zpráv generovaných konkrétní událostí. Detekce prvního příběhu – k nalezení úplně první zprávy v nové události. Detekce odkazů – umožňuje určit, zda jsou dvě zprávy generovány stejnou událostí.




TDT. Možnosti. Příklad 1. Ministerstvo financí předložilo vládě návrh zákona, kterým se upravuje zákon o povinném ručení z motorových vozidel, který nyní zavádí nové ustanovení o placení penále pojistitelů v případě prodlení s placením pojistného. Účastníci trhu iniciativy Ministerstva financí obecně vítají, protože se domnívají, že plateb za pozdní platby bude málo. V roce 2006 obdržela Federální pojišťovací služba 3 099 stížností, z toho 1 679 stížností na jednání (nečinnost) pojišťovacích organizací ve věci porušení při provádění povinného pojištění odpovědnosti z provozu vozidla, nebo více než 50 % stížností. 784 stížností týkajících se povinného ručení z motorových vozidel naznačuje „nedodržení stanovených lhůt pro posouzení žádostí a provádění plateb“. Věra Balakireva také vysvětlila, proč je výše penále vázána na pojistnou částku, a nikoli na výši platby: „Existuje poměrně mnoho případů, kdy se pojistitel po obdržení dokumentů nesnaží pojistnou událost vyřídit vše. Pak nevypočítá výši platby nebo odpoví nemotivovaným odmítnutím. A je nemožné spojit penále s platbou.“


TDT. Možnosti. Příklad 1. Ministerstvo financí předložilo vládě návrh zákona, kterým se upravuje zákon o povinném ručení z motorových vozidel, který nyní zavádí nové ustanovení o placení penále pojistitelů v případě prodlení s placením pojistného. Účastníci trhu iniciativy Ministerstva financí obecně vítají, protože se domnívají, že plateb za pozdní platby bude málo. V roce 2006 obdržela Federální pojišťovací služba 3 099 stížností, z toho 1 679 stížností na jednání (nečinnost) pojišťovacích organizací ve věci porušení při provádění povinného pojištění odpovědnosti z provozu vozidla, nebo více než 50 % stížností. 784 stížností týkajících se povinného ručení z motorových vozidel naznačuje „nedodržení stanovených lhůt pro posouzení žádostí a provádění plateb“. Věra Balakireva také vysvětlila, proč je výše penále vázána na pojistnou částku, a nikoli na výši platby: „Existuje poměrně mnoho případů, kdy se pojistitel po obdržení dokumentů nesnaží pojistnou událost vyřídit vše. Pak nevypočítá výši platby nebo odpoví nemotivovaným odmítnutím. A je nemožné spojit penále s platbou.“


TDT. Možnosti. Příklad 1. Problémy Zprávy zpráv, texty malého objemu Zprávy zprávy, texty malého objemu Zohlednit „nejazykové vlastnosti“ Zohlednit „nejazykové vlastnosti“ Zohlednit největší možný počet slov jako parametry Zvažovat největší možný počet slov jako parametrů Zohlednit pouze lexémy s určitými sémantickými nebo morfologickými vlastnostmi Zohlednit pouze lexémy s určitými sémantickými nebo morfologickými vlastnostmi Frekvence „termů“ a „neterminů“ je stejná Frekvence „termů“ a „netermíny“ je totéž „Nestabilita“ frekvenčních charakteristik tematických prvků „Nestabilita“ frekvenčních charakteristik tematických prvků


TDT. Možnosti. Příklad 1. Problémy Zprávy zpráv o často se vyskytujících událostech a o často zmiňovaných lidech nebo organizacích Zprávy zpráv o často se vyskytujících událostech a o často zmiňovaných lidech nebo organizacích Mnoho běžných slov, která určují téma zprávy Mnoho běžných slov, která určují téma zprávy zpráva Znaky N-gramů ze slov s vysokým tf.idf Vlastnosti N-gramů ze slov s vysokým tf.idf


TDT. Možnosti. Příklad 1. Problémy Zprávy zpráv o často se vyskytujících událostech a o často zmiňovaných lidech nebo organizacích Zprávy zpráv o často se vyskytujících událostech a o často zmiňovaných lidech nebo organizacích Mnoho běžných slov, která určují téma zprávy Mnoho běžných slov, která určují téma zprávy the message Známky N-gramů s vysokým tf.idf Známky N-gramů s vysokým tf.idf


TDT. Možnosti. Příklad 1. Problémy Mnoho víceslovných ustálených frází sestávajících z běžně používaných slov Mnoho víceslovných stabilních frází skládajících se z běžných slov Potřebujeme způsob, jak je rozlišit jako ustálené fráze Potřebujeme způsob, jak je rozlišit jako ustálené fráze Nejprve vyberte N- gramy jako stabilní frázi, poté spočítejte váhy pro stabilní frázi (t-statistika, vzájemné informace atd.) Nejprve vyberte N-gram jako stabilní frázi, poté spočítejte váhy pro stabilní frázi (t-statistika, vzájemné informace , atd.) například použít speciální statistiky ke zvýraznění stabilních slovních spojení (MWU), použít filtry pro částečnou řeč (mělká analýza, chunking)


TDT. Možnosti. Příklad 1. Problémy Zprávy jsou kompaktní Zprávy jsou kompaktní Autoři zpráv se snaží neopakovat o stejné události různými slovy, nazývat stejný objekt různými jmény, tzn. Neexistují úplná opakování, ale mezi účastníky události jsou sémantická opakování nízká tf.idf Autoři zpráv se snaží neopakovat se o stejné události různými slovy, nazývat stejný objekt různými jmény, tzn. Neexistují žádná úplná opakování, ale mezi účastníky událostí jsou sémantická opakování nízká tf.idf srov. Ministerstvo financí, ministerstvo financí, ministerstvo atd., kříženec, pes, pes, šarik srov. Ministerstvo financí, Ministerstvo financí, ministerstvo atd., kříženec, pes, pes, Šarik Postulát o textové koherenci Postulát o textové koherenci Různé způsoby modelování textové koherence Různé způsoby modelování textové koherence


TDT. Možnosti. Zlepšení Postulát o textové koherenci Postulát o textové koherenci Metody matematického modelování Metody matematického modelování Metody lingvistického a „kognitivního“ modelování Metody lingvistického a „kognitivního“ modelování Míry asociativních spojení mezi slovy ve větě Kandidáti na rysy všechny bigramy ve větě Změny v technologii shlukování (seskupení do vět, do odstavců atd.) Matematické „způsoby boje“ Matematické „způsoby boje“


TDT. Parametry vylepšení Postulát o textové koherenci Postulát o textové koherenci Metody lingvistického a „kognitivního“ modelování: Metody lingvistického a „kognitivního“ modelování: vektor lexikálních řetězců (detekce prvního příběhu pomocí reprezentace kompozitního dokumentu. Nicola Stokes, Joe Carthy) účtování zpráv- typ clustering plot (Activity clustering) – tzn. slova, která mají vysoké tf.idf vzhledem k tomu, že charakterizují události určitého typu („hurikán“, „teroristický útok“ atd.) samostatné váhy pro vlastní jména (jmenované entity)


TDT. Možnosti. Příklad 1. Problémy Zprávy se pohybují: podmínky pro seskupování do příběhu se v průběhu času mění Pokud máme na začátku nový text věnovaný novým zprávám, co se stane s tf.idf potřebných slov? Některá budou odpovídat klíčovým slovům o zprávách o podobných událostech Některá budou odpovídat klíčovým slovům o zprávách o podobných událostech Některé z nejvýznamnějších budou mít nízké tf.idf Některé z nejvýznamnějších budou mít nízké tf.idf Je nutný přepočet váhových koeficientů ( jak často ) Je možné předběžné školení na testovacím korpusu Samostatný výpočet vah pro různé kategorie lexikálních jednotek (váhy pro pojmenované objekty samostatně)


TDT. Možnosti. Vylepšení prostoru funkcí. Shrnutí (1) tf.idf se vypočítá na trénovacím korpusu, při příchodu nové zprávy se přepočítá, celá kolekce včetně nové zprávy je opět podrobena shlukování (algoritmus greedy aglomerative clustering algorithm) každý termín dostává další váhu v závislosti na svou blízkostí k lexikálním jednotkám, které detekují čas událostí výskytu, je dokument charakterizován kombinací 2 vektorů: standardní vektor tf.idf + vektor lexikálních řetězců (Detekce prvního příběhu pomocí reprezentace kompozitního dokumentu. Nicola Stokes, Joe Carthy)


TDT. Možnosti. Vylepšení prostoru funkcí. Shrnutí (2) jsou zohledněny tradiční parametry (pozice v textu atd.) s přihlédnutím ke shlukování podle typu zpravodajského příběhu (Activity clustering) - tzn. slova, která mají vysoké tf.idf díky tomu, že charakterizují události určitého typu („hurikán“, „teroristický útok“ atd.) (Ronald K. Braun a Ryan Kaneshiro Využívání topic pragmatics for New Event Detection in tdt -2003) samostatné váhy pro vlastní jména (pojmenované entity) klasifikace dokumentů do kategorií, poté odstranění zastavovacích slov v každé kategorii zvlášť a výběr základu znaků v každé kategorii


TDT. Měří se blízkost, nastavuje se práh: nad prahem - „ne“ – sdělení odkazuje na starý příběh, pod prahem – „ano“ – první sdělení v příběhu, je nastaven práh: nad prahem – použití několika metod shlukování najednou - výsledná míra blízkosti jako nějaká funkce výsledků různých metod


TDT. Míry přiblížení Vektorový model Další měřítka přiblížení: Za prvé, míra nezohledňuje rozdíl ve velikosti porovnávaných dokumentů a za druhé při jejím výpočtu není uvedena informace o frekvenci používání pojmů tvořících dokumenty. použitý. sim(D i, D j) = Prob(w D i | w D j). Jaccard opatření


TDT. Metody matematického modelování. Definice zpravodajské stopy. Metody shlukování. Vytváření shluků: Poslední dokument přijatý na vstupu systému (dokument s číslem 1 v obráceném číslování) vygeneruje první shluk a porovná se se všemi předchozími. Pokud je míra blízkosti dokumentu blíže než daná prahová hodnota, pak je aktuální dokument přiřazen k prvnímu clusteru. Porovnávání pokračuje, dokud není vyčerpán seznam aktuálních dokumentů toku. Po takovém zpracování dokumentu 1 se zpracuje další dokument, který není zařazen do prvního shluku, se kterým se postupně porovnávají všechny aktuální dokumenty toku atd.


TDT. Metody matematického modelování Určení zpravodajské stopy. Metody shlukování. Pořadí podle váhy V důsledku toho se vytvoří určitý počet předem neznámých shluků, které jsou seřazeny podle svých vah, specifikovaných součtem normalizovaných metrik blízkosti pro všechny prvky shluku. Výběr důležitých shluků Navzdory tomu, že minimální shluk může obsahovat pouze 1 dokument, ke konečnému posouzení je přijat pouze určitý počet shluků s nejvyššími váhami, tzn. skupiny nejcitovanějších a relevantních zpráv. Přepočet těžišť U vybraných shluků se přepočítávají těžiště - dokumenty, které nejlépe odrážejí téma shluku. Vznikají tak příběhové řetězce, které implementují dotazy typu „o čem se v poslední době nejvíce píše?“


TDT. Metody matematického modelování. Definice zpravodajské stopy. Metody shlukování. Konstrukce příběhových řetězců automaticky identifikuje nejvýznamnější témata obsažená v informačních tocích. Seskupování významných zpráv podle vybraných témat Všechny důležité zprávy jsou seskupeny podle toho, jak patří k automaticky detekovaným tématům. Názvy zápletek Názvy zpráv, které nejpřesněji odrážejí jejich podstatu, se používají jako názvy příběhových řetězců. Pořadí příběhů je určeno počtem zpráv v příběhovém řetězci, který odráží obecný zájem o téma, hodnocení zdroje a čas zveřejnění zpráv.


Čím více lexikálních shod, tím bližší jsou texty Čím více lexikálních shod, tím bližší jsou texty Nejbližší texty duplikáty shluky sestávající z duplikátů nebo velmi blízkých textů Nejbližší texty duplikáty shluky skládající se z duplikátů nebo velmi blízkých textů Nejprve odstraňte duplikáty, pak shlukujte Nejprve odstraňte duplikáty a pak cluster TDT. Metody matematického modelování. Definice zpravodajské stopy. Problémy Problém sémanticky shodných textů Problém sémanticky shodných textů (1) ZPRÁVA, DNES, KONFERENCE, KAPITOLA, ALEXEY, MILLER, PREMIÉR, BĚLORUSKO, SERGEJ, DOKONČENÍ, JEDNÁNÍ, MOSKVA (2) PŘEDCHOZÍ, NABÍDKA, MINSK, KOUPIT, PLYN , CENA, DOLAR, DOLAR, BÝT, ZAPLATIT, HOTOVOST, FONDY, DÍL, AKTIVA, BELTRANSGAZ (3) ALEXEY, MILLER, TELL, DOHODA, DORUČENÍ, TRANZIT, RUSKY, PLYN, PODPIS, POSLEDNÍ, MINUTA, MINULOST, OD, JE , (4) SLIBIJTE, BOJUJTE, KREMLÍN, ZPRÁVA CHIMS, AKTUÁLNÍ, LÉTO, ROVNO, SDÍLEJTE, ZAPLATÍTE, POLOVINU, NÁKLADY, BELTRANSGAZ, HODNOTIT, DOLAR


Zprávy věnované stejným typům událostí (povodně, zahájení trestního řízení, teroristický útok atd.) budou spadat do stejného shluku Zprávy věnované stejným typům událostí (povodně, zahájení trestního řízení, teroristický útok atd.) .) .p.), bude spadat do stejného shluku Klasifikace podle typů zpráv (podle událostí), poté výběr funkcí Klasifikace podle typů zpráv (podle událostí), poté výběr funkcí Řetězce pojmenovaných objektů Řetězce pojmenovaných objektů TDT. Metody matematického modelování. Definice zpravodajské stopy. Metody shlukování. Problémy Alternativní přístup: shlukování parametrů hlavní události souřadnice Alternativní přístup: shlukování parametrů hlavní události souřadnice Focus news


TDT. Metody matematického modelování. Definice zpravodajské stopy. Zaměření na zprávy Zaměření na zprávy Zaměření události je soubor objektů, které nějakým způsobem interagují ve zprávách, a jejich tematické prostředí (synonyma, popisy, doplnění objektů a další parametry charakterizující danou událost). Zaměření akce může odpovědět na následující otázky (Scénář (rámec) pro standardní zprávy): Kdo? Kde? Když?


Základní technologie: Úlohy TDT. „Přenositelnost“ IR metod Parametry informační portrét matematické „korelace“ parametrů (například váhy, odhady pravděpodobnosti atd.) Informační portrét parametrů matematické „korelace“ parametrů (např. váhy, odhady pravděpodobnosti atd.) Metody rozdělení objektů do tříd Metody pro rozdělení objektů do tříd Míry blízkosti - rozdíly Míry blízkosti - rozdíly Úkoly TDT Base: IR metody Otázky: Co jsou považovány za vlastnosti (rozměry prostoru / parametry integrálních charakteristik)? Jak vyhodnotit váhu prvku (projekci bodu na odpovídající osu) Jak vyhodnotit integrální charakteristiku (míru blízkosti v prostoru) Jak snížit počet prvků Jak snížit hluk (snížit počet prvků , oslabit / posílit účinek korelace funkcí)


Vývoj úloh zpracování textu Technologický řetězec zpracování textu v moderních systémech: Na vstupu: tok textu 1) 1. „Sémantická“ charakteristika textu jako celku Seskupit texty podle „události“ (shlukování) Korelovat událost s určitou oblastí znalostí (kategorizace) Přiřazení souhrnu k textu (abstrakce - sumarizace) Porovnání témat s textem (sémantické značky - témata)


Vývoj úloh zpracování textu 1) 2. Obsahová analýza textu Identifikujte „hlavní postavy“ v textu (rozpoznání pojmenovaných entit - NER - rozpoznání pojmenovaných entit Porovnejte entitu s nějakým ontologickým popisem - tiskový portrét, dokumentace atd. (doplňkové úkol řešení nejednoznačnosti - disambiguace pojmenovaných entit) Lokalizovat text (geolokace) Určit tematické dominanty v textu (sémantické značky) Vybrat hlavní události (Extrakce faktů)


Vývoj úloh zpracování textu Na vstupu: uživatel + text Úkoly: (a) vytvořit v uživateli nějaký postoj k objektům z textu (b) dodat uživateli další obsah v souladu s jeho zájmy (včetně zjišťování zájmů uživatele - personalizace) Dolování názorů (analýza sentimentu) Lokalizace textu (geolokace) Vyhledávání zpráv na sociálních sítích k relevantnímu tématu Social tagging Doporučení, kontextová reklama


Sémantické mapy sbírky dokumentů Clustering umožňuje rozdělit výběr dokumentů do statistických sémantických skupin, ale analytik často potřebuje jemnější nástroj k odhalení vzácných, ale důležitých souvislostí mezi tématy sbírky. V tomto případě je předmětem analýzy sémantická mapa vztahů mezi tématy dokumentu, nikoli dokumenty samotné. Mapa je orientovaný graf, velikost uzlů a tloušťka spojovacích čar, na kterých odpovídá relativní váze témat a spojení v kolekci. Vztahy mohou být buď typizované (určuje se sémantický typ spojení) nebo logické (je stanovena skutečnost jejich existence). Směr šipky spojení ukazuje vztah příčiny a následku mezi tématy a konkrétnější téma je označeno šipkou. Tloušťka šipky mezi tématy odráží její důležitost. Vrcholy a odkazy obsahují hypertextové odkazy, které vedou na související sadu dokumentů. Po výběru uzlu na mapě se analytik ponoří do témat přímo souvisejících s tématem uzlu, jako by přiblížil mapu a vycentroval mapu na dané téma. V tomto případě se změní složení mapových témat a objeví se témata, která s vybraným nejvíce souvisí. Tato metoda analýzy se také často používá pro společnou analýzu několika map, hledání podobných situací nebo sémantických vzorců v různých mapách a další úkoly. sémantickou mapu.


© ElVisti 42 SemioMap (Semio Corp.) SemioMap je produkt Entrieva vytvořený v roce 1996 sémiotikem Claudem Vogelem. V květnu 1998 byl produkt vydán jako průmyslový komplex SemioMap, první systém pro dolování textu pracující v architektuře klient-server.


© ElVisti 43 SemioMap (Semio Corp.) Systém SemioMap se skládá ze dvou hlavních součástí – serveru SemioMap a klienta SemioMap. Systém funguje ve třech fázích: Indexování: server SemioMap automaticky čte pole nestrukturovaného textu, extrahuje klíčové fráze (pojmy) a vytváří z nich index; Shlukování konceptů: server SemioMap identifikuje spojení mezi extrahovanými frázemi a na základě společného výskytu z nich vytvoří lexikální síť („mapa konceptů“); Grafické zobrazení a navigace: Vizualizace myšlenkových map, která poskytuje rychlou navigaci klíčových frází a vztahů mezi nimi a také možnost rychlého přístupu ke konkrétním dokumentům.




Nahoru