Stáhněte si nástroj amd clean uninstall.

Domov Oslovil mě člověk s žádostí o napsání programu, který by mu umožnil ovládat počítačovou myš pomocí hlasu. Tehdy jsem si ani nedovedl představit, že téměř úplně ochrnutý člověk, který neumí ani otočit hlavu, ale umí pouze mluvit, je schopen vyvinout činorodou aktivitu, pomáhat sobě i ostatním k aktivnímu životu, získávat nové znalosti a dovednosti, pracovat a vydělávat peníze, komunikovat s ostatními lidmi po celém světě, účastnit se soutěže.

sociální projekty

Dovolte mi zde uvést několik odkazů na stránky, jejichž autorem a/nebo ideovým inspirátorem je tato osoba - Alexander Makarchuk z města Borisov, Bělorusko: K práci na počítači používal Alexander program „Vocal Joystick“ – vyvinutý studenty Washingtonské univerzity, financovaný Národním Vědecká nadace

(NSF). Viz melodi.ee.washington.edu/vj

Nedalo se odolat Mimochodem, na univerzitním webu (http://www.washington.edu/) je 90 % článků o penězích. Je těžké něco najít vědecká práce

. Zde jsou například úryvky z první stránky: „Tom, absolvent vysoké školy, jedl houby a měl potíže s placením nájemného. Nyní je senior manažerem v IT společnosti a půjčuje peníze univerzitě,“ „Big Data pomáhá bezdomovcům“, „Společnost se zavázala zaplatit 5 milionů dolarů za novou akademickou budovu.“


Jsem jediný, komu to vadí? Program byl vytvořen v letech 2005-2009 a fungoval dobře na Windows XP. V novějších Verze Windows

program může zamrznout, což je nepřijatelné pro člověka, který se nemůže zvednout ze židle a restartovat jej. Proto bylo nutné program předělat.

Neexistují žádné zdrojové texty, existují pouze jednotlivé publikace, které odhalují technologie, na kterých je založen (MFCC, MLP - o tom čtěte ve druhé části). Bylo to napsáno v obraze a podobě nový program

(asi tři měsíce).

Ve skutečnosti můžete vidět, jak to funguje: Stáhněte si program a/nebo sledujte zdrojové kódy

Může . K instalaci programu nemusíte provádět žádné speciální akce, stačí na něj kliknout a spustit jej. Jediná věc je, že v některých případech je vyžadováno, aby byl spuštěn jako správce (například při práci s virtuální klávesnice

Pravděpodobně zde stojí za zmínku další věci, které jsem dříve udělal, aby bylo možné ovládat počítač handsfree.

Pokud máte možnost otáčet hlavu, může být dobrou alternativou k eViacam gyroskop namontovaný na hlavě. Získáte rychlé a přesné umístění kurzoru a nezávislost na osvětlení.

Pokud můžete pohybovat pouze očními zorničkami, můžete použít sledovač směru pohledu a program pro něj (to může být obtížné, pokud nosíte brýle).

Část II. Jak to funguje?

Z publikovaných materiálů o programu Vocal Joystick bylo známo, že funguje následovně:
  1. Rozdělení zvukového proudu na snímky po 25 milisekundách s překrytím 10 milisekund
  2. Příjem 13 kepstrálních koeficientů (MFCC) pro každý snímek
  3. Ověření, že jeden ze 6 zapamatovaných zvuků (4 samohlásky a 2 souhlásky) je vyslovován pomocí vícevrstvého perceptronu (MLP)
  4. Překlad nalezených zvuků do pohybů/kliknutí myší
První úkol je pozoruhodný pouze tím, že k jeho vyřešení v reálném čase bylo nutné do programu zavést tři další vlákna, protože čtení dat z mikrofonu, zpracování zvuku, přehrávání zvuku zvuková karta vyskytují asynchronně.

Poslední úkol se jednoduše provede pomocí funkce SendInput.

Zdá se mi, že druhý a třetí problém jsou nejvíce zajímavé. Tak.

Úkol č. 2. Získání 13 kepstrálních koeficientů

Pokud někdo neví, hlavní problém rozpoznávání zvuků počítačem je následující: je obtížné porovnávat dva zvuky, protože dvě zvukové vlny, které se v obrysech nepodobají, mohou z hlediska lidského vnímání znít podobně.

A mezi těmi, kdo se zabývají rozpoznáváním řeči, se hledá „kámen mudrců“ – soubor vlastností, které by jednoznačně klasifikovaly zvukovou vlnu.

Z těch vlastností, které jsou dostupné široké veřejnosti a jsou popsány v učebnicích, jsou nejpoužívanější tzv. Mel-Frequency Ceptral Coefficients (MFCC).

Jejich historie je taková, že byly původně určeny k něčemu úplně jinému, totiž k potlačení ozvěny v signálu (naučný článek na toto téma napsali vážení Oppenheim a Schafer, kéž je v domovech těchto urozených mužů radost. Viz A. V. Oppenheim a R. W. Schafer, „ From Frequency to Quefrency: A History of the Cepstrum “.

Ale člověk je navržen tak, že má tendenci používat to, co je mu nejlépe známé. A těm, kteří pracovali řečové signály, napadlo mě použít hotovou kompaktní reprezentaci signálu v podobě MFCC. Ukázalo se, že obecně to funguje. (Jeden z mých přátel, specialista na ventilační systémy, když jsem se ho zeptal, jak postavit altán, navrhl použít ventilační potrubí. Jednoduše proto, že je znal lépe než jiné stavební materiály).

Jsou MFCC dobrým klasifikátorem zvuků? To bych neřekl. Stejný zvuk mluvený mnou do různých mikrofonů spadá do různých oblastí prostoru MFCC koeficientů a ideální klasifikátor by je nakreslil vedle sebe. Proto zejména při výměně mikrofonu musíte program znovu natrénovat.

Toto je jen jedna z projekcí 13rozměrného prostoru MFCC do 3rozměrného prostoru, ale také ukazuje, co mám na mysli - červenou, fialovou a modré tečky přijato od různé mikrofony: (Plantronix, pole vestavěných mikrofonů, Jabra), ale zvuk byl vyslovován sám.

Protože však nemohu nabídnout nic lepšího, využiji také standardní metoda– výpočet koeficientů MFCC.

Aby nedošlo k chybám při implementaci, v prvních verzích programu byl jako základ použit kód z well slavný program CMU Sphinx, přesněji řečeno její implementace v C, nazývaná pocketsphinx, vyvinutá na Carnegie Mellon University (mír s oběma! (c) Hottabych).

Zdrojové kódy pocketsphinx jsou otevřené, ale problém je v tom, že pokud je použijete, musíte ve svém programu (jak ve zdrojovém kódu, tak ve spustitelném modulu) napsat text obsahující mimo jiné následující:

* Tato práce byla částečně podporována finančními prostředky od Agentury pro výzkum pokročilé * obrany a Národní vědecké nadace * Spojených států amerických a konsorcia řeči CMU Sphinx.
To se mi zdálo nepřijatelné a musel jsem kód přepsat. To ovlivnilo výkon programu (v lepší strana, mimochodem, i když „čitelnost“ kódu poněkud utrpěla). Z velké části díky použití knihoven „Intel Performance Primitives“, ale některé věci jsem optimalizoval i sám, jako je filtr MEL. Testování na testovacích datech však ukázalo, že získané MFCC koeficienty jsou zcela podobné těm, které byly získány například pomocí utility sphinx_fe.

V programech sphinxbase se výpočet koeficientů MFCC provádí v následujících krocích:

Krok funkce báze sfingy Podstata operace
1 fe_pre_emphasis Odečteno od aktuálního počtu většina předchozí čtení (například 0,97 od jeho hodnoty). Primitivní filtr, který odmítá nízké frekvence.
2 fe_hamming_window Hammingovo okno – zavádí útlum na začátku a na konci rámu
3 fe_fft_real Rychlá Fourierova transformace
4 fe_spec2magnitude Z obvyklého spektra získáme výkonové spektrum se ztrátou fáze
5 fe_mel_spec Frekvence spektra [například 256 kusů] seskupujeme do 40 hromádek pomocí stupnice MEL a váhových koeficientů
6 fe_mel_cep Vezmeme logaritmus a aplikujeme transformaci DCT2 na 40 hodnot z předchozího kroku.
Necháme prvních 13 hodnot výsledku.
Existuje více variant DCT2 (HTK, legacy, classic), lišících se konstantou, kterou dělíme výsledné koeficienty, a speciální konstantou pro nulový koeficient. Můžete si vybrat jakoukoli možnost, nezmění to podstatu.

Tyto kroky také zahrnují funkce, které vám umožňují oddělit signál od šumu a od ticha, jako je fe_track_snr, fe_vad_hangover, ale nepotřebujeme je a nebudeme jimi rozptylovat.

Pro kroky k získání MFCC koeficientů byly provedeny následující substituce:

Úkol č. 3. Kontrola, zda je vyslovován jeden ze 6 zapamatovaných zvuků

Původní program Vocal Joystick používal pro klasifikaci vícevrstvý perceptron (MLP) - neuronová síť bez nových zvonků a píšťalek.

Podívejme se, jak oprávněné je použití neuronové sítě Zde.

Připomeňme si, co dělají neurony v umělých neuronových sítích.

Pokud má neuron N vstupů, pak neuron rozdělí N-rozměrný prostor na polovinu. Sekne bekhend nadrovinou. Navíc v jedné polovině prostoru to jde (dává kladnou odpověď), ale v druhé nefunguje.

Podívejme se na [prakticky] nejjednodušší možnost – neuron se dvěma vstupy. Přirozeně rozdělí dvourozměrný prostor na polovinu.

Vstupem nechť jsou hodnoty X1 a X2, které neuron vynásobí váhovými koeficienty W1 a W2 a přidá volný člen C.


Celkem na výstupu neuronu (označme ho Y) dostaneme:

Y=X1*W1+X2*W2+C

(prozatím přeskočme drobnosti o sigmoidních funkcích)

Uvažujeme, že neuron vystřelí, když Y>0. Přímka daná rovnicí 0=X1*W1+X2*W2+C přesně rozděluje prostor na část, kde Y>0, a část, kde Y<0.

Ukažme si, co bylo řečeno, konkrétními čísly.

Nechť W1=1, W2=1, C=-5;

Nyní se podívejme, jak můžeme zorganizovat neuronovou síť, která by fungovala v určité oblasti prostoru, relativně řečeno, na místě, a ne na všech ostatních místech.

Z obrázku je vidět, že abychom mohli načrtnout oblast ve dvourozměrném prostoru, potřebujeme alespoň 3 rovné čáry, tedy 3 neurony na ně napojené.

Tyto tři neurony spojíme dohromady pomocí další vrstvy, čímž získáme vícevrstvou neuronovou síť (MLP).

A pokud potřebujeme, aby neuronová síť fungovala ve dvou oblastech vesmíru, pak budeme potřebovat alespoň tři další neurony (4,5,6 na obrázcích):

A tady se bez třetí vrstvy neobejdete:

A třetí vrstva je téměř Deep Learning...

Nyní se podívejme na další příklad pro pomoc. Nechte naši neuronovou síť vyvolat pozitivní odezvu na červené tečky a negativní odezvu na modré tečky.

Kdybych byl požádán, abych odřízl červenou od modré v přímých liniích, udělal bych to asi takto:

Neuronová síť ale a priori neví, kolik přímých (neuronů) bude potřebovat. Tento parametr je nutné nastavit před trénováním sítě. A to člověk dělá na základě... intuice nebo pokusu a omylu.

Pokud v první vrstvě vybereme příliš málo neuronů (například tři), můžeme získat takový řez, který způsobí mnoho chyb (chybná oblast je stínovaná):

Ale i když je počet neuronů dostatečný, v důsledku trénování může síť „selhat konvergování“, to znamená dosáhnout nějakého stabilního stavu, který není zdaleka optimální, když je procento chyb vysoké. Jako tady, horní příčka spočívá na dvou hrbech a nehne se od nich. A pod tím je velká oblast, která generuje chyby:

Možnost takových případů opět závisí na počátečních podmínkách tréninku a posloupnosti tréninku, tedy na náhodných faktorech:

- Co myslíte, kdyby to kolo, kdyby se to stalo, dosáhlo Moskvy nebo ne?
- Co myslíte, bude neuronová síť fungovat nebo ne?

S neuronovými sítěmi je spojen ještě jeden nepříjemný moment. Jejich „zapomnětlivost“.

Pokud začnete do sítě dodávat pouze modré tečky a přestanete krmit červené, může si snadno chytit kousek červené oblasti pro sebe a přesunout tam své hranice:

Pokud mají neuronové sítě tolik nedostatků a člověk dokáže kreslit hranice mnohem efektivněji než neuronová síť, tak proč je vůbec používat?

A je tu jeden malý, ale velmi významný detail.

Velmi dobře umím oddělit červené srdce od modrého pozadí přímými úsečkami ve dvourozměrném prostoru.

Docela dobře dokážu oddělit sochu Venuše od trojrozměrného prostoru, který ji obklopuje rovinami.

Ale ve čtyřrozměrném prostoru nemůžu nic dělat, omlouvám se. A ve 13. dimenzi - ještě více.

Ale pro neuronovou síť není rozměr prostoru překážkou. Smála jsem se jí v malorozměrných prostorech, ale jakmile jsem překročila všednost, snadno mě porazila.

Otázka je však stále otevřená: nakolik je použití neuronové sítě v tomto konkrétním úkolu oprávněné, vezmeme-li v úvahu výše uvedené nevýhody neuronových sítí.

Zapomeňme na chvíli, že naše MFCC koeficienty jsou ve 13-rozměrném prostoru, a představme si, že jsou dvourozměrné, tedy body v rovině. Jak lze v tomto případě oddělit jeden zvuk od druhého?

Nechť MFCC body zvuku 1 mají směrodatnou odchylku R1, což [zhruba] znamená, že body, které se příliš neodchylují od střední hodnoty, nejcharakterističtější body, jsou uvnitř kruhu o poloměru R1. Stejně tak body, kterým věříme ve zvuku 2, se nacházejí uvnitř kruhu o poloměru R2.

Pozor, otázka: kde nakreslit přímku, která by nejlépe oddělila zvuk 1 od zvuku 2?

Odpověď se nabízí sama: uprostřed mezi hranicemi kruhů. Nějaké námitky? Nejsou žádné námitky.
Oprava: V programu tato hranice rozděluje segment spojující středy kružnic v poměru R1:R2, což je správnější.

A nakonec nezapomeňme, že někde ve vesmíru je bod, který představuje úplné ticho v prostoru MFCC. Ne, není to 13 nul, jak by se mohlo zdát. Toto je jeden bod, který nemůže mít standardní odchylku. A rovné čáry, kterými jsme to odřízli od našich tří zvuků, lze nakreslit přímo podél hranic kruhů:

Na obrázku níže každý zvuk odpovídá kousku prostoru své barvy a vždy můžeme říci, kterému zvuku ten či onen bod v prostoru patří (nebo nepatří k žádnému):

No dobře, teď si připomeňme, že prostor je 13rozměrný a to, co bylo dobré nakreslit na papír, se nyní ukazuje jako něco, co se do lidského mozku nevejde.

Ano, ale ne tak. Naštěstí v prostoru jakékoli dimenze zůstávají takové pojmy jako bod, přímka, [hyper]rovina, [hyper]koule.

Opakujeme všechny stejné akce ve 13-rozměrném prostoru: najdeme disperzi, určíme poloměry [hyper]koulí, spojíme jejich středy přímkou, rozřízneme ji [hyper]rovinou v bodě stejně vzdáleném od hranice [hyper]sfér.

Žádná neuronová síť nedokáže správněji oddělit jeden zvuk od druhého.

Zde je však třeba provést rezervaci. To vše platí, pokud je informace o zvuku shlukem bodů, které se odchylují od průměru stejně ve všech směrech, tedy dobře zapadají do hypersféry. Pokud by tento oblak byl postavou složitého tvaru, například 13rozměrnou zakřivenou klobásou, pak by všechny výše uvedené úvahy byly nesprávné. A možná by zde při správném tréninku mohla neuronová síť ukázat své přednosti.

Ale neriskoval bych to. A použil bych například množiny normálních distribucí (GMM), (což se mimochodem dělá v CMU Sphinx). Vždy je příjemnější, když pochopíte, který konkrétní algoritmus vedl k výsledku. Ne jako v neuronové síti: Oracle vám na základě mnoha hodin dusání tréninkových dat řekne, abyste se rozhodli, že požadovaný zvuk je zvuk #3. (Obzvláště mi vadí, když se snaží svěřit řízení auta neuronové síti. Jak pak v nezvyklé situaci člověk pochopí, proč auto odbočilo doleva a ne doprava? Zavelel Všemohoucí Neuron?).

Ale sady normálních distribucí jsou samostatným velkým tématem, které přesahuje rámec tohoto článku.

Doufám, že byl článek užitečný a/nebo vám zaskřípal mozek.

Již brzy bude veškerá zařízení, od telefonů po konvice, vybavena hlasovým ovládáním.

byla k dispozici již delší dobu a nyní tajné laboratoře velkých korporací pracují na vylepšení této technologie. Dnes však můžete využít výhod těchto budoucích technologií a ovládat počítačové vybavení pomocí hlasu.

Telefon s hlasovým ovládáním


Již několik let mají chytré telefony na nejpopulárnějších platformách (Android, iOS, Windows Phone) zabudovaný systém hlasového ovládání.


Siri je jedním z nejlepších ztělesnění umělé inteligence v moderních technologiích. Siri je hlasový asistent zabudovaný do smartphonů iPhone 4S, který rozumí lidské řeči a dokáže vést dialog s majitelem smartphonu. Siri umožňuje ovládat základní funkce smartphonu, vytvářet úkoly, vyhledávat jakékoli informace atd.




O Siri vám lépe řekne video, které jsem pro vás připravil. Toto je úryvek z prezentace iPhone 4S přímo v místě, kde jeden z vývojářů iPhone mluví o Siri (pokud video není vidět, obnovte stránku):

Dnes v chytrých telefonech Android není hlasové ovládání v žádném případě horší než Siri (v některých místech dokonce lepší) a plní téměř stejné úkoly.

Kromě telefonu vás můžete naučit rozumět příkazům a počítači. V Windows Vista A Windows 7 K dispozici je také vestavěný systém hlasového ovládání, ale v ruské verzi operačního systému zatím není k dispozici. Chcete-li například používat anglický systém hlasového ovládání, váš operační systém musí být Ultimate nebo Enterprise a musí mít nainstalovaný anglický jazykový balíček. Ale i přes všechna tato omezení existují další možnosti, jak začít ovládat počítač pomocí hlasu.


Typ - jeden z nejlepších programů, který vám umožňuje vytvářet různé hlasové příkazy pro počítač. Nahrajete hlasový příkaz a přiřadíte akci, která se má provést po jeho vyslovení. Typle se se svými povinnostmi vyrovnává docela dobře. Je pravda, že příkazy budou muset být zadávány jasným, mechanickým hlasem, aby je program mohl rozpoznat. A program může někdy zaměnit cizí zvuky za hlasový příkaz. Nebuďte proto překvapeni, když po instalaci a konfiguraci Typle začnou na vašem počítači docházet k nevysvětlitelným událostem.


Hlasové ovládání.rf- cloudová služba a program Reproduktor od ruských vývojářů s velmi dobrým rozpoznáváním řeči. Mluvčí mnohem lépe rozumí lidské řeči. Další výhodou programu, na rozdíl od Typle, je, že začne „poslouchat“ příkazy až po stisknutí příkazové klávesy - v tuto chvíli je to kolečko myši. Díky tomu program nebude provádět příkazy, když to není potřeba. Ale podle mého názoru není použití kolečka jako příkazové klávesy úplně pohodlné, protože se často používá v jiných případech.


Hlasové ovládání v prohlížeči Opera. Pro fanoušky internetového prohlížeče Opera je vestavěno hlasové ovládání, které umožňuje ovládat hlavní funkce prohlížeče hlasem. Opera nemá možnost vytvářet vlastní příkazy, ale používá existující příkazy v angličtině. Myslím si však, že taková funkce bude zajímat jen málo lidí, když pomocí myši a klávesnice můžete provádět všechny stejné akce s nemenší rychlostí.

Hlasové ovládání na Googlu

si zaslouží zvláštní pozornost. Každý ví, že Google vždy vytváří vysoce kvalitní produkty a služby. Mnozí se o tom přesvědčili tím, že začali například používat Gmail. V tuto chvíli existují dvě možnosti hlasového ovládání služeb Google, o kterých vím.


První je vyhledávání informací pomocí hlasu ve vyhledávači Google. Pomůže vám pracovat mnohem rychleji s vyhledávačem.


Za druhé - Google překladač , která vám umožňuje diktovat text (zatím pouze) v angličtině a automaticky získat překlad do požadovaného jazyka.


K rychlému překladu potřebných informací do ruštiny je docela vhodné použít hlasový vstup v Google Translate při čtení textu z anglické učebnice nebo například obalů produktů.

Hlasové ovládání v Google Chrome

rozšíření OWeb- doplňuje stávající funkce hlasového ovládání v Google Chrome. OWeb přidává možnost diktovat text hlasem na téměř všechny weby, kde se předpokládá zadávání textu – ve vyhledávacích formulářích, v kontaktních formulářích, v poli komentářů atd. To rozhodně není Siri, ale je to také skvělý způsob, jak si uvolnit ruce a ušetřit čas při psaní.


Podívejte se na video, ve kterém vám ukážu možnosti rozšíření Oweb a příklady jeho použití:



Při práci na osobním počítači musíme nejčastěji psát velké texty. Sezením přímo před monitorem ztrácíme spoustu času, i když bychom mohli dělat nějaké domácí práce.

Minulé století

Pojďme zjistit, co je hlasové ovládání počítače. Udělejme nějakou analogii. Dříve i dnes bylo velmi běžným způsobem, jak si při práci „uvolnit ruce“ od počítače, najmout dalšího zaměstnance – stenografa nebo sekretářku. Málokdo však ví, že se můžete vyhnout zbytečným výdajům tím, že si na svůj osobní počítač nainstalujete řadu programů a utilit, které umožňují hlasové ovládání počítače v ruštině.

S příchodem takových softwarových produktů, jako jsou Gorynych a WebSpeach, můžete zapomenout na to, jak dlouho jste museli sedět a psát nějakou práci, například diplom, objednávku nebo jakoukoli jinou dokumentaci. S rozvojem výpočetní techniky se objevila možnost využití speciálního programu pro rozpoznávání řeči.

Vestavěné inženýrské sítě

Hlasové ovládání počítače se systémem Windows 8 se provádí pomocí vestavěného nástroje Windows Speech Recognition. Bohužel v tuto chvíli není možné provozovat počítač v ruštině. Microsoft se zjevně snaží zaměřit na nejrozšířenější jazyky, ale je možné, že brzy bude uvolněna podpora ruského jazyka.

Pokud si přesto chcete zkusit ovládat svého železného přítele pomocí angličtiny, postupujte podle následujících pokynů.

  1. Přejděte na ovládací panel v podpoložce "Jazyk". Musíte nastavit jazyk systému na angličtinu. Pokud jej nemáte, budete si muset stáhnout příslušný jazykový balíček.
  2. Po stažení a instalaci jazyka přejděte na úvodní obrazovku s „dlaždičkou“.
  3. Do vyhledávání zadejte Windows Speech Recognition a stiskněte Enter. Tím se spustí program rozpoznávání hlasu.
  4. Při prvním spuštění budete požádáni o nastavení mikrofonu. Vyberte si svou odrůdu a řekněte pár slov.
  5. Poté vám bude nabídnut 20minutový tréninkový kurz. Koná se v angličtině, takže pokud nerozumíte jazyku, klidně to přeskočte. Rozhraní programu je naprosto přehledné, takže mu rozumí i dítě.
  6. Chcete-li povolit hlasové ovládání počítače, budete muset vyslovit klíčovou frázi „Začněte poslouchat“. To znamená „začněte poslouchat“. Nyní můžete spustit požadovaný program a začít diktovat text.

Obecně jsou možnosti této utility nevyčerpatelné. Kromě použití základních příkazů si můžete vytvořit i vlastní.

Rozvoj

Pro rozpoznávání řeči v ruštině a angličtině bylo vytvořeno mnoho aplikací:

  • "Diktograf 5";
  • "Perpetuum Mobile";
  • Voice_PE;
  • lucent;
  • VoiceType;
  • Svátost.

Nejoblíbenější jsou však:

  • "Gorynych";
  • Web Řeč;
  • RealSpeaker;
  • Speechka.

Pojďme se na ně podívat blíže.

"Gorynych"

Jak název napovídá, aplikaci vytvořil tým ruských programátorů a byla pojmenována po ruské pohádkové postavě jménem Gorynych. Hlasové ovládání počítače v něm se provádí v ruštině, existuje však také podpora angličtiny. "Gorynych" vám umožňuje ovládat osobní počítač v uživatelském režimu, to znamená provádět všechny možné akce, které můžete provádět pomocí myši a klávesnice: práce s okny, aplikacemi, procesy běžícími na osobním počítači. Navíc „Gorynych“ rozpozná řeč pouze jednoho majitele, ale ne vždy.

Má to však jednu poměrně velkou nevýhodu. Faktem je, že celou velitelskou základnu musíte zadat ručně. To znamená, že než budete moci na počítači cokoliv dělat pomocí svého hlasu, musíte vytvořit celou databázi s příkazy nahranými vaším hlasem. I když to uděláte, pokud náhle začnete chrapat nebo se zabarvení vašeho hlasu jen trochu změní, „Gorynych“ vám zcela odmítne rozumět.

Dalším úskalím je, že pokud chcete diktovat texty do počítače, budete muset pro „Gorynycha“ nejprve vytvořit obrovský slovník s dobrou slovní zásobou, aby rozuměl tomu, co mu diktujete.

Speechka

S tím mohou pomoci aplikace třetích stran nainstalované na osobním počítači. Jedním z nich je Speechka. Stejně jako Gorynych, ruský produkt vytvořený na základě technologií Google, Spichka umožňuje uživateli hlasové ovládání počítače pomocí dané sady příkazů. Speechka docela dobře rozpozná jakoukoli řeč a není třeba nahrávat zvukové soubory. Stačí jednoduše zadat slovo na klávesnici a přiřadit jej k nějaké akci. Jednoduše řečeno, je to hodný produkt, který je však stále ve vývoji, protože funkce jako zavírání oken nebo spouštění programů byly přidány teprve nedávno.

psaní

Když jsme pochopili, co je hlasové ovládání počítače, podívejme se na problém psaní. Jak již bylo řečeno, ne všechny aplikace to umožňují. Ve většině případů to vyžaduje nejprve sestavení celého slovníku, a pokud jste uživatelem Windows 8, pak také nastává problém s podporou ruské řeči. K vyřešení tohoto problému existuje služba hlasového vytáčení vytvořená společností Google.

Aplikace Google Web Speech, která je k dispozici pouze pro prohlížeče Chrome, rozpoznává 32 předních světových jazyků včetně ruštiny. Pro zadávání textu hlasem budete potřebovat vhodný prohlížeč, internet a mikrofon. Vývoj pokročil natolik, že tento nástroj je schopen vnímat spisovnou ruskou řeč celými slovy a převést ji do tištěného textu.

Dalším programem pro rozpoznávání řeči a její diktování do osobního počítače je RealSpeaker. Využívá moderní technologie pro rozpoznávání mimiky. Pro jeho použití je vhodná naprosto jakákoliv webkamera. Jediná nepříjemnost, která při práci nastává, je, že tvář mluvčího musí být přesně naproti kameře, ve vzdálenosti maximálně 40 centimetrů. Tento program má ruský jazykový slovník, který si uživatel může v případě potřeby rozšířit. Obecně je tento program mnohem pohodlnější než Gorynych.

Sečteno a podtrženo

Pokud přemýšlíte o ovládání počítače hlasem, věřte, že to zatím není pro Rusko. Odpovídající programy pro rozpoznávání dnes existují pouze v angličtině a automatické psaní hlasem bude obsahovat tolik chyb, že bude snazší napsat text od začátku, než opravit všechny překlepy. Můžete se samozřejmě pokusit naučit angličtinu a obsluhovat v ní počítač, ale budete potřebovat perfektní dikci a výslovnost.




Nahoru