Kako funkcionira prepoznavanje glasa. Prepoznavanje govora i trenutno prevođenje

Nijedan program ne može u potpunosti zamijeniti ručni rad transkripcije snimljenog govora. No, postoje rješenja koja mogu znatno ubrzati i olakšati prevođenje govora u tekst, odnosno pojednostaviti transkripciju.

Transkripcija je snimanje audio ili video datoteke u obliku teksta. Na internetu postoje plaćeni plaćeni zadaci, kada se izvođaču plaća određena svota novca za prepisivanje teksta.

Koristan je prijevod govora u tekst

  • studentima da prevedu snimljena audio ili video predavanja u tekst,
  • blogeri koji vode web stranice i blogove,
  • pisci, novinari za pisanje knjiga i tekstova,
  • informacijske poslovne ljude koji trebaju tekst nakon webinara, govora i sl.,
  • ljudi koji imaju poteškoća s tipkanjem - mogu izdiktirati pismo i poslati ga obitelji ili prijateljima,
  • druge opcije.

Opisat ćemo najučinkovitije alate dostupne na računalima, mobilnim aplikacijama i online uslugama.

1 Web stranica speakpad.ru

Ovo je internetska usluga koja vam omogućuje prevođenje govora u tekst pomoću preglednika Google Chrome. Usluga radi s mikrofonom i gotovim datotekama. Naravno, kvaliteta će biti puno veća ako koristite vanjski mikrofon i diktirate sami. Međutim, usluga dobro radi čak i s YouTube videozapisima.

Kliknite "Omogući snimanje", odgovorite na pitanje o "Korištenje mikrofona" - da biste to učinili, kliknite "Dopusti".

Dugačke upute o korištenju usluge mogu se sažeti klikom na gumb 1 na sl. 3. Možete se riješiti oglašavanja ispunjavanjem jednostavne registracije.

Riža. 3. Usluga govorne pločice

Gotov rezultat je lako urediti. Da biste to učinili, morate ili ručno ispraviti označenu riječ ili je ponovno izdiktirati. Rezultati rada spremaju se na vaš osobni račun, a mogu se preuzeti i na vaše računalo.

Popis video lekcija o radu s govornom pločom:

Videozapise možete transkribirati s Youtube-a ili sa svog računala, no trebat će vam mikser, više detalja:

Video "audio transkripcija"

Usluga radi na sedam jezika. Postoji mali minus. Leži u činjenici da ako trebate prepisati gotovu audio datoteku, tada se njen zvuk čuje kroz zvučnike, što stvara dodatne smetnje u obliku jeke.

2 Servisni diktat.io

Prekrasna mrežna usluga koja vam omogućuje besplatno i jednostavno prevođenje govora u tekst.

Riža. 4. Servisni diktat.io

1 na sl. 4 – Ruski jezik možete odabrati na kraju stranice. U pregledniku Google Chrome odabire se jezik, ali iz nekog razloga u Mozilli ne postoji takva opcija.

Važno je napomenuti da je implementirana mogućnost automatskog spremanja gotovog rezultata. To će vas zaštititi od slučajnog brisanja kao rezultat zatvaranja kartice ili preglednika. Ova usluga ne prepoznaje gotove datoteke. Radi s mikrofonom. Prilikom diktiranja morate imenovati interpunkcijske znakove.

Tekst se sasvim ispravno prepoznaje, nema pravopisnih grešaka. Možete sami umetnuti interpunkcijske znakove s tipkovnice. Gotov rezultat može se spremiti na vaše računalo.

3 RealSpeaker

Ovaj vam program omogućuje jednostavno prevođenje ljudskog govora u tekst. Dizajniran je za rad na različitim sustavima: Windows, Android, Linux, Mac. Uz njegovu pomoć možete pretvoriti govor koji se čuje u mikrofon (na primjer, može se ugraditi u prijenosno računalo), kao i snimiti u audio datoteke.

Može razumjeti 13 svjetskih jezika. Postoji beta verzija programa koja radi kao online usluga:

Morate slijediti gornju vezu, odabrati ruski jezik, prenijeti svoju audio ili video datoteku na internetsku uslugu i platiti njezinu transkripciju. Nakon transkripcije možete kopirati dobiveni tekst. Što je datoteka za transkripciju veća, potrebno je više vremena za njenu obradu, više detalja:

U 2017. postojala je opcija besplatnog prijepisa pomoću RealSpeakera, ali u 2018. ne postoji takva opcija. Vrlo je zbunjujuće što je transkribirana datoteka dostupna svim korisnicima za preuzimanje; možda će se to poboljšati.

Kontakti programera (VKontakte, Facebook, Youtube, Twitter, e-mail, telefon) programa mogu se pronaći na stranici njegove web stranice (točnije, u podnožju stranice):

4 Speechlogger

Alternativa prethodnoj aplikaciji za mobilne uređaje koji rade na Androidu. Dostupno besplatno u trgovini aplikacija:

Tekst se automatski uređuje i dodaju se interpunkcijski znakovi. Vrlo zgodno za diktiranje bilješki sebi ili izradu popisa. Kao rezultat toga, tekst će biti vrlo pristojne kvalitete.

5 Zmajev diktat

Ovo je aplikacija koju Apple besplatno distribuira za mobilne uređaje.

Program može raditi s 15 jezika. Omogućuje vam uređivanje rezultata i odabir željenih riječi s popisa. Morate jasno izgovarati sve zvukove, ne praviti nepotrebne pauze i izbjegavati intonaciju. Ponekad postoje pogreške u završecima riječi.

Aplikaciju Dragon Dictation vlasnici, primjerice, koriste za diktiranje popisa za kupovinu u trgovini dok se kreću po stanu. Kad stignem tamo, mogu pogledati tekst u bilješci, a ne moram slušati.

Koji god program koristite u svojoj ordinaciji, budite spremni ponovno provjeriti rezultate i napraviti određene prilagodbe. To je jedini način da dobijete besprijekoran tekst bez grešaka.

Također korisne usluge:

Primajte najnovije članke o informatičkoj pismenosti izravno u svoju pristiglu poštu.
Već više 3000 pretplatnika

.

Kao što smo već saznali u prvom poglavlju, programi za prepoznavanje govora danas su vrlo relevantni i naširoko se koriste u svakodnevnom životu. Dva glavna problema strojnog prepoznavanja govora - postizanje zajamčene točnosti s ograničenim skupom naredbi za barem jedan fiksni glas i prepoznavanje proizvoljnog neprekidnog govora prihvatljive kvalitete neovisno o dikciji - još nisu riješena, unatoč dugoj povijesti njihova razvoja. . Štoviše, postoje sumnje u temeljnu mogućnost rješavanja oba problema, jer čak ni osoba ne može uvijek u potpunosti prepoznati govor svog sugovornika. Pogledajmo neke proizvode u ovom području u tablici 3.

tablica 2

Usporedne karakteristike proizvoda “ABBYY FlexiCapture” i “CORRECT. Automatizacija unosa i obrade dokumenata"

Program

Mogućnosti

Zahtjevi sustava

ABBYY FlexiCapture

Automatizira izdvajanje informacija iz papirnatih dokumenata i pohranjuje podatke u informacijski sustav poduzeća

OS: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 ili R2 + Desktop Expirience. Zahtjevi za računalom: osobno računalo s procesorom iz obitelji Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, frekvencije takta 2 GHz ili veće;

Zahtjevi za instalirani softver:

Net Framework 2.0 ili noviji ako se koristi .Net skriptiranje.

Dodatni zahtjevi: internetska veza za aktiviranje serijskog broja, USB priključak za hardverski sigurnosni ključ.

Informacije o cijeni dostupne su prilikom narudžbe. Možete naručiti probnu verziju.

ISPRAVNO. Automatizacija unosa i obrade dokumenata

Rješenje za automatiziranu obradu primarne računovodstvene dokumentacije temeljeno na ABBYY FlexiCapture korištenjem outsourcinga.

OS: Windows XP SP2, Vista SP2, 7, Server 2003 SP2, Server 2008 SP2 ili R2 + Desktop Expirience. Računalni zahtjevi:

Računalo s procesorom obitelji Intel Core2/2 Quad/Pentium/Celeron/Xeon/Core i5/Core i7, AMD K6/Turion/Athlon/Duron/Sempron, radni takt 2 GHz ili viši;

OP: 512 MB za svaku jezgru procesora, ali ne manje od 1 GB; Prostor na disku: 1 GB, od čega 700 MB za instalaciju; skener s podrškom za TWAIN, WIA ili ISIS; Internetska veza za aktiviranje serijskog broja, USB priključak za hardverski sigurnosni ključ; video kartica i monitor rezolucije najmanje 1024×768; tipkovnica, miš ili drugi pokazivački uređaj.

Informacije o cijeni dostupne su prilikom narudžbe.

Tablica 3

Usporedne karakteristike programa za glasovni unos

Dostupno na:

Značajke programa

Yandex. Diktat

iPhone i iPad te Android

  • - Glasovna aktivacija. Za početak snimanja samo recite "Yandex, snimaj."
  • - Prepoznavanje govora. Vi govorite, a aplikacija vaš govor pretvara u tekst.
  • - Kontrola glasa. Možete uređivati ​​tekst pomoću naredbi - na primjer, "Izbriši posljednju riječ", "Počni u novom retku", "Dodaj smiješno lice". Yandex. Diktiranje ne samo da prepoznaje riječi, već i razumije njihovo značenje, tako da je popis naredbi neograničen.
  • - Raspored interpunkcijskih znakova. Aplikacija se fokusira na pauze u govoru i sama postavlja interpunkcijske znakove.
  • - Sinteza govora

Windows 7 i 8. Započeo razvoj Android aplikacije

"Preuzmite RealSpeaker besplatno i moći ćete unijeti tekst bilo koje duljine koristeći svoj glas u bilo koji uređivač teksta (notepad, MS Word, Skype, VKontakte, Facebook, itd.) na bilo kojem od jedanaest jezika", stoji na web stranici projekta . Istodobno, sistemski zahtjevi RealSpeakera navode se kao prilično pristupačni: računalo s prednjom kamerom i mikrofonom, pristup internetu, Windows 7 ili 8.

Gorynych 5.0 Dict Light

Kompatibilan s operativnim sustavima Microsoft Windows Me/2000/XP.

Vrlo jednostavno i user-friendly sučelje.

Brzo i jednostavno postavljanje mikrofona.

Mogućnost dodavanja vlastitih riječi u rječnik.

Vježbajte riječi izravno tijekom diktiranja.

Integrira se u mnoge različite aplikacije, prvenstveno Microsoft Word

Ugrađeni aktivni rječnik. Prilikom odabira i dodjele naredbi treba imati na umu da VOICETYPE ima način rada u kojem program automatski upisuje u tekst sve što nije pohranjeno kao glasovni analog sistemske naredbe. Stoga, ako ste koristili suglasničke izraze, tada će najvjerojatnije VOICETYPE početi posrtati, što će pokvariti cijelu stvar. Drugi prilično ozbiljan problem s VOICETYPE je ugrađeni modul za samoučenje. Ako program odluči da je točno prepoznao riječ ili izraz, u smislu tekstualnog ekvivalenta, ali nije u potpunosti shvatio vaše individualne suptilnosti izgovora, tada može "zamoliti" korisnika da ponovi riječ nekoliko puta i prebrisat će savršeno točan fragment. Lošim izgovorom možete potpuno pokvariti sve, jer VOICETYPE DICTATION može sve zbuniti.

Iz podataka u tablici 3 proizlazi da su programi za glasovni unos rašireni ne samo na računalima, već i na pametnim telefonima. Svi programi navedeni u ovoj tablici lako su dostupni i jednostavni za korištenje. Svi ovi proizvodi mogu se kupiti besplatno.

Unatoč svim dostignućima posljednjih godina, alati za kontinuirano prepoznavanje govora još uvijek dopuštaju velik broj pogrešaka, zahtijevaju dugotrajno postavljanje, zahtjevni su za hardver i kvalifikacije korisnika te odbijaju rad u bučnim prostorijama, iako je potonje važno i za bučne urede i mobilni sustavi i rad u telefonskim uvjetima.

Međutim, prepoznavanje govora, kao i strojno prevođenje s jednog jezika na drugi, jedna je od takozvanih ikoničnih računalnih tehnologija kojima se pridaje posebna pozornost. Zanimanje za ove tehnologije neprestano potiču bezbrojna djela pisaca znanstvene fantastike pa su stalni pokušaji da se stvori proizvod koji bi trebao odgovarati našim predodžbama o tehnologijama sutrašnjice neizbježni. Pa čak i oni projekti koji u svojoj suštini ne predstavljaju ništa, često su prilično komercijalno uspješni, budući da je potrošač živo zainteresiran za samu mogućnost takve implementacije, čak i bez obzira može li je primijeniti u praksi.

  • Tutorial

U ovom članku želim pogledati osnove tako zanimljivog područja razvoja softvera kao što je prepoznavanje govora. Naravno, nisam stručnjak za ovu temu, pa će moja priča biti prepuna netočnosti, pogrešaka i razočaranja. No, glavni cilj moga “rada”, kako se iz naslova može razumjeti, nije stručna analiza problema, već opis temeljnih pojmova, problema i njihovih rješenja. Uglavnom, molim sve zainteresirane da dođu u mačku!

Prolog

Počnimo s činjenicom da je naš govor niz zvukova. Zvuk je pak superpozicija (superpozicija) zvučnih vibracija (valova) različitih frekvencija. Val, kao što znamo iz fizike, karakteriziraju dva atributa - amplituda i frekvencija.

Na taj se način mehaničke vibracije pretvaraju u skup brojeva pogodan za obradu na modernim računalima.

Iz toga slijedi da se zadatak prepoznavanja govora svodi na "usporedbu" skupa numeričkih vrijednosti (digitalnog signala) i riječi iz nekog rječnika (ruski jezik, na primjer).

Hajde da shvatimo kako se, zapravo, ova "usporedba" može provesti.

Ulazni podaci

Recimo da imamo neku datoteku/stream sa audio podacima. Prije svega, moramo razumjeti kako to funkcionira i kako ga čitati. Pogledajmo najjednostavniju opciju - WAV datoteku.

Format podrazumijeva prisutnost dva bloka u datoteci. Prvi blok je zaglavlje s informacijama o audio streamu: bitrate, frekvencija, broj kanala, duljina datoteke itd. Drugi blok sastoji se od "sirovih" podataka - tog istog digitalnog signala, skupa vrijednosti amplitude.

Logika za čitanje podataka u ovom slučaju je vrlo jednostavna. Čitamo zaglavlje, provjeravamo neka ograničenja (na primjer, bez kompresije), spremamo podatke u posebno dodijeljeno polje.

Priznanje

Čisto teoretski, sada možemo usporediti (element po element) uzorak koji imamo s nekim drugim, čiji nam je tekst već poznat. Odnosno, pokušajte "prepoznati" govor ... Ali bolje je ne činiti to :)

Naš pristup mora biti otporan (dobro, barem malo) na promjene u boji glasa (osobe koja izgovara riječ), jačini i brzini izgovora. Naravno, to se ne može postići usporedbom dva audio signala po elementima.

Stoga ćemo krenuti malo drugačijim putem.

Okviri

Prije svega, podijelimo naše podatke na mala vremenska razdoblja – okvire. Štoviše, okviri ne bi trebali ići striktno jedan za drugim, već se "preklapati". Oni. kraj jednog okvira mora se presijecati s početkom drugog.

Okviri su prikladnija jedinica analize podataka od specifičnih vrijednosti signala, budući da je puno praktičnije analizirati valove u određenom intervalu nego u određenim točkama. "Preklapajući" raspored okvira omogućuje vam da izgladite rezultate analize okvira, pretvarajući ideju okvira u "prozor" koji se kreće duž izvorne funkcije (vrijednosti signala).

Eksperimentalno je utvrđeno da optimalna duljina okvira treba odgovarati razmaku od 10 ms, s "preklapanjem" od 50%. Uzimajući u obzir da je prosječna duljina riječi (barem u mojim eksperimentima) 500 ms, ovaj korak će nam dati približno 500 / (10 * 0,5) = 100 okvira po riječi.

Rastavljanje riječi

Prvi zadatak koji se mora riješiti pri prepoznavanju govora je dijeljenje tog govora na pojedinačne riječi. Radi jednostavnosti, pretpostavimo da u našem slučaju govor sadrži neke pauze (intervale tišine), koje se mogu smatrati "razdjelnicima" riječi.

U ovom slučaju moramo pronaći određenu vrijednost, prag - vrijednosti iznad koje je riječ, ispod koje je šutnja. Ovdje može biti nekoliko opcija:

  • postaviti kao konstantu (radi ako se originalni signal uvijek generira pod istim uvjetima, na isti način);
  • klaster vrijednosti signala eksplicitnim odabirom skupa vrijednosti koje odgovaraju tišini (ovo će raditi samo ako tišina zauzima značajan dio izvornog signala);
  • analizirati entropiju;

Kao što možda pretpostavljate, sada ćemo govoriti o posljednjoj točki :) Počnimo s činjenicom da je entropija mjera nereda, “mjera nesigurnosti bilo kojeg iskustva” (c). U našem slučaju, entropija znači koliko naš signal "fluktuira" unutar određenog okvira.

  • Pretpostavimo da je naš signal normaliziran i da su sve njegove vrijednosti u rasponu [-1;1];
  • Izgradimo histogram (gustoću distribucije) vrijednosti signala okvira:
izračunajmo entropiju kao ;

I tako, dobili smo vrijednost entropije. No, to je samo još jedna karakteristika okvira, a da bismo odvojili zvuk od tišine, ipak ga moramo s nečim usporediti. Neki članci preporučuju uzimanje entropijskog praga jednakog prosjeku između njegovih maksimalnih i minimalnih vrijednosti (između svih okvira). Međutim, u mom slučaju ovaj pristup nije dao dobre rezultate.
Srećom, entropija (za razliku od istog prosječnog kvadrata vrijednosti) je relativno neovisna veličina. Što mi je omogućilo da odaberem vrijednost njegovog praga u obliku konstante (0,1).

Ipak, problemi tu ne prestaju: (Entropija može pasti usred riječi (na samoglasnicima) ili može naglo skočiti zbog malog šuma. Da bismo riješili prvi problem, moramo uvesti koncept "minimalne udaljenosti između riječi" i "slijepiti" obližnje skupove okvira odvojenih zbog slijeganja. Drugi problem je riješen korištenjem "minimalne duljine riječi" i odsijecanjem svih kandidata koji nisu prošli odabir (i nisu. korišten u prvoj točki).

Ako govor u načelu nije "artikuliran", možete pokušati razbiti izvorni skup okvira u podsekvence pripremljene na određeni način, od kojih će svaka biti podvrgnuta postupku prepoznavanja. Ali to je sasvim druga priča :)

I tako, imamo skup okvira koji odgovaraju određenoj riječi. Možemo slijediti put najmanjeg otpora i koristiti prosječni kvadrat svih njegovih vrijednosti (Root Mean Square) kao numeričku karakteristiku okvira. Međutim, takva metrika nosi vrlo malo informacija prikladnih za daljnju analizu.

Ovdje stupaju na scenu Mel-frekvencijski kepstralni koeficijenti. Prema Wikipediji (koja, kao što znate, ne laže), MFCC je neka vrsta prikaza energetskog spektra signala. Prednosti korištenja su sljedeće:

  • Koristi se spektar signala (odnosno proširenje baze ortogonalnih [ko]sinusnih funkcija), što omogućuje uzimanje u obzir valne “prirode” signala u daljnjoj analizi;
  • Spektar se projicira na posebnu mel-skalu, što vam omogućuje da istaknete najznačajnije frekvencije za ljudsku percepciju;
  • Broj izračunatih koeficijenata može se ograničiti na bilo koju vrijednost (na primjer, 12), što vam omogućuje "sažimanje" okvira i, kao posljedicu, količinu obrađenih informacija;

Pogledajmo proces izračunavanja MFCC koeficijenata za određeni okvir.

Zamislimo naš okvir kao vektor, gdje je N veličina okvira.

Proširenje u Fourierov niz

Prije svega, izračunavamo spektar signala pomoću diskretne Fourierove transformacije (po mogućnosti njezine "brze" FFT implementacije).

To jest, rezultat će biti vektor sljedećeg oblika:

Važno je razumjeti da nakon ove transformacije duž X osi imamo frekvenciju (hz) signala, a duž Y osi imamo magnitudu (kao način da se udaljimo od složenih vrijednosti):

Proračun mel filtera

Počnimo s onim što je mel. Opet prema Wikipediji, mel je "psihofizička jedinica tona" koja se temelji na subjektivnoj percepciji prosječnih ljudi. Ovisi prvenstveno o frekvenciji zvuka (kao i glasnoći i boji). Drugim riječima, ova vrijednost pokazuje koliko nam zvuk određene frekvencije ima “značenje”.

Frekvenciju možete pretvoriti u kredu pomoću sljedeće formule (zapamtite je kao "formulu-1"):

Inverzna transformacija izgleda ovako (zapamtite je kao "formulu-2"):

mel/frekvencijski grafikon:

Ali vratimo se našem zadatku. Recimo da imamo okvir od 256 elemenata. Znamo (iz podataka audio formata) da je audio frekvencija u ovom okviru 16000 Hz. Pretpostavimo da ljudski govor leži u rasponu od hz. Postavimo broj potrebnih malih koeficijenata na M = 10 (preporučena vrijednost).

Kako bismo razložili gore dobiveni spektar duž mel ljestvice, morat ćemo stvoriti "češalj" filtara. U biti, svaki mel filter je funkcija trokutastog prozora koja vam omogućuje zbrajanje količine energije u određenom frekvencijskom rasponu i time dobivanje mel koeficijenta. Znajući broj malih koeficijenata i analizirani raspon frekvencija, možemo izgraditi skup filtara poput ovog:

Imajte na umu da što je veći redni broj koeficijenta krede, to je baza filtra šira. To je zbog činjenice da se podjela frekvencijskog raspona koji nas zanima u raspone obrađene filtrima događa na skali krede.

Ali opet smo se omesti. I tako je za naš slučaj raspon frekvencija koji nas zanima jednak . Prema formuli-1, na skali kredom ovaj se raspon pretvara u .

m[i] =

Imajte na umu da su točkice na skali krede ravnomjerno raspoređene. Pretvorimo ljestvicu natrag u herce pomoću formule-2:

h[i] =

Kao što vidite, ljestvica se sada počela postupno rastezati, čime se izravnava dinamika rasta "značajnosti" na niskim i visokim frekvencijama.

Sada trebamo superponirati dobivenu ljestvicu na spektar našeg okvira. Kao što se sjećamo, duž X osi imamo frekvenciju. Dužina spektra je 256 elemenata, au njega stane 16000Hz. Nakon što riješite jednostavnu proporciju, možete dobiti sljedeću formulu:

f(i) = kat((veličina okvira+1) * h(i) / brzina uzorkovanja)

Što je u našem slučaju ekvivalentno

f(i) = 4, 8, 12, 17, 23, 31, 40, 52, 66, 82, 103, 128

To je sve! Poznavajući referentne točke na X-osi našeg spektra, lako je konstruirati filtre koji su nam potrebni pomoću sljedeće formule:

Primjena filtara, logaritmiranje energije spektra

Primjena filtra sastoji se od parnog množenja njegovih vrijednosti s vrijednostima spektra. Rezultat ove operacije je mel koeficijent. Budući da imamo M filtera, bit će isti broj koeficijenata.

Međutim, moramo primijeniti mel filtere ne na vrijednosti spektra, već na njegovu energiju. Zatim uzmite logaritam rezultata. Vjeruje se da se time smanjuje osjetljivost koeficijenata na šum.

Kosinusna transformacija

Diskretna kosinusna transformacija (DCT) koristi se za dobivanje tih "kepstralnih" koeficijenata. Njegovo značenje je "sažimanje" dobivenih rezultata, povećavajući značaj prvih koeficijenata i smanjujući značaj potonjih.

U ovom slučaju, DCTII se koristi bez ikakvog množenja s (faktor skale).

Sada za svaki okvir imamo skup M mfcc koeficijenata koji se mogu koristiti za daljnju analizu.

Može se pronaći primjer koda za gore navedene metode.

Algoritam prepoznavanja

Ovdje te, dragi čitatelju, čeka glavno razočarenje. Na Internetu sam vidio mnogo visokointeligentnih (i ne tako visokointeligentnih) rasprava o tome koja je metoda prepoznavanja bolja. Neki ljudi zagovaraju skrivene Markovljeve modele, drugi zagovaraju neuronske mreže, a misli nekih ljudi je u osnovi nemoguće razumjeti :)

U svakom slučaju, puno preferencija se daje SMM-u, a upravo njihovu implementaciju ću dodati u svoj kod... u budućnosti :)

U ovom trenutku predlažem da se usredotočite na mnogo manje učinkovitu, ali mnogo jednostavniju metodu.

I zato, podsjetimo da je naš zadatak prepoznati riječ iz određenog rječnika. Radi jednostavnosti, prepoznat ćemo nazive prvih deset znamenki: “jedan”, “dva”, “tri”, “četiri”, “pet”, “šest”, “sedam”, “osam”, “devet”, "deset".

Sada uzmimo iPhone/Android i prođimo L kolegama sa zahtjevom da nam diktiraju ove riječi za snimanje. Zatim pridružimo (u nekoj lokalnoj bazi podataka ili jednostavnoj datoteci) svakoj riječi L skupova mfcc koeficijenata odgovarajućih zapisa.

Ovo dopisivanje ćemo nazvati “Model”, a sam proces – Strojno učenje! Zapravo, jednostavno dodavanje novih uzoraka u bazu podataka ima izuzetno slabu vezu sa strojnim učenjem... Ali izraz je previše moderan :)

Sada se naš zadatak svodi na odabir "najbližeg" modela za određeni skup mfcc koeficijenata (prepoznata riječ). Na prvi pogled, problem se može riješiti vrlo jednostavno:

  • za svaki model nalazimo prosječnu (euklidsku) udaljenost između identificiranog mfcc vektora i vektora modela;
  • odabiremo kao točan model prosječnu udaljenost do koje je najmanja;

Međutim, istu riječ mogu izgovoriti i Andrej Malahov i neki njegovi estonski kolege. Drugim riječima, veličina mfcc vektora za istu riječ može biti različita.

Srećom, problem usporedbe nizova različitih duljina već je riješen u obliku algoritma Dynamic Time Warping. Ovaj algoritam dinamičkog programiranja savršeno je opisan iu buržoaskoj Wiki i na Ortodoksnom Habru.

Jedina promjena koju je potrebno učiniti je način na koji se nalazi udaljenost. Moramo zapamtiti da je mfcc vektor modela zapravo slijed mfcc "podvektora" dimenzije M dobivenih iz okvira. Dakle, DTW algoritam mora pronaći udaljenost između nizova tih istih "podvektora" dimenzije M. To jest, udaljenosti (euklidske) između mfcc "podvektora" okvira moraju se koristiti kao vrijednosti matrice udaljenosti.

Eksperimenti

Nisam imao priliku testirati učinkovitost ovog pristupa na velikom uzorku za “trening”. Rezultati testova na uzorku od 3 primjerka za svaku riječ u nesintetičkim uvjetima pokazali su, blago rečeno, ne najbolji rezultat - 65% točnih prepoznavanja.

Međutim, moj cilj je bio stvoriti što jednostavniju aplikaciju za prepoznavanje govora. Takoreći “dokaz koncepta” :) Dodajte oznake

Da, ali stvari su još uvijek tu.
I.A. Krilov. Basna "Labud, štuka i rak"

Dvije glavne zadaće strojnog prepoznavanja govora - postizanje zajamčene točnosti s ograničenim skupom naredbi za barem jedan fiksni glas i prepoznavanje proizvoljnog kontinuiranog govora prihvatljive kvalitete neovisno o dikciji - još nisu riješene, unatoč dugoj povijesti njihova razvoja. . Štoviše, postoje sumnje u temeljnu mogućnost rješavanja oba problema, jer čak ni osoba ne može uvijek u potpunosti prepoznati govor svog sugovornika.

Nekoć se mogućnost normalnog razgovora s računalom piscima znanstvene fantastike činila toliko očitom i prirodnom da su prva računala, lišena glasovnog sučelja, doživljavana kao nešto inferiorno.

Čini se, zašto ne riješiti ovaj problem programski, koristeći "pametna" računala? Uostalom, čini se da postoje proizvođači takvih proizvoda, a moć računala stalno raste, a tehnologije se poboljšavaju. Međutim, čini se da je napredak u automatskom prepoznavanju govora i pretvaranju u tekst na istoj razini kao i prije 20-40 godina. Sjećam se da je još sredinom 90-ih IBM samouvjereno najavio prisutnost takvih alata u OS/2, a malo kasnije Microsoft se pridružio implementaciji sličnih tehnologija. Apple je također pokušao poraditi na prepoznavanju govora, ali je početkom 2000. službeno objavio da odustaje od tog projekta. IBM (Via Voice) i Philips nastavljaju raditi na ovom području, a IBM ne samo da je funkciju prepoznavanja govora integrirao u svoj operativni sustav OS/2 (sada pao u zaborav), već je i dalje proizvodi kao zaseban proizvod. Via Voice paket kontinuiranog prepoznavanja govora (http://www-306.ibm.com/software/voice/viavoice) od IBM-a istaknuo se činjenicom da je prepoznao do 80% riječi od samog početka, čak i bez obuke . Tijekom obuke vjerojatnost ispravnog prepoznavanja porasla je na 95%, a osim toga, paralelno s postavljanjem programa za određenog korisnika, budući operater je svladao vještine rada sa sustavom. Sada postoje glasine da će slične inovacije biti implementirane kao dio sustava Windows XP, iako je šef i osnivač korporacije, Bill Gates, više puta izjavio da smatra da govorne tehnologije još nisu spremne za masovnu upotrebu.

Svojedobno je američka tvrtka Dragon Systems napravila vjerojatno prvi komercijalni sustav za prepoznavanje govora Naturally Speaking Preferred, koji je još 1982. godine radio na IBM PC-u (čak ni XT!). Istina, taj je program više ličio na igricu i od tada tvrtka nije napravila nikakav ozbiljniji pomak, a do 2000. godine potpuno je bankrotirala, a svoju posljednju verziju, Dragon Dictate Naturally Speaking, prodala je Lernout & Hauspie Speech Products (L&H) , koji je također bio jedan od vodećih u području sustava i metoda za prepoznavanje i sintezu govora (Voice Xpress). L&H je pak također bankrotirao rasprodajom imovine i imovine (usput rečeno, Dragon Systems je prodan za gotovo 0,5 milijardi dolara, a L&H već za 10 milijuna, pa njegove razmjere na ovom području nije napredak koji je impresivan , ali regresija!). Tehnologije L&H-a i Dragon Systemsa prenesene su u tvrtku ScanSoft koja se prije bavila optičkim prepoznavanjem slike (sada pokreće neke poznate programe za prepoznavanje teksta poput OmniPagea), no čini se da se time nitko ozbiljno ne bavi.

Ruska tvrtka Cognitive Technologies, koja je postigla značajan uspjeh na području prepoznavanja znakova, najavila je 2001. godine zajednički projekt s Intelom za stvaranje sustava za prepoznavanje ruskog govora; za Intel je pripremljen govorni korpus ruskog jezika RuSpeech. Zapravo, RuSpeech je govorna baza podataka koja sadrži fragmente kontinuiranog ruskog govora s odgovarajućim tekstovima, fonetskom transkripcijom i dodatnim informacijama o govornicima. Cognitive Technologies si je zadao cilj stvoriti kontinuirani sustav prepoznavanja govora "neovisan o govorniku", a govorno se sučelje sastojalo od sustava dijaloških skripti, sinteze govora temeljene na tekstu i sustava prepoznavanja govornih naredbi.

Međutim, zapravo do danas programi za stvarno prepoznavanje govora (pa čak ni na ruskom) praktički ne postoje i očito se neće uskoro stvoriti. Štoviše, ni obrnuti problem prepoznavanja – sinteza govora, koja bi se činila puno jednostavnija od prepoznavanja – nije u potpunosti riješen. Svaki sintetizirani govor čovjek percipira lošije od govora uživo, a to je posebno vidljivo kada se prenosi preko telefonskog kanala, odnosno upravo tamo gdje je danas najtraženiji.

"To je to, gotov si", rekao je Ivan Carević, gledajući ravno u oči treće glave Zmije Gorynych. Zbunjeno je pogledala drugu dvojicu. Zlurado su se nasmiješili kao odgovor.

Vic

Godine 1997. ulazak na komercijalno tržište poznatog “Gorynycha” (u suštini adaptacije programa Dragon Dictate Naturally Speaking, koju je provela tada malo poznata ruska tvrtka White Group, službenog distributera Dragon Systemsa) postao je svojevrstan. od osjeta. Program se činio prilično izvedivim, a cijena mu se činila vrlo prihvatljivom. Međutim, kako vrijeme prolazi, "Gorynychi" mijenjaju sučelja i verzije, ali ne stječu nikakva vrijedna svojstva. Možda je jezgra Dragon Naturally Speaking nekako usklađena s osobitostima engleskog govora, ali čak i nakon uzastopne zamjene zmajeve glave s tri glave Gorynycha, ne daje više od 30-40% prepoznavanja prosječne razine vokabulara, i s oprezom izgovor. I kome to uopće treba? Kao što je poznato, prema izjavama programera Dragon Systems, IBM i Lernout&Hauspie, njihovi programi tijekom kontinuiranog diktiranja uspjeli su ispravno prepoznati do 95% teksta, ali se već dugo ne proizvode, jer poznato je da se za ugodan rad točnost prepoznavanja mora povećati na 99 %. Nepotrebno je reći da postizanje takvih visina u stvarnim uvjetima zahtijeva, blago rečeno, znatan napor.

Osim toga, program zahtjeva dugotrajno školovanje i prilagođavanje konkretnom korisniku, vrlo je kapriciozan što se tiče opreme, a više je nego osjetljiv na intonaciju i brzinu izgovaranja fraza, pa je mogućnost osposobljavanja za prepoznavanje različitih glasova. jako varira.

Ipak, možda će netko kupiti ovaj paket kao neku naprednu igračku, ali to neće pomoći prstima umornim od rada na tipkovnici, iako proizvođači Gorynych tvrde da je brzina unosa govornog materijala i pretvaranja u tekst 500-700 znakova u minuti, što je nedostupno čak i nekolicini iskusnih daktilografa, ako se zbroji brzina njihovog rada.

Nakon detaljnijeg ispitivanja nove verzije ovog programa, nismo uspjeli iz njega izvući ništa korisno. Čak i nakon dugog "treninga" programa (a standardni rječnik nam uopće nije pomogao), pokazalo se da se diktat i dalje mora provoditi strogo prema riječima (odnosno, nakon svake riječi morate napraviti pauzu) i riječi se moraju jasno izgovarati, što nije uvijek tipično za govor. Naravno, “Gorynych” je modifikacija sustava engleskog jezika i za engleski je drugačiji pristup jednostavno nezamisliv, ali nam se govoriti ruski na takav način činilo posebno neprirodnim. Osim toga, tijekom normalnog razgovora na bilo kojem jeziku, intenzitet zvuka gotovo nikada ne pada na nulu (to se može vidjeti iz spektrograma), ali komercijalni programi naučili su prepoznati diktiranje tekstova o općim temama izvedenih na način kontinuiranog govora 5-10 prije nekoliko godina .

Sustav je prvenstveno fokusiran na unos, ali sadrži alate koji vam omogućuju da ispravite pogrešno čuvenu riječ, za što Gorynych nudi popis opcija. Možete ispraviti tekst s tipkovnice, što je, usput rečeno, ono što morate raditi cijelo vrijeme. Riječi koje nisu u rječniku također se mogu unijeti pomoću tipkovnice. Sjećam se da je u prethodnim verzijama bilo navedeno da što češće diktirate, to se sustav više navikava na vaš glas, ali ni tada ni sada to nismo primijetili. Čak nam se činilo da je rad s Gorynych programom još uvijek teži od, na primjer, učenja papige da govori, a od novih proizvoda u verziji 3.0 možemo primijetiti samo "pop" multimedijsko sučelje.

Jednom riječju, postoji samo jedna manifestacija napretka u ovom području: zbog porasta računalne snage, vremenska odgoda između izgovora riječi i prikaza njezine pisane verzije na ekranu potpuno je nestala, a broj točnih pogodaka, nažalost , nije se povećao.

Analizirajući mogućnosti programa, sve smo skloniji mišljenju stručnjaka da je jezična analiza teksta obavezna faza procesa automatskog diktiranja. Bez toga se ne može postići suvremena kvaliteta prepoznavanja, a mnogi stručnjaci povezuju perspektivu govornih sustava s daljnjim razvojem jezičnih mehanizama koje oni sadrže. Kao rezultat toga, govorne tehnologije postaju sve više ovisne o jeziku s kojim rade. A to znači, prvo, da je prepoznavanje, sinteza i obrada ruskog govora nešto što bi ruski programeri trebali učiniti, i drugo, samo specijalizirani domaći proizvodi, u početku usmjereni posebno na ruski jezik, moći će uistinu riješiti ovaj zadatak . Istina, ovdje treba napomenuti da domaći stručnjaci iz peterburškog "Centra za govorne tehnologije" (CDT) smatraju da se stvaranje vlastitog sustava diktiranja u trenutnim ruskim uvjetima neće isplatiti.

Ostale igračke

Do sada su ruski programeri uspješno koristili tehnologije prepoznavanja govora uglavnom u interaktivnim obrazovnim sustavima i igrama poput “My Talking Dictionary”, Talk to Me ili “Professor Higgins”, koje je kreirao IstraSoft. Koriste se za kontrolu izgovora za učenike engleskog jezika i autentifikaciju korisnika. Razvojem programa “Profesor Higgins” djelatnici IstraSofta naučili su dijeliti riječi na elementarne segmente koji odgovaraju zvukovima govora i ne ovise ni o govorniku ni o jeziku (ranije sustavi za prepoznavanje govora nisu vršili takvu segmentaciju, a najmanja jedinica za njih je bila riječ) . U ovom slučaju, odabir fonema iz toka kontinuiranog govora, njihovo kodiranje i naknadna obnova događa se u stvarnom vremenu. Ova tehnologija prepoznavanja govora pronašla je prilično genijalnu primjenu - omogućuje značajno komprimiranje datoteka s glasovnim snimkama ili glasovnim porukama. Metoda koju predlaže IstraSoft omogućuje kompresiju govora do 200 puta, a kod kompresije manje od 40 puta kvaliteta govornog signala praktički ne opada. Inteligentna obrada govora na razini fonema obećava ne samo kao metoda sažimanja, već i kao korak prema stvaranju nove generacije sustava za prepoznavanje govora, jer teoretski, strojno prepoznavanje govora, odnosno njegovo automatsko predstavljanje u obliku teksta, može biti vrlo uspješan način na koji se koristi sustav prepoznavanja govora. je upravo ekstremni stupanj kompresije govornog signala.

Danas, uz programe obuke, IstraSoft na svojoj web stranici (http://www.istrasoft.ru/user.html) nudi programe za kompresiju/reprodukciju zvučnih datoteka, kao i demo program za glasovno neovisno prepoznavanje ruskog jezika naredbe, Istrasoft Voice Commander.

Čini se da sada za stvaranje sustava prepoznavanja temeljenog na novoj tehnologiji preostaje vrlo malo...

), koji na ovom području radi od 1990. godine, čini se da je postigao određeni uspjeh. TsRT u svom arsenalu ima čitav niz softvera i hardvera dizajniranih za smanjenje buke i poboljšanje kvalitete audio, a prvenstveno govornih signala - to su računalni programi, samostalni uređaji, ploče (DSP) ugrađene u uređaje za snimanje kanala ili prijenos govornih informacija (o ovoj smo tvrtki već pisali u članku “Kako poboljšati razumljivost govora?” u broju 8'2004). "Centar za govorne tehnologije" poznat je kao razvijač alata za smanjenje buke i uređivanje zvuka: Clear Voice, Sound Cleaner, Speech Interactive Software, Sound Stretcher itd. Stručnjaci tvrtke sudjelovali su u restauraciji audio informacija snimljenih na potonulom brodu. podmornice "Kursk" i na srušenim zrakoplovnim sudovima, kao iu istrazi niza kaznenih predmeta, za koje je bilo potrebno utvrditi sadržaj govornih fonograma.

Kompleks za smanjenje govorne buke Sound Cleaner profesionalni je skup softvera i hardvera dizajniran za vraćanje razumljivosti govora i čišćenje zvučnih signala snimljenih u teškim akustičkim uvjetima ili prenesenih preko komunikacijskih kanala. Ovaj doista jedinstven softverski proizvod dizajniran je za uklanjanje buke i poboljšanje kvalitete zvuka uživo (to jest, primljenog u stvarnom vremenu) ili snimljenog audio signala i može pomoći u poboljšanju razumljivosti i dekodiranja teksta govornih fonograma niske kvalitete (uključujući arhivirane one) snimljene u teškim akustičnim uvjetima.

Naravno, Sound Cleaner djeluje učinkovitije u odnosu na buku i izobličenje zvuka poznate prirode, poput tipične buke i izobličenja komunikacijskih kanala i kanala za snimanje zvuka, buke prostorija i ulica, rada strojeva, vozila, kućanskih aparata, glasovnog "koktela" , spora glazba, elektromagnetske smetnje, sustavi napajanja, računalna i druga oprema, efekti odjeka i jeke. U principu, što je buka jednoličnija i „pravilnija“, to će se ovaj kompleks s njom uspješnije nositi.

Međutim, pri snimanju informacija u dva kanala, Sound Cleaner značajno smanjuje utjecaj buke bilo koje vrste, na primjer, ima dvokanalne adaptivne metode filtriranja dizajnirane za suzbijanje širokopojasnih nestacionarnih smetnji (kao što su govor, radio ili televizijsko emitiranje, buka dvorane itd.) i periodična (vibracije, mrežne smetnje itd.). Ove se metode temelje na činjenici da se pri identificiranju korisnog signala koriste dodatne informacije o svojstvima smetnje predstavljene u referentnom kanalu.

Kad već govorimo o prepoznavanju govora, ne možemo ne spomenuti još jedan razvoj MDG-a - obitelj računalnih transkribera, koji nažalost još uvijek nisu programi za automatsko prepoznavanje govora i njegovo pretvaranje u tekst, već su računalni digitalni magnetofoni. kontroliran iz specijaliziranog uređivača teksta. Ovi uređaji dizajnirani su za povećanje brzine i udobnosti snimanja zvučnih zapisa usmenog govora pri pripremi izvješća, zapisnika sa sastanaka, pregovora, predavanja, intervjua, također se koriste u bespapirnom uredskom radu iu mnogim drugim slučajevima. Transkriberi su jednostavni i laki za korištenje te su dostupni čak i neprofesionalnim operaterima. Pritom se brzina tipkanja povećava dva do tri puta za profesionalne tipkače na dodir, a pet do deset puta za neprofesionalce! Osim toga, mehaničko trošenje magnetofona i vrpce značajno je smanjeno ako govorimo o analognom izvoru. Osim toga, računalni prepisivači imaju interaktivnu mogućnost usporedbe utipkanog teksta i odgovarajućeg zvučnog zapisa. Veza između teksta i govora uspostavlja se automatski i omogućuje trenutno automatsko pronalaženje i slušanje odgovarajućih zvučnih fragmenata govornog signala u utipkanom tekstu kada kursor pomaknete na dio teksta koji se ispituje. Povećanje razumljivosti govora ovdje se može postići i usporavanjem brzine reprodukcije bez izobličenja boje glasa i opetovanim ponavljanjem nerazumljivih fragmenata u načinu zvona.

Naravno, mnogo je lakše implementirati program koji može prepoznati samo ograničen, mali skup kontrolnih naredbi i simbola. To, na primjer, mogu biti brojevi od 0 do 9 u telefonu, riječi "da"/"ne" i jednosložne naredbe za pozivanje željenih pretplatnika itd. Takvi programi prvi su se pojavili i dugo se koriste u telefoniji za glasovno biranje ili odabir pretplatnika.

Točnost prepoznavanja se u pravilu povećava ako se prethodno ugodi glasu određenog korisnika, pa se na taj način može postići prepoznavanje govora čak i kada govornik ima dikcijski nedostatak ili naglasak. Čini se da je sve dobro, ali zapaženi uspjesi na ovom području vidljivi su samo ako individualno korištenje opreme ili softvera preuzme jedan ili više korisnika, u ekstremnim slučajevima, za svakoga od kojih se kreira vlastiti individualni “profil”.

Ukratko, unatoč svim dostignućima posljednjih godina, alati za kontinuirano prepoznavanje govora i dalje dopuštaju velik broj pogrešaka, zahtijevaju dugotrajno podešavanje, zahtjevni su za hardver i kvalifikacije korisnika te odbijaju raditi u bučnim prostorijama, iako je potonje važno kako za bučne urede, tako i za mobilne sustave i rad u telefonskim komunikacijama.

Međutim, prepoznavanje govora, kao i strojno prevođenje s jednog jezika na drugi, jedna je od takozvanih ikoničnih računalnih tehnologija kojima se pridaje posebna pozornost. Zanimanje za ove tehnologije neprestano potiču bezbrojna djela pisaca znanstvene fantastike pa su stalni pokušaji da se stvori proizvod koji bi trebao odgovarati našim predodžbama o tehnologijama sutrašnjice neizbježni. Pa čak i oni projekti koji u svojoj suštini ne predstavljaju ništa, često su prilično komercijalno uspješni, budući da je potrošač živo zainteresiran za samu mogućnost takve implementacije, čak i bez obzira može li je primijeniti u praksi.

Ažurirano: ponedjeljak, 31. srpnja 2017

Kakve veze ima polufantastična ideja razgovora s računalom s profesionalnom fotografijom? Gotovo nikakav, osim ako niste ljubitelj ideje beskonačnog razvoja cjelokupnog tehničkog okruženja čovjeka. Zamislite na trenutak da svom fotoaparatu glasovno naređujete da promijeni žarišnu duljinu i napravi korekciju ekspozicije od pola stope plus. Daljinsko upravljanje kamerom već je implementirano, ali tamo morate tiho pritisnuti gumbe, ali ovdje je kamera za sluh!

Postala je tradicija navoditi neki znanstveno-fantastični film kao primjer glasovne komunikacije između osobe i računala, primjerice “2001: Odiseja u svemiru” redatelja Stanleyja Kubricka. Tamo, ugrađeno računalo ne samo da vodi smislen dijalog s astronautima, već može čitati s usana poput gluhe osobe. Drugim riječima, stroj je naučio prepoznavati ljudski govor bez grešaka. Možda će se nekome daljinsko glasovno upravljanje kamerom učiniti suvišnim, ali mnogi bi željeli ovu frazu "Spusti nas dolje, dušo" i fotografija cijele obitelji na pozadini palme je spremna.

Pa, odao sam počast tradiciji i malo sanjao. No, govoreći od srca, ovaj je članak bilo teško napisati, a sve je počelo poklonom u obliku pametnog telefona s Android 4 OS-om. Ovaj model HUAWEI U8815 ima mali ekran osjetljiv na dodir od četiri inča i tipkovnicu na ekranu. Malo je neobično tipkati po njemu, ali ispada da nije osobito potrebno. (slika01)

1. Prepoznavanje glasa u pametnom telefonu s operativnim sustavom Android

Dok sam isprobavao novu igračku, primijetio sam grafiku mikrofona u traci za pretraživanje Google i na tipkovnici u bilješkama. Ranije me nije zanimalo što ovaj simbol znači. Vodio sam razgovore u Skype, i upisivali slova na tipkovnici. To čini većina korisnika interneta. Ali kako su mi kasnije objasnili, u tražilici Google dodano je glasovno pretraživanje na ruskom i pojavili su se programi koji vam omogućuju diktiranje kratkih poruka kada koristite preglednik "Krom".

Rekao sam frazu od tri riječi, program ih je identificirao i prikazao u ćeliji s plavom pozadinom. Imalo se tu čemu čuditi jer su sve riječi bile ispravno napisane. Ako kliknete na ovu ćeliju, izraz se pojavljuje u tekstualnom polju Android bilježnice. Pa sam rekao još par fraza i poslao poruku asistentu putem SMS-a.


2. Kratka povijest programa za prepoznavanje glasa.

Za mene nije bilo otkriće da moderni napredak u području glasovnog upravljanja omogućuje davanje naredbi kućanskim aparatima, automobilima i robotima. Naredbeni način rada uveden je u prethodnim verzijama sustava Windows, OS/2 i Mac OS. Naišao sam na programe koji govore, ali kakva je korist od njih? Možda je moja posebnost što mi je lakše govoriti nego tipkati na tipkovnici, ali na mobitelu ne mogu ništa tipkati. Morate zapisati kontakte na prijenosnom računalu s normalnom tipkovnicom i prenijeti ih putem USB kabela. Ali jednostavno govoriti u mikrofon i da računalo samo ukuca tekst bez grešaka za mene je bio san. Atmosfera beznađa održavana je raspravama na forumima. Posvuda je bila tako tužna misao:

“Međutim, u stvarnosti, do danas, programi za pravo prepoznavanje govora (pa čak ni na ruskom) praktički ne postoje i očito se neće uskoro stvoriti. Štoviše, ni obrnuti problem prepoznavanja – sinteza govora, koja je, čini se, mnogo jednostavnija od prepoznavanja, nije u potpunosti riješen.” (ComputerPress br. 12, 2004.)

“Još uvijek nema normalnih programa za prepoznavanje govora (ne samo ruskog) jer je zadatak prilično težak za računalo. A što je najgore, mehanizam prepoznavanja riječi od strane ljudi još nije realiziran, pa se nema od čega krenuti pri izradi programa za prepoznavanje.” (Još jedna rasprava na forumu).

U isto vrijeme, pregledi programa za glasovni unos teksta na engleskom jeziku ukazivali su na jasne uspjehe. Na primjer, IBM ViaVoice 98 Executive Edition imao je osnovni vokabular od 64 000 riječi i mogućnost dodavanja isto toliko vlastitih riječi. Postotak prepoznavanja riječi bez obuke programa bio je oko 80%, a tijekom naknadnog rada s određenim korisnikom dosegao je 95%.

Među programima za prepoznavanje ruskog jezika vrijedi istaknuti "Gorynych" - dodatak Dragon Dictate 2.5 na engleskom jeziku. Reći ću vam o potrazi, a zatim i o "bitci s pet Gorynych" u drugom dijelu recenzije. Prvi koji sam pronašao bio je "Engleski zmaj".

3. Kontinuirani program prepoznavanja govora “Dragon Naturally Speaking”

Moderna verzija programa tvrtke "Utančanost" završio kod mog starog prijatelja s Instituta za strane jezike u Minsku. Donijela ju je s putovanja u inozemstvo i kupila misleći da bi mogla biti “kompjuterska tajnica”. Ali nešto nije uspjelo, a program je ostao na prijenosnom računalu, gotovo zaboravljen. Zbog nedostatka ikakvog jasnog iskustva, morao sam sam otići do svog prijatelja. Sav ovaj dugi uvod neophodan je za ispravno razumijevanje zaključaka koje sam izvukao.

Puno ime mog prvog zmaja bilo je: . Program je na engleskom i u njemu je sve jasno i bez priručnika. Prvi korak je izrada profila određenog korisnika kako bi se utvrdile zvučne karakteristike riječi u njegovoj izvedbi. To sam i učinio - važna je dob, zemlja i izgovor govornika. Moj izbor je sljedeći: dob 22–54 godine, britanski engleski, standardni izgovor. Slijedi nekoliko prozora u kojima možete konfigurirati svoj mikrofon. (slika04)

Sljedeća faza za ozbiljne programe prepoznavanja govora je obuka za značajke izgovora određene osobe. Od vas se traži da odaberete prirodu teksta: moj izbor je kratka uputa za diktat, ali možete “naručiti” i duhovitu priču.

Bit ove faze rada s programom je krajnje jednostavna - u prozoru se prikazuje tekst, a iznad njega žuta strelica. Kada se pravilno izgovori, strelica se kreće kroz fraze, a na dnu je traka napretka vježbanja. Prilično sam zaboravio svoj razgovorni engleski, pa sam teško napredovao. Vrijeme je također bilo ograničeno – kompjuter nije bio moj i morao sam prekinuti trening. Ali prijateljica je rekla da je napravila test za manje od pola sata. (slika05)

Odbijajući dopustiti da program prilagodi moj izgovor, otišao sam u glavni prozor i pokrenuo ugrađeni uređivač teksta. Izgovarao je pojedine riječi iz nekih tekstova koje je pronašao na računalu. Program je ispisao one riječi koje je izgovorio ispravno, a zamijenio one koje je rekao loše nečim "engleskim". Nakon što je jasno izgovorio naredbu "brisanje retka" na engleskom, program ju je izvršio. To znači da ja točno čitam naredbe, a program ih prepoznaje bez prethodne obuke.

Ali bilo mi je važno kako taj "zmaj" piše na ruskom. Kao što ste shvatili iz prethodnog opisa, kada trenirate program, možete odabrati samo engleski tekst; tamo jednostavno nema ruskog. Jasno je da neće biti moguće trenirati prepoznavanje ruskog govora. Na sljedećoj fotografiji možete vidjeti koju je frazu program upisao prilikom izgovaranja ruske riječi "Zdravo". (slika06)

Ishod razgovora s prvim zmajem ispao je pomalo komičan. Ako pažljivo pročitate tekst na službenoj web stranici, možete vidjeti englesku "specijalizaciju" ovog softverskog proizvoda. Osim toga, prilikom učitavanja čitamo "engleski" u prozoru programa. Pa zašto je sve ovo bilo potrebno? Jasno je da su krivi forumi i glasine...

Ali postoji i korisno iskustvo. Moja prijateljica tražila je da vidi u kakvom je stanju njezin laptop. Nekako polako je počeo raditi. To ne čudi - sistemska particija imala je samo 5% slobodnog prostora. Prilikom brisanja nepotrebnih programa vidio sam da službena verzija zauzima više od 2,3 GB. Ova brojka će nam biti od koristi kasnije. (slika.07)



Prepoznavanje ruskog govora, kako se pokazalo, nije bio trivijalan zadatak. U Minsku sam uspio pronaći “Gorynycha” od prijatelja. Disk je dugo tražio u svojim starim ruševinama i, prema njegovim riječima, ovo je službena objava. Program se odmah instalirao i saznao sam da njegov rječnik sadrži 5000 ruskih riječi plus 100 naredbi i 600 engleskih riječi plus 31 naredbu.

Prvo trebate namjestiti mikrofon, što sam ja i napravio. Zatim sam otvorio rječnik i dodao riječ "ispitivanje" jer ga nije bilo u programskom rječniku. Nastojao sam govoriti jasno i monotono. Konačno sam otvorio program Gorynych Pro 3.0, uključio način diktiranja i dobio ovaj popis "riječi koje zvuče blisko". (slika.09)

Rezultat me zbunio jer se očito razlikovao na gore od rada Android pametnog telefona i odlučio sam isprobati druge programe iz “ Internetska trgovina Google Chrome". I odgodio sam suočavanje sa "gorynych zmijama" za kasnije. mislio sam da je odgoda radnja u izvornom ruskom duhu

5. Googleove glasovne mogućnosti

Za rad s glasom na običnom Windows računalu morat ćete instalirati preglednik Google Chrome. Ako ga koristite na mreži, možete kliknuti vezu trgovine softverom u donjem desnom kutu. Tamo sam potpuno besplatno pronašao dva programa i dva proširenja za glasovni unos teksta. Programi se zovu "Glasovna bilježnica" I "Voicenot - glas u tekst". Nakon instalacije mogu se pronaći na kartici "Prijave" vaš preglednik "Krom". (slika. 10)

Ekstenzije se zovu "Google Voice Search Hotword (Beta) 0.1.0.5" I "Glasovni unos teksta - Speechpad.ru 5.4". Nakon instalacije mogu se isključiti ili izbrisati na kartici "Proširenja".(slika. 11)

Glasovna bilješka. U kartici aplikacije u pregledniku Chrome dvaput kliknite ikonu programa. Otvorit će se dijaloški okvir kao na slici ispod. Klikom na ikonu mikrofona izgovarate kratke fraze u mikrofon. Program prenosi vaše riječi poslužitelju za prepoznavanje govora i upisuje tekst u prozor. Sve riječi i izrazi prikazani na ilustraciji upisani su prvi put. Očito, ova metoda radi samo kada postoji aktivna internetska veza. (slika. 12)

Glasovna bilježnica. Ako pokrenete program iz kartice aplikacija, otvorit će se nova kartica internetske stranice Speechpad.ru. Postoje detaljne upute o korištenju ove usluge i kompaktni obrazac. Potonje je prikazano na slici ispod. (slika. 13)

Glasovni unos Tekst vam omogućuje da glasom ispunite tekstualna polja na internetskim stranicama. Na primjer, otišao sam na svoju stranicu "Google+". U polju za unos nove poruke kliknite desnom tipkom miša i odaberite "SpeechPad". Ružičasti prozor za unos označava da možete diktirati svoj tekst. (slika. 14)

Google glasovno pretraživanje omogućuje pretraživanje glasom. Kada instalirate i aktivirate ovo proširenje, simbol mikrofona pojavljuje se u traci za pretraživanje. Kada ga pritisnete, pojavit će se simbol u velikom crvenom krugu. Samo izgovorite izraz za pretraživanje i on će se pojaviti u rezultatima pretraživanja. (slika. 15)

Važna napomena: da bi mikrofon radio s proširenjima za Chrome, morate dopustiti pristup mikrofonu u postavkama preglednika. Onemogućeno je prema zadanim postavkama iz sigurnosnih razloga. Ići Postavke→Osobni podaci→Postavke sadržaja. (Za pristup svim postavkama na kraju popisa kliknite Prikaži napredne postavke). Otvorit će se dijaloški okvir Postavke sadržaja stranice. Odaberite stavku na popisu Multimedija→mikrofon.

6. Rezultati rada s programima za prepoznavanje ruskog govora

Malo iskustvo u korištenju programa za glasovni unos teksta pokazalo je izvrsnu implementaciju ove značajke na poslužiteljima internetske tvrtke Google. Bez ikakve prethodne obuke, riječi se ispravno prepoznaju. To znači da je problem prepoznavanja ruskog govora riješen.

Sada možemo reći da je rezultat razvoja Google bit će novi kriterij za ocjenjivanje proizvoda drugih proizvođača. Želio bih da sustav prepoznavanja radi izvan mreže bez pristupa poslužiteljima tvrtke - praktičniji je i brži. Ali nije poznato kada će biti objavljen neovisni program za rad s kontinuiranim protokom ruskog govora. Međutim, vrijedi pretpostaviti da će uz priliku za treniranje ova "kreacija" postati pravi proboj.

Programi ruskih programera "Gorynych", "Diktograf" I "Borba" Ući ću u detalje u drugom dijelu ove recenzije. Ovaj je članak pisan vrlo sporo iz razloga što je potraga za originalnim diskovima sada otežana. Trenutačno već imam sve verzije ruskih motora za prepoznavanje glasa u tekst osim "Combat 2.52". Nitko od mojih prijatelja ili kolega nema ovaj program, a ja sam imam samo nekoliko pohvalnih recenzija na forumima. Istina, postojala je tako čudna opcija - preuzmi "Combat" putem SMS-a, ali ne sviđa mi se. (slika16)


Kratki video isječak pokazat će vam kako funkcionira prepoznavanje govora na pametnom telefonu s Android OS-om. Posebnost glasovnog tipkanja je potreba za povezivanjem s Googleovim poslužiteljima. Ovako bi trebao funkcionirati vaš Internet




Vrh