Elektronički alati za prepoznavanje i prevođenje govora. Prepoznavanje govora za lutke

“Htio bih odmah reći da se prvi put bavim uslugama prepoznavanja. Stoga ću vam reći o uslugama s laičke točke gledišta," primijetio je naš stručnjak, "za testiranje prepoznavanja koristio sam tri upute: Google, Yandex i Azure."

Google

Poznata IT korporacija nudi online testiranje svog proizvoda Google Cloud Platform. Svatko može besplatno isprobati uslugu. Sam proizvod je praktičan i jednostavan za korištenje.

Prednosti:

  • podrška za više od 80 jezika;
  • brza obrada imena;
  • visokokvalitetno prepoznavanje u uvjetima loše komunikacije i prisutnosti stranih zvukova.

minusi:

  • postoje poteškoće u prepoznavanju poruka s naglaskom i lošim izgovorom, što otežava korištenje sustava svima osim izvornim govornicima;
  • nedostatak jasne tehničke podrške za uslugu.

Yandex

Yandexovo prepoznavanje govora dostupno je u nekoliko opcija:

  • Oblak
  • Knjižnica za pristup iz mobilnih aplikacija
  • Verzija u "kutiji".
  • JavaScript API

No, budimo objektivni. Prvenstveno nas ne zanima raznolikost mogućnosti korištenja, već kvaliteta prepoznavanja govora. Stoga smo koristili probnu verziju SpeechKita.

Prednosti:

  • jednostavnost korištenja i konfiguracije;
  • dobro prepoznavanje teksta na ruskom;
  • sustav daje nekoliko opcija odgovora i putem neuronske mreže pokušava pronaći opciju koja je najsličnija istini.

minusi:

  • Tijekom obrade toka, neke riječi mogu biti netočno određene.

Azurno

Azure je razvio Microsoft. Izdvaja se od svojih analoga zbog svoje cijene. No, budite spremni suočiti se s nekim poteškoćama. Upute predstavljene na službenoj web stranici su nepotpune ili zastarjele. Nismo uspjeli adekvatno pokrenuti uslugu, pa smo morali koristiti prozor za pokretanje treće strane. Međutim, čak i ovdje trebat će vam servisni ključ Azure za testiranje.

Prednosti:

  • U usporedbi s drugim uslugama, Azure vrlo brzo obrađuje poruke u stvarnom vremenu.

minusi:

  • sustav je vrlo osjetljiv na naglasak i teško prepoznaje govor onih koji nisu izvorni;
  • Sustav radi samo na engleskom jeziku.

Rezultati pregleda:

Nakon što smo izvagali sve prednosti i nedostatke, odlučili smo se za Yandex. SpeechKit je skuplji od Azurea, ali jeftiniji od Google Cloud Platforme. Googleov program bilježi stalno poboljšanje kvalitete i točnosti prepoznavanja. Usluga se sama poboljšava pomoću tehnologija strojnog učenja. Međutim, Yandexovo prepoznavanje ruskih riječi i fraza na razini je više.

Kako koristiti prepoznavanje glasa u poslu?

Postoji mnogo opcija za korištenje prepoznavanja, no mi ćemo vašu pozornost usmjeriti na onu koja će prvenstveno utjecati na prodaju vaše tvrtke. Radi jasnoće, pogledajmo proces prepoznavanja na stvarnom primjeru.

Ne tako davno, jedna poznata SaaS usluga postala je naš klijent (na zahtjev tvrtke, naziv usluge nije objavljen). Uz pomoć F1Golosa snimili su dva audio videa, od kojih je jedan bio usmjeren na produljenje života toplih kupaca, a drugi - na obradu zahtjeva kupaca.

Kako produžiti život kupcu koristeći prepoznavanje glasa?

SaaS usluge često rade uz mjesečnu pretplatu. Prije ili kasnije, razdoblje probnog korištenja ili plaćenog prometa završava. Tada postoji potreba za produljenjem usluge. Tvrtka je odlučila korisnike upozoriti na prestanak prometa 2 dana prije isteka roka korištenja. Korisnici su obaviješteni putem govorne pošte. Video je zvučao ovako: “Dobar dan, podsjećamo vas da vam ističe plaćeni period za korištenje usluge XXX. Da biste produžili uslugu, recite da; otkažite pružene usluge, recite ne.”

Pozivi korisnika koji su izgovorili kodne riječi: DA, OBNOVI, ŽELIM, VIŠE DETALJA; automatski su prebačeni na operatere tvrtke. Tako je oko 18% korisnika obnovilo registraciju zahvaljujući samo jednom pozivu.

Kako pojednostaviti sustav za obradu podataka korištenjem prepoznavanja govora?

Drugi audio zapis, koji je pokrenula ista tvrtka, bio je drugačije prirode. Koristili su glasovne poruke kako bi smanjili troškove provjere telefonskih brojeva. Prethodno su provjeravali korisničke brojeve pomoću robotskog poziva. Robot je tražio od korisnika da pritisnu određene tipke na telefonu. Međutim, s pojavom tehnologija prepoznavanja, tvrtka je promijenila taktiku. Tekst novog videa bio je sljedeći: “Registrirali ste se na XXX portal, ako potvrdite registraciju, recite da. Ako niste podnijeli zahtjev za registraciju, recite ne." Ako je klijent izgovorio riječi: DA, POTVRĐUJEM, AHA ili NARAVNO, podaci o tome su se momentalno prenosili u CRM sustav tvrtke. I zahtjev za registraciju je automatski potvrđen za nekoliko minuta. Uvođenjem tehnologija prepoznavanja vrijeme jednog poziva smanjeno je s 30 na 17 sekundi. Time je tvrtka smanjila troškove gotovo 2 puta.

Ako vas zanimaju drugi načini korištenja prepoznavanja glasa ili želite saznati više o glasovnim porukama, slijedite poveznicu. Na F1Golos se možete besplatno prijaviti za svoj prvi newsletter i sami naučiti kako funkcioniraju nove tehnologije prepoznavanja.

U našem modernom svijetu punom događaja, brzina rada s informacijama jedan je od kamena temeljaca za postizanje uspjeha. Naš radni učinak i produktivnost, a time i naše trenutno materijalno bogatstvo, ovise o tome koliko brzo primamo, stvaramo i obrađujemo informacije. Među alatima koji mogu poboljšati naše radne sposobnosti važno mjesto zauzimaju programi za prevođenje govora u tekst koji nam omogućuju značajno povećanje brzine upisivanja potrebnih tekstova. U ovom materijalu ću vam reći koji popularni programi postoje za prevođenje audio glasa u tekst i koje su njihove značajke.

Većina trenutno postojećih programa za prevođenje glasa u tekst se plaća, postavljajući niz zahtjeva na mikrofon (u slučaju kada je program namijenjen računalu). Izuzetno se ne preporučuje rad s mikrofonom ugrađenim u web kameru ili smještenim u standardnom prijenosnom računalu (kvaliteta prepoznavanja govora s takvih uređaja prilično je niska). Osim toga, vrlo je važno imati tiho okruženje, bez nepotrebne buke koja može izravno utjecati na razinu prepoznavanja govora.

Štoviše, većina tih programa sposobna je ne samo pretvoriti govor u tekst na zaslonu računala, već i koristiti glasovne naredbe za upravljanje vašim računalom (pokretanje i zatvaranje programa, primanje i slanje e-pošte, otvaranje i zatvaranje web stranica itd.).

Program za pretvaranje govora u tekst

Prijeđimo na izravan opis programa koji mogu pomoći u prevođenju govora u tekst.

Laitis program

Besplatni program za prepoznavanje glasa na ruskom jeziku "Laitis" ima dobru kvalitetu razumijevanja govora i, prema njegovim kreatorima, može gotovo u potpunosti zamijeniti uobičajenu tipkovnicu korisnika. Program također dobro radi s glasovnim naredbama, omogućujući vam izvođenje mnogih radnji za upravljanje vašim računalom.

Za svoj rad, program zahtijeva brzi internet na računalu (program koristi mrežne usluge prepoznavanja glasa od Googlea i Yandexa). Mogućnosti programa također vam omogućuju upravljanje preglednikom pomoću glasovnih naredbi, što zahtijeva instaliranje posebnog proširenja iz "Laitis" (Chrome, Mozilla, Opera) na vašem web navigatoru.

"Dragon Professional" - transkripcija audio zapisa u tekst

U vrijeme pisanja ovog materijala, digitalni proizvod na engleskom jeziku « Dragon Professional Individual" jedan je od svjetskih lidera u kvaliteti priznatih tekstova. Program razumije sedam jezika (samo mobilna aplikacija Dragon Anywhere na ruskom za sada radi s njim), ima visokokvalitetno prepoznavanje glasa i može izvoditi brojne glasovne naredbe. Štoviše, ovaj proizvod se isključivo plaća (cijena za glavni program je 300 američkih dolara, a za "kućnu" verziju proizvoda Dragon Home kupac će morati platiti 75 američkih dolara).

Za rad, ovaj proizvod tvrtke Nuance Communications zahtijeva stvaranje vlastitog profila koji je osmišljen kako bi prilagodio mogućnosti programa specifičnostima vašeg glasa. Osim izravnog diktiranja teksta, program možete uvježbati da izvršava niz naredbi, čime će vaša interakcija s računalom biti još skladnija i praktičnija.

"RealSpeaker" - ultraprecizan uređaj za prepoznavanje govora

Program za pretvaranje glasa u tekst "RealSpeaker", uz standardne funkcije za programe ove vrste, omogućuje vam korištenje mogućnosti web kamere vašeg osobnog računala. Sada program ne samo da čita audio komponentu zvuka, već i bilježi kretanje kutova usana govornika, čime točnije prepoznaje riječi koje izgovara.


"RealSpeaker" čita ne samo audio, već i vizualnu komponentu govornog procesa

Aplikacija podržava više od deset jezika (uključujući ruski), omogućuje prepoznavanje govora uzimajući u obzir naglaske i dijalekte, omogućuje vam transkripciju audio i video zapisa, daje pristup oblaku i još mnogo toga. Program je shareware, ali za verziju koja se plaća morat ćete platiti pravi novac.

“Voco” - program će brzo prevesti vaš glas u tekstualni dokument

Još jedan pretvarač glasa u tekst je plaćeni digitalni proizvod "Voco", čija je cijena "kućne" verzije sada oko 1700 rubalja. Naprednije i skuplje verzije ovog programa - "Voco.Professional" i "Voco.Enterprise" imaju niz dodatnih značajki, od kojih je jedna prepoznavanje govora iz audio zapisa korisnika.

Među značajkama Vocoa, želio bih napomenuti mogućnost proširenja vokabulara programa (trenutačno vokabular programa uključuje više od 85 tisuća riječi), kao i njegov autonomni rad s mreže, što vam omogućuje da ne ovisite o svojoj internetskoj vezi .


Među prednostima Voca je visoka krivulja učenja programa.

Aplikacija se uključuje vrlo jednostavno - samo dvaput pritisnite tipku "Ctrl" aplikacija je potpuno besplatna, podržava nekoliko desetaka jezika, uključujući ruski.

Zaključak

Gore sam nabrojao programe za prevođenje vašeg zvučnog zapisa u tekst, opisao njihovu opću funkcionalnost i karakteristične značajke. Većina ovih proizvoda obično se plaća, a raspon i kvaliteta programa na ruskom jeziku kvalitativno je inferioran u odnosu na njihove kolege na engleskom jeziku. Kada radite s takvim aplikacijama, preporučujem da obratite posebnu pozornost na svoj mikrofon i njegove postavke - ovo je važno u procesu prepoznavanja govora, jer loš mikrofon može poništiti čak i najkvalitetniji softver tipa koji sam pregledao.

Da bi prepoznati govor i prevesti ga iz zvuka ili videa u tekst, postoje programi i ekstenzije (pluginovi) za preglednike. Međutim, zašto sve to ako postoje online usluge? Programi moraju biti instalirani na vašem računalu; štoviše, većina programa za prepoznavanje govora je daleko od besplatnih.


Velik broj dodataka instaliranih u pregledniku uvelike usporava njegov rad i brzinu surfanja internetom. A usluge o kojima ćemo danas govoriti potpuno su besplatne i ne zahtijevaju instalaciju - samo uđite, upotrijebite i otiđite!

U ovom članku ćemo pogledati dvije online usluge prevođenja govora u tekst. Oba rade na sličnom principu: počnete snimati (dopuštate pregledniku pristup mikrofonu dok koristite uslugu), govorite u mikrofon (diktirate), a izlaz je tekst koji se može kopirati u bilo koji dokument na računalu.

Speechpad.ru

Internetska usluga za prepoznavanje govora na ruskom jeziku. Ima detaljne upute za rad na ruskom.

  • podrška za 7 jezika (ruski, ukrajinski, engleski, njemački, francuski, španjolski, talijanski)
  • preuzimanje audio ili video datoteke za transkripciju (podržani su videozapisi s YouTubea)
  • simultani prijevod na drugi jezik
  • podrška za glasovni unos interpunkcijskih znakova i pomicanja redaka
  • ploča s gumbima (promjena velikih i malih slova, novi red, navodnici, zagrade itd.)
  • dostupnost osobnog računa s poviješću zapisa (opcija dostupna nakon registracije)
  • prisutnost dodatka za Google Chrome za unos teksta glasom u tekstualno polje web-mjesta (pod nazivom "Glasovni unos teksta - Speechpad.ru")

Diktat.io

Druga online usluga prevođenja govora u tekst. Strani servis, koji u međuvremenu savršeno radi s ruskim jezikom, što je izuzetno iznenađujuće. Kvaliteta prepoznavanja govora nije niža od Speechpada, ali o tome kasnije.

Glavna funkcionalnost usluge:

  • podrška za 30 jezika, uključujući mađarski, turski, arapski, kineski, malajski itd.
  • automatsko prepoznavanje izgovora interpunkcijskih znakova, prijeloma redaka itd.
  • Mogućnost integracije sa stranicama bilo koje web stranice
  • dostupnost dodatka za Google Chrome (pod nazivom "VoiceRecognition")

U prepoznavanju govora najvažnije je kvaliteta prijevoda govor u tekst. Ugodne "pundže" i prilike nisu ništa više od dobrog plusa. Dakle, čime se obje službe mogu pohvaliti u tom pogledu?

Usporedni test usluga

Za test ćemo odabrati dva teško prepoznatljiva fragmenta koji sadrže riječi i govorne figure koje se rijetko koriste u suvremenom govoru. Za početak čitamo ulomak pjesme N. Nekrasova “Seljačka djeca”.

Ispod je rezultat prevođenja govora u tekst svaka usluga (greške su označene crvenom bojom):

Kao što vidite, obje su se usluge nosile s prepoznavanjem govora s gotovo istim pogreškama. Rezultat je prilično dobar!

Sada, za test, uzmimo odlomak iz pisma crvenoarmejca Sukhova (film "Bijelo sunce pustinje"):

Izvrstan rezultat!

Kao što vidite, obje se usluge vrlo dobro nose s prepoznavanjem govora - odaberite jednu! Čini se da čak koriste isti motor - pogreške koje su napravili bile su previše slične na temelju rezultata testa). Ali ako trebate dodatne funkcije kao što je učitavanje audio/video datoteke i njezino prevođenje u tekst (transkripcija) ili simultani prijevod izgovorenog teksta na drugi jezik, onda će Speechpad biti najbolji izbor!


Usput, evo kako je izveo simultani prijevod fragmenta Nekrasovljeve pjesme na engleski:

Pa ovo je kratka videouputa za rad sa Speechpadom koju je snimio sam autor projekta:

Prijatelji, sviđa li vam se ova usluga? Znate li bolje analoge? Podijelite svoje dojmove u komentarima.

Captioner za gluhe i nagluhe osobe

Pretvorite svoj zaslon u nevjerojatno zaglavlje telefona. Vaši razgovori su potpuno automatski, bez tipkanja ljudskog sluha. Je li bakama i djedovima teško čuti obitelj i prijatelje na telefon? Uključite im Speechlogger i prestanite vrištati na telefon. Jednostavno spojite audio izlaz vašeg telefona na audio ulaz vašeg računala i pokrenite Speechlogger. Također je koristan u interakcijama licem u lice.

Automatska transkripcija

Jeste li snimali intervju? Uštedite malo vremena prepisujući ga, s Googleovim automatskim pretvaranjem govora u tekst, koji u vaš preglednik donosi Speechlogger. Pustite svoj snimljeni intervju u mikrofon (ili liniju) vašeg računala i pustite speaklogger da napravi transkripciju. Speechlogger sprema transkribirani tekst zajedno s datumom, vremenom i vašim komentarima. Također vam omogućuje uređivanje teksta. Telefonski razgovori mogu se transkribirati istom metodom. Također možete snimati audio datoteke izravno s vašeg računala kao što je opisano u nastavku.

Automatski tumač i prevoditelj

Susret sa stranim gostima? Ponesite prijenosno računalo (ili dva) s govornim zapisivačem i mikrofonom. Svaka će strana vidjeti izgovorene riječi druge strane prevedene na njihov materinji jezik u stvarnom vremenu. Također je korisno u telefonskom razgovoru na stranom jeziku kako biste bili sigurni da u potpunosti razumijete drugu stranu. Spojite audio izlaz telefona na linijski ulaz računala i pokrenite Speechlogger.

Naučite strane jezike i poboljšajte svoje vještine izgovora

Speechlogger je izvrstan alat za učenje jezika i u200b u200Bin može ga koristiti na nekoliko načina. Možete ga koristiti za učenje vokabulara govoreći svoj materinji jezik i dopuštajući softveru da ga prevede. Možete naučiti i vježbati pravilan izgovor govoreći strani jezik i gledajući razumije li Speechlogger ili ne. Ako je tekst prepisan crnim fontom znači da ste ga dobro izgovorili.

Generiranje titlova za filmove

Speechlogger može automatski snimati filmove ili druge audio datoteke. Zatim uzmite datoteku i automatski je prevedite na bilo koji jezik kako biste proizveli međunarodne titlove.

Diktirajte umjesto tipkanja

Pisanje pisma? Dokumentacija? Popisi? Sažetak? Bez obzira na to što trebate upisati, pokušajte to izdiktirati Speechloggeru. Speechlogger će ga automatski spremiti za vas i omogućiti vam da ga izvezete u dokument.

Zabavna igra :)

Možete li imitirati kineskog govornika? Francuski? Što je s ruskim jezikom? Pokušajte oponašati strani jezik i pogledajte što ste upravo rekli uz Speechlogger. Koristite simultani prijevod Speechloggera da biste razumjeli što ste upravo rekli. Postizanje nevjerojatnih rezultata jako je zabavno!

Nijedan program ne može u potpunosti zamijeniti ručni rad transkripcije snimljenog govora. No, postoje rješenja koja mogu znatno ubrzati i olakšati prevođenje govora u tekst, odnosno pojednostaviti transkripciju.

Transkripcija je snimanje audio ili video datoteke u obliku teksta. Na internetu postoje plaćeni plaćeni zadaci, kada se izvođaču plaća određena svota novca za prepisivanje teksta.

Koristan je prijevod govora u tekst

  • studentima da prevedu snimljena audio ili video predavanja u tekst,
  • blogeri koji vode web stranice i blogove,
  • pisci, novinari za pisanje knjiga i tekstova,
  • informacijske poslovne ljude koji trebaju tekst nakon webinara, govora i sl.,
  • ljudi koji imaju poteškoća s tipkanjem - mogu izdiktirati pismo i poslati ga obitelji ili prijateljima,
  • druge opcije.

Opisat ćemo najučinkovitije alate dostupne na računalima, mobilnim aplikacijama i online uslugama.

1 Web stranica speakpad.ru

Ovo je internetska usluga koja vam omogućuje prevođenje govora u tekst pomoću preglednika Google Chrome. Usluga radi s mikrofonom i gotovim datotekama. Naravno, kvaliteta će biti puno veća ako koristite vanjski mikrofon i diktirate sami. Međutim, usluga dobro radi čak i s YouTube videozapisima.

Kliknite "Omogući snimanje", odgovorite na pitanje o "Korištenje mikrofona" - da biste to učinili, kliknite "Dopusti".

Duge upute o korištenju usluge mogu se sažeti klikom na gumb 1 na sl. 3. Možete se riješiti oglašavanja ispunjavanjem jednostavne registracije.

Riža. 3. Usluga govorne pločice

Gotov rezultat je lako urediti. Da biste to učinili, morate ili ručno ispraviti označenu riječ ili je ponovno izdiktirati. Rezultati rada spremaju se na vaš osobni račun, a mogu se preuzeti i na vaše računalo.

Popis video lekcija o radu s govornom pločom:

Videozapise možete transkribirati s Youtube-a ili sa svog računala, no trebat će vam mikser, više detalja:

Video "audio transkripcija"

Usluga radi na sedam jezika. Postoji mali minus. Leži u činjenici da ako trebate prepisati gotovu audio datoteku, tada se njen zvuk čuje kroz zvučnike, što stvara dodatne smetnje u obliku jeke.

2 Servisni diktat.io

Prekrasna mrežna usluga koja vam omogućuje besplatno i jednostavno prevođenje govora u tekst.

Riža. 4. Servisni diktat.io

1 na sl. 4 – Ruski jezik možete odabrati na kraju stranice. U pregledniku Google Chrome odabire se jezik, ali iz nekog razloga u Mozilli ne postoji takva opcija.

Važno je napomenuti da je implementirana mogućnost automatskog spremanja gotovog rezultata. To će vas zaštititi od slučajnog brisanja kao rezultat zatvaranja kartice ili preglednika. Ova usluga ne prepoznaje gotove datoteke. Radi s mikrofonom. Prilikom diktiranja morate imenovati interpunkcijske znakove.

Tekst se sasvim ispravno prepoznaje, nema pravopisnih grešaka. Možete sami umetnuti interpunkcijske znakove s tipkovnice. Gotov rezultat može se spremiti na vaše računalo.

3 RealSpeaker

Ovaj vam program omogućuje jednostavno prevođenje ljudskog govora u tekst. Dizajniran je za rad na različitim sustavima: Windows, Android, Linux, Mac. Uz njegovu pomoć možete pretvoriti govor koji se čuje u mikrofon (na primjer, može se ugraditi u prijenosno računalo), kao i snimiti u audio datoteke.

Može razumjeti 13 svjetskih jezika. Postoji beta verzija programa koja radi kao online usluga:

Morate slijediti gornju vezu, odabrati ruski jezik, prenijeti svoju audio ili video datoteku na internetsku uslugu i platiti njezinu transkripciju. Nakon transkripcije možete kopirati dobiveni tekst. Što je veća datoteka za transkripciju, to će više vremena trebati da se obradi, više detalja:

U 2017. postojala je opcija besplatnog prijepisa pomoću RealSpeakera, ali u 2018. ne postoji takva opcija. Vrlo je zbunjujuće što je transkribirana datoteka dostupna svim korisnicima za preuzimanje; možda će se to poboljšati.

Kontakti programera (VKontakte, Facebook, Youtube, Twitter, e-mail, telefon) programa mogu se pronaći na stranici njegove web stranice (točnije, u podnožju stranice):

4 Speechlogger

Alternativa prethodnoj aplikaciji za mobilne uređaje koji rade na Androidu. Dostupno besplatno u trgovini aplikacija:

Tekst se automatski uređuje i dodaju se interpunkcijski znakovi. Vrlo zgodno za diktiranje bilješki sebi ili izradu popisa. Kao rezultat toga, tekst će biti vrlo pristojne kvalitete.

5 Zmajev diktat

Ovo je aplikacija koju Apple besplatno distribuira za mobilne uređaje.

Program može raditi s 15 jezika. Omogućuje vam uređivanje rezultata i odabir željenih riječi s popisa. Morate jasno izgovarati sve zvukove, ne praviti nepotrebne pauze i izbjegavati intonaciju. Ponekad postoje pogreške u završecima riječi.

Aplikaciju Dragon Dictation vlasnici, primjerice, koriste za diktiranje popisa za kupovinu u trgovini dok se kreću po stanu. Kad stignem tamo, mogu pogledati tekst u bilješci, a ne moram slušati.

Koji god program koristite u svojoj ordinaciji, budite spremni ponovno provjeriti rezultate i napraviti određene prilagodbe. To je jedini način da dobijete besprijekoran tekst bez grešaka.

Također korisne usluge:

Primajte najnovije članke o informatičkoj pismenosti izravno u svoju pristiglu poštu.
Već više 3000 pretplatnika

.


Vrh