Descargue la utilidad de desinstalación AMD Clean.

Hogar Una persona se me acercó y me pidió que escribiera un programa que le permitiera controlar el mouse de una computadora usando su voz. Entonces ni siquiera podía imaginar que una persona casi completamente paralizada, que ni siquiera puede girar la cabeza, sino que sólo puede hablar, sea capaz de desarrollar una actividad vigorosa, ayudarse a sí mismo y a los demás a vivir una vida activa, adquirir nuevos conocimientos y habilidades, trabajar y ganar dinero. dinero, comunicarse con otras personas de todo el mundo, participar en una competencia..

proyectos sociales

Permítanme darles aquí un par de enlaces a sitios cuyo autor y/o inspirador ideológico es esta persona: Alexander Makarchuk de la ciudad de Borisov, Bielorrusia: Para trabajar en la computadora, Alexander utilizó el programa "Vocal Joystick", desarrollado por estudiantes de la Universidad de Washington, financiado por el National Fundación Científica

(FNS). Ver melodi.ee.washington.edu/vj

no pude resistir Por cierto, en el sitio web de la universidad (http://www.washington.edu/) el 90% de los artículos tratan sobre dinero. Es difícil encontrar algo sobre trabajo científico

. He aquí, por ejemplo, extractos de la primera página: “Tom, un graduado universitario, solía comer setas y tenía dificultades para pagar el alquiler. Ahora es alto directivo en una empresa de TI y presta dinero a una universidad”, “Big Data ayuda a las personas sin hogar”, “La empresa se ha comprometido a pagar 5 millones de dólares por un nuevo edificio académico”.


¿Soy el único al que esto le resulta molesto? El programa se creó en 2005-2009 y funcionó bien en Windows XP. En más reciente Versiones de Windows

el programa puede congelarse, lo cual es inaceptable para una persona que no puede levantarse de su silla y reiniciarlo. Por lo tanto, hubo que rehacer el programa.

No hay textos originales, solo publicaciones individuales que revelan las tecnologías en las que se basa (MFCC, MLP; lea sobre esto en la segunda parte). Fue escrito a imagen y semejanza. nuevo programa

(unos tres meses).

De hecho, puedes ver cómo funciona: Descarga el programa y/o míralo códigos fuente

Poder . No es necesario realizar ninguna acción especial para instalar el programa, simplemente haga clic en él y ejecútelo. Lo único es que en algunos casos se requiere que se ejecute como administrador (por ejemplo, cuando se trabaja con teclado virtual

Probablemente valga la pena mencionar aquí otras cosas que he hecho anteriormente para que sea posible operar una computadora con manos libres.

Si tiene la capacidad de girar la cabeza, un giroscopio montado en la cabeza puede ser una buena alternativa a la eViacam. Obtendrá un posicionamiento del cursor rápido y preciso e independencia de la iluminación.

Si solo puedes mover las pupilas de tus ojos, entonces puedes usar un rastreador de dirección de la mirada y un programa para ello (esto puede resultar difícil si usas gafas).

Parte II. ¿Cómo funciona?

De los materiales publicados sobre el programa Vocal Joystick se supo que funciona de la siguiente manera:
  1. Cortar la transmisión de audio en cuadros de 25 milisegundos con una superposición de 10 milisegundos
  2. Recibir 13 coeficientes cepstrales (MFCC) para cada cuadro
  3. Comprobar que uno de los 6 sonidos memorizados (4 vocales y 2 consonantes) se pronuncia mediante un perceptrón multicapa (MLP)
  4. Traducir sonidos encontrados en movimientos/clics del mouse
La primera tarea destaca solo por el hecho de que para resolverla en tiempo real, fue necesario introducir tres hilos adicionales en el programa, ya que leer datos del micrófono, procesar sonido, reproducir sonido a través de tarjeta de sonido ocurren de forma asincrónica.

La última tarea se realiza simplemente utilizando la función SendInput.

Me parece que los problemas segundo y tercero son los de mayor interés. Entonces.

Tarea número 2. Obtención de 13 coeficientes cepstrales

Si alguien no lo sabe, el principal problema a la hora de reconocer sonidos mediante una computadora es el siguiente: es difícil comparar dos sonidos, ya que dos ondas sonoras de contornos diferentes pueden sonar similares desde el punto de vista de la percepción humana.

Y entre los involucrados en el reconocimiento de voz, se busca la "piedra filosofal", un conjunto de características que clasificarían sin ambigüedades una onda sonora.

De las características que están disponibles para el público en general y se describen en los libros de texto, las más utilizadas son los llamados coeficientes cepstrales de frecuencia Mel (MFCC).

Su historia es tal que originalmente estaban destinados a algo completamente diferente, es decir, suprimir el eco en la señal (los respetados Oppenheim y Schafer escribieron un artículo educativo sobre este tema, que haya alegría en los hogares de estos nobles hombres). Véase A. V. Oppenheim y R. W. Schafer, "De la frecuencia a la quefrency: una historia del Cepstrum".

Pero el hombre está diseñado de tal manera que se inclina a utilizar lo que mejor conoce. Y a los que trabajaron señales de voz, se me ocurrió utilizar una representación compacta ya preparada de la señal en forma de MFCC. Resultó que, en general, funciona. (Uno de mis amigos, especialista en sistemas de ventilación, cuando le pregunté cómo hacer una casa de verano, me sugirió utilizar conductos de ventilación. Simplemente porque los conocía mejor que otros materiales de construcción).

¿Son los MFCC un buen clasificador de sonidos? Yo no diría eso. El mismo sonido pronunciado por mí en diferentes micrófonos cae en diferentes regiones del espacio de coeficientes MFCC, y un clasificador ideal los colocaría uno al lado del otro. Por lo tanto, en particular, al cambiar el micrófono, es necesario volver a entrenar el programa.

Esta es sólo una de las proyecciones del espacio MFCC de 13 dimensiones al espacio tridimensional, pero también muestra lo que quiero decir: rojo, morado y puntos azules recibido de diferentes micrófonos: (Plantronix, conjunto de micrófonos integrados, Jabra), pero el sonido se pronunció solo.

Sin embargo, como no puedo ofrecer nada mejor, también usaré método estándar– cálculo de los coeficientes MFCC.

Para no cometer errores en la implementación, en las primeras versiones del programa se utilizó como base el código de Well. programa famoso CMU Sphinx, o más precisamente, su implementación en C, llamada Pocketsphinx, desarrollada en la Universidad Carnegie Mellon (¡la paz sea con ambos! (c) Hottabych).

Los códigos fuente de Pocketsphinx son abiertos, pero el problema es que si los usas, debes escribir texto en tu programa (tanto en el código fuente como en el módulo ejecutable) que contenga, entre otras cosas, lo siguiente:

* Este trabajo fue apoyado en parte por fondos de la Agencia de Proyectos de Investigación * Avanzados de Defensa y la Fundación Nacional de Ciencias de los * Estados Unidos de América, y el Consorcio de Habla CMU Sphinx.
Esto me pareció inaceptable y tuve que reescribir el código. Esto afectó el desempeño del programa (en mejor lado, por cierto, aunque la “legibilidad” del código ha sufrido un poco). En gran parte gracias al uso de las bibliotecas “Intel Performance Primitives”, pero también optimicé algunas cosas yo mismo, como el filtro MEL. Sin embargo, las pruebas con datos de prueba mostraron que los coeficientes MFCC obtenidos son completamente similares a los obtenidos utilizando, por ejemplo, la utilidad sphinx_fe.

En los programas sphinxbase, el cálculo de los coeficientes MFCC se realiza en los siguientes pasos:

Paso función base esfinge La esencia de la operación.
1 fe_pre_emphasis Restado del conteo actual mayoría lectura anterior (por ejemplo, 0,97 de su valor). Un filtro primitivo que rechaza las bajas frecuencias.
2 ventana_fe_hamming Ventana Hamming: introduce atenuación al principio y al final del cuadro.
3 fe_fft_real Transformada rápida de Fourier
4 fe_spec2magnitud Del espectro habitual obtenemos el espectro de potencia, perdiendo la fase
5 fe_mel_spec Agrupamos las frecuencias del espectro [por ejemplo, 256 piezas] en 40 montones, utilizando la escala MEL y los coeficientes de ponderación.
6 fe_mel_cep Tomamos el logaritmo y aplicamos la transformación DCT2 a los 40 valores del paso anterior.
Dejamos los 13 primeros valores del resultado.
Existen varias variantes de DCT2 (HTK, Legacy, Classic), que se diferencian en la constante por la que dividimos los coeficientes resultantes, y una constante especial para coeficiente cero. Puedes elegir cualquier opción, no cambiará la esencia.

Estos pasos también incluyen funciones que permiten separar la señal del ruido y del silencio, como fe_track_snr, fe_vad_hangover, pero no las necesitamos y no nos distraerán.

Se realizaron las siguientes sustituciones de los pasos para obtener los coeficientes MFCC:

Tarea número 3. Comprobar que se pronuncia uno de los 6 sonidos memorizados

El programa Vocal Joystick original utilizaba un perceptrón multicapa (MLP) para la clasificación, una red neuronal sin campanas ni silbatos novedosos.

Veamos qué tan justificado está el uso. red neuronal Aquí.

Recordemos qué hacen las neuronas en las redes neuronales artificiales.

Si una neurona tiene N entradas, entonces la neurona divide el espacio N-dimensional por la mitad. Corta el revés con un hiperplano. Además, en la mitad del espacio funciona (da respuesta positiva), pero en la otra mitad no funciona.

Veamos la opción [prácticamente] más simple: una neurona con dos entradas. Naturalmente, dividirá el espacio bidimensional por la mitad.

Sean la entrada los valores X1 y X2, que la neurona multiplica por los coeficientes de ponderación W1 y W2, y suma el término libre C.


En total, a la salida de la neurona (llamémosla Y) obtenemos:

Y=X1*W1+X2*W2+C

(saltemos las sutilezas sobre las funciones sigmoideas por ahora)

Consideramos que la neurona se dispara cuando Y>0. La línea recta dada por la ecuación 0=X1*W1+X2*W2+C divide precisamente el espacio en una parte donde Y>0, y una parte donde Y<0.

Ilustremos lo dicho con números concretos.

Sea W1=1, W2=1, C=-5;

Ahora veamos cómo podemos organizar una red neuronal que funcione en un área determinada del espacio, relativamente hablando, en un lugar, y no funcione en todos los demás lugares.

En la figura se puede ver que para delinear un área en un espacio bidimensional, necesitamos al menos 3 líneas rectas, es decir, 3 neuronas conectadas a ellas.

Combinaremos estas tres neuronas usando otra capa, obteniendo una red neuronal multicapa (MLP).

Y si necesitamos que la red neuronal funcione en dos áreas del espacio, entonces necesitaremos al menos tres neuronas más (4,5,6 en las figuras):

Y aquí no puedes prescindir de una tercera capa:

Y la tercera capa es casi Aprendizaje Profundo...

Ahora veamos otro ejemplo en busca de ayuda. Dejemos que nuestra red neuronal produzca una respuesta positiva en los puntos rojos y una respuesta negativa en los puntos azules.

Si me pidieran que cortara el rojo del azul en líneas rectas, lo haría así:

Pero la red neuronal no sabe a priori cuántas directas (neuronas) necesitará. Este parámetro debe configurarse antes de entrenar la red. Y una persona hace esto basándose en... intuición o prueba y error.

Si seleccionamos muy pocas neuronas en la primera capa (tres, por ejemplo), podemos obtener un corte como este, lo que dará muchos errores (el área errónea está sombreada):

Pero incluso si el número de neuronas es suficiente, como resultado del entrenamiento la red puede "no lograr converger", es decir, alcanzar algún estado estable, lejos de ser óptimo, cuando el porcentaje de errores es alto. Como aquí, el travesaño superior descansa sobre dos jorobas y no se aleja de ellas. Y debajo hay una gran zona que genera errores:

Nuevamente, la posibilidad de que ocurran tales casos depende de las condiciones iniciales de entrenamiento y de la secuencia de entrenamiento, es decir, de factores aleatorios:

- ¿Qué opinas? ¿Esa rueda, si sucediera, llegaría a Moscú o no?
- ¿Qué opinas, la red neuronal funcionará o no?

Hay otro momento desagradable asociado con las redes neuronales. Su "olvido".

Si comienza a alimentar la red solo con puntos azules y deja de alimentar los rojos, entonces puede tomar fácilmente una parte del área roja y mover sus bordes allí:

Si las redes neuronales tienen tantas deficiencias y una persona puede trazar límites de manera mucho más eficiente que una red neuronal, ¿por qué usarlas?

Y hay un pequeño pero muy significativo detalle.

Puedo separar muy bien el corazón rojo del fondo azul con segmentos de línea recta en un espacio bidimensional.

Puedo separar perfectamente la estatua de Venus del espacio tridimensional que la rodea con planos.

Pero en el espacio de cuatro dimensiones no puedo hacer nada, lo siento. Y en la decimotercera dimensión, aún más.

Pero para una red neuronal, la dimensión del espacio no es un obstáculo. Me reí de ella en espacios de pequeñas dimensiones, pero tan pronto como fui más allá de lo común, ella fácilmente me derrotó.

Sin embargo, la pregunta aún está abierta: ¿cuán justificado está el uso de una red neuronal en esta tarea particular, teniendo en cuenta las desventajas de las redes neuronales enumeradas anteriormente?

Olvidemos por un segundo que nuestros coeficientes MFCC están en un espacio de 13 dimensiones e imaginemos que son bidimensionales, es decir, puntos en un plano. ¿Cómo se podría separar un sonido de otro en este caso?

Supongamos que los puntos MFCC del sonido 1 tienen una desviación estándar R1, lo que [aproximadamente] significa que los puntos que no se desvían demasiado de la media, los puntos más característicos, están dentro de un círculo con un radio R1. De la misma forma, los puntos en los que confiamos en el sonido 2 se encuentran dentro de un círculo de radio R2.

Atención, pregunta: ¿dónde trazar una línea recta que separe mejor el sonido 1 del sonido 2?

La respuesta se sugiere por sí sola: en el medio entre los límites de los círculos. ¿Alguna objeción? No hay objeciones.
Corrección: En el programa, este límite divide el segmento que conecta los centros de los círculos en la relación R1:R2, que es más correcta.

Y finalmente, no olvidemos que en algún lugar del espacio hay un punto que representa un silencio total en el espacio MFCC. No, no son 13 ceros, como podría parecer. Este es un punto que no puede tener una desviación estándar. Y las líneas rectas con las que lo separamos de nuestros tres sonidos se pueden trazar directamente a lo largo de los límites de los círculos:

En la siguiente figura, cada sonido corresponde a un trozo de espacio de su propio color, y siempre podemos decir a qué sonido pertenece (o no pertenece) tal o cual punto del espacio:

Bueno, está bien, ahora recordemos que el espacio tiene 13 dimensiones, y lo que era bueno dibujar en papel ahora resulta ser algo que no cabe en el cerebro humano.

Sí, pero no es así. Afortunadamente, en el espacio de cualquier dimensión quedan conceptos como punto, línea recta, [hiper]plano, [hiper]esfera.

Repetimos todas las mismas acciones en el espacio de 13 dimensiones: encontramos la dispersión, determinamos los radios de las [hiper]esferas, conectamos sus centros con una línea recta, la cortamos con un [hiper]plano en un punto igualmente distante del límites de las [hiper]esferas.

Ninguna red neuronal puede separar más correctamente un sonido de otro.

Aquí, sin embargo, cabe hacer una reserva. Todo esto es cierto si la información sobre el sonido es una nube de puntos que se desvían del promedio por igual en todas las direcciones, es decir, encaja bien en la hiperesfera. Si esta nube fuera una figura compleja, por ejemplo, una salchicha curva de 13 dimensiones, entonces todo el razonamiento anterior sería incorrecto. Y tal vez, con el entrenamiento adecuado, la red neuronal podría mostrar sus puntos fuertes aquí.

Pero no me arriesgaría. Y usaría, por ejemplo, conjuntos de distribuciones normales (GMM) (que, por cierto, se hace en CMU Sphinx). Siempre es más agradable comprender qué algoritmo específico condujo al resultado. No como en una red neuronal: el Oráculo, basándose en sus muchas horas de recopilación de datos de entrenamiento, le dice que decida que el sonido solicitado es el sonido número 3. (Me molesta especialmente cuando intentan confiar el control de un automóvil a una red neuronal. ¿Cómo entonces, en una situación inusual, se puede entender por qué el automóvil giró a la izquierda y no a la derecha? ¿Lo ordenó la Neurona Todopoderosa?).

Pero los conjuntos de distribuciones normales son un gran tema aparte que está más allá del alcance de este artículo.

Espero que el artículo haya sido útil y/o te haya hecho chirriar el cerebro.

Muy pronto, todos los equipos, desde teléfonos hasta hervidores, estarán equipados con control por voz.

ha estado disponible durante mucho tiempo y ahora los laboratorios secretos de grandes corporaciones están trabajando para mejorar esta tecnología. Pero hoy puedes aprovechar estas tecnologías del futuro y controlar equipos informáticos mediante tu voz.

Teléfono con control por voz


Desde hace varios años, los teléfonos inteligentes de las plataformas más populares (Android, iOS, Windows Phone) tienen un sistema de control por voz integrado.


Siri es una de las mejores encarnaciones de la inteligencia artificial en la tecnología moderna. Siri es un asistente de voz integrado en los teléfonos inteligentes iPhone 4S que comprende el habla humana y puede dialogar con el propietario del teléfono inteligente. Siri te permite controlar las funciones básicas de tu smartphone, crear tareas, buscar cualquier información, etc.




El vídeo que preparé para ti te contará mejor sobre Siri. Este es un extracto de la presentación del iPhone 4S justo en el punto donde uno de los desarrolladores del iPhone habla de Siri (si el vídeo no está visible, actualiza la página):

Hoy en día, en los teléfonos inteligentes Android, el control por voz no es de ninguna manera inferior a Siri (en algunos lugares incluso superior) y realiza casi las mismas tareas.

Además del teléfono, puedes enseñarte a entender los comandos y tu computadora. EN Vista de Windows Y ventana 7 También hay un sistema de control por voz incorporado, pero aún no está disponible en la versión rusa del sistema operativo. Para utilizar el sistema de control por voz en inglés, por ejemplo, su sistema operativo debe ser Ultimate o Enterprise y tener instalado un paquete de idioma inglés. Pero a pesar de todas estas limitaciones, existen otras opciones para empezar a controlar tu ordenador mediante la voz.


Tipo - uno de los mejores programas que te permite crear varios comandos de voz para computadora. Usted graba un comando de voz y asigna una acción para que se realice después de pronunciarlo. Typle hace frente bastante bien a sus responsabilidades. Es cierto que las órdenes deberán darse con una voz clara y mecánica para que el programa pueda reconocerlas. Y el programa a veces puede confundir sonidos extraños con un comando de voz. Por tanto, no te sorprendas si, tras instalar y configurar Typle, empiezan a ocurrir sucesos inexplicables en tu ordenador.


Control por voz.rf- servicio y programa en la nube Vocero de desarrolladores rusos con muy buen reconocimiento de voz. El orador entiende mucho mejor el habla humana. Otra ventaja del programa, a diferencia de Typle, es que comienza a "escuchar" los comandos solo después de presionar una tecla de comando; en este momento, esta es la rueda del mouse. Gracias a esto, el programa no ejecutará comandos cuando no sea necesario. Pero en mi opinión, utilizar la rueda como tecla de comando no es del todo conveniente, porque se suele utilizar en otros casos.


Control por voz en el navegador Opera. Para los fanáticos del navegador de Internet Opera, hay un control de voz incorporado que les permite controlar las funciones principales del navegador con su voz. Opera no tiene la capacidad de crear sus propios comandos, pero utiliza comandos existentes en inglés. Pero creo que pocas personas estarán interesadas en esta funcionalidad: cuando se utiliza un mouse y un teclado, se pueden realizar las mismas acciones con no menos velocidad.

Control por voz en Google

merece especial atención. Todo el mundo sabe que Google siempre crea productos y servicios de alta calidad. Muchos se han convencido de ello empezando, por ejemplo, a utilizar Gmail. Por el momento, que yo sepa, existen dos opciones para el control por voz de los servicios de Google.


El primero es buscar información usando la voz en el buscador de Google. Te ayuda a trabajar mucho más rápido con el motor de búsqueda.


Segundo - traductor de google , que permite dictar texto (solo por ahora) en inglés y recibir automáticamente una traducción al idioma deseado.


Es muy conveniente utilizar la entrada de voz en Google Translate al leer texto de un libro de texto en inglés o, por ejemplo, el empaque de un producto, para traducir rápidamente la información necesaria al ruso.

Control por voz en Google Chrome

Extensión OWeb- complementa las funciones de control por voz existentes en Google Chrome. OWeb agrega la capacidad de dictar texto por voz en casi todos los sitios donde se implica la entrada de texto: en formularios de búsqueda, formularios de contacto, en el campo de comentarios, etc. Ciertamente no es Siri, pero también es una excelente manera de liberar tus manos y ahorrar tiempo al escribir.


Mira el vídeo en el que te mostraré las capacidades de la extensión Oweb y ejemplos de su uso:



La mayoría de las veces, cuando trabajamos en una computadora personal, tenemos que escribir textos grandes. Sentados directamente frente al monitor, perdemos mucho tiempo, aunque podríamos hacer algunas tareas domésticas.

El siglo pasado

Averigüemos qué es el control por voz de una computadora. Hagamos una analogía. Antes, e incluso ahora, una forma muy común de "liberar las manos" de la computadora mientras se trabajaba era contratar a otro empleado: una taquígrafa o una secretaria. Sin embargo, pocas personas saben que puede evitar gastos innecesarios instalando en su computadora personal una serie de programas y utilidades que le permiten controlar su computadora por voz en ruso.

Con la llegada de productos de software como Gorynych y WebSpeach, puede olvidarse de cuánto tiempo tuvo que sentarse y escribir algún trabajo, por ejemplo, un diploma, un pedido o cualquier otra documentación. Con el desarrollo de la tecnología informática, ha surgido la opción de utilizar un programa especial de reconocimiento de voz.

Utilidades integradas

El control por voz de su computadora con Windows 8 se realiza mediante la utilidad incorporada de reconocimiento de voz de Windows. Desafortunadamente, por el momento no es posible manejar una computadora en ruso. Aparentemente, Microsoft está tratando de centrarse en los idiomas más comunes, pero es posible que pronto se lance soporte para el idioma ruso.

Si aún quieres intentar controlar a tu amigo de hierro usando el inglés, sigue las siguientes instrucciones.

  1. Vaya al panel de control en el subelemento "Idioma". Debe configurar el idioma del sistema en inglés. Si no lo tiene, deberá descargar el paquete de idioma apropiado.
  2. Después de descargar e instalar el idioma, vaya a la pantalla inicial con el “mosaico”.
  3. Escriba Reconocimiento de voz de Windows en la búsqueda y presione Entrar. Esto inicia el programa de reconocimiento de voz.
  4. Cuando lo inicie por primera vez, se le pedirá que configure su micrófono. Elige tu variedad y di algunas palabras.
  5. Luego se le ofrecerá un curso de formación de 20 minutos. Se lleva a cabo en inglés, así que si no entiendes el idioma, no dudes en omitirlo. La interfaz del programa es absolutamente clara, por lo que incluso un niño puede entenderla.
  6. Para habilitar el control por voz de su computadora, deberá decir la frase clave "Comenzar a escuchar". Esto significa "empezar a escuchar". Ahora puede iniciar el programa que necesita y comenzar a dictar texto.

En general, las posibilidades de esta utilidad son inagotables. Además de utilizar comandos básicos, también puedes crear los tuyos propios.

Desarrollo

Se han creado muchas aplicaciones para el reconocimiento de voz en ruso e inglés:

  • "Dictografía 5";
  • "Perpetuum Móvil";
  • Voz_PE;
  • Lucente;
  • Tipo de voz;
  • Sacramento.

Sin embargo, los más populares son:

  • "Gorynych";
  • discurso web;
  • Altavoz real;
  • Discurso.

Echemos un vistazo más de cerca.

"Gorynych"

Como su nombre indica, la aplicación fue creada por un equipo de programadores rusos y lleva el nombre de un personaje de cuento de hadas ruso llamado Gorynych. El control por voz de la computadora se realiza en ruso, sin embargo, también hay soporte para inglés. "Gorynych" le permite controlar una computadora personal en modo de usuario, es decir, realizar todas las acciones posibles que puede realizar con un mouse y teclado: trabajar con Windows, aplicaciones, procesos que se ejecutan en una computadora personal. Además, "Gorynych" reconoce el discurso de un solo propietario, pero no siempre.

Sin embargo, hay un inconveniente bastante grande. El hecho es que debe ingresar manualmente a toda la base de comando. Es decir, antes de poder hacer algo en la computadora con su voz, necesita crear una base de datos completa con comandos grabados en su voz. Incluso si haces esto, si de repente te vuelves ronco o el timbre de tu voz cambia aunque sea un poco, "Gorynych" se negará por completo a entenderte.

Otro problema es que si quieres dictar textos a una computadora, primero tendrás que crear un diccionario enorme para "Gorynych" con un buen vocabulario para que pueda entender lo que le dictas.

discurso

Las aplicaciones de terceros instaladas en una computadora personal pueden ayudar a garantizar esto. Uno de ellos es Speechka. Al igual que Gorynych, un producto ruso creado sobre la base de la tecnología de Google, Spichka permite al usuario controlar la computadora por voz mediante un conjunto determinado de comandos. Speechka reconoce bastante bien cualquier discurso y no es necesario grabar archivos de audio. Basta con introducir una palabra en el teclado y asociarla a alguna acción. En pocas palabras, es un producto que vale la pena, pero que aún está en desarrollo, ya que recientemente se han agregado funciones como cerrar ventanas o iniciar programas.

Mecanografía

Habiendo entendido qué es el control por voz de una computadora, consideremos el problema de escribir. Como ya se mencionó, no todas las aplicaciones lo permiten. En la mayoría de los casos, esto requiere primero compilar un diccionario completo y, si es usuario de Windows 8, también surge el problema de admitir el habla rusa. Para solucionar este problema existe un servicio de marcación por voz creado por Google.

Disponible sólo para los navegadores Chrome, la aplicación Google Web Speech reconoce 32 de los principales idiomas del mundo, incluido el ruso. Para ingresar texto por voz, necesitará un navegador adecuado, Internet y un micrófono. Los avances han avanzado lo suficiente como para que esta utilidad sea capaz de percibir el habla rusa alfabetizada en palabras completas y traducirlas a texto impreso.

Otro programa para reconocer el habla y dictarla a una computadora personal es RealSpeaker. Utiliza tecnologías modernas para reconocer expresiones faciales. Absolutamente cualquier cámara web es adecuada para su uso. El único inconveniente que surge durante el trabajo es que la cara del hablante debe estar exactamente frente a la cámara, a una distancia de no más de 40 centímetros. Este programa cuenta con un diccionario de idioma ruso, que el usuario puede ampliar si lo desea. En general, este programa es mucho más conveniente que Gorynych.

En pocas palabras

Si estás pensando en controlar tu computadora con la voz, créeme, esto todavía no es para Rusia. Hoy en día existen programas de reconocimiento adecuados sólo en inglés, y la escritura automática por voz contendrá tantos errores que será más fácil escribir el texto desde cero que corregir todos los errores tipográficos. Por supuesto, puedes intentar aprender inglés y manejar una computadora en él, pero necesitarás una dicción y pronunciación perfectas.




Arriba