¿Cuáles son las dificultades del reconocimiento de patrones? Sistemas de reconocimiento (identificación) de patrones. La gestión como tarea inversa a la identificación y previsión.

1. El concepto de imagen

Imagen, clase: una agrupación de clasificación en un sistema de clasificación que une (destaca) un determinado grupo de objetos según un determinado criterio.

La percepción imaginativa del mundo es una de las misteriosas propiedades del cerebro vivo, que permite comprender el flujo interminable de información percibida y mantener la orientación en el océano de datos dispares sobre el mundo exterior. Al percibir el mundo exterior, siempre clasificamos las sensaciones percibidas, es decir, las dividimos en grupos de fenómenos similares, pero no idénticos. Por ejemplo, a pesar de la diferencia significativa, un grupo incluye todas las letras A escritas con diferentes caligrafías, o todos los sonidos correspondientes a la misma nota tocada en cualquier octava y en cualquier instrumento, y el operador que controla un objeto técnico incluye un conjunto completo de estados. El objeto reacciona con la misma reacción. Es característico que para formar un concepto de un conjunto de percepciones cierta clase Basta con familiarizarse con un pequeño número de sus representantes. Puedes mostrarle a un niño solo una letra para que pueda encontrarla en el texto escrito. diferentes fuentes, o reconocerlo, incluso si está escrito en una forma deliberadamente distorsionada. Esta propiedad del cerebro nos permite formular un concepto como imagen.

Las imágenes tienen una propiedad característica, que se manifiesta en el hecho de que el conocimiento de un número finito de fenómenos del mismo conjunto permite reconocer tantos como se desee. gran número sus representantes. Ejemplos de imágenes pueden ser: río, mar, líquido, música de Tchaikovsky, poesía de Mayakovsky, etc. Un cierto conjunto de estados del objeto de control también puede considerarse como una imagen, y todo este conjunto de estados se caracteriza por el hecho que para lograr un objetivo determinado, el mismo impacta en el objeto. Las imágenes tienen propiedades objetivas características en el sentido de que diferentes personas que estudian diferentes materiales observaciones, principalmente Clasificar los mismos objetos por igual e independientemente unos de otros. Es esta objetividad de las imágenes la que permite que personas de todo el mundo se entiendan entre sí.

capacidad de percepción mundo exterior en forma de imágenes nos permite reconocer con cierta fiabilidad numero infinito objetos basados ​​​​en la familiarización con un número finito de ellos, y el carácter objetivo de la propiedad principal de las imágenes nos permite modelar el proceso de su reconocimiento. Al ser un reflejo de la realidad objetiva, el concepto de imagen es tan objetivo como la realidad misma y, por tanto, este concepto puede ser en sí mismo objeto de estudio especial.

En la literatura dedicada al problema del aprendizaje del reconocimiento de patrones (RP), a menudo se introduce el concepto de clase en lugar del concepto de imagen.

2. El problema del aprendizaje del reconocimiento de patrones (oro)

Una de las propiedades más interesantes. cerebro humano es la capacidad de responder a un número infinito de condiciones ambientales con un número finito de reacciones. Quizás fue precisamente esta propiedad la que permitió al hombre alcanzar la forma más elevada de existencia de materia viva, expresada en la capacidad de pensar, es decir, reflejar activamente el mundo objetivo en forma de imágenes, conceptos, juicios, etc. Por tanto, el problema de ORR surgió en el estudio de las propiedades fisiológicas del cerebro.

Consideremos un ejemplo de problemas del campo de ODO.

Higo 1

Aquí hay 12 tareas en las que debes seleccionar características que puedan usarse para distinguir la tríada de imágenes izquierda de la derecha. Resolver estos problemas requiere modelar el pensamiento lógico en su totalidad.

En general, el problema del reconocimiento de patrones consta de dos partes: entrenamiento y reconocimiento. El entrenamiento se lleva a cabo mostrando objetos individuales que indican su pertenencia a una imagen particular. Como resultado del entrenamiento, el sistema de reconocimiento debe adquirir la capacidad de responder con las mismas reacciones a todos los objetos de la misma imagen y con diferentes reacciones a todos los objetos de diferentes imágenes. Es muy importante que el proceso de aprendizaje se complete únicamente mostrando un número finito de objetos sin ninguna otra indicación. Los objetos de aprendizaje pueden ser imágenes u otras imágenes visuales (letras), o diversos fenómenos del mundo exterior, por ejemplo sonidos, el estado del cuerpo durante un diagnóstico médico, el estado de un objeto técnico en los sistemas de control, etc. Es importante que durante el proceso de aprendizaje sólo se consideren los objetos y su pertenencia a la imagen. Al entrenamiento le sigue el proceso de reconocimiento de nuevos objetos, que caracteriza las acciones de un sistema ya entrenado. La automatización de estos procedimientos es el problema de enseñar el reconocimiento de patrones. En el caso de que una persona lo resuelva o invente por sí misma y luego imponga una regla de clasificación a la máquina, el problema de reconocimiento se resuelve parcialmente, ya que la persona asume la parte principal y principal del problema (entrenamiento).

El problema de la enseñanza del reconocimiento de patrones es interesante tanto desde un punto de vista aplicado como fundamental. Desde un punto de vista aplicado, la solución a este problema es importante principalmente porque abre la posibilidad de automatizar muchos procesos que hasta ahora estaban asociados únicamente con la actividad del cerebro vivo. La importancia fundamental del problema está estrechamente relacionada con la pregunta que surge cada vez más en relación con el desarrollo de las ideas en cibernética: ¿qué puede y qué no puede hacer una máquina en esencia? ¿Hasta qué punto las capacidades de una máquina pueden aproximarse a las de un cerebro vivo? En particular, ¿puede una máquina desarrollar la capacidad de adoptar una capacidad humana para realizar determinadas acciones en función de situaciones que se presenten en el entorno? Hasta ahora, solo ha quedado claro que si una persona primero puede darse cuenta de su habilidad por sí misma y luego describirla, es decir, indicar por qué realiza acciones en respuesta a cada estado del entorno externo o cómo (según qué regla) combina objetos individuales en imágenes, entonces dicha habilidad se puede transferir a una máquina sin dificultades fundamentales. Si una persona tiene una habilidad, pero no puede explicarla, entonces sólo hay una forma de transferir la habilidad a una máquina: enseñar con ejemplos.

La gama de problemas que se pueden resolver utilizando sistemas de reconocimiento es extremadamente amplia. Esto incluye no solo las tareas de reconocer imágenes visuales y auditivas, sino también las tareas de reconocer procesos y fenómenos complejos que surgen, por ejemplo, al elegir las acciones apropiadas por parte del director de una empresa o al elegir control óptimo operaciones tecnológicas, económicas, de transporte o militares. En cada una de estas tareas se analizan determinados fenómenos, procesos y estados del mundo exterior, a los que a continuación nos referimos como objetos de observación. Antes de comenzar a analizar cualquier objeto, es necesario obtener de alguna manera cierta información ordenada sobre él. Dicha información representa las características de los objetos, su visualización en una variedad de órganos perceptivos del sistema de reconocimiento.

Pero cada objeto de observación puede influir de manera diferente, dependiendo de las condiciones de percepción. Por ejemplo, cualquier letra, incluso si está escrita de la misma manera, puede, en principio, desplazarse de cualquier manera con respecto a los órganos perceptivos. Además, los objetos de una misma imagen pueden ser muy diferentes entre sí y, naturalmente, tener diferentes efectos en los órganos de percepción.

Cada mapeo de un objeto en los órganos perceptivos del sistema de reconocimiento, independientemente de su posición con respecto a estos órganos, generalmente se denomina imagen del objeto, y los conjuntos de tales imágenes, unidos por algunas propiedades comunes, son imágenes.

Al resolver problemas de control utilizando métodos de reconocimiento de patrones, se utiliza el término "estado" en lugar del término "imagen". Un estado es una determinada forma de visualización de las características actuales (o instantáneas) medidas del objeto observado. El conjunto de estados determina la situación. El concepto de "situación" es análogo al concepto de "imagen". Pero esta analogía no es completa, ya que no toda imagen puede llamarse situación, aunque toda situación sí puede llamarse imagen.

Una situación suele denominarse cierto conjunto de estados. objeto complejo, cada uno de los cuales se caracteriza por la misma o características similares objeto. Por ejemplo, si un determinado objeto de control se considera un objeto de observación, entonces la situación combina estados de este objeto en los que se deben aplicar las mismas acciones de control. Si el objeto de observación es juego de guerra, entonces la situación combina todos los estados del juego que requieren, por ejemplo, un poderoso ataque de tanque con apoyo aéreo.

La elección de la descripción inicial de los objetos es una de tareas centrales Problemas con ORO. Con una buena eleccion descripción original(espacio de características), la tarea de reconocimiento puede resultar trivial y, por el contrario, una descripción inicial elegida sin éxito puede conducir a un procesamiento posterior de la información muy difícil o a la ausencia de una solución. Por ejemplo, si se resuelve el problema de reconocer objetos que difieren en color y se eligen como descripción inicial las señales recibidas de los sensores de peso, entonces el problema de reconocimiento, en principio, no se puede resolver.

Imagen, clase: una agrupación de clasificación en un sistema de clasificación que une (destaca) un determinado grupo de objetos según algún criterio.

La percepción imaginativa del mundo es una de las misteriosas propiedades del cerebro vivo, que permite comprender el flujo interminable de información percibida y mantener la orientación en el océano de datos dispares sobre el mundo exterior. Al percibir el mundo exterior, siempre clasificamos las sensaciones percibidas, es decir, las dividimos en grupos de fenómenos similares, pero no idénticos. Por ejemplo, a pesar de la diferencia significativa, un grupo incluye todas las letras A, escritas con diferentes caligrafías, o todos los sonidos que corresponden a la misma nota, tomados en cualquier octava y en cualquier instrumento, y el operador que controla un objeto técnico para el conjunto. muchos estados El objeto reacciona con la misma reacción. Es característico que para formular un concepto sobre un grupo de percepciones de una determinada clase, basta con familiarizarse con un pequeño número de sus representantes. A un niño se le puede mostrar una letra una sola vez para que pueda encontrarla en un texto escrito en diferentes tipos de letra o reconocerla, incluso si está escrita de forma deliberadamente distorsionada. Esta propiedad del cerebro nos permite formular un concepto como imagen.

Las imágenes tienen una propiedad característica, que se manifiesta en el hecho de que el conocimiento de un número finito de fenómenos de un mismo conjunto permite reconocer un número arbitrariamente grande de sus representantes. Ejemplos de imágenes pueden ser: río, mar, líquido, música de Tchaikovsky, poesía de Mayakovsky, etc. Un cierto conjunto de estados del objeto de control también puede considerarse como una imagen, y todo este conjunto de estados se caracteriza por el hecho que para lograr un objetivo determinado, el mismo impacta en el objeto. Las imágenes tienen propiedades objetivas características en el sentido de que diferentes personas, formados con diferente material de observación, en su mayor parte clasifican los mismos objetos de la misma forma e independientemente unos de otros. Es esta objetividad de las imágenes la que permite que personas de todo el mundo se entiendan entre sí.

La capacidad de percibir el mundo exterior en forma de imágenes permite reconocer con cierta fiabilidad un número infinito de objetos basándose en la familiarización con un número finito de ellos, y el carácter objetivo de la propiedad principal de las imágenes permite modelar el proceso de su reconocimiento. Al ser un reflejo de la realidad objetiva, el concepto de imagen es tan objetivo como la realidad misma y, por tanto, puede ser en sí mismo objeto de estudio especial.

En la literatura dedicada al problema del aprendizaje del reconocimiento de patrones (RP), a menudo se introduce el concepto de clase en lugar del concepto de imagen.

El problema del reconocimiento de patrones de aprendizaje (PRT)

Una de las propiedades más interesantes del cerebro humano es su capacidad para responder a conjunto infinito estados ambiente externo un número finito de reacciones. Quizás fue precisamente esta propiedad la que permitió al hombre alcanzar la forma más elevada de existencia de materia viva, expresada en la capacidad de pensar, es decir, reflejar activamente el mundo objetivo en forma de imágenes, conceptos, juicios, etc. Por tanto, el problema de ORR surgió en el estudio de las propiedades fisiológicas del cerebro.

Consideremos un ejemplo de problemas del campo de ODO.


Arroz. 3.1.

Aquí se presentan 12 imágenes y debe seleccionar características que puedan ayudarlo a distinguir la tríada de imágenes de la izquierda de la derecha. Resolver estos problemas requiere modelar el pensamiento lógico en su totalidad.

En general, el problema del reconocimiento de patrones consta de dos partes: entrenamiento y reconocimiento. El entrenamiento se lleva a cabo mostrando objetos individuales que indican su pertenencia a una imagen particular. Como resultado del entrenamiento, el sistema de reconocimiento debe adquirir la capacidad de responder con las mismas reacciones a todos los objetos de la misma imagen y con diferentes reacciones a todos los objetos de diferentes imágenes. Es muy importante que el proceso de aprendizaje se complete únicamente mostrando un número finito de objetos sin ninguna otra indicación. Los objetos de aprendizaje pueden ser dibujos u otras imágenes visuales (letras), o diversos fenómenos del mundo exterior, por ejemplo, sonidos, condiciones corporales durante un diagnóstico médico, el estado de un objeto técnico en los sistemas de control, etc. que sólo los objetos mismos y su pertenencia a la imagen. Al entrenamiento le sigue el proceso de reconocimiento de nuevos objetos, que caracteriza las acciones de un sistema ya entrenado. La automatización de estos procedimientos es el problema de enseñar el reconocimiento de patrones. En el caso de que una persona lo resuelva o invente por sí misma y luego imponga una regla de clasificación a la máquina, el problema de reconocimiento se resuelve parcialmente, ya que la persona asume la parte principal y principal del problema (entrenamiento).

El problema de la enseñanza del reconocimiento de patrones es interesante tanto desde un punto de vista aplicado como fundamental. Desde un punto de vista aplicado, la solución a este problema es importante principalmente porque abre la posibilidad de automatizar muchos procesos que hasta ahora estaban asociados únicamente con la actividad del cerebro vivo. La importancia fundamental del problema está estrechamente relacionada con la pregunta que surge cada vez más en relación con el desarrollo de las ideas en cibernética: ¿qué puede y qué no puede hacer fundamentalmente una máquina? ¿Hasta qué punto las capacidades de una máquina pueden aproximarse a las de un cerebro vivo? En particular, ¿puede una máquina desarrollar la capacidad de heredar de una persona la capacidad de realizar determinadas acciones dependiendo de las situaciones que surgen en el mundo? ambiente? Hasta ahora, solo ha quedado claro que si una persona primero puede darse cuenta de su habilidad por sí misma y luego describirla, es decir, indicar por qué realiza acciones en respuesta a cada estado del entorno externo o cómo (según qué regla) combina objetos individuales en imágenes, entonces dicha habilidad se puede transferir a una máquina sin dificultades fundamentales. Si una persona tiene una habilidad, pero no puede explicarla, entonces sólo hay una forma de transferir la habilidad a una máquina: enseñar con ejemplos.

La gama de problemas que se pueden resolver utilizando sistemas de reconocimiento es extremadamente amplia. Esto incluye no solo las tareas de reconocer imágenes visuales y auditivas, sino también las tareas de reconocer procesos y fenómenos complejos que surgen, por ejemplo, al elegir las acciones apropiadas por parte del director de una empresa o al elegir la gestión óptima de los servicios tecnológicos, económicos y de transporte. u operaciones militares. En cada una de estas tareas se analizan determinados fenómenos, procesos y estados del mundo exterior, a los que a continuación nos referimos como objetos de observación. Antes de comenzar a analizar cualquier objeto, es necesario obtener de alguna manera cierta información ordenada sobre él. Dicha información representa las características de los objetos, su visualización en una variedad de órganos perceptivos del sistema de reconocimiento.

Pero cada objeto de observación puede afectarnos de manera diferente, dependiendo de las condiciones de percepción. Por ejemplo, cualquier letra, incluso si está escrita de la misma manera, puede, en principio, desplazarse de cualquier manera con respecto a los órganos perceptivos. Además, los objetos de una misma imagen pueden ser muy diferentes entre sí y, naturalmente, tener efectos diferentes en los órganos de percepción.

Cada mapeo de un objeto en los órganos perceptivos del sistema de reconocimiento, independientemente de su posición con respecto a estos órganos, generalmente se denomina imagen del objeto, y conjuntos de tales imágenes, unidas por algunos propiedades generales, representan imágenes.

Al resolver problemas de control utilizando métodos de reconocimiento de patrones, se utiliza el término "estado" en lugar del término "imagen". Estado- esta es una cierta forma de visualización de las características actuales (o instantáneas) medidas del objeto observado. El conjunto de estados determina la situación. El concepto de "situación" es análogo al concepto de "imagen". Pero esta analogía no es completa, ya que no toda imagen puede llamarse situación, aunque toda situación sí puede llamarse imagen.

Una situación suele denominarse cierto conjunto de estados de un objeto complejo, cada uno de los cuales se caracteriza por características iguales o similares del objeto. Por ejemplo, si un determinado objeto de control se considera un objeto de observación, entonces la situación combina estados de este objeto en los que se deben aplicar las mismas acciones de control. Si el objeto de observación es un juego de guerra, entonces la situación combina todos los estados del juego que requieren, por ejemplo, un poderoso ataque de tanque con apoyo aéreo.

La elección de la descripción inicial de los objetos es una de las tareas centrales del problema ODO. Si la descripción inicial (espacio de características) se elige con éxito, la tarea de reconocimiento puede resultar trivial y, a la inversa, una descripción inicial elegida sin éxito puede conducir a un procesamiento posterior de información muy complejo o a ninguna solución. Por ejemplo, si se resuelve el problema de reconocer objetos que difieren en color y se eligen como descripción inicial las señales recibidas de los sensores de peso, entonces el problema de reconocimiento, en principio, no se puede resolver.

sobre qué problemas aún deben resolverse para que los sistemas reconocimiento automático discurso a nivel humano.

Desde la llegada del reconocimiento de voz aprendizaje profundo, la tasa de error ha disminuido significativamente. Pero a pesar de todo lo que hayas leído y visto, todavía no contamos con un sistema de reconocimiento de voz a nivel humano. Hay muchos errores en el reconocimiento de voz. Para avanzar, es importante saber cuándo ocurren y tomar medidas para resolverlos. Esta es la única manera de pasar del reconocimiento automático de voz (ASR), que funciona para algunas personas, al ASR que funciona para todas las personas, todo el tiempo.

Mejoras en la tasa de error en la prueba de Reconocimiento de Voz de Centralita. El conjunto de pruebas se recopiló en 2000. Consta de 40 conversaciones telefónicas entre dos transportistas aleatorios idioma en Inglés.

Decir que hemos logrado un reconocimiento de voz a nivel humano basado en los resultados de Switchboards es lo mismo que decir que coche sin conductor Conduce tan bien como un humano después de probarlo en una ciudad en un día soleado y sin tráfico. Las últimas mejoras en el reconocimiento del lenguaje hablado son sorprendentes. Pero es demasiado pronto para afirmar que hemos alcanzado el nivel de las personas. A continuación se muestran algunas secciones que necesitan mejorar.

Acentos y ruido

Una de las diferencias más notables en el reconocimiento de voz es la capacidad de lidiar con acentos y ruidos de fondo. La razón directa de esto es que los datos de entrenamiento consisten en habla inglesa con acento americano y una relación señal-ruido (SNR) alta. Por ejemplo, los conjuntos de datos de prueba y entrenamiento de Switchboard incluyen solo hablantes nativos de inglés con poco ruido de fondo.

Sin embargo, aumentar la cantidad de datos de entrenamiento probablemente no resuelva el problema fácilmente. Hay muchos idiomas con muchos dialectos y acentos. No es posible recopilar suficientes datos para todos los casos. Creación sistema de calidad Sólo el reconocimiento de voz en inglés con acento estadounidense requiere cinco mil horas de audio transcrito.

Comparación de transcripciones humanas con las del modelo Deep Speech 2 de Baidu. Tenga en cuenta que las personas son menos capaces de reconocer los acentos no estadounidenses. Probablemente esto se deba al origen americano de los taquígrafos. Creo que los hablantes nativos de cada región serían más capaces de reconocer los acentos de sus países de origen.

En cuanto al ruido de fondo, en un coche en movimiento la SNR rara vez es de -5 dB. La gente se entiende sin problemas en este entorno. Sistemas automáticos Los reconocedores de voz cometen muchos más errores a medida que aumenta el ruido. En el gráfico anterior, vemos cómo la diferencia entre los errores humanos y del modelo aumenta drásticamente desde un audio SNR bajo hasta un audio SNR alto.

Errores semánticos

El nivel de errores en palabras no es el indicador más objetivo. Nos interesa el indicador de errores semánticos. Esta es la proporción de declaraciones en las que distorsionamos el significado.

Un ejemplo de error semántico: si alguien dijo “nos vemos el martes” (nos vemos el martes), pero el sistema reconoce la declaración como “nos vemos hoy” (nos vemos hoy). También podemos tener errores en palabras sin errores semánticos: si el sistema descartó la palabra y reconoció "nos vemos el martes", entonces la semántica del enunciado no cambió.

Debemos ser más cuidadosos en el uso de la palabra tasa de error (WER). tasa de error) como el principal. Déjame mostrarte la peor situación. Un WER del 5% corresponde a una palabra faltante de cada veinte. Si cada oración contiene veinte palabras (el promedio en inglés), la tasa de error en las oraciones será del 100%. Pero es poco probable que las palabras que faltan cambien el significado de las oraciones. De lo contrario, incluso con un WER del 5%, cada frase se malinterpretaría.

Al comparar modelos y humanos, es importante comprobar la naturaleza de los errores en lugar de limitarse a observar el WER. En mi experiencia, cuando las personas transcriben un discurso, cometen menos errores y estos errores no son tan críticos.

Investigadores de Microsoft compararon recientemente los errores de los humanos y los sistemas de reconocimiento de voz con las tasas de error humano. Descubrieron que era más probable que el modelo confundiera las interjecciones "ah" y "uh-huh". Estas dos palabras tienen una semántica completamente diferente: "a" simplemente llena las pausas y "ajá" actúa como un reconocimiento. Pero el modelo y los humanos también han cometido muchos errores similares.

Un canal, muchos ponentes

La prueba de la centralita es más sencilla porque cada orador se graba en un micrófono independiente. El audio no se superpone en un canal. diferentes voces. Las personas pueden entender a varias personas hablando al mismo tiempo.

Un buen sistema de reconocimiento de voz debería poder segmentar el audio según quién habla (diarización). También debe comprender el audio de varios hablantes (separación de fuentes). Esto debería ser posible sin la necesidad de un micrófono cerca de cada orador.

Otras áreas

Acentos y ruido de fondo Son sólo dos factores en los que se debería mejorar la fiabilidad de un reconocedor de voz. Aquí hay algunos más:

  • Reverberación por cambios en el entorno acústico.
  • Artefactos de hardware.
  • Códec utilizado para artefactos de audio y compresión.
  • Frecuencia de muestreo.
  • Edad del hablante.

Mucha gente ni siquiera notará la diferencia entre archivos mp3 y wav. Los reconocedores de voz deben ser confiables en todos estos factores antes de que podamos afirmar que tienen un rendimiento a nivel humano.

Contexto

Puede notar que la tasa de error humano en pruebas como Switchboard es bastante alta. Si te estuvieras comunicando con un amigo y él no entendiera 1 de cada 20 palabras que dijiste, te resultaría difícil comunicarte.

Una de las razones de esto es que la evaluación se realiza independientemente del contexto. EN vida real Usamos muchas otras señales para entender lo que dice la otra persona. Algunos ejemplos de contexto que usa la gente:

  • Conversaciones pasadas y tema de discusión.
  • Señales visuales como expresiones faciales y movimientos de labios.
  • Conocimiento sobre la persona con la que nos comunicamos.

Actualmente, el reconocedor de voz de Android tiene acceso a su lista de contactos para que pueda reconocer los nombres de sus amigos. La búsqueda por voz en Maps utiliza la geolocalización para limitar destinos potenciales. La precisión de los sistemas ASR aumenta con el uso de este tipo de señal. Pero apenas hemos comenzado a explorar qué contexto podemos incluir y cómo podemos hacerlo.

Implementación

Las recientes mejoras en el reconocimiento del lenguaje hablado no se pueden implementar rápidamente. Cuando hablamos de lo que hace nuevo algoritmo el reconocimiento de voz es factible, analizamos las métricas de latencia y potencia. Están conectados y los algoritmos que reducen la latencia aumentan la potencia nominal. Veamos cada uno por separado.

Demora:Este es el tiempo desde el final del discurso hasta el final de la transcripción. poco tiempo Los retrasos son un requisito común en los sistemas de reconocimiento de voz. Esto puede tener un gran impacto en la experiencia del usuario y la latencia suele medirse en decenas de milisegundos. Esto puede parecer abrumador, pero recuerde que crear una transcripción es el primer paso de una serie de cálculos. Por ejemplo, en búsqueda por voz la búsqueda en sí se realiza después del reconocimiento de voz.

Bidireccional redes recurrentes son buen ejemplo mejora significativa. Todo lo último desarrollos modernos se utilizan en el reconocimiento de voz hablada. El problema es que no podemos calcular nada después de la primera capa bidireccional hasta que el usuario termine de hablar. Por tanto, la latencia aumenta con la duración del enunciado.

Al usar una dirección podemos iniciar la transcripción al instante.

Con la repetición bidireccional, nos vemos obligados a esperar el final del discurso.

Buen camino uso efectivo La información futura en el reconocimiento de voz sigue siendo un problema abierto.

Fuerza:la cantidad de potencia informática que se necesita para transcribir un enunciado es una restricción económica. Debemos considerar el valor y el costo de cada mejora en la precisión del reconocimiento de voz. Si una mejora no encaja en el marco económico, no se puede implementar.

Un ejemplo clásico de mejora que no se materializa es el aprendizaje en conjunto. No vale la pena reducir la tasa de error en un 1-2% para aumentar la potencia informática de 2 a 8 veces. Modelos modernos basado en recurrente redes neuronales Por lo general, también entran en esta categoría porque su uso en la búsqueda de haces es muy costoso, aunque espero que esto cambie en el futuro.

No creo que la investigación relacionada con la mejora de la precisión y las grandes potencia informática, no tienen sentido. Hemos visto antes el patrón “primero lento pero seguro, luego rápido”. La idea es que hasta que la mejora no sea lo suficientemente rápida, no se podrá utilizar.

Los próximos cinco años

En el reconocimiento de voz, hay muchos abiertos y problemas complejos. Entre ellos:

  • Ampliar capacidades a nuevas áreas, nuevos énfasis y voz con baja relación señal-ruido.
  • Implementación más contexto en el proceso de reconocimiento.
  • Diarización y separación de fuentes.
  • Indicador de errores semánticos y métodos innovadores para evaluar reconocedores.
  • Baja latencia y algoritmos eficientes.

En general, el problema del reconocimiento de patrones consta de dos partes: entrenamiento y reconocimiento. El aprendizaje se lleva a cabo mostrando objetos independientes y asignándolos a una u otra clase. Como resultado del entrenamiento, el sistema de reconocimiento debe adquirir la capacidad de responder con las mismas reacciones a todos los objetos de una imagen y diferentes a todos los demás. Es importante que durante el proceso de aprendizaje solo se indiquen los propios objetos y su afiliación con la imagen. A la formación le sigue un proceso de reconocimiento que caracteriza las acciones de un sistema ya formado. La automatización de estos procedimientos es el problema.

Antes de comenzar el análisis de cualquier objeto, es necesario obtener información cierta, ordenada y precisa sobre él. Dicha información es un conjunto de propiedades de los objetos, su manifestación en una variedad de órganos perceptivos del sistema de reconocimiento.

Pero cada objeto de observación puede influir de manera diferente, dependiendo de las condiciones de percepción. Además, los objetos de una misma imagen pueden diferir mucho entre sí.

Cada mapeo de un objeto en los órganos perceptivos del sistema de reconocimiento, independientemente de su posición con respecto a estos órganos, generalmente se denomina imagen del objeto, y los conjuntos de tales imágenes, unidos por algunas propiedades comunes, son imágenes. Con una elección exitosa de la descripción inicial (espacio de características), la tarea de reconocimiento puede resultar bastante fácil y, por el contrario, una elección fallida puede conducir a un procesamiento posterior de la información muy complejo o a la ausencia de una solución. .

El reconocimiento de objetos, señales, situaciones, fenómenos es la tarea más común que una persona necesita resolver cada segundo. Para ello se utilizan enormes recursos del cerebro, que se estiman mediante un indicador como el número de neuronas igual a 10 · 10.

Además, el reconocimiento se encuentra constantemente en la tecnología. Los cálculos en redes de neuronas formales son en muchos aspectos similares al procesamiento de información en el cerebro. EN última década La neurocomputación ha ganado una popularidad extrema y ha logrado convertirse en una disciplina de ingeniería asociada a la producción de productos comerciales. EN gran volumen se está trabajando para crear base del elemento para neurocomputación.

Principales rasgo característico es la capacidad de resolver problemas no formalizados para los cuales, por una razón u otra, no se proponen algoritmos de solución. Las neurocomputadoras ofrecen relativamente tecnología simple obtención de algoritmos a través del entrenamiento. Ésta es su principal ventaja. Por lo tanto, la neurocomputación resulta relevante en este momento, durante el apogeo de la multimedia, cuando desarrollo global Requiere el desarrollo de nuevas tecnologías estrechamente relacionadas con el reconocimiento de imágenes.

Uno de los principales problemas de desarrollo y aplicación. inteligencia artificial El problema de reconocer imágenes sonoras y visuales persiste. Todas las demás tecnologías ya están listas para encontrar su aplicación en medicina, biología y sistemas de seguridad. En medicina, el reconocimiento de patrones ayuda a los médicos a realizar diagnósticos más precisos en las fábricas y se utiliza para predecir defectos en lotes de productos; Sistemas identificación biométrica Las personalidades como núcleo algorítmico también se basan en los resultados del reconocimiento. Mayor desarrollo y el diseño de computadoras capaces de comunicarse más directamente con los humanos en lenguajes y habla naturales es imposible sin reconocimiento. Aquí surge la pregunta sobre el desarrollo de la robótica, sistemas artificiales controles que contienen sistemas de reconocimiento como subsistemas vitales.

En general, el problema del reconocimiento de patrones consta de dos partes: entrenamiento y reconocimiento. El entrenamiento se lleva a cabo mostrando objetos individuales que indican su pertenencia a una imagen particular. Como resultado del entrenamiento, el sistema de reconocimiento debe adquirir la capacidad de responder con las mismas reacciones a todos los objetos de la misma imagen y con diferentes reacciones a todos los objetos de diferentes imágenes. Es muy importante que el proceso de aprendizaje se complete únicamente mostrando un número finito de objetos sin ninguna otra indicación. Los objetos de aprendizaje pueden ser imágenes u otras imágenes visuales (letras), o diversos fenómenos del mundo exterior, por ejemplo sonidos, el estado del cuerpo durante un diagnóstico médico, el estado de un objeto técnico en los sistemas de control, etc. Es importante que durante el proceso de aprendizaje sólo se consideren los objetos y su pertenencia a la imagen. Al entrenamiento le sigue el proceso de reconocimiento de nuevos objetos, que caracteriza las acciones de un sistema ya entrenado. La automatización de estos procedimientos es el problema de enseñar el reconocimiento de patrones. En el caso de que una persona lo resuelva o invente por sí misma y luego imponga una regla de clasificación a la máquina, el problema de reconocimiento se resuelve parcialmente, ya que la persona asume la parte principal y principal del problema (entrenamiento).
El problema de la enseñanza del reconocimiento de patrones es interesante tanto desde un punto de vista aplicado como fundamental. Desde un punto de vista aplicado, la solución a este problema es importante principalmente porque abre la posibilidad de automatizar muchos procesos que hasta ahora estaban asociados únicamente con la actividad del cerebro vivo. La importancia fundamental del problema está estrechamente relacionada con la pregunta que surge cada vez más en relación con el desarrollo de las ideas en cibernética: ¿qué puede y qué no puede hacer una máquina en esencia? ¿Hasta qué punto las capacidades de una máquina pueden aproximarse a las de un cerebro vivo? En particular, ¿puede una máquina desarrollar la capacidad de adoptar una capacidad humana para realizar determinadas acciones en función de situaciones que se presenten en el entorno? Hasta ahora, solo ha quedado claro que si una persona primero puede darse cuenta de su habilidad por sí misma y luego describirla, es decir, indicar por qué realiza acciones en respuesta a cada estado del entorno externo o cómo (según qué regla) combina objetos individuales en imágenes, entonces dicha habilidad se puede transferir a una máquina sin dificultades fundamentales. Si una persona tiene una habilidad, pero no puede explicarla, entonces sólo hay una forma de transferir la habilidad a una máquina: enseñar con ejemplos.
La gama de problemas que se pueden resolver utilizando sistemas de reconocimiento es extremadamente amplia. Esto incluye no solo las tareas de reconocer imágenes visuales y auditivas, sino también las tareas de reconocer procesos y fenómenos complejos que surgen, por ejemplo, al elegir las acciones apropiadas por parte del director de una empresa o al elegir la gestión óptima de los servicios tecnológicos, económicos y de transporte. u operaciones militares. En cada una de estas tareas se analizan determinados fenómenos, procesos y estados del mundo exterior, a los que a continuación nos referimos como objetos de observación. Antes de comenzar a analizar cualquier objeto, es necesario obtener de alguna manera cierta información ordenada sobre él. Dicha información representa las características de los objetos, su visualización en una variedad de órganos perceptivos del sistema de reconocimiento.
Pero cada objeto de observación puede influir de manera diferente, dependiendo de las condiciones de percepción. Por ejemplo, cualquier letra, incluso si está escrita de la misma manera, puede, en principio, desplazarse de cualquier manera con respecto a los órganos perceptivos. Además, los objetos de una misma imagen pueden ser muy diferentes entre sí y, naturalmente, tener diferentes efectos en los órganos de percepción.
Cada mapeo de un objeto en los órganos perceptivos del sistema de reconocimiento, independientemente de su posición con respecto a estos órganos, generalmente se denomina imagen del objeto, y los conjuntos de tales imágenes, unidos por algunas propiedades comunes, son imágenes.
Al resolver problemas de control utilizando métodos de reconocimiento de patrones, se utiliza el término "estado" en lugar del término "imagen". Un estado es una determinada forma de visualización de las características actuales (o instantáneas) medidas del objeto observado. El conjunto de estados determina la situación. El concepto de "situación" es análogo al concepto de "imagen". Pero esta analogía no es completa, ya que no toda imagen puede llamarse situación, aunque toda situación sí puede llamarse imagen.
Una situación suele denominarse cierto conjunto de estados de un objeto complejo, cada uno de los cuales se caracteriza por características iguales o similares del objeto. Por ejemplo, si un determinado objeto de control se considera un objeto de observación, entonces la situación combina estados de este objeto en los que se deben aplicar las mismas acciones de control. Si el objeto de observación es un juego de guerra, entonces la situación combina todos los estados del juego que requieren, por ejemplo, un poderoso ataque de tanque con apoyo aéreo.
La elección de la descripción inicial de los objetos es una de las tareas centrales del problema ODO. Si la descripción inicial (espacio de características) se elige con éxito, la tarea de reconocimiento puede resultar trivial y, a la inversa, una descripción inicial elegida sin éxito puede conducir a un procesamiento posterior de la información muy complejo o a ninguna solución. Por ejemplo, si se resuelve el problema de reconocer objetos que difieren en color y se eligen como descripción inicial las señales recibidas de los sensores de peso, entonces el problema de reconocimiento, en principio, no se puede resolver.




Arriba