Hogar › Teléfono › Grabación digital. Por tanto, se puede entender que la calidad de la grabación y reproducción digital está influenciada principalmente por la calidad de los convertidores. Grabación de audio digital

Grabación digital. Por tanto, se puede entender que la calidad de la grabación y reproducción digital está influenciada principalmente por la calidad de los convertidores. Grabación de audio digital

En relación con las críticas sensatas a los habrakhabrovitas, rehice radicalmente la publicación. Espero que esta opción sea valorada más positivamente.

Trabajo desde hace casi dos años en una empresa que digitaliza colecciones de archivos y bibliotecas. Escaneamos información de forma regular y cada día recibimos decenas de miles de imágenes gráficas que deben ser reconocidas y cargadas al cliente. Mi tarea es crear una tecnología de canalización para reconocer información a partir de imágenes gráficas.

Prueba de reconocimiento automático

Texto impreso
ABBYY FineReader es el líder indiscutible en este segmento. Los programas de reconocimiento se desarrollan con énfasis en la documentación estándar de las empresas que son los principales consumidores del software. No están diseñados para formatos no estándar, por lo que los programas no pueden proporcionar un nivel de confianza superior al 80%.

Al procesar tarjetas de biblioteca que tienen entre diez y veinte años, ABBYY FineReader no puede ofrecer resultados con una precisión superior al 60 %. Vea la captura de pantalla a continuación.

Texto escrito a mano
ABBYY FineReader tiene versiones del programa en las que, después del entrenamiento, debería reconocer texto. La esencia es simple: el producto es una red neuronal vacía. El usuario debe completarlo manualmente. Si el usuario intenta reconocer varias escrituras a mano, el programa no podrá producir resultados. Después de pasar una semana aprendiendo esto. solución de software Al final no obtuvimos un resultado positivo.

Solicitud programas automatizados para el reconocimiento de texto escrito a mano es casi imposible hoy en día. La entrada de información por parte del operador a partir de una imagen gráfica es la única forma de obtener información digitalizada. Vea la captura de pantalla a continuación.

Creación de tecnología de reconocimiento manual.

A continuación hablaremos de la tecnología que había que crear. Hubo un algoritmo que tardó seis meses en implementarse. A continuación se muestra el procedimiento para obtener texto reconocido:

Escaneo: el escáner de flujo se realiza solo.
Dividir una serie de imágenes gráficas en subcategorías por atributo: eso es todo etapas posteriores realizado por una persona. Esta etapa le permite aumentar la eficiencia de la entrada.
Comprobación del trabajo realizado en la etapa anterior.
Entrada de datos. Toda la información se divide lógicamente en campos y se completa en partes. Cada matriz de datos tiene sus propios detalles y sus propias reglas de entrada:
- si la información es confidencial, la imagen se corta automáticamente en partes y cada operador recibe solo una parte de la información para ingresar;
- con una gran cantidad de campos, los campos de una tarjeta se dividen entre varios operadores.
Validación de datos de entrada. La presencia de errores afecta la remuneración de las personas que ingresan los datos.
Se llevan a cabo una serie de controles automatizados generales en la base de datos.
Envío de piezas completas del conjunto al cliente.

El proyecto se denominó “Centro de Empleo a Distancia” y comenzó a cobrar impulso. Durante el primer mes tuvimos que corregir constantemente los errores que aparecían durante el rodaje. Luego, el proceso mejoró y el software comenzó a funcionar de manera estable y a cargar conjuntos de datos ya preparados.

A medida que crecía la carga, comenzaron a surgir nuevos problemas en el servidor con respecto a la optimización de los algoritmos y la velocidad de su procesamiento. Por ahora se están solucionando localmente, pero es muy posible que pronto haya que optimizar todo el sistema.

Todo el proyecto se implementó con el apoyo del Ministerio de Cultura y Turismo de Ucrania, puede leer más en el enlace.

Brevemente sobre el sistema.

Lenguaje de programación: PHP.
Base de datos: MySQL.
CMS, Framework: ninguno, el desarrollo se realizó desde cero.

Finalmente

Para aquellos que estén interesados en ver diferentes opciones para los resultados de ABBYY FineReader, he publicado capturas de pantalla adicionales en el enlace.

Si esta publicación es recibida positivamente, publicaré una continuación y hablaré sobre cómo se construye la tecnología de automatización bibliotecaria en los países de la CEI. Prestaré especial atención al módulo con características interesantes, que se encarga de mostrar información en Internet.

Un porcentaje bastante importante de los documentos comerciales y de oficina contienen texto escrito a mano. Según la investigación, estos datos juegan papel clave y están necesariamente incluidos en los sistemas contables por entrada manual. Las empresas no intentan automatizar este trabajo y, como resultado, la entrada de datos requiere muchos recursos y tiempo. ¿Por qué? El texto escrito a mano, al igual que el texto impreso, se puede extraer de los documentos con la máxima precisión. Solución sugerida Forma Captura extra, es perfectamente adecuado para estas tareas. Ahora el reconocimiento de texto, números e imágenes escritos a mano está totalmente automatizado.

Los programas de reconocimiento de texto con los que mucha gente está familiarizada difieren de las soluciones de extracción de datos. Y hay razones para ello. Los programas de contabilidad necesitan datos, no formularios editables con diferentes elementos graficos(tablas, marcos, líneas, serifas y logotipos). Para automatizar la entrada, se requiere una etapa preparatoria: la configuración, donde el usuario especifica qué información extraer, cómo procesarla, reconocerla y exportarla. Para conocer más detalladamente las principales etapas de funcionamiento (incluida la configuración) del sistema, consulte el diagrama de funcionamiento. Nos centraremos en reconocimiento de escritura a mano en los documentos, destacando características importantes:

Usando información contextual
Usando expresiones regulares
Las expresiones regulares son una herramienta extremadamente útil que se puede utilizar para reconocer secuencias complejas de caracteres.
Usando alias
Los errores en el diseño del documento pueden generar incertidumbre a la hora de cumplimentarlo. Como resultado, en lugar de una opción ortográfica, aparecen muchas. opciones alternativas, que también son correctas. Por ejemplo: Járkov, mJárkov(el punto está en la celda con la letra "m"), m.Járkov(el punto está en una celda separada). Además, las características específicas de las distintas regiones de Ucrania permiten suponer con seguridad que las personas completan los documentos en su idioma nativo, ignorando los requisitos y el idioma principal del documento. Ejemplo: Jarkov, gJárkov, Jarkov. El uso de alias le permite convertir todas las respuestas del solucionador en una única respuesta correcta.
Uso de scripts (reglas comerciales)
Los scripts se utilizan como herramienta lógica de reconocimiento. Utilizan teorías de implicación (si, si no) o de escenarios (uso, caso) para determinar la siguiente respuesta correcta o validar uno o más campos. Una aplicación común es llenado automático campos con una búsqueda en la base de datos (por ejemplo, si el código es 00123, entonces el nombre, la dirección y el número de teléfono deberían ser automáticamente x, y, z).
Algoritmos de votación
Muy a menudo, el campo escrito a mano extraído está sujeto a mayores requisitos de precisión en el reconocimiento. EN casos similares es posible reconocer el mismo campo de diferentes formas o motores (ABBYY FineReader Engee, CuneiForm y otros) y luego comparar las respuestas para encontrar la verdad.

Todos los derechos en relación con de este documento pertenecen a los autores. Reproducción de este texto o partes de los mismos están permitidos sólo con el permiso por escrito de ambos autores.

Recientemente, las capacidades de los equipos multimedia han experimentado un crecimiento significativo, pero por alguna razón esta área no ha recibido suficiente atención. El usuario medio sufre de falta de información y se ve obligado a aprender únicamente de su propia experiencia y errores. Con este artículo intentaremos eliminar este molesto malentendido. Este artículo está dirigido al usuario medio y tiene como objetivo ayudarle a comprender los fundamentos teóricos y prácticos del sonido digital, identificar las posibilidades y técnicas básicas para utilizarlo.

¿Qué sabemos exactamente sobre las capacidades de audio de una computadora, aparte del hecho de que la computadora de nuestra casa tiene una tarjeta de sonido y dos parlantes? Desafortunadamente, probablemente debido a literatura insuficiente o por otras razones, el usuario a menudo no está familiarizado con nada más que el mezclador y la grabadora de entrada/salida de audio integrados en Windows. El único uso que le encuentra un usuario simple a una tarjeta de sonido es emitir sonido en juegos y escuchar una colección de audio. Pero incluso la tarjeta de sonido más simple hoy en día, instalada en casi todas las computadoras, puede hacer mucho más: abre enormes oportunidades para todos los que aman y están interesados en la música y el sonido, y para aquellos que desean crear su propia música, una tarjeta de sonido. puede convertirse en una herramienta todopoderosa. Para saber qué puede hacer un ordenador en el campo del sonido, sólo tienes que interesarte y se te abrirán oportunidades que quizás ni siquiera habías imaginado. Y todo esto no es tan complicado como podría parecer a primera vista.

Algunos hechos y conceptos de los que es difícil prescindir.

De acuerdo con la teoría del matemático Fourier, una onda sonora se puede representar como un espectro de frecuencias incluidas en ella (Fig. 1).

Los componentes de frecuencia del espectro son oscilaciones sinusoidales (los llamados tonos puros), cada una de las cuales tiene su propia amplitud y frecuencia. Por tanto, cualquier oscilación, incluso la de forma más compleja (por ejemplo, la voz humana), se puede representar como la suma de las oscilaciones sinusoidales más simples de determinadas frecuencias y amplitudes. Y viceversa, generando diferentes vibraciones y superponiéndolas entre sí (mezclando, mezclando), se pueden obtener diferentes sonidos.

Ayuda: humano audífono El cerebro es capaz de distinguir componentes de frecuencia del sonido que van desde 20 Hz a ~20 kHz (el límite superior puede variar según la edad y otros factores). Además, el límite inferior varía mucho dependiendo de la intensidad del sonido.

1. Digitalización del sonido y su almacenamiento en soportes digitales

El sonido analógico "ordinario" se representa en los equipos analógicos como una señal eléctrica continua. La computadora opera con datos en forma digital. Esto significa que el sonido en la computadora se representa en forma digital. ¿Cómo se produce la conversión de una señal analógica a digital?

El audio digital es una forma de representar una señal eléctrica a través de valores numéricos discretos de su amplitud. Digamos que tenemos un análogo. banda sonora buena calidad (dice " buena calidad“Asumiremos una grabación libre de ruido que contiene componentes espectrales de todo el rango de frecuencia audible (aproximadamente de 20 Hz a 20 KHz) y queremos “ingresarla” en la computadora (es decir, digitalizarla) sin pérdida de calidad. ¿Cómo lograrlo y cómo se produce la digitalización? Una onda sonora es una función compleja, la dependencia de la amplitud de una onda sonora con el tiempo. Parecería que, dado que se trata de una función, se puede escribir en la computadora "tal cual", es decir, descrita forma matemática funciones y guardar en la memoria del ordenador. Sin embargo, esto es prácticamente imposible, ya que las vibraciones del sonido no se pueden representar mediante una fórmula analítica (como y=x 2, por ejemplo). Solo queda una forma: describir la función almacenando sus valores discretos en ciertos puntos. En otras palabras, en cada momento el valor de la amplitud de la señal se puede medir y escribir en forma de números. Sin embargo, este método también tiene sus inconvenientes, ya que no podemos registrar los valores de amplitud de la señal con una precisión infinita y nos vemos obligados a redondearlos. En otras palabras, aproximaremos esta función a lo largo de dos ejes de coordenadas: amplitud y tiempo (aproximar en puntos significa, en términos simples, tomar los valores de la función en puntos y escribirlos con precisión finita). Por tanto, la digitalización de señales incluye dos procesos: el proceso de muestreo (muestreo) y el proceso de cuantificación. El proceso de muestreo es el proceso de obtener los valores de la señal convertida en ciertos intervalos de tiempo (Fig. 2).

La cuantificación es el proceso de reemplazar los valores de la señal real por valores aproximados con cierta precisión (Fig. 3). Por lo tanto, la digitalización es registrar la amplitud de la señal a ciertos intervalos y registrar los valores de amplitud resultantes en forma de valores digitales redondeados (dado que los valores de amplitud son un valor continuo, no es posible anotar el valor exacto de la amplitud de la señal en un número finito, por lo que recurren al redondeo). Los valores de amplitud de la señal registrados se denominan muestras. Obviamente, cuanto más a menudo tomemos mediciones de amplitud (cuanto mayor sea la frecuencia de muestreo) y menos redondeemos los valores resultantes (más niveles de cuantificación), más precisa obtendremos la representación de la señal en forma digital. La señal digitalizada se puede almacenar como un conjunto de valores de amplitud sucesivos.

Ahora sobre problemas prácticos. En primer lugar, debemos tener en cuenta que la memoria de la computadora no es infinita, por lo que cada vez que se digitaliza es necesario encontrar algún tipo de compromiso entre la calidad (que depende directamente de los parámetros utilizados durante la digitalización) y el volumen que ocupa la señal digitalizada. .

En segundo lugar, según el teorema de Kotelnikov, la frecuencia de muestreo establece el límite superior de las frecuencias de la señal digitalizada, es decir, la frecuencia máxima de los componentes espectrales es igual a la mitad de la frecuencia de muestreo de la señal. En pocas palabras, para conseguir información completa Para sonido en la banda de frecuencia hasta 22050 Hz, se requiere muestreo con una frecuencia de al menos 44,1 KHz.

Existen otros problemas y matices asociados con la digitalización de audio. Sin entrar en demasiados detalles, observamos que en el “sonido digital”, debido a la discreción de la información sobre la amplitud de la señal original, aparecen diversos ruidos y distorsiones (la frase “en el sonido digital hay tales o cuales frecuencias y ruido "Significa que cuando este sonido se convierte de digital a analógico, las frecuencias y el ruido mencionados estarán presentes en su sonido). Por ejemplo, la fluctuación es un ruido que aparece como resultado del hecho de que el muestreo de la señal durante el muestreo no ocurre en intervalos de tiempo absolutamente iguales, sino con algunas desviaciones. Es decir, si, digamos, el muestreo se realiza con una frecuencia de 44,1 KHz, entonces las muestras no se toman exactamente cada 1/44100 de segundo, sino a veces un poco antes, a veces un poco más tarde. Y dado que la señal de entrada cambia constantemente, tal error conduce a la "captura" de un nivel de señal que no es del todo correcto. Como resultado, es posible que se sienta cierta vibración y distorsión al reproducir la señal digitalizada. La aparición de jitter es el resultado de una estabilidad no absoluta de los convertidores analógico-digital. Para combatir este fenómeno, muy estable generadores de reloj. Otra molestia es el ruido aplastante. Como dijimos, al cuantificar la amplitud de la señal, se redondea al nivel más cercano. Este error provoca una sensación de sonido "sucio".

Una pequeña ayuda: parámetros estándar Las grabaciones de CD de audio son las siguientes: frecuencia de muestreo: 44,1 KHz, nivel de cuantificación: 16 bits. Dichos parámetros corresponden a 65536 (2 16) niveles de cuantificación de amplitud cuando se toman sus valores 44100 veces por segundo.

En la práctica, el proceso de digitalización (muestreo y cuantificación de la señal) permanece invisible para el usuario: todo el trabajo preliminar lo realizan varios programas que proporcionan comandos correspondientes controlador (rutina de control del sistema operativo) de la tarjeta de sonido. Cualquier programa (ya sea integrado en Windows Recorder o en un potente editor de audio) capaz de grabar una señal analógica en una computadora, de una forma u otra digitaliza la señal con ciertos parámetros que pueden ser importantes en el trabajo posterior con el sonido grabado, y es por ello es importante comprender cómo se produce el proceso de digitalización y qué factores influyen en sus resultados.

2. Conversión de sonido de digital a analógico

¿Cómo escuchar sonido después de la digitalización? Es decir, ¿cómo convertirlo de digital a analógico?

Para convertir una señal muestreada en una forma analógica adecuada para su procesamiento. dispositivos analógicos(amplificadores y filtros) y posterior reproducción a través sistemas de altavoces, sirve como convertidor de digital a analógico (DAC). El proceso de conversión es un proceso de muestreo inverso: teniendo información sobre el tamaño de las muestras (amplitud de la señal) y tomando un cierto número de muestras por unidad de tiempo, la señal original se restablece mediante interpolación (Fig. 4).

Hasta hace poco, la reproducción de sonido en los ordenadores domésticos era un problema, ya que los ordenadores no estaban equipados con DAC especiales. Al principio, el altavoz incorporado (altavoz de PC) se utilizaba como el dispositivo de sonido más simple en una computadora. En general, este altavoz todavía está disponible en casi todas las PC, pero nadie recuerda cómo “potenciarlo” para que empiece a reproducirse. En resumen, este altavoz está conectado a un puerto de la placa base que tiene dos posiciones: 1 y 0. Entonces, si este puerto se enciende y apaga rápidamente, se pueden extraer sonidos más o menos creíbles del altavoz. La reproducción de varias frecuencias se logra debido al hecho de que el cono del altavoz tiene una respuesta finita y no puede saltar instantáneamente de un lugar a otro, por lo que "se balancea suavemente" debido a cambios repentinos de voltaje a través de él. Y si lo vibras a diferentes velocidades, puedes obtener vibraciones en el aire de diferentes frecuencias. Una alternativa natural al altavoz fue el llamado Covox: este es el DAC más simple, fabricado con varias resistencias seleccionadas (o chip terminado), que garantizan la conversión de la representación digital de la señal en analógica, es decir, en valores de amplitud reales. Covox es fácil de fabricar y por eso fue un éxito entre los aficionados hasta el momento en que la tarjeta de sonido estuvo disponible para todos.

EN computadora moderna El sonido se reproduce y graba utilizando una tarjeta de sonido conectada o integrada en la placa base de la computadora. El trabajo de una tarjeta de sonido en una computadora es ingresar y emitir audio. En la práctica, esto significa que la tarjeta de sonido es el conversor que convierte el sonido analógico en digital y viceversa. Para describirlo de forma simplificada, el funcionamiento de una tarjeta de sonido se puede explicar de la siguiente manera. Supongamos que se suministra una señal analógica a la entrada de la tarjeta de sonido y la tarjeta se enciende (mediante software) en la Fig. Primero, la señal analógica de entrada ingresa mezclador analógico, que se ocupa de mezclar señales y ajustar el volumen y el equilibrio. El mezclador es necesario, en particular, para permitir al usuario controlar los niveles Fig. Luego, la señal ajustada y balanceada ingresa a un convertidor analógico a digital, donde la señal se muestrea y se cuantifica, lo que da como resultado un flujo de bits que se envía a la computadora a través del bus de datos, que representa la señal de audio digitalizada. La salida de información de audio es casi la misma que la entrada, solo que ocurre en la dirección opuesta. Flujo de datos dirigido a tarjeta de sonido, supera convertidor digital a analógico, que forma una señal eléctrica a partir de números que describen la amplitud de la señal; la señal analógica resultante se puede pasar a través de cualquier ruta analógica para realizar más transformaciones, incluida la reproducción. Cabe señalar que si la tarjeta de sonido está equipada con una interfaz para intercambiar datos digitales, cuando se trabaja con audio digital, no se utilizan bloques analógicos de la tarjeta. .

3. Métodos para almacenar audio digital.

Hay muchas formas de almacenar audio digital. de varias maneras. Como decíamos, el sonido digitalizado es un conjunto de valores de amplitud de señal tomados en determinados intervalos. Así, en primer lugar, un bloque de información de audio digitalizado se puede escribir en un archivo "tal cual", es decir, como una secuencia de números (valores de amplitud). En este caso, existen dos formas de almacenar información.

El primero (Fig. 5) es PCM (modulación de código de pulso), un método de codificación de señales digitales mediante grabación. valores absolutos amplitudes (hay representaciones con o sin signo). Esta es la forma en que se graban los datos en todos los CD de audio. El segundo método (Fig.6) es ADPCM (Adaptive Delta PCM - modulación de código de pulso relativa adaptativa): registra los valores de la señal no en absoluto, sino en cambios relativos amplitudes (incremento).

En segundo lugar, es posible comprimir o simplificar los datos para que ocupen menos memoria que si estuvieran escritos "tal cual". Aquí también hay dos caminos.

La codificación sin pérdidas es un método de codificación de audio que permite la recuperación del 100% de los datos de una transmisión comprimida. Este método de compresión de datos se utiliza en los casos en los que mantener la calidad de los datos originales es fundamental. Por ejemplo, después de mezclar sonido en un estudio de grabación, los datos deben almacenarse en un archivo en su calidad original para un posible uso posterior. Los algoritmos de codificación sin pérdidas existentes en la actualidad (por ejemplo, Monkeys Audio) pueden reducir el volumen ocupado por los datos entre un 20 y un 50%, pero al mismo tiempo garantizan la restauración del 100% de los datos originales a partir de los datos obtenidos después de la compresión. Estos codificadores son una especie de archivadores de datos (como ZIP, RAR y otros), diseñados únicamente para la compresión de audio.

Hay una segunda ruta de codificación, que analizaremos con un poco más de detalle: la codificación con pérdida. El objetivo de dicha codificación es utilizar cualquier medio para garantizar que el sonido de la señal restaurada sea similar al original con la menor cantidad de datos empaquetados. posible. Esto se logra utilizando varios algoritmos"simplificar" la señal original (eliminar de ella detalles "innecesarios" difíciles de audible), lo que lleva al hecho de que la señal decodificada en realidad deja de ser idéntica a la original, pero solo suena similar. Existen muchos métodos de compresión, así como programas que implementan estos métodos. Los más famosos son MPEG-1 Layer I,II,III (el último es el conocido MP3), MPEG-2 AAC ( audio avanzado codificación), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC y otros. En promedio, la relación de compresión proporcionada por dichos codificadores está en el rango de 10 a 14 (veces). Cabe destacar especialmente que todos los codificadores con pérdida se basan en el uso del llamado modelo psicoacústico, que es precisamente el que implica “simplificar” la señal original. Más precisamente, el mecanismo de tales codificadores realiza un análisis de la señal codificada, durante el cual se determinan partes de la señal, en ciertas regiones de frecuencia de las cuales hay matices inaudibles para el oído humano (frecuencias enmascaradas o inaudibles), después de lo cual se eliminado de la señal original. Así, el grado de compresión de la señal original depende del grado de su “simplificación”; fuerte compresión Lograda mediante una “simplificación agresiva” (cuando el codificador “considera” múltiples matices innecesarios), dicha compresión naturalmente conduce a una severa degradación de la calidad, ya que no solo se pueden eliminar detalles de sonido discretos, sino también significativos.

Como dijimos, existen bastantes codificadores con pérdidas modernos. El formato más común es MPEG-1 Layer III (el conocido MP3). El formato ganó popularidad con razón: fue el primer códec generalizado de su tipo que alcanzó un nivel de compresión tan alto con excelente calidad sonido. Hoy en día existen muchas alternativas a este códec, la elección queda en manos del usuario. Desafortunadamente, el alcance del artículo no nos permite presentar aquí pruebas y comparaciones de códecs existentes; sin embargo, los autores del artículo se permitirán proporcionar información útil a la hora de elegir un códec. Por lo tanto, las ventajas del MP3 son su uso generalizado y una calidad de codificación bastante alta, que se mejora objetivamente gracias al desarrollo por parte de los entusiastas de varios codificadores de MP3 (por ejemplo, el codificador Lame). Potente alternativa al códec MP3 Windows Audio multimedia (archivos .WMA y .ASF). Según varias pruebas, este códec se muestra desde "similar a MP3" hasta "notablemente peor que MP3" a velocidades de bits medias y, más a menudo, "mejor que MP3" a velocidades de bits bajas. Ogg Vorbis (archivos .OGG) es un códec completamente libre de licencia creado por desarrolladores independientes. La mayoría de las veces se comporta mejor que el MP3, el único inconveniente es su baja prevalencia, lo que puede convertirse en un argumento crítico a la hora de elegir un códec para el almacenamiento de audio a largo plazo. Recordemos el todavía joven códec MP3 Pro, anunciado en julio de 2001 por Coding Technologies junto con Thomson Multimedia. El códec es una continuación, o más precisamente, un desarrollo del antiguo MP3: es compatible con MP3 hacia atrás (totalmente) y hacia adelante (parcialmente). Gracias al uso de la nueva tecnología SBR (Replicación de banda espectral), el códec se comporta notablemente mejor que otros formatos a velocidades de bits bajas, pero la calidad de codificación a velocidades de bits medias y altas suele ser inferior a la calidad de casi todos los códecs descritos. Por tanto, MP3 Pro es más adecuado para realizar transmisiones de audio en Internet, así como para crear vistas previas de canciones y música.

Hablando de formas de almacenar sonido en formato digital, no podemos evitar recordar los medios de almacenamiento de datos. El conocido CD de audio, que apareció a principios de los años 80, se generalizó precisamente en últimos años(lo que se asocia con una fuerte reducción en el costo de los medios y unidades). Y antes de eso, los soportes de datos digitales eran casetes de cinta magnética, pero no ordinarios, sino diseñados especialmente para las llamadas grabadoras de cinta DAT. Nada extraordinario: las grabadoras son como las grabadoras, pero el precio siempre ha sido alto y ese placer no fue para todos. Estas grabadoras se utilizaban principalmente en estudios de grabación. La ventaja de estas grabadoras era que, a pesar del uso de medios familiares, los datos que contenían se almacenaban en formato digital y prácticamente no había pérdidas al leerlas o escribirlas (lo cual es muy importante para el procesamiento en estudio y el almacenamiento de sonido). Hoy en día, además de los conocidos CD, han aparecido una gran cantidad de soportes de almacenamiento diferentes. Los medios se están mejorando y cada año son más asequibles y compactos. Esto abre grandes oportunidades en el campo de la creación de reproductores de audio móviles. Hoy ya está a la venta una gran cantidad. varios modelos reproductores digitales portátiles. Y podemos suponer que todavía estamos lejos del pico de desarrollo de este tipo de tecnología.

4. Ventajas y desventajas del audio digital

Desde el punto de vista usuario habitual Hay muchos beneficios: compacidad medios modernos Esta información le permite, por ejemplo, convertir todos los discos y discos de su colección en representación digital y guardarlos en durante muchos años en un pequeño disco duro de tres pulgadas o en una docena o dos de CD; puede utilizar un software especial y “limpiar” a fondo grabaciones antiguas de carretes y discos, eliminando ruidos y crujidos de su sonido; Además, no solo puede ajustar el sonido, sino también embellecerlo, agregar riqueza, volumen y restaurar frecuencias. Además de las manipulaciones enumeradas con el sonido en casa, Internet también ayuda a los entusiastas del audio. Por ejemplo, la red permite a las personas compartir música, escuchar cientos de miles de estaciones de radio por Internet diferentes y mostrar sus creaciones de audio al público, todo con sólo una computadora e Internet. Y, finalmente, recientemente ha aparecido una gran cantidad de diversos equipos de audio digitales portátiles, cuyas capacidades, incluso el representante más promedio, a menudo le permiten llevar fácilmente de viaje una colección de música de una duración equivalente a decenas de horas.

Desde el punto de vista de un profesional, el audio digital abre posibilidades realmente inmensas. Si antes los estudios de sonido y radio estaban ubicados en varias decenas de metros cuadrados, ahora pueden ser reemplazados por una buena computadora, que tiene capacidades superiores a diez estudios de este tipo combinados y cuesta muchas veces menos que uno. Esto elimina muchas barreras financieras y hace que la grabación de sonido sea más accesible tanto para los profesionales como para los aficionados comunes. Moderno software te permite hacer lo que quieras con el sonido. Más temprano varios efectos Los sonidos se lograban con la ayuda de ingeniosos dispositivos, que no siempre representaban el colmo del pensamiento técnico o eran simplemente dispositivos artesanales. Hoy en día, los efectos más complejos y antes inimaginables se consiguen pulsando un par de botones. Por supuesto, lo anterior es algo exagerado y una computadora no reemplaza a una persona: un ingeniero de sonido, director o editor, pero podemos decir con confianza que la compacidad, la movilidad, la potencia colosal y la calidad asegurada de la tecnología digital moderna diseñada para el procesamiento de sonido. Ya han sustituido casi por completo la antigua tecnología de los equipos analógicos.

Ciertamente, tecnología digital También tiene sus inconvenientes. Muchos (profesionales y aficionados) notan que el sonido analógico era más vivo. Y esto no es sólo un homenaje al pasado. Como decíamos anteriormente, el proceso de digitalización introduce un cierto error en el sonido, además, diversos equipos de amplificación digital introducen el llamado “ruido de transistor” y otras distorsiones específicas. El término "ruido de transistor" probablemente no exista. definición precisa, pero podemos decir que se trata de oscilaciones caóticas en la región de alta frecuencia. A pesar de que el sistema auditivo humano es capaz de percibir frecuencias de hasta 20 kHz, parece que el cerebro humano todavía detecta frecuencias más altas. Y es en un nivel subconsciente que una persona todavía siente el sonido analógico más limpio que el digital.

Sin embargo, la representación digital de datos tiene una ventaja innegable y muy importante: si se conservan los medios, los datos que contienen no se distorsionarán con el tiempo. Si la cinta magnética se desmagnetiza con el tiempo y se pierde la calidad de la grabación, si el disco se raya y se añaden clics y crujidos al sonido, entonces el CD/disco duro/ memoria electrónica legible (si se conserva) o no, y no hay efecto de envejecimiento. Es importante señalar que aquí no estamos hablando de CD de audio (CD-DA es un estándar que establece los parámetros y el formato para la grabación en CD de audio) ya que, a pesar de que se trata de un soporte de información digital, el efecto de envejecimiento aumentará. no escapar de ello. Esto se debe a las peculiaridades de almacenar y leer datos de audio de un CD de audio. La información de todos los tipos de CD se almacena cuadro por cuadro y cada cuadro tiene un título por el que se puede identificar. Sin embargo varios tipos Los CD tienen diferentes estructuras y utilizan diferentes métodos de marcado de cuadros. Dado que las unidades de CD-ROM de computadora están diseñadas para leer principalmente CD de datos (hay que decir que hay diferentes variedades estándar de CD de datos, cada uno de los cuales complementa el estándar principal CD-DA), a menudo no pueden "orientarse" correctamente al CD de audio, donde la forma en que se marcan los cuadros es diferente a la del CD de datos (en los CD de audio los cuadros no tienen un encabezado especial y para determinar el desplazamiento de cada cuadro, debe realizar un seguimiento de la información en el cuadro). Esto significa que si, al leer un CD de datos, la unidad se "orienta" fácilmente en el disco y nunca confunde fotogramas, al leer un CD de audio, la unidad no se puede orientar con claridad, lo que, por ejemplo, se raya. o aparece polvo, puede provocar una lectura del cuadro equivocado y, como resultado, un sonido de salto o crujido. El mismo problema (la incapacidad de la mayoría de las unidades para posicionarse correctamente en el CD-DA) provoca otro efecto desagradable: copiar información de un CD de audio causa problemas incluso cuando se trabaja con discos completamente intactos debido al hecho de que la "orientación correcta en el disco" ”depende completamente de la unidad de lectura y no se puede controlar claramente mediante programación.

La amplia distribución y el mayor desarrollo de los codificadores de audio con pérdida ya mencionados (MP3, AAC y otros) han abierto las más amplias posibilidades para la distribución y el almacenamiento de audio. Canales modernos Desde hace mucho tiempo, las comunicaciones pueden transferir grandes cantidades de datos en un tiempo relativamente corto, pero la transferencia de datos más lenta sigue siendo entre el usuario final y el proveedor de servicios de comunicación. Las líneas telefónicas a través de las cuales la mayoría de los usuarios se conectan a Internet no permiten una transferencia rápida de datos. No hace falta decir que tales volúmenes de datos como los que ocupan información de audio y vídeo sin comprimir tardarán mucho tiempo en transmitirse a través de canales de comunicación convencionales. Sin embargo, la aparición de codificadores con pérdidas, que proporcionan una compresión de diez a quince veces mayor, ha convertido la transmisión y el intercambio de datos de audio en la actividad diaria de todo usuario de Internet y ha eliminado todas las barreras creadas por canales de comunicación débiles. A este respecto hay que decir que las comunicaciones móviles digitales, que hoy en día se desarrollan a pasos agigantados, deben mucho a la codificación con pérdidas. El hecho es que los protocolos de transmisión de audio a través de canales. comunicaciones móviles trabajan aproximadamente con los mismos principios que los conocidos codificadores de música. Por lo tanto, los nuevos avances en el campo de la codificación de audio conducen invariablemente a una reducción del coste de la transmisión de datos en sistemas móviles, de lo que sólo se beneficia el usuario final: la comunicación se abarata, aparecen nuevas oportunidades, se alarga la duración de la batería de los dispositivos móviles, etc. En menor medida, la codificación con pérdida ayuda a ahorrar dinero en la compra de discos con sus canciones favoritas; hoy solo necesita ir a Internet y allí podrá encontrar casi cualquier canción que le interese. Por supuesto, esta situación ha sido durante mucho tiempo una monstruosidad para las compañías discográficas: justo delante de sus narices, en lugar de comprar CD, la gente intercambia canciones directamente a través de Internet, lo que convierte lo que antes era una bonanza en un negocio de bajos beneficios, pero esto Es una cuestión de ética y finanzas. Una cosa se puede decir con certeza: no se puede hacer nada ante esta situación y el auge del intercambio de música a través de Internet, generado precisamente por la aparición de los codificadores con pérdidas, ya no se puede detener. Y esto sólo beneficia al usuario medio.

5. Sobre la cuestión del procesamiento del sonido

El procesamiento del sonido debe entenderse como diversas transformaciones de la información del sonido para cambiar algunas características del sonido. El procesamiento de sonido incluye métodos para crear diversos efectos de sonido, filtrado, así como métodos para limpiar el sonido de ruidos no deseados, cambiar el timbre, etc. Toda esta enorme variedad de transformaciones se reduce en última instancia a los siguientes tipos básicos:

1. Transformaciones de amplitud . Se realizan sobre la amplitud de la señal y provocan su amplificación/debilitamiento o su cambio según alguna ley en determinadas partes de la señal.

2. Conversiones de frecuencia . Se realizan sobre los componentes de frecuencia del sonido: la señal se presenta como un espectro de frecuencia en ciertos intervalos de tiempo, los componentes de frecuencia necesarios se procesan, por ejemplo, mediante filtrado, y la señal se invierte del espectro a una onda.

3. Transformaciones de fase . Cambiar la fase de la señal de una forma u otra; por ejemplo, tales transformaciones de una señal estéreo le permiten realizar el efecto de rotación o "tridimensionalidad" del sonido.

4. Transformaciones temporales . Implementado superponiendo, estirando/comprimiendo señales; le permiten crear, por ejemplo, efectos de eco o coro, así como influir en las características espaciales del sonido.

Una discusión sobre cada uno de estos tipos de transformaciones puede convertirse en todo un trabajo científico. Vale la pena dar algunos ejemplos prácticos del uso de este tipo de transformaciones al crear efectos de sonido reales:

Eco (eco) Implementado mediante transformaciones de tiempo. De hecho, para obtener un eco, es necesario superponer una copia del mismo con retardo de tiempo a la señal de entrada original. Para que el oído humano perciba la segunda copia de la señal como una repetición y no como un eco de la señal principal, el tiempo de retardo debe establecerse en aproximadamente 50 ms. Puede superponer no solo una copia, sino varias, a la señal principal, lo que le permitirá obtener el efecto de repetición múltiple del sonido (eco polifónico) en la salida. Para que el eco parezca desvanecerse, es necesario superponer a la señal original no solo copias retrasadas de la señal, sino también copias silenciadas en amplitud.
Reverberación (repetición, reflexión). El efecto es dar al sonido el volumen característico de una gran sala, donde cada sonido genera un eco correspondiente que se desvanece lentamente. En la práctica, con la ayuda de la reverberación se puede “revivir”, por ejemplo, una banda sonora realizada en una habitación tranquila. La reverberación se diferencia del efecto de eco en que una señal de salida retardada se superpone a la señal de entrada, en lugar de una copia retardada de la señal de entrada. En otras palabras, un bloque de reverberación es simplemente un bucle donde la salida del bloque se conecta a su entrada, de modo que la señal ya procesada se retroalimenta a la entrada en cada ciclo, mezclándose con la señal original.
Coro (coro). Como resultado de su aplicación, el sonido de la señal se convierte en el sonido de un coro o en el sonido simultáneo de varios instrumentos. El esquema para obtener tal efecto es similar al esquema para crear un efecto de eco, con la única diferencia de que las copias retardadas de la señal de entrada se someten a una modulación de frecuencia débil (en promedio de 0,1 a 5 Hz) antes de mezclarse con el señal de entrada. Aumentar el número de voces en un coro se logra agregando copias de la señal con diferentes tiempos de retardo.

Por supuesto, como en todos los demás ámbitos, el procesamiento de señales también presenta problemas que constituyen una especie de obstáculo. Por ejemplo, al descomponer señales en un espectro de frecuencias, existe un principio de incertidumbre que no se puede superar. El principio establece que es imposible obtener una imagen espectral precisa de una señal en un momento específico en el tiempo: o para obtener una imagen espectral más precisa, necesitamos analizar una sección de tiempo más grande de la señal o, si somos más Interesados en el momento en que ocurrió tal o cual cambio en el espectro, debemos sacrificar la precisión del espectro mismo. En otras palabras, es imposible obtener el espectro exacto de una señal en un punto: el espectro exacto para una sección grande de la señal, o un espectro muy aproximado, pero para una sección corta.

Los mecanismos para el procesamiento de señales existen tanto en versión de software como de hardware (los llamados procesadores de efectos). Por ejemplo, los vocoders y procesadores de guitarra, chorus y reverbs existen como hardware y también como software.

Procesamiento práctico Las señales se pueden dividir en dos tipos: procesamiento sobre la marcha y posprocesamiento. El procesamiento sobre la marcha implica una conversión de señal instantánea (es decir, con la capacidad de emitir la señal procesada casi simultáneamente con su entrada). Un ejemplo sencillo son los “aparatos” de guitarra o la reverberación durante una actuación en directo en el escenario. Dicho procesamiento ocurre instantáneamente, es decir, un intérprete canta frente a un micrófono, y el procesador de efectos transforma su voz y el oyente escucha la versión ya procesada de la voz. El posprocesamiento es el procesamiento de una señal ya grabada. La velocidad de dicho procesamiento puede ser mucho menor que la velocidad de reproducción. Dicho procesamiento persigue los mismos objetivos, es decir, darle al sonido un cierto carácter, o cambiar características, pero se utiliza en la etapa de masterización o preparación del sonido para la replicación, cuando no se requieren prisas, pero lo más importante es la Calidad y elaboración escrupulosa de todos los matices del sonido. Hay muchas operaciones de sonido diferentes que, debido al rendimiento insuficiente de los procesadores actuales, no se pueden implementar sobre la marcha, por lo que dichas transformaciones se llevan a cabo solo en modo posterior.

El procesamiento de señales es un procedimiento complejo y, lo más importante, que requiere muchos recursos. Hace relativamente poco tiempo que comenzó a implementarse en dispositivos digitales; anteriormente, varios efectos de sonido y otros se lograban procesando el sonido en dispositivos analógicos. En los equipos analógicos, el sonido en forma de vibraciones eléctricas pasa por varios caminos (bloques de elementos eléctricos), logrando así un cambio en la fase, espectro y amplitud de la señal. Sin embargo, este método de procesamiento tiene muchas desventajas. En primer lugar, la calidad del procesamiento se ve afectada, porque cada elemento analógico tiene su propio error y varias docenas de elementos pueden afectar de forma crítica la precisión y la calidad del resultado deseado. Y en segundo lugar, y esto es quizás lo más importante, casi todos efecto separado Esto se logra mediante el uso de un dispositivo separado, cuando cada uno de estos dispositivos puede ser muy costoso. La posibilidad de utilizar dispositivos digitales ha ventajas innegables. La calidad del procesamiento de la señal en ellos depende mucho menos de la calidad del equipo; lo principal es digitalizar el sonido de manera eficiente y poder reproducirlo de manera eficiente, y luego la calidad del procesamiento recae únicamente en el mecanismo del software. Además, diversas manipulaciones con el sonido no requieren un cambio constante de equipo. Y, lo más importante, dado que el procesamiento se lleva a cabo mediante programación, se le abren posibilidades simplemente increíbles, que están limitadas únicamente por el poder de las computadoras (y aumenta cada día) y la imaginación humana. Sin embargo, (al menos hoy) aquí también surgen problemas. Por ejemplo, a menudo, incluso para realizar un procesamiento simple de una señal, es necesario descomponerla en un espectro de frecuencias. En este caso, el procesamiento de señales sobre la marcha puede resultar difícil precisamente debido a la etapa de descomposición que requiere muchos recursos. Por lo tanto, las transformaciones que requieren descomposición espectral a menudo se realizan en modo pos.

6. Equipo

Una parte importante de la conversación sobre sonido está relacionada con los equipos. hay muchos varios dispositivos para procesamiento y entrada/salida de sonido. En cuanto a una computadora personal normal, vale la pena detenerse en las tarjetas de sonido con más detalle. Las tarjetas de sonido se suelen dividir en sonido, música y sonido-musical. Por diseño, todas las tarjetas de sonido se pueden dividir en dos grupos: principal (instalada en la placa base de la computadora y que proporciona entrada y salida de datos de audio) e hija (tienen una diferencia de diseño fundamental con respecto a las placas principales: la mayoría de las veces están conectadas a un conector especial ubicado en la placa principal). Las placas secundarias se utilizan con mayor frecuencia para proporcionar o ampliar las capacidades de un sintetizador MIDI.

Las tarjetas de audio, música y sonido se fabrican en forma de dispositivos insertados en la ranura de la placa base (o ya integrados inicialmente). Visualmente, suelen tener dos entradas analógicas: línea y micrófono, y varias salidas analógicas: salidas de línea y salida de auriculares. Recientemente, las tarjetas también han comenzado a estar equipadas con una entrada y salida digital, que proporciona transmisión de audio entre dispositivos digitales. Las entradas y salidas analógicas suelen tener conectores similares a los de los auriculares (1/8”). En general, la tarjeta de sonido tiene un poco más de entradas que dos: CD analógico, MIDI y otras entradas. Ellos, a diferencia de las entradas de micrófono y línea, no están ubicados en el panel posterior de la tarjeta de sonido, sino en la propia placa; Puede haber otras entradas, por ejemplo, para conectar un módem de voz. Las entradas y salidas digitales suelen tener la forma de una interfaz S/PDIF (Digital Signal Interface) con el conector correspondiente (S/PDIF - abreviatura de Sony/Panasonic Digital Interface - Sony/Panasonic Digital Interface). S/PDIF es una versión “consumidora” del estándar profesional más complejo AES/EBU (Audio Engineering Society/European Broadcast Union). La señal S/PDIF se utiliza para la transmisión digital (codificación) de datos estéreo de 16 bits a cualquier frecuencia de muestreo. Además de lo anterior, las placas de audio y música tienen una interfaz MIDI con conectores para conectar dispositivos MIDI y joysticks, así como para conectar una tarjeta de música secundaria (aunque últimamente la posibilidad de conectar esta última se ha vuelto rara). Algunos modelos de tarjetas de sonido están equipados con panel frontal, instalado en la parte frontal de la unidad del sistema informático, en el que se ubican los conectores conectados a varias entradas y salidas de la tarjeta de sonido.

Definamos varios bloques principales que componen los tableros de sonido y música.

1. Unidad de procesamiento de señales digitales (códec). En este bloque se realizan conversiones de analógico a digital y de digital a analógico (ADC y DAC). Este bloque determina características de la tarjeta como la frecuencia máxima de muestreo al grabar y reproducir una señal, el nivel máximo de cuantificación y cantidad máxima canales procesados (mono o estéreo). En gran medida, las características de ruido dependen de la calidad y complejidad de los componentes de este bloque.

2. Bloque sintetizador. Presente en tarjetas musicales. Realizado sobre la base de síntesis FM o WT, o ambas a la vez. Puede funcionar bajo el control de su propio procesador o bajo el control de un controlador especial.

3. Bloque de interfaz. Proporciona transferencia de datos a través de varias interfaces(por ejemplo, S/PDIF). Una tarjeta de sonido pura suele carecer de este bloque.

4. Unidad de mezcla. En las tarjetas de sonido, la unidad de mezcla proporciona ajuste:

niveles de señal de entradas de línea;
niveles de entrada MIDI y entrada de audio digital;
nivel de señal general;
panorámica;
timbre

Consideremos los parámetros más importantes que caracterizan a los tableros de sonido y música. Las características más importantes son: la frecuencia de muestreo máxima en modo de grabación y modo de reproducción, el nivel de cuantificación máximo o profundidad de bits (nivel de cuantificación máximo) en modo de grabación y reproducción. Además, dado que las placas de audio y música también cuentan con sintetizador, sus características también incluyen los parámetros del sintetizador instalado. Naturalmente, cuanto mayor sea el nivel de cuantificación que la tarjeta sea capaz de codificar señales, mayor será la calidad de la señal. Todo modelos modernos Las tarjetas de sonido son capaces de codificar una señal a un nivel de 16 bits. Una de las características importantes es la capacidad de reproducir y grabar simultáneamente transmisiones de audio. La capacidad de una tarjeta para reproducir y grabar simultáneamente se denomina full duplex. Hay otra característica que a menudo juega un papel decisivo a la hora de comprar una tarjeta de sonido: la relación señal/ruido (S/N). Este indicador afecta la pureza de la grabación y reproducción de la señal. La relación señal-ruido es la relación entre la potencia de la señal y la potencia del ruido en la salida de un dispositivo; este indicador generalmente se mide en dB; Una relación de 80-85 dB puede considerarse buena; ideal – 95-100 dB. Sin embargo, hay que tener en cuenta que la calidad de reproducción y grabación está muy influenciada por las interferencias (interferencias) de otros componentes de la computadora (fuente de alimentación, etc.). Como resultado, la relación señal-ruido puede empeorar. En la práctica, existen muchos métodos para combatir esto. Algunas personas sugieren conectar la computadora a tierra. Otros, para proteger la tarjeta de sonido de interferencias lo más posible, la "sacan" fuera de la carcasa de la computadora. Sin embargo, es muy difícil protegerse completamente de las interferencias, ya que incluso los elementos del propio mapa crean interferencias entre sí. También están tratando de combatir esto y para ello protegen todos los elementos del tablero. Pero no importa cuánto esfuerzo se ponga para resolver este problema, es imposible eliminar por completo la influencia de la interferencia externa.

Otra característica igualmente importante es el coeficiente distorsión no lineal o Distorsión Armónica Total, THD. Este indicador también afecta críticamente la pureza del sonido. El coeficiente de distorsión no lineal se mide como porcentaje: 1% - sonido "sucio"; 0,1% - sonido normal; 0,01% - sonido puro de alta fidelidad; 0,002 % - Hi-Fi: sonido de clase alta. La distorsión no lineal es el resultado de la inexactitud al restaurar la señal de digital a analógica. Simplificado, el proceso de medición de este coeficiente se realiza de la siguiente manera. Se suministra una señal sinusoidal pura a la entrada de la tarjeta de sonido. En la salida del dispositivo, se toma una señal cuyo espectro es la suma de señales sinusoidales (la suma de la sinusoide original y sus armónicos). Luego, utilizando una fórmula especial, se calcula la relación cuantitativa de la señal original y sus armónicos obtenidos en la salida del dispositivo. Esta relación cuantitativa es la distorsión armónica total (THD).

¿Qué es un sintetizador MIDI? El término “sintetizador” suele utilizarse para referirse a un instrumento musical electrónico en el que se crea y procesa el sonido, cambiando su color y características. Naturalmente, el nombre de este dispositivo proviene de su objetivo principal: la síntesis de sonido. Sólo existen dos métodos principales de síntesis de sonido: FM (Modulación de frecuencia - modulación de frecuencia) y WT (tabla de ondas). Como no podemos discutirlos en detalle aquí, solo describiremos la idea básica de los métodos. La síntesis FM se basa en la idea de que incluso la oscilación más compleja es esencialmente la suma de las sinusoidales más simples. Así, es posible superponer señales de un número finito de generadores de ondas sinusoidales y, cambiando las frecuencias de las ondas sinusoidales, producir sonidos similares a los reales. La síntesis de ondas de mesa se basa en un principio diferente. La síntesis de sonido mediante este método se logra mediante la manipulación de sonidos pregrabados (digitalizados) de instrumentos musicales reales. Estos sonidos (llamados muestras) se almacenan en la memoria permanente del sintetizador.

Un sintetizador MIDI es un sintetizador que cumple con los requisitos del estándar del que hablaremos ahora. MIDI es una especificación generalmente aceptada relacionada con la organización de una interfaz digital para dispositivos musicales, incluido un estándar para hardware y software.

Esta especificación está destinada a la organización. red local instrumentos electrónicos (Fig. 7). Los dispositivos MIDI incluyen varios hardware e instrumentos musicales que cumplen con los requisitos MIDI. Así, un sintetizador MIDI es un instrumento musical, normalmente diseñado para la síntesis de sonido y música, y además cumple con la especificación MIDI. Echemos un vistazo rápido a por qué existe una clase separada de dispositivos llamada MIDI.

El hecho es que el procesamiento de sonido por software a menudo conlleva inconvenientes debido a diversas características técnicas de este proceso. Incluso si delega las operaciones de procesamiento de sonido a una tarjeta de sonido o a cualquier otro equipo, persisten muchos problemas diferentes. En primer lugar, a menudo es deseable utilizar la síntesis de hardware de los sonidos de instrumentos musicales (al menos porque una computadora es un instrumento demasiado general; a menudo solo se necesita un sintetizador de hardware de sonidos y música, nada más). En segundo lugar, el procesamiento de audio por software suele ir acompañado de retrasos en el tiempo, mientras que durante un concierto es necesario recibir instantáneamente la señal procesada. Por estas y otras razones, recurren al uso de equipos especiales para el procesamiento, en lugar de computadoras con programas especiales. Sin embargo, cuando se utilizan equipos, se necesita un estándar único que permita conectar y combinar dispositivos entre sí. Estos requisitos previos obligaron a varias empresas líderes en el campo de los equipos musicales a aprobar en 1982 el primer estándar MIDI, que posteriormente continuó y continúa desarrollándose hasta el día de hoy. ¿Qué es en última instancia una interfaz MIDI y los dispositivos incluidos en ella desde el punto de vista de una computadora personal?

El hardware está instalado en la tarjeta de sonido: un sintetizador de varios sonidos e instrumentos musicales, un microprocesador que monitorea y controla el funcionamiento de los dispositivos MIDI, así como varios conectores y cables estandarizados para conectar dispositivos adicionales.
El software es el protocolo MIDI, que es un conjunto de mensajes (comandos) que describen diversas funciones del sistema MIDI y con la ayuda del cual se lleva a cabo la comunicación (intercambio de información) entre dispositivos MIDI. Los mensajes pueden considerarse como un medio de control remoto.

El alcance de este artículo no nos permite profundizar en la descripción específica de MIDI, sin embargo, cabe señalar que con respecto a los sintetizadores de sonido, MIDI establece requisitos estrictos sobre sus capacidades, así como sobre los métodos de síntesis de sonido utilizados en ellos; en cuanto a los parámetros de control de la síntesis. Además, para que la música creada en un sintetizador se transfiera fácilmente y se reproduzca con éxito en otro, se han establecido varios estándares para la correspondencia de instrumentos (voces) y sus parámetros en varios sintetizadores: el estándar General MIDI (GM), General Synth (GS) y general extendido (XG). El estándar básico es GM, los otros dos son sus continuaciones y extensiones lógicas.

Como ejemplo práctico de un dispositivo MIDI, considere un teclado MIDI normal. En pocas palabras, un teclado MIDI es un teclado de piano abreviado en una carcasa con una interfaz MIDI que le permite conectarlo a otros dispositivos MIDI, por ejemplo, a un sintetizador MIDI instalado en una tarjeta de sonido de computadora. Usando un software especial (por ejemplo, un secuenciador MIDI), puede poner el sintetizador MIDI en modo de reproducción, por ejemplo, en un piano de cola, y presionando las teclas del teclado MIDI puede escuchar los sonidos del piano. Naturalmente, el asunto no se limita al piano: el estándar GM tiene 128 instrumentos melódicos y 46 instrumentos de percusión. Además, utilizando un secuenciador MIDI, puede grabar notas tocadas en un teclado MIDI en una computadora para su posterior edición y arreglo, o simplemente para imprimir partituras simples.

Cabe señalar que, dado que los datos MIDI son un conjunto de comandos, la música escrita mediante MIDI también se escribe mediante comandos de sintetizador. En otras palabras, una partitura MIDI es una secuencia de comandos: qué nota tocar, qué instrumento usar, cuál es la duración y clave de su sonido, etc. Los conocidos archivos MIDI (.MID) no son más que un conjunto de dichos comandos. Naturalmente, dado que hay muchos fabricantes de sintetizadores MIDI, el mismo archivo puede sonar de manera diferente en diferentes sintetizadores (porque los instrumentos en sí no se almacenan en el archivo, sino solo instrucciones para el sintetizador sobre qué instrumentos tocar, mientras que cómo pueden tocar los diferentes sintetizadores). suena diferente).

Volvamos a la consideración de los tableros de audio y música. Como ya hemos aclarado qué es MIDI, no podemos ignorar las características del sintetizador hardware incorporado en la tarjeta de sonido. Un sintetizador moderno se basa con mayor frecuencia en la llamada "tabla de ondas": WaveTable (en resumen, el principio de funcionamiento de dicho sintetizador es que el sonido que contiene se sintetiza a partir de un conjunto de sonidos grabados, superponiéndolos dinámicamente y cambiándolos parámetros de sonido), anteriormente el tipo principal de síntesis era FM (modulación de frecuencia: síntesis de sonido generando oscilaciones sinusoidales simples y mezclándolas). Las principales características de un sintetizador WT son: la cantidad de instrumentos en ROM y su volumen, la presencia de RAM y su volumen máximo, la cantidad de posibles efectos de procesamiento de señal, así como la posibilidad de procesamiento de efectos canal por canal ( por supuesto, si hay un procesador de efectos), la cantidad de generadores que determinan la cantidad máxima de voces en modo polifónico (multivoz) y, quizás lo más importante, el estándar según el cual se fabrica el sintetizador (GM, GS o XG). Por cierto, la capacidad de memoria de un sintetizador no siempre es un valor fijo. El hecho es que recientemente los sintetizadores ya no tienen su propia ROM, sino que usan la RAM principal de la computadora: en este caso, todos los sonidos utilizados por el sintetizador se almacenan en un archivo en el disco y, si es necesario, se leen en la RAM.

7.software

El tema del software es muy amplio, por lo que aquí solo discutiremos brevemente los principales representantes de los programas de procesamiento de audio.

La clase de programas más importante es editores de audio digitales. Las principales capacidades de dichos programas son, como mínimo, la capacidad de grabar (digitalizar) audio y guardarlo en el disco. Los representantes desarrollados de este tipo de programas permiten mucho más: grabación, mezcla de audio multicanal en varias pistas virtuales, procesamiento con efectos especiales (tanto integrados como conectados externamente, más sobre esto más adelante), eliminación de ruido, han desarrollado navegación y herramientas. en forma de espectroscopio y otros dispositivos virtuales, control/controlabilidad dispositivos externos, convertir audio de un formato a otro, generar señales, grabar en CD y mucho más. Algunos de estos programas son: Cool Edit Pro (Syntrillium), Sound Forge (Sonic Foundry), Nuendo (Steinberg), Samplitude Producer (Magix), Wavelab (Steinberg).

Las características principales del editor Cool Edit Pro 2.0 (consulte la captura de pantalla 1: un ejemplo de la ventana de trabajo del programa en modo multipista): edición y mezcla de audio en 128 pistas, 45 efectos DSP integrados, incluidas herramientas para masterización y análisis. y restauración de audio, procesamiento de 32 bits, soporte para audio con parámetros de 24 bits / 192 KHz, potentes herramientas para trabajar con bucles (loops), soporte para DirectX, así como control SMPTE/MTC, soporte para trabajar con video y MIDI y más.

Captura de pantalla 1

Las características principales del editor Sound Forge 6.0a (consulte la captura de pantalla 2, un ejemplo de la ventana de trabajo del programa): potentes capacidades de edición no destructivas, procesamiento de tareas en segundo plano multitarea, soporte para archivos con parámetros de hasta 32 bits / 192 KHz, administrador de ajustes preestablecidos, soporte para archivos de más de 4 GB, trabajo con video, un gran conjunto de efectos de procesamiento, recuperación de congelaciones, vista previa de efectos aplicados, analizador espectral, etc.

Captura de pantalla 2

No menos importante en un sentido funcional es un grupo de programas: secuenciadores(programas para escribir música). La mayoría de las veces, estos programas utilizan un sintetizador MIDI (hardware externo o integrado en casi cualquier tarjeta de sonido, o software organizado mediante software especial). Dichos programas proporcionan al usuario una notación musical familiar (como el programa Finale de CODA) o una forma más común de editar audio en una computadora, el llamado piano-roll (esta es una representación más comprensible de la música para personas que no están familiarizadas con con partituras de esta manera en la representación hay un eje vertical con la imagen de teclas de piano, y el tiempo se traza horizontalmente, así, al colocar trazos de diferentes longitudes en la intersección, se logra el sonido de una determinada nota con; una duración determinada). También existen programas que te permiten ver y editar audio en ambas vistas. Además de la edición de audio, los secuenciadores avanzados pueden duplicar en gran medida las capacidades de los editores de audio digital: grabar en CD, combinar pistas MIDI con señales digitales y realizar masterización. Representantes destacados de esta clase de programas: Cubase (Steinberg), Logic Audio (Emagic), Cakewalk (Twelve Tone Systems) y el ya mencionado Finale.

Las características principales del editor Cubase 5.1 (consulte la captura de pantalla 3, un ejemplo de la ventana de trabajo del programa en el modo de visualización de pistas MIDI): editar música en tiempo real usando representación gráfica información, alta resolución del editor (15360 pulsos por trimestre), número prácticamente ilimitado de pistas, 72 canales de audio, soporte VST32, 4 ecualizadores por canal y otros efectos canal por canal, herramientas de procesamiento integradas que utilizan modelado analógico ( instrumentos virtuales, procesadores de efectos, herramientas de mezcla y grabación) y muchas otras funciones.

Captura de pantalla 3

Las características principales del editor Logic Audio 5 (consulte la captura de pantalla 4, un ejemplo de la ventana de trabajo del programa): trabajar con audio con una precisión de 32 bits, alta resolución temporal de eventos, mezclador de audio y MIDI autoadaptativo, interfaz de usuario optimizada, sincronización con video, número prácticamente ilimitado de pistas MIDI, procesamiento de audio en tiempo real, sincronización completa con MTC, MMC, SMPTE, módulos de procesamiento integrados e instrumentos automáticos, soporte para una gran cantidad de equipos de hardware, así como muchos otras características.

Captura de pantalla 4

En el conjunto de programas de un usuario involucrado en el procesamiento de audio, hay muchas herramientas diferentes, este ha sido el caso antes y así será en el futuro: no existen cosechadoras universales para trabajar con sonido. Sin embargo, a pesar de toda la variedad de software, los programas suelen utilizar mecanismos similares para procesar el sonido (por ejemplo, procesadores de efectos y otros). En algún momento del desarrollo del software de audio, los fabricantes se dieron cuenta de que era más conveniente permitir la conexión de instrumentos externos en sus programas que crear nuevos instrumentos cada vez para cada programa individual. Muchos programas que pertenecen a uno u otro grupo de software le permiten conectar los llamados "complementos", complementos externos que amplían las capacidades de procesamiento de audio. Esto fue posible gracias a la aparición de varios estándares para la interfaz entre el programa y el módulo enchufable. Hoy en día existen dos estándares de interfaz principales: DX y VST. La existencia de estándares le permite conectar el mismo complemento a completamente diferentes programas, sin preocuparse por la aparición de conflictos y problemas. Hablando de los complementos en sí, debo decir que se trata simplemente de una gran familia de programas. Normalmente, un complemento es un mecanismo que implementa un efecto específico, como una reverberación o un filtro de paso bajo. Entre los complementos interesantes, puedes recordar, por ejemplo, iZotope Vinyl, que te permite darle un efecto al sonido. disco de vinilo(ver Captura de pantalla 5: un ejemplo de la ventana de trabajo del complemento en el entorno Cool Edit Pro), Antares AutoTune le permite ajustar el sonido de las voces en modo semiautomático y Orange Vocoder es un vocoder maravilloso (un mecanismo para crear sonido varios instrumentos similitud con el sonido de una voz humana).

Captura de pantalla 5

El procesamiento de sonido y la escritura musical no es sólo un proceso creativo. A veces es necesario un análisis escrupuloso de los datos, así como una búsqueda de defectos en su sonido. Además, el material de audio con el que uno tiene que trabajar no siempre tiene la calidad deseada. En este sentido, no podemos evitar recordar una serie de programas analizadores de audio diseñados específicamente para realizar análisis de medición de datos de audio. Estos programas ayudan a presentar datos de audio de forma más cómoda que los editores convencionales, así como a estudiarlos cuidadosamente utilizando diversas herramientas, como analizadores FFT (constructores de características dinámicas y estáticas de amplitud-frecuencia), constructores de sonogramas y otros. Uno de los programas de este tipo más famosos y desarrollados es el programa SpectraLAB (Sound Technology Inc.), un poco más simples pero más potentes son Analyzer2000 y Spectrogram.

El programa SpectraLAB es el producto más potente de su tipo que existe en la actualidad (consulte la captura de pantalla 6: un ejemplo de la ventana de trabajo del programa, en la pantalla: una imagen espectral en tres vistas y una imagen de fase). Capacidades del programa: 3 modos de funcionamiento (modo post, modo en tiempo real, modo de grabación), las herramientas principales son un osciloscopio, un espectrómetro (bidimensional, tridimensional y también un generador de sonogramas) y un medidor de fase, la capacidad comparar las características amplitud-frecuencia de varias señales, amplias capacidades de escalado, instrumentos de medición: distorsión no lineal, relación señal-ruido, distorsión y otros.

Captura de pantalla 6

Especializado restauradores de audio También juegan un papel importante en el procesamiento del sonido. Dichos programas le permiten restaurar la calidad de sonido perdida del material de audio, eliminar clics no deseados, ruidos, crujidos, interferencias específicas de grabaciones de casetes de audio y realizar otros ajustes de audio. Programas similares: Dart, Clean (de Steinberg Inc.), Audio Cleaning Lab. (de Magix Ent.), Corrector de ondas.

Las características principales del restaurador Clean 3.0 (consulte la captura de pantalla 8 – ventana de trabajo programas): eliminación de todo tipo de crepitaciones y ruidos, modo de autocorrección, un conjunto de efectos para procesar el sonido corregido, incluida la función "sonido envolvente" con modelado acústico visual del efecto, grabación de CD con datos preparados, "inteligente" sistema de sugerencias, soporte para complementos VST externos y otras posibilidades.

Captura de pantalla 8

Rastreadores- esta es una categoría separada programas de sonido, diseñado específicamente para crear música. Anteriormente, analizamos dos formas fundamentalmente diferentes de almacenar datos de audio (música): la primera es almacenar audio en forma de flujo de audio comprimido o sin comprimir, la segunda es almacenar música en forma de archivos MIDI (como un conjunto de comandos). a un sintetizador MIDI). La estructura y el concepto de construcción de archivos de seguimiento es muy similar al principio de almacenamiento de información MIDI. Los módulos de seguimiento (los archivos creados en los rastreadores suelen denominarse módulos), al igual que los archivos MIDI, contienen una partitura según los instrumentos que se deben tocar. Además, contienen información sobre qué efectos y en qué momento se deben aplicar al tocar un instrumento en particular. Sin embargo, la diferencia fundamental entre los módulos de seguimiento y los archivos MIDI es que los instrumentos que se tocan en estos módulos (o, más precisamente, las muestras) se almacenan en los propios módulos (es decir, dentro de los archivos) y no en el sintetizador (como es el caso del sintetizador). caso con MIDI). Este método de almacenamiento de música tiene muchas ventajas: el tamaño del archivo es pequeño en comparación con la música digitalizada continua (ya que solo los instrumentos usados y la partitura se graban en forma de comandos), el sonido no depende de la computadora en la que se reproduce (en MIDI, como dijimos, existe una dependencia del sonido del sintetizador utilizado), hay mayor libertad de creatividad, ya que el autor de la música no se limita a conjuntos de instrumentos (como en MIDI), sino que puede utilizar cualquier digitalizado. El sonido como instrumento. Básico programas -rastreadores Scream Tracker, Fast Tracker, Impulse Tracker, OctaMED SoundStudio, MAD Tracker, ModPlug Tracker.

El programa ModPlug Tracker es hoy uno de esos rastreadores que han logrado volverse universales. ambiente de trabajo para muchos tipos de módulos de seguimiento (consulte la captura de pantalla 7: un ejemplo de la ventana de trabajo del programa, en la pantalla: el contenido de las pistas de un módulo cargado y la ventana de trabajo de muestras de otro módulo). Características clave: Admite hasta 64 canales de audio físicos, admite casi todos formatos existentes módulos de seguimiento, importación de instrumentos en múltiples formatos, mezcla interna de 32 bits, filtro de remuestreo de alta calidad, compatibilidad con MMX/3dNow!/SSE, eliminación automática de crujidos, extensión de graves, reverberación, extensión estéreo, ecualizador gráfico de 6 bandas y más.

Captura de pantalla 7

Por último, cabe mencionar la existencia de una gran cantidad de otros programas de audio: reproductores de audio (los más destacados: WinAMP, Sonique, Apollo, XMPlay, Cubic Player), complementos para reproductores (desde “mejoradores” de audio - DFX, Enhancer, iZotop Ozone), utilidades para copiar información de CD de audio (ExactAudioCopy, CDex, AudioGrabber), interceptores de flujo de audio (Total Recorder, AudioTools), codificadores de audio (codificador MP3: codificador Lame, Blade Encoder Go-Go y otros; codificador VQF : codificador TwinVQ, Yamaha SoundVQ, NTT TwinVQ; codificadores AAC: FAAC, PsyTel AAC, Quartex AAC), conversores de audio (para convertir información de audio de un formato a otro), generadores de voz y muchas otras utilidades específicas y generales. Por supuesto, todo lo anterior es sólo una pequeña parte de lo que puede resultar útil a la hora de trabajar con sonido.

8. Perspectivas y problemas

Los autores del artículo consideran que las perspectivas para el desarrollo y uso del audio digital son muy amplias. Parecería que ya se ha hecho todo lo que se podía hacer en este ámbito. Sin embargo, esto no es cierto. Quedan muchos problemas que todavía no se han solucionado por completo.

Por ejemplo, el campo del reconocimiento de voz aún está muy poco desarrollado. Durante mucho tiempo se han realizado y se están realizando intentos para crear software capaz de reconocer cualitativamente el habla humana, pero aún no todos han conducido al resultado deseado. Pero el avance tan esperado en esta área podría simplificar increíblemente la introducción de información en una computadora. Imagínese que en lugar de escribir un texto, podría simplemente dictarlo mientras toma café en algún lugar cerca de su computadora. Hay muchos programas supuestamente capaces de brindar esa oportunidad, pero no todos son universales y se desvían cuando la voz del lector se desvía ligeramente del tono especificado. Un trabajo así no trae tanta comodidad como dolor. Una tarea aún más difícil (posiblemente imposible de resolver) es reconocer sonidos comunes, por ejemplo, el sonido de un violín en los sonidos de una orquesta o aislar una parte de piano. Se puede esperar que algún día esto sea posible, porque el cerebro humano puede hacer frente fácilmente a este tipo de tareas, pero hoy es demasiado pronto para hablar incluso de los más mínimos cambios en este ámbito.

También hay espacio para la exploración en el campo de la síntesis de audio. Hoy en día existen varios métodos de síntesis de sonido, pero ninguno de ellos permite sintetizar un sonido que no pueda distinguirse del real. Si, por ejemplo, los sonidos de un piano o un trombón son más o menos susceptibles de implementación, todavía no han podido lograr el sonido creíble de un saxofón o una guitarra eléctrica; hay muchos matices sonoros que son casi imposibles de entender. recrear artificialmente.

Así, podemos decir con seguridad que en el campo del procesamiento, creación y síntesis del sonido y la música, todavía estamos muy lejos de esa palabra decisiva que pondrá fin al desarrollo de esta rama de la actividad humana.

Glosario de términos

1) DSP – Procesador de señal digital(procesador de señal digital). Un dispositivo (o motor de software) diseñado para el procesamiento de señales digitales.

2) tasa de bits– en relación con los flujos de datos: el número de bits por segundo. Aplicable en archivos de sonido(por ejemplo, después de una codificación con pérdida): cuántos bits describen un segundo de audio.

3) Sonido- una onda acústica que se propaga en el espacio; en cada punto del espacio se puede representar como una función de amplitud versus tiempo.

4) Interfaz- un conjunto de software y hardware diseñado para organizar la interacción de varios dispositivos.

5) Interpolación- encontrar valores intermedios de una cantidad basándose en algunos de sus valores conocidos; encontrar los valores de la función f(x) en los puntos x que se encuentran entre los puntos xo

6) Códec– un programa o dispositivo diseñado para codificar y/o decodificar datos.

7) Remuestreo(remuestreo): cambiar la frecuencia de muestreo de los datos de audio digitalizados.

8) Sonograma– un gráfico, una forma de representar el espectro de una señal, cuando el tiempo se traza a lo largo del eje de abscisas, la frecuencia se traza a lo largo del eje de ordenadas y las amplitudes de los componentes armónicos en las frecuencias correspondientes reflejan la saturación de color en la intersección de coordenadas de tiempo y frecuencia.

9) Formato de archivo(audio): estructura de datos en el archivo.

Al hacer música, puede resultar muy útil comprender en general qué es el sonido y cómo se graba en una computadora. Teniendo ese conocimiento, resulta mucho más fácil entender qué es, por ejemplo, la compresión o cómo se produce el recorte. En la música, como en casi cualquier negocio, conocer los conceptos básicos hace que sea más fácil avanzar.

¿Qué es el sonido?

El sonido son vibraciones físicas de un medio que viajan en forma de ondas. Captamos estas vibraciones y las percibimos como sonido. Si intentamos representar gráficamente una onda sonora, obtenemos, sorprendentemente, ola.

onda sinusoidal

Arriba hay una onda sinusoidal, el tipo de sonido que puedes escuchar en sintetizadores analógicos o en un teléfono fijo, si todavía usas uno. Por cierto, el teléfono suena y habla en un lenguaje técnico, no musical.

El sonido tiene tres características importantes, a saber: volumen, tono y timbre; estas son sensaciones subjetivas, pero se reflejan en el mundo físico en forma de propiedades físicas de una onda sonora.

Amplitud

Lo que percibimos como sonoridad es la fuerza de vibración o nivel de presión sonora, que se mide en (dB).

Representado gráficamente por olas de diferentes alturas:

Cuanto mayor es la amplitud (altura de onda en el gráfico), más fuerte se percibe el sonido y viceversa, cuanto menor es la amplitud, más silencioso es el sonido. Por supuesto, la percepción del volumen también está influenciada por la frecuencia del sonido, pero estas son características de nuestra percepción.

Ejemplos de diferentes volúmenes, en decibeles:

Sonido	Volumen (dB)	Efecto
Zona rural alejada de carreteras	25dB	casi inaudible
Susurro	30dB	muy tranquilo
Oficina en horario laboral	50-60dB	El nivel de ruido sigue siendo agradable hasta 60 dB
aspiradora, secador de pelo	70dB	Irritante; hace que sea difícil hablar por teléfono
Procesador de alimentos, licuadora	85-90dB	A partir de un volumen de 85 dB con una escucha prolongada (8 horas), comienza el daño auditivo
Camión, hormigonera, vagón de metro	95-100dB	Para sonidos entre 90 y 100 dB, se recomienda una exposición no superior a 15 minutos con el oído desprotegido.
Motosierra, martillo neumático	110dB	La exposición regular a sonidos superiores a 110 dB durante más de 1 minuto supone un riesgo de pérdida auditiva permanente
concierto de rock	110-140dB	El umbral del dolor comienza alrededor de 125 dB.

Frecuencia

Cuando decimos que un sonido es “más alto” o “más bajo”, entendemos lo que queremos decir, pero gráficamente no se muestra por altura, sino por distancia y frecuencia:

El tono de una nota (sonido) es la frecuencia de una onda sonora.

Cuanto menor sea la distancia entre las ondas sonoras, mayor será la frecuencia del sonido o, simplemente, mayor será el sonido.

Creo que todo el mundo sabe que el oído humano es capaz de percibir sonidos con una frecuencia de aproximadamente 20 Hz a 20 kHz (en casos excepcionales, de 16 Hz a 22 kHz), y los sonidos musicales se encuentran en el rango de 16,352 Hz ("antes" subcontractave) a 7.902 kHz (“B” de la quinta octava).

Timbre

Y la última característica importante para nosotros es el timbre del sonido. En palabras, así es como se “colorea” el sonido y gráficamente parece de diferente complejidad, la complejidad de la onda sonora. Aquí, por ejemplo, se muestra una representación gráfica de las ondas sonoras de un violín y un piano:

Timbre sonoro: complejidad (complejidad) de una onda sonora

Las sinusoides son más complicadas, ¿no?

Hay varias formas de grabar sonido: notación, grabación analógica y grabación digital.

Notación musical- Se trata simplemente de datos sobre la frecuencia, duración y volumen de los sonidos que deben reproducirse en un instrumento. En el mundo de la informática existe un análogo: los datos MIDI. Pero la consideración de esta cuestión está más allá del alcance de este artículo; la examinaremos en detalle en otra ocasión.

Grabación analógica- esencialmente registrar vibraciones físicas tal como están en cualquier medio: disco de vinilo o cinta magnética. Los amantes del cálido sonido de válvulas deberían empezar a salivar profusamente de inmediato, pero nosotros no somos una de esas personas, y los dispositivos analógicos tienen fuertes errores y limitaciones fundamentales, esto introduce distorsión y degrada la calidad de la grabación, y los medios físicos se desgastan con el tiempo, lo que Reduce aún más la calidad del fonograma, por lo que la grabación analógica ya es cosa del pasado.

Grabación de audio digital- una tecnología que le ha dado a cualquiera la oportunidad de probarse a sí mismo como ingeniero de sonido o productor. Entonces, ¿cómo funciona? Al fin y al cabo, un ordenador sólo puede registrar números y, para ser más precisos, sólo ceros y unos, en los que se codifican otros números, letras e imágenes. ¿Cómo registrar datos tan complejos como el sonido en números?

La solución es bastante simple: cortar la onda sonora en trozos pequeños, es decir, convertir una función continua (onda sonora) en discreta. Este proceso se llama muestreo, no de la palabra "cretino", sino de la palabra "discreción" (lat. discretus - dividido, intermitente). Cada uno de estos pequeños fragmentos de onda sonora ya es muy fácil de describir en números (el nivel de la señal en un momento determinado), que es lo que sucede con la grabación digital. Este proceso se llama conversión analógica a digital(conversión de analógico a digital) y el dispositivo de conversión (chip), respectivamente, es un convertidor de analógico a digital (convertidor de analógico a digital) o un ADC (ADC).

A continuación se muestra un ejemplo de un clip de onda sonora de casi cinco milisegundos de un platillo ride:

¿Ves cómo está todo hecho de clavo? Se trata de pequeños trozos discretos en los que se corta la onda sonora, pero si se desea, a través de estas columnas de dientes se puede trazar una línea curva continua, que será la onda sonora original. Durante la reproducción, esto sucede en un dispositivo (también microcircuito) llamado convertidor digital a analógico o DAC. ADC y DAC son las partes principales de una interfaz de audio y su calidad y capacidades dependen de su calidad.

Frecuencia de muestreo y profundidad de bits

Probablemente ya haya cansado incluso a los lectores más persistentes, pero no se desesperen, esta es la parte del artículo para la que comencé.

El proceso de convertir una señal analógica en una señal digital (y viceversa) tiene dos propiedades importantes: la frecuencia de muestreo (también conocida como frecuencia de muestreo o frecuencia de muestreo) y la profundidad de muestreo (profundidad de bits).

Frecuencia de muestreo- esta es la frecuencia a la que la señal de sonido se corta en pedazos (muestras). No repitas mi error: la frecuencia de muestreo está relacionada con la frecuencia de audio. solo a través del teorema de Kotelnikov, que dice: para restaurar de manera única la señal original, la frecuencia de muestreo debe ser más del doble de la frecuencia más alta en el espectro de la señal. Por tanto, la frecuencia de muestreo de 44,1 kHz utilizada al grabar CD y carátulas musicales
rango de frecuencia audible humana.

Profundidad de bits es la profundidad de muestreo medida en bits, es decir, es el número de bits utilizados para registrar la amplitud de la señal. A la hora de grabar un CD se utilizan 16 bits, que son suficientes para 96 dB, es decir, podemos grabar sonido en el que la diferencia entre la parte más silenciosa y la más ruidosa es de 96 dB, lo que casi siempre es suficiente para grabar cualquier música. En los estudios, a la hora de grabar, se suele utilizar una profundidad de bits de 24 bits, lo que da un rango dinámico de 144 dB, pero dado que el 99% de los dispositivos que reproducen sonido (grabadoras, reproductores, tarjetas de sonido que vienen con una computadora) solo pueden procesar Sonido de 16 bits, al renderizar aún tendrá que perder 48 dB (144 menos 96) de rango dinámico usando una resolución de 16 bits.

Finalmente, calculemos la tasa de bits de la música en un CD de audio:
16 bits x 44.100 muestras por segundo x 2 canales = 1.411.200 bps = 1.411,2 kbps.

Así, un segundo de grabación en un CD de audio ocupa 172 kilobytes o 0,168 megabytes.

Eso es todo lo que quería contarte sobre la grabación de sonido en una computadora.
Bueno, o casi todo.

La última sección es para lectores incondicionales.

Vacilar

Al renderizar proyectos en editores de sonido, al seleccionar el formato de 44 100 kHz y 16 bits, a veces aparece la casilla de verificación Tramado. ¿Qué es?
Esta es la mezcla de una señal pseudoaleatoria. Es poco probable que esta formulación te haga sentir mejor, pero te lo explicaré ahora.

Durante la conversión de analógico a digital, la amplitud se redondea. Es decir, con una profundidad de muestreo de 16 bits, tenemos 2·16 = 65.536 opciones posibles de niveles de amplitud. Pero si la amplitud del sonido en una de las muestras resultó ser igual a 34 enteros y 478 milésimas, entonces tendremos que redondearlo a 34.

Para niveles de amplitud pequeños de la señal de entrada, dicho redondeo tiene consecuencias negativas en forma de distorsión, que es con lo que se combate. vacilar.

Eso es todo seguro ahora. ¡Gracias por leer!

No olvide escribir un comentario y hacer clic en los hermosos botones de redes sociales al final del artículo.

Popular en la categoría: