Método de compresión de audio Ogg Vorbis. Métodos de compresión de audio digital.

MINISTERIO DE AGRICULTURA

INSTITUCIÓN EDUCATIVA ESTATAL FEDERAL DE EDUCACIÓN PROFESIONAL SUPERIOR

UNIVERSIDAD AGRARIA ESTATAL DE STAVROPOL

Facultad de Economía

Departamento de Informática Aplicada

INDEPENDIENTE

TRABAJO CONTROLADO

en la disciplina "Multimedia"

Tema “Compresión de información de audio”

Terminado:

estudiante del grupo 2PO

Comprobado:

Profesor asociado del Departamento de PI,

Ph.D., Profesor Asociado

Stávropol, 2011

COMPRESIÓN DE INFORMACIÓN DE AUDIO

información general

Durante la codificación primaria en el canal de estudio, se utiliza una cuantificación uniforme de muestras de señal de audio (AS) con una resolución de ∆A = 16...24 bits/muestra a una frecuencia de muestreo f = 44,1...96 kHz. En los canales con calidad de estudio normalmente

∆A = 16 bits/muestra, f = 48 kHz, banda de frecuencia de la señal de audio codificada

∆F = 20...20000 Hz. El rango dinámico de un canal digital de este tipo es de unos 54 dB. Si f = 48 kHz y ∆A = 16 bits/muestra, entonces la velocidad del flujo digital al transmitir una de esas señales es igual a V = 48x16 = 768 kbit/s. Esto requiere una capacidad total de canales de comunicación al transmitir una señal de audio en formatos 5.1 (Dolby Digital) o 3/2 más un canal de frecuencia ultrabaja (Dolby Surround, Dolby-Pro-Logic, Dolby THX) de más de 3.840 Mbit/s. . Pero una persona es capaz de procesar conscientemente sólo unos 100 bits de información con sus sentidos. Por tanto, podemos hablar de la importante redundancia inherente a las señales de audio digitales primarias.

Se distingue entre redundancia estadística y psicoacústica de señales digitales primarias. La reducción de la redundancia estadística se basa en tener en cuenta las propiedades de las propias señales sonoras, y la redundancia psicoacústica se basa en tener en cuenta las propiedades de la percepción auditiva.

La redundancia estadística se debe a la presencia de una correlación entre muestras adyacentes de la función temporal de la señal de audio durante su muestreo. Para reducirlo se utilizan algoritmos de procesamiento bastante complejos. Al utilizarlos no hay pérdida de información, pero la señal original se presenta de una forma más compacta, lo que requiere menos bits a la hora de codificarla. Es importante que todos estos algoritmos permitan restaurar las señales originales sin distorsión durante la conversión inversa. Para este fin se utilizan con mayor frecuencia transformaciones ortogonales. La óptima desde este punto de vista es la transformación de Karhunen-Loeve. Pero su implementación requiere importantes costes computacionales. La transformada de coseno discreta modificada (MDCT) tiene una eficiencia ligeramente inferior. También es importante que se hayan desarrollado algoritmos computacionales rápidos para implementar MDCT. Además, existe una relación simple entre los coeficientes de la transformada de Fourier (a la que todos estamos acostumbrados) y los coeficientes MDCT, lo que nos permite presentar los resultados de los cálculos de una forma bastante coherente con el funcionamiento de los mecanismos auditivos. Los métodos de codificación que tienen en cuenta las características de las señales de audio (por ejemplo, la probabilidad de que aparezcan niveles de audio de diferentes tamaños) también permiten reducir aún más la velocidad del flujo digital. Un ejemplo de dicha contabilidad son los códigos de Huffman, donde a los valores de señal más probables se les asignan palabras de código más cortas y a los valores de muestras cuya probabilidad de ocurrencia es baja se les asignan palabras de código más largas. Es por estas dos razones que en los algoritmos de compresión más efectivos para datos de audio digital, no se codifican las muestras SV en sí, sino los coeficientes MDCT y las tablas de códigos de Huffman se utilizan para codificarlas. Tenga en cuenta que el número de tablas de este tipo es bastante grande y cada una de ellas está adaptada a una señal de sonido de un determinado género.

Sin embargo, incluso cuando se utilizan procedimientos de procesamiento bastante complejos, la eliminación de la redundancia estadística de las señales de audio permite en última instancia reducir la capacidad requerida del canal de comunicación en sólo un 15...25% en comparación con su valor original, lo que no puede considerarse un logro revolucionario.

Después de eliminar la redundancia estadística, la velocidad digital de transmisión de señales de alta calidad y las capacidades humanas para procesarlas difieren al menos en varios órdenes de magnitud. Esto también indica una importante redundancia psicoacústica del ES digital primario y, por tanto, la posibilidad de su reducción. Los más prometedores desde este punto de vista resultaron ser los métodos que tienen en cuenta propiedades de la audición como el enmascaramiento, el preenmascaramiento y el posenmascaramiento. Si se sabe qué partes (partes) de la señal de sonido percibe el oído y cuáles no debido al enmascaramiento, entonces solo aquellas partes de la señal que el oído es capaz de percibir pueden aislarse y luego transmitirse a través del canal de comunicación, y el Las partes inaudibles (componentes de la señal original) pueden descartarse (no transmitirse a través de un canal de comunicación). Además, las señales se pueden cuantificar con el nivel de resolución más bajo posible, de modo que las distorsiones de cuantificación, que cambian de magnitud con los cambios en el nivel de la propia señal, seguirían siendo inaudibles, es decir, quedarían enmascaradas por la señal original. Sin embargo, después de eliminar la redundancia psicoacústica, ya no es posible una restauración precisa de la forma de la función temporal del GS durante la decodificación.

En este sentido, conviene prestar atención a dos características que son muy importantes para la práctica. Si la compresión de datos de audio digital ya se ha utilizado anteriormente en el canal de comunicación al entregar un programa, su reutilización a menudo conduce a una distorsión significativa, aunque la señal original nos parece de calidad bastante alta antes de volver a codificarla. Por tanto, es muy importante conocer la “historia” de la señal digital y qué métodos de codificación se han utilizado ya en su transmisión. Si medimos los parámetros de calidad de dichos códecs utilizando señales tonales utilizando métodos tradicionales (como se hace a menudo), obtendremos para ellos valores establecidos diferentes, incluso los más pequeños, de la velocidad de la transmisión digital, valores casi ideales de los parámetros medidos. Los resultados de las pruebas de escucha realizadas con señales de audio reales serán fundamentalmente diferentes. En otras palabras, los métodos tradicionales de evaluación de la calidad de los códecs con compresión de datos de audio digital no son adecuados.

Los trabajos para analizar la calidad y evaluar la eficacia de los algoritmos de compresión de datos de audio digital con vistas a su posterior estandarización comenzaron en 1988, cuando se formó el grupo internacional de expertos MPEG (Moving Pictures Experts Group). El resultado del trabajo de este grupo en la primera etapa fue la adopción en noviembre de 1992 de la norma internacional MPEG 1 ISO/IEC 11172-3 (en adelante, el número 3 después del número de norma se refiere a la parte que trata de la codificación de señales de audio ).

Hasta la fecha, también se han generalizado otros estándares MPEG en la radiodifusión, como MPEG-2 ISO/IEC 13818-3, 13818-7 y MPEG-4 ISO/IEC 14496-3.

Por el contrario, en EE.UU. se desarrolló el estándar Dolby AC-3 (ad/52) como alternativa al estándar MPEG. Un poco más tarde, surgieron claramente dos plataformas diferentes de tecnologías digitales para la radiodifusión y la televisión: DAB (Digital Audi o Broadcasting), DRM (Digital Radio Mondiale), DVB (con DVB-T terrestre, DVB-C por cable, DVB por satélite). variedades S) y ATSC (Dolby AC-3). El primero de ellos (DAB, DRM) lo promueve Europa, ATSC, Estados Unidos. Estas plataformas se diferencian, en primer lugar, por el algoritmo de compresión elegido para los datos de audio digital, el tipo de modulación digital y el procedimiento de codificación resistente al ruido de la señal de audio.

A pesar de la importante variedad de algoritmos de compresión de datos de audio digital, la estructura del codificador que implementa dicho algoritmo de procesamiento de señal se puede representar en forma de un diagrama generalizado como se muestra en la Fig. 4.1. En el bloque de segmentación de tiempo y frecuencia, la señal de audio original se divide en componentes de subbanda y se segmenta por tiempo. La longitud de la muestra codificada depende de la forma de la función de tiempo de la señal de audio. En ausencia de picos bruscos de amplitud, se utiliza la llamada muestra larga, que proporciona una resolución de alta frecuencia. En el caso de cambios repentinos en la amplitud de la señal, la longitud de la muestra codificada disminuye drásticamente, lo que proporciona una mayor resolución temporal. La decisión de cambiar la longitud de la muestra codificada la toma la unidad de análisis psicoacústico, calculando el valor de la entropía psicoacústica de la señal. Después de la segmentación, las señales de subbanda se normalizan, cuantifican y codifican. En los algoritmos de compresión más eficaces, no se codifican las muestras de ES en sí, sino los coeficientes MDCT correspondientes.

Normalmente, al comprimir datos de audio digital, se utiliza codificación de entropía, que tiene en cuenta simultáneamente tanto las propiedades del oído humano como las características estadísticas de la señal de audio. Sin embargo, el papel principal lo desempeñan los procedimientos para eliminar la redundancia psicoacústica. La toma en cuenta de los patrones de percepción auditiva de una señal sonora se lleva a cabo en el bloque de análisis psicoacústico. Aquí, utilizando un procedimiento especial, se calcula el nivel máximo permitido de distorsión de cuantificación (ruido) para cada señal de subbanda, en la que todavía están enmascaradas por la señal útil de esta subbanda. El bloque de distribución dinámica de bits, de acuerdo con los requisitos del modelo psicoacústico, asigna para cada subbanda de codificación el mínimo número posible de bits en los que el nivel de distorsión causada por la cuantificación no excede el umbral de su audibilidad calculado por el modelo psicoacústico. Los algoritmos de compresión modernos también utilizan procedimientos especiales en forma de bucles iterativos, que permiten controlar la cantidad de energía de distorsión de cuantificación en subbandas cuando no hay un número suficiente de bits disponibles para la codificación.

Los algoritmos de compresión de audio MPEG se basan en las propiedades de percepción de señales sonoras por parte de un audífono humano descritas en el primer capítulo. El uso del efecto de enmascaramiento puede reducir significativamente la cantidad de datos de audio manteniendo una calidad de sonido aceptable. El principio aquí es bastante simple: "Si algún componente no es audible, entonces no hay rastro de él que pueda transmitirse". En la práctica, esto significa que en la región de enmascaramiento el número de bits por muestra se puede reducir hasta tal punto que el ruido de cuantificación aún permanezca por debajo del umbral de enmascaramiento. Por tanto, para que funcione el codificador de sonido, es necesario conocer los umbrales de enmascaramiento para diversas combinaciones de señales influyentes. Un nodo importante del codificador, el modelo de audición psicoacústica (PAM), es responsable de calcular estos umbrales. Analiza la señal de entrada en sucesivos periodos de tiempo y determina para cada bloque de muestras las componentes espectrales y las correspondientes áreas de enmascaramiento. La señal de entrada se analiza en el dominio de la frecuencia; para ello, un bloque de muestras tomadas a lo largo del tiempo se convierte en un conjunto de coeficientes para los componentes del espectro de frecuencia de la señal mediante una transformada discreta de Fourier. Los desarrolladores de codificadores de compresión tienen una libertad considerable a la hora de construir el modelo; la precisión de su funcionamiento depende de la relación de compresión requerida;

Codificación de paso de banda y bloque de filtro. El mejor método para la codificación de audio que tiene en cuenta el efecto de enmascaramiento es la codificación de paso de banda. Su esencia es la siguiente. Un grupo de muestras de la señal de audio de entrada, llamado cuadro, se envía a un bloque de filtro (FB) que, por regla general, contiene 32 filtros de paso de banda. Teniendo en cuenta lo dicho sobre bandas críticas y enmascaramiento, sería bueno tener en el bloque de filtros bandas de paso que, a ser posible, coincidan con las críticas. Sin embargo, la implementación práctica de un bloque digital de filtros con bandas desiguales es bastante compleja y se justifica solo en dispositivos de la clase más alta. Normalmente, se utiliza un banco de filtros basados ​​​​en filtros de espejo en cuadratura con bandas de paso iguales, que cubren toda la banda. de frecuencias audibles con poca superposición mutua (Fig. 4.2) En este caso, el ancho de banda del filtro es igual a π/32T, y las frecuencias centrales de las bandas son iguales a (2k + 1) π/64T, donde T es la período de muestreo;

k = 0,1,..., 31. A una frecuencia de muestreo de 48 kHz, el ancho de banda de la sección del filtro es de 750 Hz.

La salida de cada filtro es la parte de la señal de entrada que cae dentro de la banda de paso de este filtro. A continuación, en cada banda que utiliza SAM, se analiza la composición espectral de la señal y se estima qué parte de la señal debe transmitirse sin reducciones y cuál se encuentra por debajo del umbral de enmascaramiento y puede recuantificarse en menos bits. Dado que en las señales de audio reales la energía máxima suele concentrarse precisamente en unas pocas bandas de frecuencia, puede ocurrir que las señales de otras bandas no contengan sonidos distinguibles y no se transmitan en absoluto en presencia, por ejemplo, de una señal fuerte; en una banda significa que varias bandas superpuestas se enmascararán y se podrán codificar con bits de desecho más pequeños.

Para reducir el rango dinámico máximo, se determina la muestra máxima en el cuadro y se calcula un factor de escala, que lleva esta muestra al nivel de cuantificación superior. Esta operación es similar a la compresión compacta en la radiodifusión analógica. Todos los demás recuentos se multiplican por el mismo factor. El factor de escala se envía al decodificador junto con los datos codificados para corregir la ganancia de este último. Después del escalado, se estima el umbral de enmascaramiento y el número total de bits se redistribuye entre todas las bandas.

Cuantización y distribución de bits. Todas las operaciones anteriores no redujeron significativamente la cantidad de datos; fueron, por así decirlo, una etapa preparatoria para la compresión de audio real; Al igual que ocurre con la compresión de vídeo digital, la mayor parte de la compresión se produce en el cuantificador. Según las decisiones tomadas por el SAM para recuantizar muestras en bandas de frecuencia individuales, el cuantificador cambia el paso de cuantificación de tal manera que acerca el ruido de cuantificación de una banda determinada al umbral de enmascaramiento calculado. En este caso, una muestra puede requerir sólo 4 o 5 bits.

La toma de decisiones sobre los componentes de la señal transmitida en cada banda de frecuencia ocurre independientemente de las demás, y se requiere un cierto "despachador" que asigne a cada una de las señales de 32 bandas una parte del recurso total de bits correspondiente al significado de esta señal. en el conjunto general. La función de dicho despachador la desempeña un dispositivo de distribución dinámica de bits.

Son posibles estrategias de asignación de tres bits.

En un sistema de adaptación directa, el codificador hace todos los cálculos y envía los resultados al decodificador. La ventaja de este método es que el algoritmo de asignación de bits se puede actualizar y cambiar sin afectar el funcionamiento del decodificador. Sin embargo, enviar datos adicionales al decodificador consume una parte importante del suministro total de bits.

Un sistema de adaptación hacia atrás realiza los mismos cálculos tanto en el codificador como en el decodificador, por lo que no es necesario enviar datos adicionales al decodificador. Sin embargo, la complejidad y el coste del decodificador son significativamente mayores que en la versión anterior, y cualquier cambio en el algoritmo requiere actualizar o reelaborar el decodificador.

Un sistema de compromiso con adaptación hacia adelante y hacia atrás separa las funciones de calcular la distribución de bits entre el codificador y el decodificador de tal manera que el codificador realiza los cálculos más complejos y envía solo los parámetros clave al decodificador, gastando relativamente pocos bits en esto. , el decodificador sólo realiza cálculos simples. En un sistema de este tipo, el codificador no se puede cambiar significativamente, pero es aceptable ajustar algunos parámetros.

En la Figura 4.3a se muestra un diagrama generalizado de un codificador y decodificador de audio que realiza compresión digital de acuerdo con el algoritmo descrito con adaptación directa. Las señales a la salida de las bandas de frecuencia se combinan en un único flujo digital mediante un multiplexor.

En el decodificador, los procesos ocurren en orden inverso. La señal se demultiplexa, se divide por un factor de escala, los valores originales de las muestras digitales en bandas de frecuencia se restauran y se alimentan a un bloque de filtro combinador, que genera un flujo de salida de datos de audio que es adecuado a la entrada desde el punto de Vista de la percepción psicofisiológica de la señal de audio por el oído humano.

Familia de estándares MPEG

MPEG significa Grupo de expertos en codificación de imágenes en movimiento, literalmente un grupo de expertos en codificación de imágenes en movimiento. MPEG se remonta a enero de 1988. Desde la primera reunión en mayo de 1988, el grupo comenzó a crecer hasta convertirse en un grupo muy grande de especialistas. En la reunión MPEG suelen participar unos 350 especialistas de más de 200 empresas. La mayoría de los participantes de MPEG son especialistas empleados en diversas instituciones científicas y académicas.

Estándar MPEG-1

El estándar MPEG-1 (ISO/IEC 11172-3) incluye tres algoritmos de distintos niveles de complejidad: Capa I, Capa II y Capa III. La estructura general del proceso de codificación es la misma para todos los niveles. Sin embargo, a pesar de la similitud de los niveles en el enfoque general de codificación, los niveles difieren en su uso y mecanismos internos. Para cada nivel, se define un flujo digital (ancho total del flujo) y se diseña su propio algoritmo de decodificación MPEG-1 para codificar señales digitalizadas a una frecuencia de muestreo de 32, 44,1 y 48 KHz. Como se indicó anteriormente, MPEG-1 tiene tres capas (Capa I, II y III). Estos niveles tienen diferencias en la relación de compresión proporcionada y la calidad del sonido de las transmisiones resultantes. MPEG-1 normaliza las siguientes velocidades de flujo digital para los tres niveles: 32, 48, 56, 64, 96, 112, 192, 256, 384 y 448 kbit/s, el número de niveles de cuantificación de la señal de entrada es de 16 a 24. Entrada estándar ^La señal para el codificador MPEG-1 es una señal digital AES/EBU (señal de audio digital de dos canales con bits de cuantificación por informe). Se proporcionan los siguientes modos de funcionamiento del codificador de audio:

■ canal único (mono);

■ doble canal (estéreo o dos canales mono);

■ estéreo conjunto (señal con separación parcial de los canales derecho e izquierdo). La propiedad más importante de MPEG-1 es la total compatibilidad con versiones anteriores de los tres niveles. Esto significa que cada decodificador puede decodificar señales no sólo de su propia capa, sino también de las capas inferiores.

El algoritmo de Nivel I se basa en el formato DCC (Digital Compact Cassette) desarrollado por Philips para grabar en casetes compactos. La codificación de primer nivel se utiliza cuando el grado de compresión no es muy importante y los factores decisivos son la complejidad y el coste del codificador y decodificador. El codificador de nivel I proporciona audio de alta calidad a una velocidad de bits de 384 kbps por programa estéreo.

El nivel II requiere un codificador más complejo y un decodificador algo más complejo, pero proporciona una mejor compresión: la "transparencia" del canal ya se logra a una velocidad de 256 kbit/s. Permite hasta 8 codificaciones/decodificaciones sin una degradación notable en la calidad del sonido. El algoritmo Level P se basa en el formato MUSICAM, popular en Europa.

El Nivel III más complejo incluye todas las herramientas de compresión básicas: codificación de paso de banda, DCT adicional, codificación de entropía, SAM avanzado. Debido a la complejidad del codificador y decodificador, proporciona un alto grado de compresión: se cree que se forma un canal "transparente" a una velocidad de 128 kbit/s, aunque es posible una transmisión de alta calidad a velocidades más bajas. La norma recomienda dos modelos psicoacústicos: el Modelo 1, más sencillo, y el Modelo 2, más complejo pero también de mayor calidad. Se diferencian en el algoritmo de procesamiento de muestras. Ambos modelos se pueden utilizar en los tres niveles, pero el Modelo 2 tiene una modificación especial para el Nivel III.

MPEG-1 resultó ser el primer estándar internacional para la compresión de audio digital y esto llevó a su uso generalizado en muchas áreas: radiodifusión, grabación de sonido, comunicaciones y aplicaciones multimedia. El nivel II es el más utilizado y ha pasado a formar parte de los estándares europeos de radiodifusión de televisión digital por satélite, cable y terrestre, estándares de radiodifusión de audio, grabación de DVD, Recomendaciones UIT BS.1115 y J.52. El nivel III (también llamado MP-3) se usa ampliamente en redes digitales de servicios integrados (ISDN) y en Internet. La gran mayoría de los archivos de música en la red se graban en este estándar.

Codificador de primer nivel. Echemos un vistazo más de cerca al trabajo del codificador de primer nivel (Figura 4.4). La unidad de filtro (FB) procesa simultáneamente 384 recuentos de datos de audio y los distribuye con el submuestreo apropiado en 32 bandas, 12 muestras en cada banda con una frecuencia de muestreo de 48/32 = 1,5 kHz. La duración del cuadro a una frecuencia de muestreo de 48 kHz es de 8 ms. El modelo psicoacústico simplificado estima únicamente el enmascaramiento de frecuencia por la presencia y el nivel "instantáneo" de los componentes de la señal en cada banda. Según los resultados de la evaluación, a cada banda se asigna la cuantificación más basta posible, pero de modo que el ruido de cuantificación no supere el umbral de enmascaramiento. Los factores de escala tienen un ancho de 6 bits y cubren un rango dinámico de 120 dB en pasos de 2 dB. El flujo digital también transporta códigos de distribución de 32 bits. Tienen una anchura de 4 bits e indican la longitud de la palabra de código de muestra en una banda determinada después de la recuantización.

En el decodificador, las muestras de cada banda de frecuencia se separan mediante un demultiplexor y se alimentan a un multiplicador, que restaura su rango dinámico original. Antes de esto, se restablece la profundidad de bits original de las muestras: los bits menos significativos descartados en el cuantificador se reemplazan por ceros. Los códigos de asignación de bits ayudan al demultiplexor a separar las palabras de código que pertenecen a diferentes muestras y se transmiten mediante un código de longitud de palabra variable en un flujo en serie. Luego, las muestras de los 32 canales se envían al BF sintetizador, que realiza un muestreo superior y organiza las muestras adecuadamente en el tiempo, restaurando la forma de la señal original.

Codificador de segundo nivel. El codificador de segundo nivel elimina las principales desventajas del modelo básico de codificación de paso de banda asociadas con la discrepancia entre las bandas auditivas críticas y las bandas BF reales, por lo que el efecto de enmascaramiento prácticamente no se utilizó en las secciones de baja frecuencia del rango. El tamaño de la trama se ha triplicado, hasta 24 ms con muestreo de 48 kHz, y se procesan 1152 muestras simultáneamente (3 subtramas de 384 muestras cada una). La señal de entrada para SAM no son señales de paso de banda de la salida del BF, sino coeficientes espectrales obtenidos como resultado de una transformada de Fourier de 512 puntos de la señal de entrada del codificador. Debido al aumento en la duración temporal de la trama y la precisión del análisis espectral, aumenta la eficiencia del SAM.

En el segundo nivel, se utiliza un algoritmo de distribución de bits más complejo. Las bandas con números del 0 al 10 se procesan con un código de distribución de cuatro bits (selección de cualquiera de las 15 escalas de cuantificación), para las bandas con números del 11 al 22 la elección se reduce a 3 dígitos (selección de una de las 7 escalas), las bandas con números del 23 al 26 permiten seleccionar una de las 3 escalas (código de dos bits) y las bandas con números del 27 al 31 (por encima de 20 kHz) no se transmiten. Si las escalas de cuantificación seleccionadas para todos los bloques de cuadros son las mismas, entonces el número de escala se transmite solo una vez.

Otra diferencia significativa en el algoritmo de segundo nivel es que no todos los factores de escala se transmiten a través del canal de comunicación. Si la diferencia en los multiplicadores de tres subtramas consecutivas excede los 2 dB durante no más del 10% del tiempo, sólo se transmite un conjunto de multiplicadores y esto ahorra consumo de bits. Si se producen cambios rápidos en el nivel de audio en una banda determinada, se transmiten dos o los tres conjuntos de factores de escala. En consecuencia, el decodificador debe recordar los números de los factores de cuantificación y escala seleccionados y aplicarlos, si es necesario, a la subtrama siguiente. Codificador de nivel 3. El codificador de nivel III utiliza un algoritmo de codificación avanzado con DCT adicional.

La principal desventaja de los codificadores de segundo nivel (el procesamiento ineficaz de transiciones que cambian rápidamente y saltos en el nivel del sonido) se elimina gracias a la introducción de dos tipos de bloques DCT: "largos" con 18 muestras y "cortos" con 6 muestras. La selección del modo se realiza de forma adaptativa cambiando las funciones de la ventana en cada una de las 32 bandas de frecuencia. Los bloques largos proporcionan una mejor resolución de frecuencia de una señal con características estándar, mientras que los bloques cortos mejoran el procesamiento de transiciones rápidas. Una trama puede contener bloques largos y cortos, pero el número total de coeficientes DCT no cambia, ya que en lugar de un bloque largo se transmiten tres bloques cortos. Las siguientes mejoras también se aplican para mejorar la codificación.

■ Cuantización no uniforme (el cuantificador eleva las muestras a la potencia 3/4 antes de la cuantificación para mejorar la relación señal-ruido; en consecuencia, el decodificador las eleva a la potencia 4/3 para una linealización inversa).

■ A diferencia de los codificadores del primer y segundo nivel, en el tercer nivel los factores de escala no se asignan a cada una de las 32 bandas de frecuencia del BF, sino a bandas de escala: secciones del espectro no asociadas con estas bandas y que corresponden aproximadamente a la zona crítica. alzacuello.

■ Codificación entropía de coeficientes cuantificados utilizando el código de Huffman.

■ La presencia de un “depósito de bits”, una reserva que el codificador crea durante los períodos de una señal de entrada estacionaria.

El codificador de tercer nivel procesa más completamente la señal estéreo en el formato estéreo conjunto (MS Stereo). Mientras que los codificadores de nivel inferior funcionan sólo en modo de codificación de intensidad, donde los canales izquierdo y derecho en bandas superiores a 2 kHz se codifican como una señal (pero con factores de escala independientes), el codificador de tercer nivel también puede funcionar en modo de suma-diferencia, proporcionando más Alto grado de compresión del canal diferencial. La señal estéreo se descompone en el promedio entre los canales y la diferencia. En este caso, el segundo se codifica a menor velocidad. Esto le permite aumentar ligeramente la calidad de codificación en una situación normal cuando los canales están en fase. Pero esto también conduce a un fuerte deterioro si se codifican señales que no coinciden en fase; en particular, un cambio de fase casi siempre está presente en las grabaciones digitalizadas a partir de casetes de audio, pero también se encuentra en los CD, especialmente si el propio CD fue grabado. al mismo tiempo de una cinta de audio.

Dentro del tercer nivel, la codificación de señales estéreo es posible mediante tres métodos diferentes más.

■ Joint Stereo (MS/IS Stereo) introduce otra técnica de simplificación estéreo que mejora la calidad de codificación a velocidades de bits particularmente bajas. Consiste en que para algunos rangos de frecuencia ni siquiera queda la señal diferenciada, sino sólo la relación de las potencias de la señal en los diferentes canales. Está claro que se utiliza incluso menos velocidad para codificar esta información. A diferencia de todos los demás, este método produce una pérdida de información de fase, pero los beneficios de ahorrar espacio en favor de la señal promedio son mayores a velocidades muy bajas. Este modo se utiliza por defecto para altas frecuencias a velocidades de 96 kbit/s e inferiores (este modo prácticamente no lo utilizan otros codificadores de alta calidad). Pero, como ya se mencionó, cuando se utiliza este modo, se pierde la información de fase. Además, también se pierde cualquier señal desfasada.

■ Canal dual: cada canal recibe exactamente la mitad del flujo y se codifica por separado como una señal mono. El método se recomienda principalmente en los casos en que diferentes canales contienen señales fundamentalmente diferentes, por ejemplo, texto en diferentes idiomas. Este modo se instala en algunos codificadores bajo pedido.

■ Estéreo: cada canal se codifica por separado, pero el codificador puede decidir darle más espacio a un canal que a otro. Esto puede resultar útil en el caso de que, después de descartar la parte de la señal que se encuentra por debajo del umbral de audibilidad o está completamente enmascarada, el código no llena completamente el volumen asignado para un canal determinado y el codificador tiene la oportunidad de utilizarlo. este espacio para codificar otro canal. Esto, por ejemplo, evita codificar “silencio” en un canal cuando hay señal en otro. Este modo se utiliza a velocidades superiores a 192 kbit/s. También es aplicable a velocidades más bajas del orden de kbit/s.

Los principales codificadores de nivel III utilizados son los codificadores XingTech, los codificadores FhG IIS y los codificadores basados ​​en código fuente ISO.

Los codificadores XingTech no tienen una alta calidad de codificación, pero son muy adecuados para codificar música electrónica. Su velocidad los convierte en codificadores ideales para música que no requiere codificación de alta calidad.

Los codificadores FhG IIS son conocidos por la máxima calidad de codificación a velocidades bajas y medias, gracias al modelo psicoacústico más adecuado para dichas velocidades. De los codificadores de consola de este grupo, el más preferible es 13eps 2.61. Por ahora también se utiliza el codificador MP3eps 3.1, pero nadie lo ha probado seriamente. Otros codificadores, como Audio Active o MP3 Producer, tienen importantes deficiencias, principalmente debido a opciones de personalización limitadas y una interfaz poco desarrollada.

Los codificadores restantes tienen sus orígenes en los códigos fuente ISO. Hay dos direcciones principales de desarrollo: optimización del código para la velocidad y optimización del algoritmo para la calidad. La primera dirección estuvo mejor representada por el codificador BladeEnc, que usa el modelo ISO original, pero realizó muchas optimizaciones de código, y el segundo modelo está representado por mpegEnc.

El codificador MP3Pro fue anunciado en julio de 2001 por Coding Technologies junto con Tomson Multimedia y el Instituto Fraunhofer. El formato MP3Pro es un desarrollo del Nivel III (MP3). MP3Pro es compatible con MP3 hacia atrás (totalmente) y hacia adelante (parcialmente), lo que significa que los archivos codificados con MP3Pro se pueden reproducir en reproductores convencionales. Sin embargo, la calidad del sonido es notablemente peor que cuando se reproduce en un reproductor especial. Esto se debe al hecho de que los archivos MP3Pro tienen dos flujos de audio, mientras que los reproductores convencionales solo reconocen un flujo en ellos, es decir, MPEG-1 Layer 3 normal.

El MP3Pro utiliza una nueva tecnología: SBR (Replicación de Banda Espectral). Está diseñado para transmitir el rango de frecuencia superior. El hecho es que las tecnologías anteriores para el uso de modelos psicoacústicos tienen un inconveniente común: todas funcionan de manera eficiente, a partir de una velocidad de 128 kbit/s. A velocidades más bajas, comienzan varios problemas: o es necesario cortar el rango de frecuencia para transmitir el sonido, o la codificación provoca la aparición de varios artefactos. La nueva tecnología SBR complementa el uso de modelos psicoacústicos. Se transmite (codifica) un rango de frecuencia ligeramente más estrecho de lo habitual (es decir, con los "altos" cortados), y el propio decodificador recrea (restablece) las frecuencias superiores basándose en información sobre los componentes de frecuencias más bajas. Por tanto, la tecnología SBR en realidad no se utiliza tanto en la etapa de compresión como en la etapa de decodificación. El segundo flujo de datos, mencionado anteriormente, es precisamente la información mínima necesaria que se utiliza durante la reproducción para restaurar las altas frecuencias. Aún no se sabe con certeza qué información exacta transporta esta corriente, sin embargo, los estudios han demostrado que esta información se refiere a la potencia promedio en varias bandas de frecuencia en el rango superior.

3.2. Mp3: tecnología de compresión de audio

El nombre MP3 apareció como resultado de la abreviatura MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) es un grupo de la Organización Internacional de Normalización y el Comité Eléctrico Internacional que desarrolla estándares para la compresión digital de información de vídeo y audio. ¿Por qué comprimir esta información? En primer lugar, ahorrar recursos económicos y materiales a la hora de transmitir información a distancia a través de canales de comunicación (incluido el satélite) y, en segundo lugar, almacenarla.

El estándar MPEG-1 recibió la aprobación oficial en 1992, pero hasta hace poco su descubrimiento no tenía plena demanda. Sólo con la llegada de procesadores Pentium suficientemente potentes (con frecuencias de reloj de 300 MHz y superiores, que pueden reducir drásticamente el tiempo de codificación/decodificación de señales) y módems de alta velocidad, el estándar fue ampliamente aceptado.

El estándar MPEG-1 es un formato de transmisión y consta de audio, video y partes del sistema. La última parte contiene información sobre cómo combinar y sincronizar las dos primeras.

La transmisión de datos se produce en un flujo de bloques de datos separados e independientes: tramas, obtenidas "cortando" en secciones de igual duración, que se codifican de forma independiente entre sí.

Actualmente existen cinco tipos (números) de estándares MPEG:

1) MPEG1: compresión de audio y vídeo con una velocidad total de hasta 150 Kb/s (audio 38, 44,1, 48 kilohercios);

2) MPEG2: compresión de audio y vídeo con una velocidad total de hasta 300 Kb/seg (audio 38, 44,1, 48 kilohercios), la compresión de audio es IDÉNTICA a MPEG1;

3) MPEG2.5: compresión de audio con resolución reducida (audio 16.22.05.24 kilohercios). Es interesante observar que el estándar MPEG2.5 (también conocido como MPEG2 LSF - LOW SAMPLE FREQUENCY - baja frecuencia de escaneo de audio) fue introducido por IIS Fraunhofer (Instituto Fraunhofer de Tecnología de la Información de Alemania). Este estándar es una extensión del audio "puro" MPEG2 (es decir, ¡MPEG1!) a una velocidad de exploración de audio la mitad de la normal;

4) MPEG3 - MPEG1+MPEG2 multicanal. Esta norma prácticamente no se utiliza;

5) MPEG4 es un estándar novedoso en el extranjero. Su característica: puede contener hasta 8 canales de audio (es decir, AC-3, una extensión digital del sistema envolvente).

Cuanto mayor es el índice de nivel, mayor es la complejidad y el rendimiento del algoritmo de codificación y, en consecuencia, aumentan los requisitos de recursos del sistema.

Aquí, el término "codificación" se refiere a un proceso que le permite recibir un archivo en forma comprimida, lo que ocupa menos espacio en el disco y, en consecuencia, se transmite más rápido a través de los canales de comunicación. El archivo no se puede utilizar en su forma comprimida; por lo tanto, debe descodificarse antes de su uso. La compresión de archivos no siempre tiene un resultado positivo. El resultado depende directamente del método de compresión y del contenido del propio archivo.

El principio de codificación de señales en MPEG Audio se basa en el uso del modelo psicoacústico, cuya esencia es la siguiente.

Hay una serie de frecuencias de sonido que el oído humano no puede percibir. Algunos sonidos quedan enmascarados por otros, tanto de mayor amplitud como de frecuencia similar. Entonces, por ejemplo, si se emite un sonido fuerte con una frecuencia de 1000 Hz (enmascaramiento), el oído humano no detectará un sonido más débil con una frecuencia de 1100 Hz (enmascaramiento) debido a las características del umbral auditivo. del oído humano. El umbral de audición en los límites del rango de frecuencia (16-20 Hz y 16-20 kHz) aumenta significativamente porque En estas frecuencias, la audición tiene una sensibilidad significativamente menor en comparación con la región de mayor sensibilidad auditiva (rango de 1 a 5 kHz). También se sabe que el tiempo de recuperación de la sensibilidad auditiva después de una señal fuerte es de aproximadamente 100 ms, y el tiempo de retardo para la percepción de la misma señal es de aproximadamente 5 ms.

Por lo tanto, sólo se transmite la información sonora que la gran mayoría de los oyentes puede percibir adecuadamente y todo el resto, lamentablemente, se pierde irremediablemente.

Como se mencionó, todas las capas tienen la misma estructura básica, en la que el codificador analiza la señal original, calcula un banco de filtros (32 bandas) para ella y aplica un modelo psicoacústico. Con una frecuencia de cuantificación, un caudal y un valor de enmascaramiento preseleccionados, el codificador cuantifica y codifica la señal.

Las características comparativas de los métodos de codificación para un canal a una frecuencia de cuantificación de 32 kHz se presentan en la Tabla 2.

Tabla 2.

Método de codificación Velocidad de transmisión (kbps) Relación de compresión
Capa 1 192 1:4
Capa 2 128-96 1:6...8
Capa 3 64-56 1:10...12

Antes de codificar, la señal fuente se divide en cuadros, cada uno de los cuales se codifica por separado con diferentes parámetros y se coloca en el archivo final independientemente de los demás. La secuencia de reproducción está determinada por el orden de los fotogramas. Toda la información sobre un marco está contenida en su encabezado y la información sobre los marcos está contenida en el encabezado de un archivo. Para obtener información sobre el artista, álbum, título de la canción, género, etc., se proporciona un encabezado de etiqueta ID3/ID2. La gran mayoría de reproductores existentes utilizan este encabezado para desplazarse por esta información mientras reproducen una pieza musical.

Entre los fotogramas puede haber información arbitraria, por ejemplo, derechos de autor, ubicada en una capa uniforme a lo largo de todo el archivo. El principal requisito para los fotogramas secuenciales es que no coincida con la firma del inicio del fotograma.

La frecuencia de los fotogramas se llama tasa de bits (BIT RATE - tasa de bits, cuanto mayor sea, más cercano será el resultado final al original).

Cada tasa de bits tiene su propia área de aplicación. Para crear una copia de alta calidad que iguale la calidad del original, sólo se utilizan altas velocidades de bits de aproximadamente 256 kbit/s. Con una tasa de bits de 128 kbit/s, la calidad del producto final parece bastante normal, pero muchos ya pueden notar la diferencia entre la copia y el original. Internet suele contener archivos MP3 codificados con una velocidad de bits de 128 kbit/s. Pero para crear una copia verdaderamente de alta calidad, es necesario utilizar una velocidad de codificación de 320 kbps, aunque el archivo final es sólo 4,3 veces más pequeño en comparación con 10,8 veces a 128 kbps y 5,4 veces a 256 kbps. Por lo tanto, usted debe elegir la tasa de bits según sus necesidades.

Después del marcado de fotogramas, la señal original se divide en componentes mediante filtros de peine, que representan rangos de frecuencia individuales, que en conjunto dan la señal procesada. Para cada uno de estos rangos, se determinan su propio modelo psicoacústico y secciones del cuadro que "caen" del proceso de codificación. Para los datos restantes, se determina la frecuencia de cuantificación máxima permitida, que debería garantizar pérdidas por debajo del valor del efecto de enmascaramiento.

Después de procesar todos los fotogramas, se genera una secuencia final, que además se codifica mediante el método de Huffman. Este algoritmo también se utiliza en el archivador ARJ, pero con una tabla de Huffman dinámica y en constante cambio, que requiere dos pasadas por los datos; con una tabla fija de Capa 3, la compresión se produce en una sola pasada. Este método le permite "comprimir" hasta el 20 por ciento del volumen total. El resultado es un flujo final de datos de audio codificados.


Conmigo" con la sencilla e ingenua melodía de Glinka, escuchada de Griboedov, y una solución dramática más compleja en el romance: el poema oriental de Rachmaninov, lleno de melancolía y soledad elegíacas. El musical pushkiniano del siglo XX también es muy extenso e interesante. Entre las obras más significativas se encuentran los ballets "El jinete de cobre" de Gliere, uno de cuyos temas principales se convirtió verdaderamente en "un himno al gran...

Canciones, chistes, rimas para tocar instrumentos musicales; para la noriolización del lado prosódico del habla al improvisar cantos melódicos y rítmicos. Cuando se trabaja con estudiantes de primaria en educación correccional y de desarrollo, solo se pueden utilizar las herramientas más simples. Se trata de instrumentos musicales del grupo de percusión como puramente rítmicos, sin un tono determinado...

Las cualidades morales de la personalidad de un niño sientan las bases iniciales de la cultura general de la futura persona. II. Condiciones pedagógicas para la implementación de actividades infantiles en el jardín de infantes 2.1 Métodos de educación musical en el jardín de infantes El principal tipo de actividad musical, que desempeña un papel principal en la implementación de la función cognitiva y comunicativa de la música: su percepción...

Trabajar en una pieza musical, el nivel de los trastornos emocionales y del comportamiento. 2. Características específicas del trabajo musical en un orfanato para huérfanos con retraso mental y niños privados del cuidado de sus padres. Resolver los problemas de la educación musical ayuda a utilizar diversas formas de organización de la actividad musical, cada una de las cuales tiene ciertas capacidades (ver diagrama). ...

Los más conocidos son Audio MPEG, PASC y ATRAC. Todos ellos utilizan la llamada “codificación perceptual”, en la que se elimina de la señal de audio información apenas perceptible para el oído. Como resultado, a pesar del cambio en la forma y el espectro de la señal, su percepción auditiva permanece prácticamente sin cambios y el grado de compresión justifica una ligera disminución de la calidad. Dicha codificación se refiere a métodos de compresión con pérdida, cuando ya no es posible restaurar con precisión la forma de onda original a partir de la señal comprimida. Las técnicas para eliminar parte de la información se basan en una característica del oído humano llamada enmascaramiento: si hay picos pronunciados (armónicos predominantes) en el espectro del sonido, el oído prácticamente no percibe los componentes de frecuencia más débiles en las inmediaciones de ellos (enmascarados). ). Durante la codificación, todo el flujo de audio se divide en pequeños fotogramas, cada uno de los cuales se convierte en una representación espectral y se divide en varias bandas de frecuencia. Dentro de las bandas, los sonidos enmascarados se detectan y eliminan, después de lo cual cada cuadro se codifica de forma adaptativa directamente en forma espectral. Todas estas operaciones permiten reducir significativamente (varias veces) la cantidad de datos manteniendo una calidad aceptable para la mayoría de los oyentes. Cada uno de los métodos de codificación descritos se caracteriza por la velocidad de bits a la que la información comprimida debe ingresar al decodificador al restaurar la señal de audio. El decodificador convierte una serie de espectros de señales instantáneas comprimidas en una forma de onda digital convencional.

Audio MPEG- un grupo de métodos de compresión de audio estandarizados por MPEG (Moving Pictures Experts Group, un grupo de expertos en el procesamiento de imágenes en movimiento). Los métodos de audio MPEG son de varios tipos: MPEG-1, MPEG-2, etc.; Actualmente el tipo más común es MPEG-1. Hay tres niveles (capas) de Audio MPEG-1 para la compresión de señales estéreo: 1 - relación de compresión 1:4 con un flujo de datos de 384 kbit/s; 2 - 1:6..1:8 a 256..192 kbit/s; 3 - 1:10..1:12 a 128..112 kbit/s. La velocidad de datos mínima en cada capa se define como 32 kbit/s; Las velocidades de bits especificadas le permiten mantener la calidad de la señal aproximadamente al nivel de un CD. Los tres niveles utilizan la transformación espectral de entrada, dividiendo el cuadro en 32 bandas de frecuencia. El nivel 3, con una velocidad de flujo de 128 kbit/s y una densidad de datos de aproximadamente 1 MB/min, fue reconocido como el más óptimo en términos de volumen de datos y calidad de sonido. Al comprimir a velocidades más bajas, comienza una limitación forzada de la banda de frecuencia a 15-16 kHz y también se produce una distorsión de fase de los canales (un efecto como un Phaser o Flanger). Audio MPEG se utiliza en sistemas de audio de computadora, CD-i/DVD, CD-ROM de "audio", radio/televisión digital y otros sistemas de audio de medios masivos. El kit MPEG-1 se proporciona para codificar señales digitalizadas a velocidades de muestreo de 32, 44,1 y 48 kHz. Como se indicó anteriormente, la suite MPEG-1 tiene tres capas (Capa I, II y III). Estos niveles tienen diferencias en la relación de compresión proporcionada y la calidad del sonido de las transmisiones resultantes. La capa I permite almacenar señales de 44,1 KHz / 16 bits sin pérdida notable de calidad a un caudal de 384 Kbps, lo que supone una ganancia de 4 veces en el volumen ocupado; La Capa II proporciona la misma calidad a 194 Kbps y la Capa III a 128 (o 112). Los beneficios de Layer III son obvios, pero la velocidad de compresión cuando se usa es la más baja (cabe señalar que con las velocidades de los procesadores modernos esta limitación ya no se nota). De hecho, la Capa III le permite comprimir información entre 10 y 12 veces sin una pérdida notable de calidad.- El estándar MPEG-2 fue diseñado específicamente para codificar señales de televisión transmitidas. En abril de 1997, este conjunto recibió una "continuación" en forma del algoritmo MPEG-2 AAC (MPEG-2 Advanced Audio Coding).

El estándar MPEG-4 es un artículo especial. MPEG-4 no es sólo un algoritmo para comprimir, almacenar y transmitir información de vídeo o audio. MPEG-4 es una nueva forma de presentar información; es una representación de datos multimedia orientada a objetos. El estándar opera con objetos, organiza jerarquías, clases, etc. a partir de ellos, construye escenas y controla su transmisión. Los objetos pueden servir como flujos de audio o vídeo ordinarios, así como datos de audio y gráficos sintetizados (voz, texto, efectos, sonidos...). Estas escenas se describen en un lenguaje especial.

El estándar MPEG-7 es generalmente fundamentalmente diferente de todos los demás estándares MPEG. El estándar no se está desarrollando para establecer ningún marco para la transferencia de datos ni para tipificar y describir datos de ningún tipo en particular. La norma pretende ser descriptiva, destinada a regular las características de los datos de cualquier tipo, incluidos los analógicos. Se pretende que el uso de MPEG-7 esté en estrecha relación con MPEG-4.

Para facilitar el manejo de transmisiones comprimidas, todos los algoritmos MPEG están diseñados de tal manera que permiten la descompresión (recuperación) y la reproducción de la transmisión simultáneamente con su recepción (descarga): descompresión de la transmisión "sobre la marcha" (reproducción de transmisión). Esta característica se usa ampliamente en Internet, donde la velocidad de transferencia de información es limitada, y con el uso de tales algoritmos es posible procesar la información tal como se recibe sin esperar el final de la transmisión.

Codificación de subbanda adaptativa de precisión PASC- codificación adaptativa precisa en banda) - un caso especial de Audio MPEG-1 Layer 1 con una velocidad de bits de 384 kbit/s (compresión 1:4). Utilizado en el sistema DCC.

Codificación acústica ATRAC Adaptive TRansform- codificación acústica por transformación adaptativa) se basa en un formato de audio estéreo con cuantificación de 16 bits y una frecuencia de muestreo de 44,1 kHz. ATRAC (Adaptive TRansform Acoustic Coding) divide una señal de audio digital de 16 bits y 44,1 kHz en 52 bandas de frecuencia (después de una rápida transformada de Fourier). Las bandas de baja frecuencia se transmiten con mayor precisión que las bandas de alta frecuencia. El algoritmo utiliza codificación psicoacústica, donde se aplica un efecto de enmascaramiento y un umbral de audibilidad del sonido, como resultado de lo cual parte de la información se puede descartar y el flujo de datos de salida tiene un tamaño de 1/5 del original. Cada canal se procesa de forma independiente (la unidad de MD portátil Sony MZ-1 utiliza un chip codificador/decodificador ATRAC por canal). Otro algoritmo de codificación, PASC (Codificación de subbanda adaptativa de precisión, ahora utilizado por Philips en DCC) divide la señal digital en intervalos de igual tamaño y elimina parte de la información (reduciendo la transmisión a 1/4 del original). PASC es un algoritmo MPEG Layer 1 (puede ser descomprimido por reproductores MPEG Layer 1 después de una pequeña corrección previa).
Ambos algoritmos realizan compresión de datos y proporcionan almacenamiento de un flujo de audio de 16 bits. El propósito del algoritmo es comprimir la secuencia para reducir el espacio en disco que ocupa. Existe una gran variedad de algoritmos de compresión. Algunos algoritmos comprimen datos sin pérdida (se utilizan, por ejemplo, en archivadores) y la información después de la descompresión no difiere del original. PASC y ATRAC son algoritmos con pérdida; no intentan preservar cada bit de datos entrantes, simplemente intentan aislar y preservar los bits acústicamente "importantes". Por lo tanto, es importante encontrar sonidos que queden enmascarados por el sistema auditivo humano y que una persona no podrá escuchar incluso cuando se reproduzcan. Ambos algoritmos de compresión de audio hacen un excelente trabajo en esta tarea. ¿Qué flujo de audio se graba en el minidisco después de la compresión ATRAC? Para una señal estéreo: 292162,5 bps. ATRAC comprime 512 muestras entrantes de 16 bits (1024 bytes) en "grupos de sonido" ATRAC (212 bytes), lo que da como resultado una relación de compresión de 4,83:1. - 44100 muestras/s (flujo de entrada de un canal) - 512 muestras por grupo de sonido (obteniendo 86,133 grupos de sonido/s/canal) - 2 canales (obteniendo 172,266 grupos de sonido/s)
- 212 bytes/grupo de sonido (obteniendo 36,5 kbit/s en estéreo) - 8 bits/byte (obteniendo kbit/s) - 292162,5 bps ATRAC (usado en MDLP) funciona a 132 kbit/s (LP2) y 66 kbit/s ( LP4).

1. Una técnica de compresión obvia que se puede aplicar al habla es la eliminación de pausas, ᴛ.ᴇ. En lugar de utilizar 44.100 muestras de valor cero para registrar cada segundo de silencio (frecuencia de muestreo 44,1 kHz), la duración de la pausa simplemente se especifica: ϶ᴛᴏ compresión sin pérdidas.

2. En caso de que la amplitud del sonido no alcance el nivel máximo que se puede representar para un tamaño de muestra determinado, la codificación Huffman (Hoffman) debería ser efectiva. En este caso, la señal está representada por muestras más pequeñas. Este es un algoritmo de compresión sin pérdidas, solo un caso especial de compresión.

3. La técnica de compresión (expansión) también ha contribuido a las tecnologías de compresión del habla. Se basa en la percepción humana de diferentes niveles de sonoridad y consiste en el uso de niveles de cuantificación no lineales. Si la distancia entre los niveles superiores es mayor que la distancia entre los bajos, entonces los sonidos suaves se presentan con más detalle que los fuertes.

4. Otra técnica de compresión es la modulación de código de pulso diferencial. Este esquema está relacionado con la compresión entre cuadros y se basa en registrar las diferencias de muestras sucesivas, en lugar de sus valores absolutos.

5. La compresión con pérdida efectiva consiste en identificar datos que no son importantes (ᴛ.ᴇ. no afecta la percepción de la señal) y descartarlos. Si la señal de audio se digitaliza de forma sencilla (en un PC), en la versión digitalizada se podrán incluir datos correspondientes a sonidos inaudibles. Esto se explica por el hecho de que la señal registra todas las fluctuaciones físicas de la presión del aire que provocan el sonido, pero la percepción del sonido es responsabilidad del cerebro, que (junto con el oído) no reacciona tan fácilmente a las ondas sonoras.

El sonido se utiliza a menudo como parte de una producción de vídeo o animación. En este caso, es necesaria la sincronización de sonido e imagen. Para solucionar este problema, se utiliza una línea de tiempo para organizar el audio y el vídeo en algunas aplicaciones de edición de vídeo, como Final Cut Pro. Al estudiar las señales, el editor puede determinar los puntos de control de la pista de audio (el comienzo de las sílabas o los compases acentuados en la música), a lo largo de los cuales se construyen las imágenes adecuadas.

Hay dos formas de generar imágenes en movimiento en formato digital para productos multimedia.

En primer lugar, con una cámara de vídeo se puede grabar una secuencia de fotogramas de movimiento real en el mundo real.

En segundo lugar, puedes crear todos los fotogramas por separado, ya sea usando una PC o grabando imágenes fijas una a la vez.

En el primer caso crearemos video, y en el segundo – animación.

Secuencia de vídeo Consta de un conjunto de fotogramas, cada uno de los cuales es una imagen independiente.

n Se cree que se necesitan 16 millones de tonos para transmitir adecuadamente la imagen original, por lo que se utiliza un formato de almacenamiento de imágenes en color de 24 bits. Si el tamaño de la imagen es de 640 píxeles (ancho) por 480 píxeles (alto) y la profundidad del color es de 24 bits, entonces cada cuadro requerirá 640x480x3=900 KB.

n Grabar una secuencia de fotogramas en formato digital requiere grandes cantidades de memoria externa de la computadora. Un segundo de vídeo NTSC sin comprimir (Norteamérica, Japón) contiene 30 fotogramas. Cada segundo de vídeo requerirá más de 26 MB de memoria. Y para el estándar de vídeo PAL (Europa Occidental y Australia, 24 fotogramas), se necesitan 21 MB de memoria para grabar un segundo y 1,25 GB para un minuto.

n Pero no basta con recordar la secuencia de fotogramas; también es necesario mostrarla en la pantalla al ritmo adecuado. Ninguno de los dispositivos de almacenamiento externos existentes tiene una velocidad de transferencia de información similar: unos 30 MB/s. Con tales números, grabar (reproducir) videos en CD, DVD y transmitirlos a través de redes es problemático. La grabación de vídeo es posible para estudios de vídeo y televisión.

n Para reducir la cantidad de datos, se necesitan esquemas de compresión de video, así como el uso de otros métodos.

Para mostrar vídeo digitalizado en la pantalla de una computadora, es necesario reducir la cantidad de datos transmitidos, lo que se logra mediante:

n mostrar una imagen en miniatura en una ventana pequeña

n reducir la velocidad de fotogramas a 10-15 fotogramas/s

n reducir el número de bits/píxel

Esto da como resultado una calidad de imagen deficiente.

Existen varios formatos de vídeo: WMA, ASF, RM, SWF, DVC, VOB, pero rara vez se utilizan porque tienen serios inconvenientes o son poco compatibles con las herramientas convencionales para crear aplicaciones multimedia (pero se pueden convertir a otro formato usando cualquier editor de vídeo).

n Los formatos más comunes son AVI y MPEG.

norte Audio vídeo entrelazado (AVI)– Formato “nativo” para Windows Media de Microsoft. El sistema Windows utiliza un códec propietario. Al grabar en este formato, se utilizan varios algoritmos de compresión de vídeo diferentes. Entre ellos: Cinepak, Indeo video, Motion-JPEG (M-JPEG), etc.
Publicado en ref.rf
Pero entre ellos sólo M-JPEG fue reconocido como

Estándar internacional para la compresión de vídeo. Inicialmente, el paquete de software Video para Windows de Microsoft se utilizaba para capturar y reproducir vídeos, pero ahora el usuario tiene mejores opciones para ello. Un archivo AVI no puede tener más de 2 GB. Al darse cuenta de esto, Microsoft anunció el desarrollo de nuevos formatos diseñados para reemplazar el formato AVI:

norte PPA(Formato de gritos avanzado)

norte AAF(Formato de creación avanzada)

El soporte para estos formatos comenzó en 1999. Al mismo tiempo, también se utiliza el antiguo formato AVI;

El formato AVI no es sólo vídeo, sino también sonido sincronizado con él. Por lo general, el componente de audio se llama banda sonora o pista de audio. Para AVI, es audio en formato WAV. En cualquier editor de vídeo, puedes seleccionar una pista de audio, guardarla en un archivo de audio y editarla en un editor de audio.

norte Vídeo de Windows Media (WMV) es un nuevo formato de vídeo de Microsoft que reemplaza el formato AVI. Está basado en Windows Video Codec, desarrollado en base al estándar MPEG-4.

norte Película en tiempo rápido (MOV)– el formato más común para grabar y reproducir vídeo, desarrollado por Apple para ordenadores Macintosh en el marco de la tecnología QuickTime . Incluye soporte no sólo para video, sino también para audio, texto, transmisiones MPEG, comandos MIDI extendidos, gráficos vectoriales, panoramas y objetos (QT VR) y modelos 3D. Admite varios formatos de compresión de video diferentes, incl. MPEG e Indeo, así como su propio método de compresión.

norte MPEG (MPG, MPEG) es un formato para grabar y reproducir vídeo, desarrollado en 1992. grupo de expertos en imágenes en movimiento (Moving Pictures Expert Group - MPEG). Diseñado para comprimir archivos de audio y video para descargarlos o enviarlos, por ejemplo, a través de Internet.

MPEG-4– un estándar que describe las reglas para codificar información multimedia digital. Al desarrollar este estándar, la atención principal se centró en la capacidad de comprimir datos de vídeo con mucha más fuerza que la que ofrece, por ejemplo, el estándar MPEG-2. Esto permite transferir datos a bajas velocidades, menos de 1 Mbps. Estas velocidades son típicas de la mayoría de los usuarios de Internet y relevantes para los consumidores de dispositivos inalámbricos móviles. Las grabaciones MPEG-4 son más pequeñas y significativamente menos costosas que los archivos multimedia codificados con MPEG-2. Además las herramientas de codificación y decodificación MPEG-4 son más sencillas.

Se pueden utilizar métodos de compresión de datos establecidos, como RLE, métodos estadísticos y de diccionario, para comprimir archivos de audio sin pérdidas, pero el resultado depende significativamente de los datos de audio específicos. Algunos sonidos se comprimen bien con RLE, pero mal con algoritmos estadísticos. Otros sonidos son más adecuados para la compresión estadística, mientras que con el enfoque del diccionario, por el contrario, puede producirse una expansión. A continuación se ofrece una breve descripción de la eficacia de estos tres métodos para comprimir archivos de audio.

RLE funciona bien con sonidos que contienen largas series de fragmentos de sonido repetidos: muestras. Con el muestreo de 8 bits esto puede suceder con bastante frecuencia. Recuerde que la diferencia de voltaje eléctrico entre dos muestras de 8 bits es de aproximadamente 4 mV. Unos segundos de música homogénea, en los que la onda sonora cambiará en menos de 4 mV, generarán una secuencia de miles de muestras idénticas. Con el muestreo de 16 bits, obviamente las repeticiones largas son menos comunes y, por tanto, el algoritmo RLE será menos eficiente.

Los métodos estadísticos asignan códigos de longitud variable a muestras de audio según su frecuencia. Con el muestreo de 8 bits, solo hay 256 muestras diferentes, por lo que las muestras se pueden distribuir uniformemente en un archivo de audio grande. Un archivo de este tipo no se puede comprimir bien con el método Huffman. Con muestreo de 16 bits, se permiten más de 65.000 fragmentos de sonido. En este caso, es posible que algunas muestras ocurran con más frecuencia y otras con menos frecuencia. Cuando existe una fuerte asimetría de probabilidades, se pueden lograr buenos resultados utilizando la codificación aritmética.

Los métodos basados ​​en diccionarios suponen que determinadas frases aparecerán con frecuencia en todo el archivo. Esto ocurre en un archivo de texto en el que palabras individuales o secuencias de palabras se repiten muchas veces. El audio, sin embargo, es una señal analógica y el significado de las muestras específicas generadas depende en gran medida del funcionamiento del ADC. Por ejemplo, con el muestreo de 8 bits, una onda de 8 mV se convierte en un número de muestra de 2, pero una onda estrechamente relacionada de, digamos, 7,6 mV u 8,5 mV puede convertirse en un número diferente. Por esta razón, los fragmentos de discurso que contienen frases coincidentes y nos suenan igual pueden diferir ligeramente cuando se digitalizan. Luego acabarán en el diccionario en forma de frases diferentes, que no darán la compresión esperada. Por tanto, los métodos de diccionario no son muy adecuados para la compresión de audio.

Es posible lograr mejores resultados al comprimir sonido con pérdida de cierta información de audio desarrollando métodos de compresión que tengan en cuenta las peculiaridades de la percepción del sonido. Eliminan la parte de los datos que permanece inaudible para los órganos auditivos. Esto es similar a comprimir imágenes, descartando información que no es visible al ojo. En ambos casos partimos de que la información original (imagen o sonido) es analógica, es decir, parte de la información ya se ha perdido durante la cuantificación y digitalización. Si permites algo más de pérdida, haciéndolo con cuidado, esto no afectará a la calidad de reproducción del sonido descomprimido, que no diferirá mucho del original. Describiremos brevemente dos enfoques llamados supresión de pausa y condensación.

La idea detrás de la supresión silenciosa es tratar muestras pequeñas como si no estuvieran allí (es decir, son cero). Esta anulación producirá una serie de ceros, por lo que el método de supresión de silencio es en realidad una variante de RLE adaptada a la compresión de audio. Este método se basa en la peculiaridad de la percepción del sonido, que consiste en la tolerancia del oído humano a rechazar sonidos apenas audibles. Los archivos de audio que contienen largas secciones de audio silencioso se comprimirán mejor mediante la supresión silenciosa que los archivos llenos de sonidos fuertes. Este método requiere la participación del usuario, quien controlará los parámetros que fijan el umbral de volumen de las muestras. En este caso, se requieren dos parámetros más; no necesariamente están controlados por el usuario. Un parámetro se utiliza para determinar las secuencias más cortas de muestras silenciosas, generalmente 2 o 3. Y el segundo especifica el número más pequeño de muestras ruidosas consecutivas, al aparecer el silencio o la pausa. Por ejemplo, 15 muestras silenciosas podrían ir seguidas de 2 fuertes y luego 13 silenciosas, lo que se definiría como una pausa grande de longitud 30, y una secuencia similar de 15, 3 y 12 muestras se convertiría en dos pausas con un sonido corto. entre.

La compactación se basa en la propiedad de que el oído distingue mejor los cambios en la amplitud de los sonidos suaves que los fuertes. Una tarjeta de sonido de computadora típica, ADC, utiliza conversión lineal al convertir el voltaje a forma numérica. Si la amplitud se convirtió en un número, entonces la amplitud se convertirá en un número. El método de compresión basado en compactación primero analiza cada muestra de un archivo de audio y le aplica una función no lineal para reducir la cantidad de bits asignados a esa muestra. Por ejemplo, con muestras de 16 bits, un codificador comprimido puede utilizar la siguiente fórmula sencilla

(6.1)

para acortar cada muestra. Esta fórmula asigna de forma no lineal muestras de 16 bits a números de intervalo de 15 bits, donde las muestras pequeñas (silenciosas) están menos sujetas a distorsión que las muestras grandes (ruidosas). Mesa La figura 6.7 ilustra la no linealidad de esta función. Muestra 8 pares de muestras, y en cada par la diferencia entre las muestras es 100. Para el primer par, la diferencia entre sus imágenes es 34 y la diferencia entre las imágenes del último par (en voz alta) es 65. El convertido Los números de 15 bits se pueden reducir a las muestras originales de 16 bits usando la fórmula inversa

. (6.2)

Diferencia

Diferencia

Mesa 6.7. Mapeo de muestras de 16 bits a números de 15 bits.

Reducir muestras de 16 bits a números de 15 bits no proporciona una compresión significativa. Se obtiene una mejor compresión si en las fórmulas (6.1) y (6.2) reemplazamos el número 32767 por uno más pequeño. Por ejemplo, si tomamos el número 127, las muestras de 16 bits se representarán mediante números de 8 bits, es decir, el factor de compresión será 0,5. Sin embargo, la decodificación será menos precisa. La muestra 60100 se asignará al número 113, y al decodificar usando la fórmula (6.2), la muestra será 60172. Y la pequeña muestra de 16 bits 1000 se asignará a 1,35, que después del redondeo dará 1. Al decodificar el número 1, el resultado será 742, que es muy diferente de la muestra original. Aquí, la relación de compresión puede ser un parámetro especificado directamente por el usuario. Este es un ejemplo interesante de un método de compresión en el que la relación de compresión se conoce de antemano.

En la práctica, no es necesario hacer referencia a las ecuaciones (6.1) y (6.2), ya que el resultado del mapeo se puede preparar de antemano en forma de tabla. Entonces, tanto la codificación como la decodificación se realizarán rápidamente.

La compactación no está limitada por las ecuaciones (6.1) y (6.2). Los métodos más sofisticados, como -rule y -rule, se utilizan ampliamente en la práctica y están incluidos en muchos estándares de compresión internacionales.




Arriba