El tamaño de una grabación de tres horas es de 192 kbps. ¿Qué son las tasas de bits? ¿Cómo afectan la calidad de la música y el vídeo? Tasa de bits óptima en diferentes condiciones de escucha

Desmentiendo mitos populares sobre el audio digital.

2017-10-01T15:27

2017-10-01T15:27

Software para audiófilos

Nota: Para comprender mejor el texto siguiente, le recomiendo que se familiarice con los conceptos básicos del audio digital.

Además, muchos de los puntos que se plantean a continuación se tratan en mi publicación “Una vez más sobre la triste verdad: ¿de dónde viene realmente el buen sonido?” .

Cuanto mayor sea la tasa de bits, mejor será la calidad de la pista.

Este no es siempre el caso. Primero, déjame recordarte qué es bitray. t(tasa de bits, no bitraid). En realidad, esta es la velocidad de datos en kilobits por segundo durante la reproducción. Es decir, si tomamos el tamaño de una pista en kilobits y lo dividimos por su duración en segundos, obtenemos su tasa de bits, la llamada. La tasa de bits basada en archivos (FBR), generalmente no es muy diferente de la tasa de bits de la transmisión de audio (la razón de las diferencias es la presencia de metadatos en la pista: etiquetas, imágenes incrustadas, etc.).

Ahora tomemos un ejemplo: la tasa de bits de audio PCM sin comprimir grabado en un CD de audio normal se calcula de la siguiente manera: 2 (canales) × 16 (bits por muestra) × 44100 (muestras por segundo) = 1411200 (bps) = 1411,2 kbps. Ahora tomemos y comprimamos la pista con cualquier códec sin pérdidas (“lossless” - “lossless”, es decir, uno que no provoque pérdida de información), por ejemplo el códec FLAC. Como resultado, obtendremos una tasa de bits más baja que la original, pero la calidad permanecerá sin cambios; aquí está su primera refutación.

Hay una cosa más que vale la pena agregar aquí. La tasa de bits de salida con compresión sin pérdidas puede ser muy diferente (pero, por regla general, es menor que la del audio sin comprimir); esto depende de la complejidad de la señal comprimida o, más precisamente, de la redundancia de datos. Por lo tanto, las señales más simples se comprimirán mejor (es decir, tenemos un tamaño de archivo más pequeño para la misma duración => tasa de bits más baja), y las más complejas se comprimirán peor. Esta es la razón por la que la música clásica sin pérdidas tiene una tasa de bits más baja que, por ejemplo, el rock. Pero hay que destacar que la tasa de bits no es en ningún caso un indicador de la calidad del material de audio.

Ahora hablemos de compresión con pérdida. En primer lugar, debe comprender que existen muchos codificadores y formatos diferentes, e incluso dentro del mismo formato, la calidad de codificación de diferentes codificadores puede diferir (por ejemplo, QuickTime AAC codifica mucho mejor que el obsoleto FAAC), sin mencionar la superioridad de los formatos modernos (OGG Vorbis, AAC, Opus) sobre MP3. En pocas palabras, de dos pistas idénticas codificadas por codificadores diferentes con la misma tasa de bits, una sonará mejor y otra sonará peor.

Además, existe tal cosa como sobre sobre. Es decir, puedes tomar una pista en formato MP3 con una tasa de bits de 96 kbps y convertirla a MP3 de 320 kbps. La calidad no sólo no mejorará (después de todo, los datos perdidos durante la codificación anterior de 96 kbit/s no se pueden recuperar), sino que incluso empeorará. Vale la pena señalar aquí que en cada etapa de la codificación con pérdida (con cualquier tasa de bits y cualquier codificador), se introduce una cierta cantidad de distorsión en el audio.

Y aún más. Hay un matiz más. Si, digamos, la tasa de bits de una transmisión de audio es de 320 kbps, esto no significa que los 320 kbps se hayan gastado en codificar ese mismo segundo. Esto es típico de la codificación con una tasa de bits constante y para aquellos casos en los que una persona, con la esperanza de obtener la máxima calidad, fuerza la tasa de bits constante a ser demasiado alta (por ejemplo, configurando CBR de 512 kbps para Nero AAC). Como es sabido, el número de bits asignados a una determinada trama está regulado por un modelo psicoacústico. Pero en el caso de que la cantidad asignada sea mucho menor que la tasa de bits establecida, ni siquiera el depósito de bits se guarda (lea sobre los términos en el artículo "¿Qué son CBR, ABR, VBR?"); como resultado, nos volvemos inútiles. “cero bits” que simplemente “terminan” » el tamaño del marco al tamaño deseado (es decir, aumentan el tamaño del flujo al especificado). Por cierto, esto es fácil de comprobar: comprima el archivo resultante con un archivador (preferiblemente 7z) y observe la relación de compresión: cuanto mayor es, más bits cero (ya que conducen a redundancia) y más espacio se desperdicia.

Los códecs con pérdida (MP3 y otros) pueden hacer frente a la música electrónica moderna, pero no son capaces de codificar de alta calidad música clásica (académica), en vivo e instrumental.

La “ironía del destino” aquí es que en realidad todo es exactamente al revés. Como es sabido, la música académica en la gran mayoría de los casos sigue principios melódicos y armónicos, así como la composición instrumental. Desde un punto de vista matemático, esto da como resultado una composición musical armónica relativamente simple. Así, el predominio de las consonancias produce un menor número de armónicos secundarios: por ejemplo, para una quinta (un intervalo en el que las frecuencias fundamentales de dos sonidos difieren una vez y media), cada segundo armónico será común a los dos sonidos. , para un cuarto, donde las frecuencias difieren en un tercio, cada tercio, etc. Además, la presencia de relaciones de frecuencia fijas, debido al uso de temperamento igual, también simplifica la composición espectral de la música clásica. La composición instrumental en vivo de los clásicos está determinada por la ausencia de ruido característico de la música electrónica, distorsión, saltos bruscos de amplitud, así como la ausencia de un exceso de componentes de alta frecuencia.

Los factores enumerados anteriormente llevan al hecho de que la música clásica es mucho más fácil de comprimir, en primer lugar, de forma puramente matemática. Si recuerdas, la compresión matemática funciona eliminando la redundancia (describiendo piezas de información similares usando menos bits) y también haciendo predicciones (también conocidas como. predictores predecir el comportamiento de la señal, y luego solo se codifica la desviación de la señal real de la predicha; cuanto más exactamente coincidan, menos bits se necesitarán para la codificación). En este caso, la composición espectral y la armonía relativamente simples conducen a una alta redundancia, cuya eliminación proporciona un grado significativo de compresión, y un pequeño número de ráfagas y componentes de ruido (que son señales aleatorias e impredecibles) determina una buena previsibilidad matemática de la gran mayoría de información. Y ni siquiera me refiero al volumen promedio relativamente bajo de las pistas clásicas y los frecuentes intervalos de silencio, para los cuales prácticamente no se requiere información para codificar. Como resultado, podemos comprimir sin pérdidas, por ejemplo, música instrumental solista a velocidades de bits inferiores a 320 kbps (los codificadores TAK y OFR son bastante capaces de hacer esto).

Entonces, en primer lugar, el hecho es que la compresión matemática subyacente a la codificación sin pérdidas es también una de las etapas de la codificación con pérdidas (lea Comprender la codificación MP3). Y en segundo lugar, dado que lossy utiliza la transformada de Fourier (descomposición de la señal en armónicos), la simplicidad de la composición espectral incluso facilita doblemente el trabajo del codificador. Como resultado, al comparar las muestras de música clásica original y codificada en una prueba a ciegas, nos sorprende descubrir que no podemos encontrar ninguna diferencia, incluso a una tasa de bits relativamente baja. Y lo curioso es que cuando empezamos a bajar por completo el bitrate de codificación, lo primero que revela diferencias es el ruido de fondo en la grabación.

En cuanto a la música electrónica, a los codificadores les resulta muy difícil: los componentes de ruido tienen una redundancia mínima y, junto con los saltos bruscos (una especie de pulsos en dientes de sierra), son señales extremadamente impredecibles (para los codificadores que están "adaptados" a sonidos naturales que se comportan completamente diferente), la transformada directa e inversa de Fourier con el rechazo de los armónicos individuales por el modelo psicoacústico produce inevitablemente efectos pre y post eco, cuya audibilidad no siempre es fácil de evaluar para el codificador... A esto se suma el alto nivel de componentes HF, y obtienes una gran cantidad de muestras excelentes, que incluso los codificadores más avanzados no pueden manejar a velocidades de bits medias-bajas, por extraño que parezca, especialmente entre la música electrónica.

También son divertidas las opiniones de "oyentes experimentados" y músicos que, con una total falta de comprensión de los principios de la codificación con pérdidas, comienzan a afirmar que escuchan cómo los instrumentos de la música después de la codificación comienzan a desafinarse, las frecuencias flotan. , etc. Esto podría seguir siendo cierto para los reproductores de casetes antediluvianos con detonación, pero en el audio digital todo es exacto: el componente de frecuencia permanece o se descarta, simplemente no hay necesidad de cambiar la tonalidad. Además: la presencia de oído musical en una persona no significa en absoluto que tenga una buena audición de frecuencias (por ejemplo, la capacidad de percibir frecuencias >16 kHz, que desaparece con la edad) y no le facilita en absoluto busque artefactos de codificación con pérdida, ya que la distorsión tiene un carácter muy específico y requiere la experiencia de una comparación ciega de audio con pérdida; necesita saber qué y dónde buscar.

DVD-Audio suena mejor que Audio CD (24 bits frente a 16, 96 kHz frente a 44,1, etc.)

Desafortunadamente, la gente suele mirar sólo los números y muy rara vez piensa en el impacto de un parámetro particular en la calidad objetiva.

Consideremos primero la profundidad de bits. Este parámetro no es responsable más que del rango dinámico, es decir, de la diferencia entre los sonidos más bajos y más fuertes (en dB). En audio digital, el nivel máximo es 0 dBFS (FS - escala completa) y el mínimo está limitado por el nivel de ruido, es decir, de hecho, el rango dinámico en valor absoluto es igual al nivel de ruido. Para audio de 16 bits, el rango dinámico se calcula como 20 × log 10 2 16, lo que equivale a 96,33 vB. Al mismo tiempo, el rango dinámico de una orquesta sinfónica es de hasta 75 dB (normalmente entre 40 y 50 dB).

Ahora imaginemos las condiciones reales. El nivel de ruido en la habitación es de unos 40 dB (no olvide que dB es un valor relativo. En este caso, el umbral de audibilidad se toma como 0 dB), el volumen máximo de la música alcanza los 110 dB (para evitar molestias). obtener una diferencia de 70 dB. Por tanto, resulta que un rango dinámico de más de 70 dB en este caso es simplemente inútil. Es decir, en un rango más alto, los sonidos fuertes alcanzarán el umbral del dolor o los sonidos suaves serán absorbidos por el ruido circundante. Es muy difícil lograr un nivel de ruido ambiental inferior a 15 dB (ya que el volumen de la respiración humana y otros ruidos causados ​​por la fisiología humana se encuentra en este nivel), como resultado, se obtiene un rango de 95 dB para escuchar música. ser completamente suficiente.

Ahora sobre la frecuencia de muestreo (frecuencia de muestreo, frecuencia de muestreo). Este parámetro controla la frecuencia de muestreo de tiempo y afecta directamente la frecuencia máxima de la señal que puede ser descrita por una representación de audio determinada. Según el teorema de Kotelnikov, es igual a la mitad de la frecuencia de muestreo. Es decir, para la frecuencia de muestreo habitual de 44100 Hz, la frecuencia máxima de los componentes de la señal es 22050 Hz. La frecuencia máxima. que percibe el oído humano es ligeramente superior a 20.000 Hz (y luego al nacer; a medida que envejecemos, el umbral desciende a 16.000 Hz).

Este tema se trata mejor en el artículo Descargas en formato 24/192: por qué no tienen sentido.

Los diferentes reproductores de software suenan diferente (por ejemplo, foobar2000 es mejor que Winamp, etc.)

Para comprender por qué este no es el caso, es necesario comprender qué es un reproductor de software. Básicamente, se trata de un decodificador, controladores (opcional), un complemento de salida (para una de las interfaces: ASIO, DirectSound, WASAPI, etc.) y, por supuesto, la GUI (interfaz gráfica de usuario). Dado que el decodificador en el 99,9% de los casos funciona según un algoritmo estándar y el complemento de salida es solo una parte del programa que transmite la transmisión a la tarjeta de sonido a través de una de las interfaces, la única razón de las diferencias pueden ser los controladores. Pero el hecho es que los controladores generalmente están desactivados de forma predeterminada (o deberían desactivarse, ya que lo principal para un buen jugador es poder transmitir el sonido en su forma "prístina"). Por lo tanto, el único objeto de comparación aquí puede ser posibilidades procesamiento y salida, que, por cierto, muchas veces no son necesarios en absoluto. Pero incluso si existe tal necesidad, entonces esta es una comparación de procesadores y no de reproductores.

Diferentes versiones de controladores suenan diferentes

Esta afirmación se basa en un desconocimiento banal de los principios de funcionamiento de una tarjeta de sonido. Un controlador es un software necesario para la interacción efectiva de un dispositivo con el sistema operativo y, por lo general, también proporciona una interfaz gráfica de usuario para poder administrar el dispositivo, sus parámetros, etc. Un controlador de tarjeta de sonido garantiza que la tarjeta de sonido sea reconocida como un sistema Windows. dispositivo de sonido, informa al sistema operativo sobre qué formatos admite la tarjeta, proporciona transmisión de una secuencia PCM sin comprimir (en la mayoría de los casos) a la tarjeta y también brinda acceso a la configuración. Además, si hay procesamiento de software (utilizando herramientas de CPU), el controlador puede contener varios DSP (procesadores). Por lo tanto, en primer lugar, con los efectos y el procesamiento desactivados, si el controlador no proporciona una transmisión PCM precisa a la tarjeta, esto se considera un error grave, un error crítico. y esto sucede casi nunca. Por otro lado, las diferencias entre los controladores pueden estar en la actualización de los algoritmos de procesamiento (resamplers, efectos), aunque esto tampoco sucede con frecuencia. Además, para lograr la máxima calidad, se deben excluir los efectos y cualquier procesamiento de controladores.

Así, las actualizaciones de controladores se centran principalmente en mejorar la estabilidad y eliminar errores de procesamiento. Ni lo uno ni lo otro en nuestro caso afectan la calidad de la reproducción, por lo que en 999 de cada 1000 casos el controlador no tiene ningún efecto sobre el sonido.

Los CD de audio con licencia suenan mejor que sus copias

Si no se produjeron errores (fatales) de lectura/escritura durante la copia y la unidad óptica del dispositivo en el que se reproducirá el disco de copia no tiene problemas para leerlo, entonces esta afirmación es errónea y fácilmente refutable.

El modo de codificación estéreo ofrece mejor calidad que Joint Stereo

Esta idea errónea se refiere principalmente a LAME MP3, ya que todos los codificadores modernos (AAC, Vorbis, Musepack) utilizan solo Modo Joint Stereo (y esto ya dice algo)

Para empezar, cabe mencionar que el modo Joint Stereo se utiliza con éxito con compresión sin pérdidas. Su esencia radica en el hecho de que antes de codificar la señal se descompone en la suma de los canales derecho e izquierdo (medio) y su diferencia (lateral), y luego se produce una codificación separada de estas señales. En el límite (para la misma información en los canales derecho e izquierdo) se obtiene el doble de ahorro de datos. Y dado que en la mayoría de la música la información en los canales derecho e izquierdo es bastante similar, este método resulta muy efectivo y le permite aumentar significativamente la relación de compresión.

En caso de pérdida, el principio es el mismo. Pero aquí, en el modo de tasa de bits constante, la calidad de los fragmentos con información similar en dos canales aumentará (en el límite, el doble), y para el modo VBR en esos lugares la tasa de bits simplemente disminuirá (no olvide que la tarea principal del modo VBR es mantener establemente la calidad de codificación especificada, utilizando la tasa de bits más baja posible). Dado que durante la codificación con pérdida, se da prioridad (al distribuir bits) a la suma de canales, para evitar el deterioro del panorama estéreo, la conmutación dinámica entre estéreo conjunto (medio/lateral) y estéreo basado en cuadros normal (izquierdo/derecho) Se utilizan modos. Por cierto, la razón de este error fue la imperfección del algoritmo de conmutación en las versiones anteriores de LAME, así como la presencia del modo de articulación forzada, en el que no hay conmutación automática. En las últimas versiones de LAME, el modo Conjunto está habilitado de forma predeterminada y no se recomienda cambiarlo.

Cuanto más amplio sea el espectro, mejor será la calidad de la grabación (sobre espectrogramas, auCDtect y rango de frecuencia)

Hoy en día, lamentablemente, en los foros es muy común medir la calidad de una pista “con una regla usando un espectrograma”. Evidentemente, por la sencillez de este método. Pero, como muestra la práctica, en realidad todo es mucho más complicado.

Y aquí está la cosa. El espectrograma demuestra visualmente la distribución de la potencia de la señal en frecuencias, pero no puede dar una imagen completa del sonido de la grabación, la presencia de distorsiones y artefactos de compresión en ella. Es decir, básicamente todo lo que se puede determinar a partir del espectrograma es el rango de frecuencia (y en parte la densidad espectral en la región de HF). Es decir, en el mejor de los casos, al analizar el espectrograma, se puede identificar una conversión ascendente. Comparar espectrogramas de pistas obtenidos codificando con diferentes codificadores con el original es un completo absurdo. Sí, se pueden identificar diferencias en el espectro, pero determinar si (y en qué medida) serán percibidas por el oído humano es casi imposible. No debemos olvidar que la tarea de la codificación con pérdidas es garantizar un resultado indistinguible. oído humano del original (no a simple vista).

Lo mismo se aplica a la evaluación de la calidad de la codificación mediante el análisis de las pistas de salida con el programa auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect; estos son solo shells para el programa de consola único en su tipo auCDtect). El algoritmo auCDtect también analiza el rango de frecuencia y solo le permite determinar (con un cierto grado de probabilidad) si se aplicó compresión MPEG en alguna de las etapas de codificación. El algoritmo está diseñado para MP3, por lo que es fácil "engañarlo" con la ayuda de los códecs Vorbis, AAC y Musepack, por lo que incluso si el programa escribe "100% CDDA", esto no significa que el audio codificado sea 100%. idéntico al original.

Y volviendo directamente a los espectros. También existe un deseo popular entre algunos "entusiastas" de desactivar el filtro de paso bajo en el codificador LAME a toda costa. Existe una clara falta de comprensión de los principios de la codificación y la psicoacústica. Primero, el codificador corta las frecuencias altas con un solo propósito: guardar datos y usarlos para codificar el rango de frecuencia más audible. El rango de frecuencia extendido puede tener un impacto fatal en la calidad general del sonido y provocar artefactos de codificación audibles. Además, desactivar el corte a 20 kHz generalmente está completamente injustificado, ya que una persona simplemente no puede escuchar frecuencias más altas.

Hay un cierto ajuste preestablecido de ecualizador "mágico" que puede mejorar significativamente el sonido.

Esto no es del todo cierto, en primer lugar, porque cada configuración individual (auriculares, acústica, tarjeta de sonido) tiene sus propios parámetros (en particular, su propia respuesta amplitud-frecuencia). Y por lo tanto, cada configuración debe tener su propio enfoque único. En pocas palabras, existe un ajuste preestablecido de ecualizador de este tipo, pero difiere según las diferentes configuraciones. Su esencia radica en ajustar la respuesta de frecuencia de la ruta, es decir, en "nivelar" caídas y sobretensiones no deseadas.

Además, entre las personas que no trabajan directamente con el sonido, es muy popular configurar un ecualizador gráfico con un "tick", lo que en realidad representa un aumento en el nivel de los componentes de baja y alta frecuencia, pero al mismo tiempo conduce a una amortiguación. de voces e instrumentos, cuyo espectro sonoro se sitúa en la región de frecuencias medias.

Antes de convertir música a otro formato, debes descomprimirla a WAV

Permítanme señalar de inmediato que WAV significa datos PCM (modulación de código de pulso) en el contenedor WAVE (archivo con extensión *.wav). Estos datos no son más que una secuencia de bits (ceros y unos) en grupos de 16, 24 o 32 (dependiendo de la profundidad de bits), cada uno de los cuales representa el código binario de la amplitud de la muestra correspondiente (por ejemplo, para 16 bits en notación decimal (son valores de -32768 a +32768).

Entonces, el hecho es que cualquier procesador de sonido, ya sea un filtro o un codificador, generalmente funciona solo con estos valores, es decir solo con datos sin comprimir. Esto significa que para convertir audio de, digamos, FLAC a APE, simplemente necesario Primero decodifique FLAC a PCM y luego codifique PCM a APE. Es como volver a empaquetar archivos de ZIP a RAR, primero debes descomprimir el ZIP.

Sin embargo, si utiliza un conversor o simplemente un codificador de consola avanzado, la conversión intermedia a PCM se produce sobre la marcha, a veces sin siquiera escribir en un archivo WAV temporal. Esto es lo que engaña a la gente: parece que los formatos se convierten directamente de uno a otro, pero en realidad un programa de este tipo debe tener un decodificador de formato de entrada que realice una conversión intermedia a PCM.

Por lo tanto, la conversión manual a WAV no le supondrá más que una pérdida de tiempo.

La marcha triunfal del formato de grabación de audio MPEG-1 Layer 3 (coloquialmente conocido como MP3) se explica porque propuso una forma sencilla y eficaz de comprimir archivos de audio, permitiendo almacenar hasta 12 horas de música en calidad aceptable. en un disco CD-ROM estándar.

En pocas palabras, el algoritmo MPEG-1 Layer 3 se basa en el método de compresión "psicoacústica", cuando las frecuencias y los niveles de volumen que no son perceptibles para el oído se excluyen de los sonidos del espectro. El espectro "purificado" de esta manera se divide en bloques separados (tramas) de la misma duración y se comprime de acuerdo con los requisitos especificados. Durante la reproducción, la señal se forma a partir de una secuencia de fotogramas decodificados.

El grado de compresión depende de los parámetros del flujo de audio que se debe obtener en la salida después de decodificar el archivo.

El principal parámetro que determina la calidad del sonido y la relación de compresión es el llamado (qué es) tasa de bits- ancho de banda, medido en bits por segundo.

Cuanto mayor sea este indicador, mejor será la calidad del sonido y menor será la relación de compresión. Dado que casi todos los archivos MP3 se graban en modo estéreo con una frecuencia de codificación de 44 KHz y una profundidad de 16 bits, los factores determinantes para un sonido claro son: la fuente de grabación, el códec utilizado y la tasa de bits seleccionada.

La palabra códec se forma combinando las palabras codificador + decodificador. Este es un módulo de software que le permite codificar o decodificar archivos de audio o video de acuerdo con su propio algoritmo.

El valor de transmisión promedio de 256 Kbps proporciona una relación de compresión de aproximadamente 6:1; para otros valores la relación de compresión varía proporcionalmente. Por lo tanto, con una velocidad de 256 Kbps, puede grabar música de seis CD de audio normales en un CD y con una velocidad de 128 Kbps, de doce discos de música normales.

Existe un debate interminable entre aficionados y profesionales sobre la tasa de bits que proporciona una buena calidad de sonido correspondiente a la calidad de reproducción de un CD de audio.

Alguno considerarlo suficiente nivel 128 Kbps, otros se conforman solo con el valor de flujo máximo: 320 Kbps. Con toda probabilidad, ambos tienen razón: la única diferencia es qué se graba y en qué condiciones se reproduce.

La tasa de bits a la que se codificó el audio digitalizado suele indicarse en la portada de los CD. Por ejemplo, la colección completa de música de los Beatles se puede comprar en tres discos con una velocidad de bits de 128 Kbps o en seis discos con una velocidad de bits de 256 Kbps.

Está claro que en el segundo caso el precio de compra será el doble, pero la calidad será mejor.

Si reproduce música en un automóvil doméstico, una transmisión de 192 Kbps proporcionará una calidad de sonido suficiente, aún así no escuchará nada mejor debido al ruido extraño; Para escuchar en una computadora o reproductor independiente ( ZLM-player) es aceptable una transmisión de 256 Kbps.

Pero si la señal llega sin cambios a un dispositivo externo y se envía a altavoces de alta calidad, es deseable el flujo máximo posible: 320 Kbps. Según las consideraciones anteriores, una transmisión de 256 Kbit/s puede considerarse universal: con una buena calidad de grabación, proporcionará una reproducción adecuada en la mayoría de los casos.

Para transmitir música a través de Internet, se suele utilizar un tamaño de transmisión de 128 Kbps. Al mismo tiempo, la calidad del sonido "parece" deja mucho que desear.

No tiene sentido grabar música popular con una tasa de bits superior a 192-256 Kbps: las canciones no duran mucho y las grabaciones originales a menudo no son de alta calidad. Después de todo, puedes bailar con un sonido con calidad de cinta.

Los clásicos y las obras originales raras son un asunto completamente diferente. Además, por clásico no nos referimos sólo a Bach o Mozart. Hoy en día, The Beatles, Led, Zeppelin, Vysotsky, Tsoi y muchos otros autores (intérpretes) pueden considerarse clásicos.

Si al comprar un CD no prestó atención al valor de la tasa de bits indicado en el paquete, podrá ver el valor en la línea del reproductor mientras reproduce el archivo.

Tasa de bits (del inglés. tasa de bits) los archivos de audio son la cantidad de bits (unidades de información) que se utilizan para almacenar un segundo de grabación de audio. La unidad de medida más común para la tasa de bits es el kilobit por segundo (Kbps). La tasa de bits es una de las características clave de los archivos multimedia y afecta su calidad y tamaño. Cuanto mayor sea la tasa de bits con la que se grabó la música o el vídeo, mejor será su calidad y más grandes serán los archivos de grabación.

En consecuencia, cambiar la tasa de bits en una dirección u otra puede aumentar o disminuir el tamaño del archivo. Pero con el impacto en la calidad de las grabaciones, todo es un poco más complicado. Si bien disminuir la tasa de bits conduce naturalmente a un deterioro en la calidad del archivo fuente, la operación contraria no afecta la calidad de ninguna manera. Incluso si establece la tasa de bits máxima, la calidad de audio y video de su archivo seguirá siendo la misma.

Como puede ver, no tiene ningún sentido aumentar la tasa de bits de grabación: como resultado, obtendrá un archivo más grande con la misma calidad. Pero es muy posible reducir la tasa de bits para reducir el tamaño de la grabación. ¿Quieres intentar cambiar la tasa de bits de tus canciones o películas? Descargue Movavi Video Converter, un práctico programa con el que puede cambiar fácilmente la tasa de bits de las grabaciones de vídeo y audio, ya sean archivos en los populares formatos MP3, WMA, AVI y MP4 o grabaciones colocadas en contenedores más exóticos. Las instrucciones están escritas utilizando el ejemplo de trabajar con archivos de audio.

1. Instale un programa para cambiar la tasa de bits.

Descargue y ejecute la distribución Movavi Video Converter. Siga las instrucciones en pantalla para instalar el programa. Una vez que se complete la instalación, el convertidor se iniciará automáticamente.

2. Agregar archivos al programa

Clic en el botón Agregar archivos, seleccione un artículo Agregar audio y coloque los archivos necesarios en el programa. El programa admite muchos formatos multimedia, por lo que el formato del archivo de entrada puede ser casi cualquiera. Cambie la tasa de bits de MP3, WMA, AAC y otros archivos de audio. Intente reducir la tasa de bits del video: trabaje con videos en AVI, MP4, DIVX y varios formatos de video HD. ¡El programa le ayudará a afrontar una amplia gama de tareas de conversión de archivos multimedia!

3. Seleccione un formato para guardar

Antes de cambiar la tasa de bits, debe seleccionar el formato en el que se guardarán sus grabaciones de audio. Para hacer esto, haga clic en la pestaña Audio y seleccione el formato apropiado de la lista. Después de haber elegido un formato de audio en particular, haga clic en su nombre y seleccione uno de los valores de tasa de bits disponibles en la lista desplegable (la opción no está disponible para los formatos FLAC, OGG, WAV y M4A). Si no desea cambiar el valor de tasa de bits predeterminado especificado en el perfil seleccionado, puede omitir el siguiente paso y continuar con la conversión.

4. Establezca el valor de tasa de bits deseado

Haga clic en el botón de engranaje a la derecha del campo. Formato de salida. En la lista Tipo de tasa de bits seleccionar

Programa confiable y efectivo para grabar videos en pantalla en HD. Capture videos de programas, transmisiones en línea e incluso conversaciones de Skype y guarde clips en cualquier formato popular, así como para verlos en dispositivos móviles.

La tasa de bits se utiliza generalmente para medir la velocidad de transmisión efectiva de un flujo de datos a través de un canal, es decir, el tamaño mínimo de un canal que puede pasar este flujo sin demoras.

La tasa de bits se expresa en bits por segundo (bit/s, bps), así como cantidades derivadas con los prefijos kilo- (kbit/s, kbps), mega- (Mbit/s, mbps) etc.

Velocidad de datos que utiliza bloques de bits por segundo (símbolo: "bit/s"), que se utiliza a menudo en combinación con prefijos del Sistema Internacional de Medidas (SI), como "kilo" (1 kbit/s = 1024 bit/s), "mega" (1 Mbit/s = 1024 kbit/s), "giga" (1 Gbit/s = 1024 Mbit/s) o "tera" (1 Tbit/s = 1024 Gbit/s). La abreviatura no estándar "bps" se utiliza a menudo para sustituir el símbolo estándar "bit/s", de modo que, por ejemplo, "1 Mbit" se utiliza para representar un millón de bits por segundo. Un byte por segundo (1 B/s) corresponde a 8 bit/s.

Características

En los formatos de transmisión de video y audio (como MPEG y MP3) que usan compresión con pérdida, el parámetro de tasa de bits expresa el grado de compresión de la transmisión y, por lo tanto, determina el tamaño del canal para el cual se comprime la secuencia de datos. La mayoría de las veces, las tasas de bits de audio y vídeo se miden en kilobits por segundo. kilobits por segundo, kbps), con menos frecuencia, en megabits por segundo (solo para video).

Hay tres modos de compresión para la transmisión de datos:

  • CBR(Inglés) Velocidad de bits constante) - con una tasa de bits constante;
  • VBR(Inglés) Velocidad de bits variable) - con tasa de bits variable;
  • ABR(Inglés) Tasa de bits promedio) - con una tasa de bits promedio.

Tasa de transferencia de información

La velocidad de bits neta de la capa física, la velocidad de bits de información, la frecuencia de carga útil, la frecuencia de carga útil, la velocidad de bits neta, la velocidad de bits de transmisión codificada, la velocidad de bits efectiva o la velocidad de alimentación de cable (lenguaje informal) de un canal de comunicación digital es la capacidad sin tener en cuenta la capa física protocolo de superposición de capas, para un ejemplo múltiplex, bits de entramado de modelado de división de tiempo (TDM), códigos reservados de corrección de errores directos (FEC), ecualizador de símbolos de entrenamiento y otra codificación de canal. Los códigos anti-interferencias son comunes, especialmente en sistemas de comunicación inalámbrica, estándares de módem de banda ancha o redes de área local modernas de cobre de alta velocidad. La tasa de bits pura de la capa física es la tasa de datos medida en un punto de referencia en la interfaz entre la capa de enlace y la capa física y, por lo tanto, puede incluir la línea de datos así como la capa de carga.

En módems y sistemas inalámbricos, a menudo se utiliza la adaptación de enlace (adaptación automática de la velocidad de datos y errores de modulación y/o esquema de codificación, calidad de la señal). En este contexto, el término tasa de bits máxima significa la tasa de bits pura del modo de transmisión más rápido y menos confiable, utilizado por ejemplo [cuando la distancia es muy corta] entre el emisor y el transmisor. Algunos sistemas operativos y equipos de red pueden detectar la "velocidad de enlace" (lenguaje informal) de una tecnología de acceso a la red o un dispositivo de comunicación en particular, lo que sugiere la velocidad neta de transferencia de datos actual. Cabe señalar que el término velocidad de línea se define en algunos libros de texto como la tasa de bits bruta y en otros como la tasa de bits neta.

La relación entre la tasa de bits agregada y la tasa de datos neta depende de la tasa de código FEC de acuerdo con lo siguiente.

Velocidad de bits constante

Velocidad de bits constante- una variante de codificación de datos de transmisión, en la que el usuario establece inicialmente la tasa de bits requerida, que no cambia a lo largo de todo el archivo.

Su principal ventaja es la capacidad de predecir con bastante precisión el tamaño del archivo final.

Sin embargo, la opción de tasa de bits constante no es muy adecuada para obras musicales cuyo sonido cambia dinámicamente con el tiempo, ya que no proporciona una relación tamaño/calidad óptima.

tasa de bits variable

CON tasa de bits variable El códec selecciona el valor de la tasa de bits en función de los parámetros (nivel de calidad deseado) y la tasa de bits puede cambiar durante el fragmento codificado. Al comprimir audio, la tasa de bits requerida se determina basándose en un modelo psicoacústico. Este método proporciona la mejor relación calidad/tamaño del archivo de salida, pero su tamaño exacto es muy difícil de predecir. Dependiendo de la naturaleza del sonido (o imagen, en el caso de la codificación de video), el tamaño del archivo resultante puede variar varias veces.

Tasa de bits promedio

Tasa de bits promedio es un híbrido de tasas de bits constantes y variables: el valor en kbit/s lo establece el usuario y el programa lo varía dentro de ciertos límites. Sin embargo, a diferencia de VBR, el códec utiliza los valores máximo y mínimo posibles con precaución, sin correr el riesgo de ir más allá del valor promedio especificado por el usuario. Este método le permite configurar la velocidad de procesamiento de manera más flexible (para audio, puede ser cualquier número entre 8 y 320 kbps, frente a múltiplos de 16 en el método CBR) y predecir el tamaño del archivo de salida con mucha mayor precisión (en comparación con VBR). ).

MP3

Formato de compresión de audio con pérdida MP3. La calidad del sonido mejora a medida que aumenta la tasa de bits:

  • 32 kbps: generalmente aceptable solo para voz
  • 96 kbps: normalmente se utiliza para voz de baja calidad o transmisión de audio
  • 128 o 160 kbps: codificación de música básica
  • 192 kbps: calidad de codificación de música aceptable
  • 256 kbps: codificación de música de alta calidad
  • 320 kbps: la calidad de codificación más alta admitida por el estándar MP3

Otros audios

  • 700 bps es la tasa de bits más baja utilizada por el códec de voz Codec2 de código abierto; la voz es apenas reconocible, la tasa de bits de 1,2 kbps proporciona un sonido mucho mejor
  • 800 bps: el nivel mínimo requerido para el reconocimiento de voz, utilizado en los códecs de voz especializados FS-1015
  • 2,15 kbps: tasa de bits mínima del códec Speex de código abierto
  • 6 kbps: tasa de bits mínima del códec Opus de código abierto
  • 8 kbps: audio con calidad telefónica utilizando códecs de voz
  • - formato de audio digital de alta calidad en DVD. DVD-Audio no está diseñado para vídeo y no es lo mismo que los discos de vídeo.

Aquí veremos cómo elegir la tasa de bits adecuada para su transmisión por Internet. Y entonces, Bitrate es la calidad del video. Cuanto más alto sea, mayor será la calidad. Si haces una transmisión de alta calidad con una imagen excelente, entonces solo necesitas aumentar la tasa de bits y ¿listo? No importa cómo sea. La transmisión se realiza en línea, por lo que toda esta alta tasa de bits ocupa el canal de Internet y será imposible verla. Por lo tanto, debe considerar las capacidades de su Internet y de la Internet de su audiencia. No todo el mundo tiene instalada fibra óptica. Por lo tanto, no se recomienda establecer la tasa de bits por encima de 2 Mbit/s.

La segunda cosa a la que vale la pena prestar atención es la llamada relación bit/píxel. Esta fórmula parece simple:

bits/(píxeles*fotogramas)

¿Qué significa esta fórmula? Digamos que codificamos una transmisión con una resolución de 100 px x 100 px, a 25 fps (cuadros por segundo) y configuramos la tasa de bits en 250 kbps (kilobits por segundo). Así, para un segundo de vídeo de 10.000 píxeles (cien veces cien), se asignan 25 fotogramas y 250 kilobits. La salida es de 10 kilobits (10000 bits) por cada cuadro (250/25). Dividimos los bits asignados por cuadro por el tamaño en píxeles (obtenemos la relación bits/píxel), cuánta información se asigna para "codificar" un píxel.

Cuanta más información se resalte, mayor será la calidad.

En nuestro ejemplo, la relación bit/píxel es: (10.000 bits por cuadro)/(10.000 píxeles) = 1. Esto será demasiado. Se puede obtener una calidad bastante excelente con respecto 0,1 -0,15 . Para nuestro ejemplo, una tasa de bits de ~32-35 kbps sería suficiente.

Calculemos las proporciones aproximadas de bits/píxeles para las resoluciones más comunes:

720p: 1280×720 píxeles:

  • Velocidad de bits 1500 kbps - 1500000/((1280*720)*25) = 1500000/23040000 = 0,065
  • Velocidad de bits 2500 kbps - 2500000/((1280*720)*25) = 2500000/23040000 = 0,109
  • Velocidad de bits 3500 kbps - 3500000/((1280*720)*25) = 3500000/23040000 = 0,152

1080p: 1920×1080 píxeles:

  • Velocidad de bits 1500 kbps - 1500000/((1920*1080)*25) = 1500000/51840000= 0,029 ( Como puede ver, la calidad con la misma tasa de bits será aproximadamente 2,5 veces peor, por lo que 1080p requiere una tasa de bits más alta que 720p.)
  • Velocidad de bits 5000 kbps - 5000000/((1920*1080)*25) = 5000000/23040000 = 0,096
  • Velocidad de bits 7500 kbps - 7500000/((1920*1080)*25) = 7500000/23040000 = 0,145
  • Velocidad de bits 10000 kbps - 10000000/((1920*1080)*25) = 10000000/23040000 = 0,192

¿Qué conclusiones se pueden sacar? En primer lugar, y esto es lo principal, si no puedes proporcionar la resolución con la tasa de bits necesaria, no te molestes en hacer streaming. ¿Aún quieres transmitir? Reduzca la resolución o los fps. Aumente los bits/píxel a al menos 0,075-0,1, o mejor aún, más.

Calidad

Permiso

Bitrate de vídeo,kbps

tasa de bits de audio,kbps

FPS FPS

Códec de vídeo

h.264perfil

Códec de audio

Canal de audio

240 pag(426 x 240)

400 (300-700)

A.A.C. o MP3

270p(480x270)

400 (300-700)

A.A.C. o MP3

360p(640x360)

750 (400-1000)

A.A.C. o MP3

480p(854x480)

1000 (500-2000)

A.A.C. o MP3

540p(960x540)

1000 (800 - 2000)

A.A.C. o MP3

Mono o
Estéreo

720p(1280x720)

2500 (1560-4000)

A.A.C. o MP3

Mono o
Estéreo

720p(1280x720)

3800 (2500-6000)

A.A.C. o MP3

Mono o
Estéreo

1080p(1920x1080)

4500 (3000-6000)

A.A.C. o MP3

Mono o
Estéreo

1080p(1920x1080)

6800 (4500-9000)

A.A.C. o MP3

Mono o
Estéreo

1440p)(2560x1440)

9000 (6000-13000)

A.A.C. o MP3

Mono o
Estéreo

1440p(2560x1440)

13000 (9000-18000)

A.A.C. o MP3

Mono o
Estéreo

4K/2160р(3840x2106)

23000 (13000-34000)

A.A.C. o MP3

Mono o
Estéreo

4K/2160р(3840x2106)

35000 (20000-51000)

A.A.C. o MP3

Mono o
Estéreo



Inicio / Instrucciones / Seleccionar la tasa de bits para la transmisión

Nota: Para comprender mejor el texto siguiente, le recomiendo que se familiarice con los conceptos básicos del audio digital.

    S: Cuanto mayor sea la tasa de bits, mejor será la calidad de la pista.

    R: No siempre es así. Primero, déjame recordarte qué es bitray. t(tasa de bits, no bitraid). En realidad, esta es la velocidad de datos en kilobits por segundo durante la reproducción. Es decir, si tomamos el tamaño de una pista en kilobits y lo dividimos por su duración en segundos, obtenemos su tasa de bits, la llamada. La tasa de bits basada en archivos (FBR), generalmente no es muy diferente de la tasa de bits de la transmisión de audio (la razón de las diferencias es la presencia de metadatos en la pista: etiquetas, imágenes incrustadas, etc.).

    Ahora tomemos un ejemplo: la tasa de bits de audio PCM sin comprimir grabado en un CD de audio normal se calcula de la siguiente manera: 2 (canales) * 16 (bits por muestra) * 44100 (muestras por segundo) = 1411200 (bps) = 1411,2 kbps. Ahora tomemos y comprimamos la pista con cualquier códec sin pérdidas (“lossless” - “lossless”, es decir, uno que no provoque la pérdida de ningún dato), por ejemplo el códec FLAC. Como resultado, obtendremos una tasa de bits más baja que la original, pero la calidad permanecerá sin cambios; aquí está su primera refutación.

    Hay una cosa más que vale la pena agregar aquí. La tasa de bits de salida con compresión sin pérdidas puede ser muy diferente (pero, por regla general, es menor que la del audio sin comprimir); esto depende de la complejidad de la señal comprimida o, más precisamente, de la redundancia de datos. Por lo tanto, las señales más simples se comprimirán mejor (es decir, tenemos un tamaño de archivo más pequeño para la misma duración => tasa de bits más baja), y las más complejas se comprimirán peor. Esta es la razón por la que la música clásica sin pérdidas tiene una tasa de bits más baja que, por ejemplo, el rock. Pero hay que destacar que la tasa de bits no es en ningún caso un indicador de la calidad del material de audio.

    Ahora hablemos de compresión con pérdida. Lo primero que debe comprender es que existen muchos codificadores y formatos diferentes, e incluso dentro del mismo formato, la calidad de codificación de diferentes codificadores puede diferir (por ejemplo, QuickTime AAC codifica mucho mejor que el obsoleto FAAC), sin mencionar la superioridad de los formatos modernos (OGG Vorbis, AAC, Opus) sobre MP3. En pocas palabras, de dos pistas idénticas codificadas por codificadores diferentes con la misma tasa de bits, una sonará mejor y otra sonará peor.

    Además, existe tal cosa como sobre sobre. Es decir, puedes tomar una pista en formato MP3 con una tasa de bits de 96 kbps y convertirla a MP3 de 320 kbps. La calidad no sólo no mejorará (después de todo, los datos perdidos durante la codificación anterior de 96 kbit/s no se pueden recuperar), sino que incluso empeorará. Vale la pena señalar aquí que en cada etapa de la codificación con pérdida (con cualquier tasa de bits y cualquier codificador), se introduce una cierta cantidad de distorsión en el audio.

    Y aún más. Hay un matiz más. Si, digamos, la tasa de bits de una transmisión de audio es de 320 kbps, esto no significa que los 320 kbps se hayan gastado en codificar ese mismo segundo. Esto es típico de la codificación con una tasa de bits constante y para aquellos casos en los que una persona, con la esperanza de obtener la máxima calidad, fuerza la tasa de bits constante a ser demasiado alta (por ejemplo, configurando CBR de 512 kbps para Nero AAC). Como es sabido, el número de bits asignados a una determinada trama está regulado por un modelo psicoacústico. Pero en el caso de que la cantidad asignada sea mucho menor que la tasa de bits establecida, ni siquiera el depósito de bits se guarda (lea sobre los términos en el artículo "¿Qué son CBR, ABR, VBR?"); como resultado, nos volvemos inútiles. “cero bits” que simplemente “terminan” » el tamaño del marco al tamaño deseado (es decir, aumentan el tamaño del flujo al especificado). Por cierto, esto es fácil de comprobar: comprima el archivo resultante con un archivador (preferiblemente 7z) y observe la relación de compresión: cuanto mayor es, más bits cero (ya que conducen a redundancia) y más espacio se desperdicia.


    S: DVD-Audio suena mejor que Audio CD (24 bits frente a 16, 96 kHz frente a 44,1, etc.)

    R: En principio, esto es bastante lógico, e incluso en parte cierto, pero la gente suele mirar sólo los números y rara vez piensa en la influencia de tal o cual parámetro.

    Entonces, veamos primero la profundidad de bits. Este parámetro no es responsable más que del rango dinámico, es decir para la diferencia entre los sonidos más bajos y más fuertes (en dB). En audio digital, el nivel máximo es 0 dBFS y el mínimo está limitado por el nivel de ruido, es decir, de hecho, el rango dinámico en valor absoluto es igual al nivel de ruido. Para audio de 16 bits, el rango dinámico se calcula como 20*log(2^16). 96,33 (dB). Al mismo tiempo, el rango dinámico de una orquesta sinfónica es de hasta 75 dB (normalmente entre 40 y 50 dB).

    Ahora imaginemos las condiciones reales. El nivel de ruido en la habitación es de unos 40 dB (no olvide que dB es un valor relativo. En este caso, el umbral de audibilidad se toma como 0 dB), el volumen máximo de la música alcanza los 110 dB (para evitar molestias). obtener una diferencia de 70 dB. Por tanto, resulta que un rango dinámico de más de 70 dB en este caso es simplemente inútil. Es decir, en un rango más alto, los sonidos fuertes alcanzarán el umbral del dolor o los sonidos suaves serán absorbidos por el ruido circundante. Es muy difícil lograr un nivel de ruido ambiental inferior a 15 dB (ya que el volumen de la respiración humana y otros ruidos causados ​​por el factor humano se encuentra en este nivel), por lo que un rango de 95 dB es completamente suficiente para escuchar. a la música.

    Ahora sobre la frecuencia de muestreo (frecuencia de muestreo, frecuencia de muestreo). Este parámetro controla la frecuencia de muestreo de tiempo y afecta directamente la frecuencia máxima de la señal que puede ser descrita por una representación de audio determinada. Según el teorema de Kotelnikov, es igual a la mitad de la frecuencia de muestreo. Es decir, para la frecuencia de muestreo habitual de 44100 Hz, la frecuencia máxima de los componentes de la señal es 22050 Hz. La frecuencia máxima. que percibe el oído humano es ligeramente superior a 20.000 Hz (y luego al nacer; a medida que envejecemos, el umbral desciende a 16.000 Hz).

    Lea Descargas en formato 24/192: por qué no tienen sentido.


    S: Los diferentes reproductores de software suenan diferente (por ejemplo, foobar2000 es mejor que Winamp, etc.)

    R: Para entender por qué esto no es así, es necesario comprender qué es un reproductor de software. Básicamente, se trata de un decodificador, controladores (opcional), un complemento de salida (para una de las interfaces: ASIO, DirectSound, WASAPI, etc.) y, por supuesto, la GUI (usuario). Dado que el decodificador en el 99,9% de los casos funciona según un algoritmo estándar y el complemento de salida es solo una parte del programa que transmite la transmisión a la tarjeta de sonido a través de una de las interfaces, la única razón de las diferencias pueden ser los controladores. Pero el hecho es que los controladores generalmente están desactivados de forma predeterminada (o deberían desactivarse, ya que lo principal para un buen jugador es poder transmitir el sonido en su forma "prístina"). Por lo tanto, el único objeto de comparación aquí puede ser posibilidades procesamiento y salida, que, por cierto, muchas veces no son necesarios en absoluto. Pero incluso si existe tal necesidad, entonces esta es una comparación de procesadores y no de reproductores.

    Aquí también me gustaría mencionar el mío y, quizás, los usuarios molestos que admiran los cambios "colosales" en el sonido después de la configuración descrita en él; en el 95% de los casos esto es autohipnosis (excepto, por supuesto, en aquellos casos en los que durante su configuración algún "mejorador" u otro procesador que estropea toda la imagen). Lamentablemente, los beneficios de todos estos trucos con ReplayGain, resamplers y limitadores son escasos. Conclusión: si quieres un sonido de muy alta calidad, cómprate acústica Hi-Fi y una tarjeta de sonido profesional.


    S: Diferentes versiones de controladores suenan diferentes

    R: Esta afirmación se basa en un desconocimiento banal de los principios de funcionamiento de una tarjeta de sonido. Un controlador es un software necesario para la interacción efectiva de un dispositivo con el sistema operativo y, por lo general, también proporciona una interfaz gráfica de usuario para poder administrar el dispositivo, sus parámetros, etc. Un controlador de tarjeta de sonido garantiza que una tarjeta de sonido sea reconocida como un tarjeta de sonido e informa al sistema operativo sobre los formatos admitidos por la tarjeta, proporciona transmisión de una secuencia PCM (generalmente) sin comprimir a la tarjeta y también brinda acceso a la configuración. Además, si hay procesamiento de software (utilizando herramientas de CPU), el controlador puede contener varios DSP (procesadores). Por lo tanto, en primer lugar, con los efectos y el procesamiento desactivados, si el controlador no proporciona una transmisión PCM precisa a la tarjeta, esto se considera un error grave, un error crítico. y esto sucede casi nunca. Por otro lado, las diferencias entre controladores pueden implicar la actualización de algoritmos de procesamiento (resamplers, efectos), aunque esto también ocurre muy raramente. Además, los efectos y cualquier procesamiento del controlador aún deben desactivarse/evitarse para lograr la más alta calidad.

    Así, las actualizaciones de controladores se centran principalmente en mejorar la estabilidad y eliminar errores de procesamiento. Ni lo uno ni lo otro en nuestro caso afectan la calidad de la reproducción, por lo que en 999 de cada 1000 casos el controlador no tiene ningún efecto sobre el sonido.


    S: Los CD de audio con licencia suenan mejor que sus copias

    R: Si no se produjeron errores (fatales) de lectura/escritura durante la copia y la unidad óptica del dispositivo en el que se reproducirá el disco de copia no tiene problemas para leerlo, entonces esta afirmación es errónea y fácilmente refutable.


    S: El modo de codificación estéreo ofrece mejor calidad que Joint Stereo

    R: Esta idea errónea se refiere principalmente a LAME MP3, ya que todos los codificadores modernos (AAC, Vorbis, Musepack) utilizan solo Modo Joint Stereo (y esto ya dice algo)

    Para empezar, cabe mencionar que el modo Joint Stereo se utiliza con éxito con compresión sin pérdidas. Su esencia radica en el hecho de que antes de codificar la señal se descompone en la suma de los canales derecho e izquierdo (medio) y su diferencia (lateral), y luego se produce una codificación separada de estas señales. En el límite (para la misma información en los canales derecho e izquierdo) se obtiene el doble de ahorro de datos. Y dado que en la mayoría de la música la información en los canales derecho e izquierdo es bastante similar, este método resulta muy efectivo y le permite aumentar significativamente la relación de compresión.

    En caso de pérdida, el principio es el mismo. Pero aquí, en el modo de tasa de bits constante, la calidad de los fragmentos con información similar en dos canales aumentará (en el límite, el doble), y para el modo VBR en esos lugares la tasa de bits simplemente disminuirá (no olvide que la tarea principal del modo VBR es mantener establemente la calidad de codificación especificada, utilizando la tasa de bits más baja posible). Dado que durante la codificación con pérdida, se da prioridad (al distribuir bits) a la suma de canales, para evitar el deterioro del panorama estéreo, la conmutación dinámica entre estéreo conjunto (medio/lateral) y estéreo basado en cuadros normal (izquierdo/derecho) Se utilizan modos. Por cierto, la razón de este error fue la imperfección del algoritmo de conmutación en las versiones anteriores de LAME, así como la presencia del modo de articulación forzada, en el que no hay conmutación automática. En las últimas versiones de LAME, el modo Conjunto está habilitado de forma predeterminada y no se recomienda cambiarlo.


    S: Cuanto más amplio sea el espectro, mejor será la calidad de la grabación (sobre espectrogramas, auCDtect y rango de frecuencia)

    R: Hoy en día en los foros lamentablemente es muy común medir la calidad de una pista “con una regla usando un espectrograma”. Evidentemente, por la sencillez de este método. Pero, como muestra la práctica, en realidad todo es mucho más complicado.

    Y aquí está la cosa. El espectrograma demuestra visualmente la distribución de la potencia de la señal en frecuencias, pero no puede dar una imagen completa del sonido de la grabación, la presencia de distorsiones y artefactos de compresión en ella. Es decir, en esencia, todo lo que se puede determinar a partir de un espectrograma es el rango de frecuencia (y parcialmente, la densidad del espectro en la región de HF). Es decir, en el mejor de los casos, al analizar el espectrograma, se puede identificar una conversión ascendente. Comparar espectrogramas de pistas obtenidos codificando con diferentes codificadores con el original es un completo absurdo. Sí, se pueden identificar diferencias en el espectro, pero determinar si (y en qué medida) serán percibidas por el oído humano es casi imposible. No debemos olvidar que la tarea de la codificación con pérdidas es garantizar un resultado indistinguible. oído humano del original (no a simple vista).

    Lo mismo se aplica a la evaluación de la calidad de la codificación mediante el análisis de las pistas de salida con el programa auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect; estos son solo shells para el programa de consola único en su tipo auCDtect). El algoritmo auCDtect también analiza el rango de frecuencia y solo le permite determinar (con un cierto grado de probabilidad) si se aplicó compresión MPEG en alguna de las etapas de codificación. El algoritmo está diseñado para MP3, por lo que es fácil "engañarlo" con la ayuda de los códecs Vorbis, AAC y Musepack, por lo que incluso si el programa escribe "100% CDDA", esto no significa que el audio codificado sea 100%. idéntico al original.

    Y volviendo directamente a los espectros. También existe un deseo popular entre algunos "entusiastas" de desactivar el filtro de paso bajo en el codificador LAME a toda costa. Existe una clara falta de comprensión de los principios de la codificación y la psicoacústica. Primero, el codificador corta las frecuencias altas con un solo propósito: guardar datos y usarlos para codificar el rango de frecuencia más audible. El rango de frecuencia extendido puede tener un impacto fatal en la calidad general del sonido y provocar artefactos de codificación audibles. Además, desactivar el corte a 20 kHz generalmente está completamente injustificado, ya que una persona simplemente no puede escuchar frecuencias más altas.


    S: Hay un cierto ajuste preestablecido de ecualizador "mágico" que puede mejorar significativamente el sonido.

    R: Esto no es del todo cierto, en primer lugar, porque cada configuración individual (auriculares, acústica, tarjeta de sonido) tiene sus propios parámetros (en particular, su propia respuesta amplitud-frecuencia). Y por lo tanto, cada configuración debe tener su propio enfoque único. En pocas palabras, existe un ajuste preestablecido de ecualizador de este tipo, pero difiere según las diferentes configuraciones. Su esencia radica en ajustar la respuesta de frecuencia de la ruta, es decir, en "nivelar" caídas y sobretensiones no deseadas.

    Además, entre las personas que están lejos de trabajar directamente con el sonido, es muy popular instalar un ecualizador gráfico con un "tick", que en realidad representa un aumento en el nivel de los componentes de baja y alta frecuencia, pero al mismo El tiempo provoca el silenciamiento de voces e instrumentos cuyo espectro sonoro se encuentra en la región de frecuencias medias.


    S: Antes de convertir música a otro formato, debes descomprimirla a WAV

    R: Permítanme señalar inmediatamente que WAV significa datos PCM (modulación de código de pulso) en el contenedor WAVE (archivo con extensión *.wav). Estos datos no son más que una secuencia de bits (ceros y unos) en grupos de 16, 24 o 32 (dependiendo de la profundidad de bits), cada uno de los cuales representa el código binario de la amplitud de la muestra correspondiente (por ejemplo, para 16 bits en notación decimal (son valores de -32768 a +32768).

    Entonces, el hecho es que cualquier procesador de sonido, ya sea un filtro o un codificador, generalmente funciona solo con estos valores, es decir solo con datos sin comprimir. Esto significa que para convertir audio de, digamos, FLAC a APE, simplemente necesario Primero decodifique FLAC a PCM y luego codifique PCM a APE. Es como volver a empaquetar archivos de ZIP a RAR, primero debes descomprimir el ZIP.

    Sin embargo, si utiliza un conversor o simplemente un codificador de consola avanzado, la conversión intermedia a PCM se produce sobre la marcha, a veces sin siquiera escribir en un archivo WAV temporal. Esto es lo que confunde a la gente: parece que los formatos se convierten directamente de uno a otro, pero en realidad dicho programa debe tener un decodificador de formato de entrada que realice una conversión intermedia a PCM.

    Por lo tanto, la conversión manual a WAV no le supondrá más que una pérdida de tiempo.


La tasa de bits se indica como una de las principales características de las grabaciones de vídeo y audio. La mayoría de usuarios están acostumbrados a pensar que esto determina la calidad del archivo descargado. Pero, ¿qué son las tasas de bits y cómo caracterizan realmente los archivos de música y vídeos? Veamos esto con más detalle.

¿Qué son las tasas de bits?

La tasa de bits es un valor que muestra la cantidad de unidades de información (megabits o kilobits) contenidas en un segundo de reproducción de un archivo. En consecuencia, se mide en megabits por segundo (Mbps) o kilobits por segundo (Kbps). De lo contrario, la tasa de bits puede describirse como ancho de banda. Esta característica es importante para quienes desean convertir archivos porque, dada la misma duración, una tasa de bits más alta dará como resultado un archivo más grande. Además del tamaño, la calidad del sonido también cambia. Reducir el tamaño a medida que disminuye la tasa de bits se llama compresión.

Un archivo de música común es un archivo de audio comprimido hasta tal punto que caben hasta 12 horas de música en un disco estándar. Al mismo tiempo, la calidad sigue siendo bastante alta gracias a la compresión psicoacústica: los sonidos con frecuencias y niveles de volumen que no son captados por el oído humano se eliminan de todo el rango. Los sonidos seleccionados se forman en bloques separados llamados fotogramas. Los fotogramas tienen la misma duración del sonido y se comprimen según un algoritmo determinado. Cuando se reproduce música, la señal se recrea a partir de los bloques decodificados en una secuencia específica.

¿Qué compresión se utiliza habitualmente?

La tasa de bits de audio suele ser de 256 Kbps. Con este valor, la grabación de audio se comprime aproximadamente 6 veces en tamaño, lo que le permite grabar 6 veces más música en un disco que antes de la compresión. Si la tasa de bits se reduce a 128 Kbps, en un disco cabrá 12 veces más música, pero la calidad del sonido será notablemente menor. La música grabada en calidad de 128 Kbps se ofrece con mayor frecuencia para escucharla en Internet, porque en aras de aumentar la velocidad de carga de las páginas, los propietarios de los recursos hacen cualquier sacrificio. Muchos usuarios notan que su calidad está lejos de ser la ideal.

Ahora que está claro qué son las tasas de bits, es hora de determinar su nivel óptimo. Tanto los aficionados como los profesionales debaten interminablemente cómo la tasa de bits afecta la calidad del sonido, en todo caso. Los álbumes de música suelen indicar la tasa de bits. El mismo disco, grabado a 128 Kbit/s y 256 Kbit/s, costará el doble.

Tasa de bits óptima en diferentes condiciones de escucha

Para muchas personas, la compresión 12x no supone ningún daño, mientras que otras afirman que no pueden escuchar música con una tasa de bits inferior a 320 Kbps. Paradójicamente, ambos tienen razón. El hecho es que, en última instancia, la calidad de la reproducción no depende sino de las condiciones de reproducción e incluso del tipo de música.

Por ejemplo, una canción se reproduce en una grabadora instalada en un automóvil doméstico. En este caso, la calidad a 192 Kbps será suficiente. Una tasa de bits más alta mejorará la calidad del sonido, pero la diferencia no se notará debido al alto nivel de ruido durante el viaje. Si la música se reproduce en una computadora doméstica o en un reproductor portátil, se requieren al menos 256 Kbps. Si la señal no está sujeta a cambios, se transmite a dispositivos externos y se emite a costosos altavoces importados, entonces debe recurrir a una compresión mínima, si es posible. Es posible a una tasa de bits de 320 Kbps.

Tasa de bits óptima para varios estilos de música

No siempre se necesita música con una tasa de bits alta. La música popular suele sonar bastante bien a una tasa de bits de 192-256 Kbps. Es posible establecer una calidad superior, pero no tiene sentido hacerlo: las canciones pop no duran mucho, por lo que ahorrar espacio en el disco debería ser una prioridad. Además, la calidad de las grabaciones de origen también es mediocre, por lo que aumentar la tasa de bits puede no afectar la calidad del archivo reproducido. Para escuchar en el transporte y en fiestas informales, una calidad media es suficiente.

Si hablamos de música clásica, obras de bandas de rock legendarias o canciones originales raras, entonces la calidad debe estar por encima de todo. Al comprar dicha música, debe observar la tasa de bits indicada en el empaque del disco. Si la canción se descarga de Internet, dicha información debería estar presente en la página de descarga. Además, la tasa de bits se muestra en el reproductor durante la reproducción.

Velocidades de bits de archivos de vídeo

Anteriormente discutimos qué son las tasas de bits de las grabaciones de audio. Pero, ¿qué es la tasa de bits de vídeo? Teniendo en cuenta que el vídeo se reproduce como una secuencia de sonidos e imágenes, la definición de tasa de bits será similar. La presencia de vídeo hace que el archivo sea más pesado, pero al final las imágenes para el procesador son los mismos ceros y unos que los sonidos. El principio de cifrado de información es el mismo para todos los tipos de archivos.

En los últimos años, el formato MP3 se ha puesto increíblemente de moda y popular. En cualquier puesto que venda CD de computadora, puede encontrar fácilmente docenas de discos como "La antología completa del grupo XXX", y en la parte inferior hay una modesta inscripción: MP3. La mayoría de las veces, para completar la imagen, las portadas muestran la frase de moda Calidad de CD, es decir, calidad, como Audio-CD. De esto exactamente se tratará nuestra historia a continuación: sobre MP3, qué son, sobre la calidad del sonido en MP3.

Acerca del formato MP3

Primero, comprendamos un poco el tema. ¿Qué es este MP3 de todos modos?

MP3, más correctamente llamado MPEG-1 Layer 3, es un estándar para la compresión de audio con pérdida. Al mismo tiempo, el objetivo principal al crear el estándar era garantizar que el sonido fuera lo más "idéntico" posible al original, así como minimizar la cantidad de datos almacenados. Para ello, se creó un esquema de codificación original: en la primera etapa, el sonido digitalizado se divide en componentes de frecuencia que pasan a través de una serie de filtros.

La principal diferencia entre MP3 y los estándares existentes anteriormente está en el filtrado. Los desarrolladores del estándar crearon el llamado modelo psicoacústico, un modelo que tiene en cuenta algunas características de la audición humana y, basándose en este modelo, se filtran de la señal de audio aquellas frecuencias cuya ausencia es casi invisible para el audiencia. En la segunda etapa, el flujo resultante se codifica utilizando el algoritmo de Huffman con una tabla estática. El resultado será una transmisión MP3.

Además, también se pueden agregar al archivo MP3 etiquetas ID3 (etiquetas que contienen el título de la canción, artista y otra información) y diversa información de servicio.

Modos de compresión y tasas de bits

Ancho de transmisión: la tasa de bits determina cuántos bits se necesitan para codificar 1 segundo de música. El estándar MP3 regula transmisiones de 8 kbit/s a 320 kbit/s. La tasa de bits más típica es de 128 kbit/s.

Según la transmisión, es fácil calcular cuánto durará un minuto de música: es necesario dividir la tasa de bits por 8 (la cantidad de bits en un byte) y multiplicarla por 60 (segundos en un minuto); obtenemos número de kilobytes. Para el flujo de 128 kbit/s ya mencionado, esto será 128/8*60=960 kilobytes o aproximadamente un megabyte por cada minuto de grabación.

Es bastante natural que cuanto mayor sea la tasa de bits, más detalles del sonido se podrán conservar y más realista suena. Al elegir una tasa de bits al codificar, hay que sacrificar algo: ya sea la calidad en favor de un tamaño pequeño o el tamaño en favor de la calidad.

El modo de compresión de MP3 más simple es el modo de tasa de bits constante (CBR, Constant BitRate). Anteriormente, los ensambladores MP3 utilizaban casi el 100% la velocidad de bits antes mencionada de 128 kbit/s y, al mismo tiempo, los discos tenían la inscripción de calidad CD. Francamente, esto es sólo una mentira descarada. En la práctica, es imposible distinguir el sonido de un MP3 de este tipo del sonido de un CD de audio, a menos que se utilice la acústica más barata.

El nivel de calidad a una tasa de bits de 128 kbit/s es aproximadamente el nivel de sonido de una grabadora promedio, no en la cinta más reciente, tal vez un poco mejor. También puedes agregar que esta es la tasa de bits más extendida en las grabaciones disponibles en Internet.

Para simplificar el análisis de velocidades de bits más altas, escribiré su cuadrícula: 128 kbit/s, 160 kbit/s, 192 kbit/s, 224 kbit/s, 256 kbit/s, 320 kbit/s. Por lo tanto, las tasas de bits de 160 y 192 kbit/s ya son notablemente mejores en calidad que las de 128 kbit/s, pero los archivos resultantes aún no son tan grandes. Los “artefactos” (fallos) del códec son casi invisibles (al menos en mi sistema).

Nunca he encontrado una tasa de bits de 224 en su forma pura, por lo que no puedo decir nada sobre su calidad, pero debería ser más alta que en el peldaño anterior de la escala de tasas de bits. Además, no he visto ninguna reseña que cubra esta tasa de bits. Aparentemente esto tiene algo que ver con el hecho de que la siguiente tasa de bits, 256 kbit/s, se reconoce en términos de precisión de transmisión de sonido, con una ausencia casi total de distorsión. En las instrucciones del códec Lame, esta tasa de bits incluso se denomina calidad de estudio. Y el límite mismo: 320 kbit/s está destinado a aquellos que valoran la calidad por encima de todo, o a los propietarios de equipos Hi-Fi o incluso Hi-End de muy alta calidad.

Pasemos ahora a un tema un poco más complejo: el modo de tasa de bits variable (VBR, Variable BitRate). Aquí el concepto de tasa de bits es muy vago; los códecs "para el usuario" generalmente utilizan sólo el ajuste de calidad (como por ejemplo en Xing Audio Catalyst). Otros (Lame) le permiten configurar parámetros adicionales: tasas de bits mínimas y máximas, nuevamente calidad.

Al codificar VBR, el códec selecciona la tasa de bits requerida en función de los parámetros especificados, y la tasa de bits puede cambiar durante el fragmento codificado. Para estimar la tasa de bits requerida, se utiliza el modelo psicoacústico ya mencionado. Sin embargo, el modelo (dado que no es ideal, nada en nuestro mundo es ideal) a veces muestra resultados incorrectos. Esto conduce a una subestimación y, en consecuencia, a una caída de la calidad del sonido realmente audible.

Los desarrolladores del códec Lame aconsejan en este caso establecer un umbral mínimo de tasa de bits para evitar resultados muy malos. Las variedades de VBR también incluyen la codificación ABR (Average BitRate), la tasa de bits promedio. Últimamente, en las revisiones solo se escuchan comentarios positivos sobre este modo, especialmente ABR a 256 kbit/s. Este modo funciona casi igual que VBR, con la excepción de que el códec se adhiere al valor promedio especificado. Por el momento, sólo conozco un códec que tiene modo ABR: Lame.

Selección de códec

Recientemente, un usuario que quería obtener un MP3 de calidad decente no tenía muchas opciones: era un códec basado en ISO (basado en el código de códec MP3 de muestra publicado por la Organización Internacional de Normalización) o un códec de IIS. Fraunhofer (el instituto que desarrolló MP3). Además de códecs en productos de Xing.

Después de leer varias reseñas e investigar un poco por mi cuenta, llegué a la conclusión de que la línea de productos Xing es... es mejor no usarla. Incluso en versiones relativamente nuevas, todos sus productos que pueden crear MP3 utilizando herramientas integradas lo hacen con la menor calidad posible.

También hay muchas artesanías "pioneras" realizadas con un códec robado de Xing (casi todas contienen el archivo tompg.exe). Durante mucho tiempo, su principal ventaja fue la velocidad (a expensas de la calidad), pero hoy el códec Lame muestra una velocidad comparable con mayor calidad. Además, los productos Xing generalmente cuestan dinero, mientras que Lame es gratuito por definición.

A continuación repasaré los productos de IIS Fraunhofer. Todos sus programas de compresión de MP3, disponibles de forma gratuita, son versiones muy reducidas de sus productos comerciales. Luego, todos sus códecs no se han desarrollado con el tiempo, no contienen nuevas funciones, soporte VBR / ABR y no son particularmente rápidos. Su único uso justificado es la compresión a velocidades de bits inferiores a 128 kbit/s; han sido optimizados especialmente para velocidades de bits bajas (aunque en algunos lugares violan el estándar).

Varios códecs basados ​​en el código ISO adolecen, en principio, del mismo inconveniente: compresión de baja calidad a velocidades de bits inferiores a 192 kbit/s. Además, la mayoría de ellos (incluido BladeEnc) son bastante lentos.

En mi opinión, la mejor opción es el códec Lame. Comenzó como un códec gratuito basado en ISO y ha crecido a lo largo del desarrollo hasta el punto en que todas las revisiones lo utilizan ahora como referencia para MP3 al comparar MP3 con otros formatos. Hace poco más de un año, el proyecto Lame finalmente se deshizo del código ISO y ahora puede considerarse un códec completamente independiente.

El desarrollo del códec es bastante intensivo, se actualiza constantemente y se corrigen errores. Además, es posible utilizar Lame no sólo en Windows, sino también en varias variantes de sistemas Unix; también funciona en DOS puro; Nuevamente, es completamente gratuito, el código fuente está disponible (para aquellos a quienes les gusta profundizar en él), los archivos binarios ya compilados (.exe y .dll) optimizados para diferentes procesadores están disponibles en varios sitios.

También hay una versión ligeramente simplificada de Lame: el codificador GOGO-no-coda, que muestra resultados fantásticos en términos de velocidad (dos veces más rápido que el ya rápido Lame).

Entonces, ¿qué tasa de bits y qué modo debería utilizar?

Teniendo en cuenta todo lo anterior, recomendaría poner MP3 en el archivo con una transmisión de 320 Kbit/s, modo CBR, o 256 kbit/s, ABR. La primera, en mi opinión, es algo preferible, porque... obtienes la más alta calidad disponible dentro del formato. Para grabaciones de “escuchar un par de veces y borrar”, es razonable utilizar ABR 192 kbit/s.

Y una cosa más: es mejor no utilizar velocidades de bits inferiores a 192 kbit/s para ningún almacenamiento a largo plazo, a menos que la grabación a partir de la cual se realizó el MP3 esté siempre a mano (aunque recuerde que la grabación analógica en cinta magnética se deteriora con el tiempo).

Muy a menudo, el argumento que escucho a favor de velocidades de bits bajas y compresión “torcida” es “tengo mala acústica y todavía no puedo escuchar la diferencia”. Las cosas pueden cambiar, o es posible que tengas que usar tu archivo en un hardware decente y es posible que no se pueda acceder a la grabación original. La respuesta no es en absoluto descabellada; puedo citar un caso de mi propia práctica.

En nuestra ciudad de Pavlovo hubo una vez un pequeño club donde se reproducía música desde una computadora (MP3 con una tasa de bits no superior a 160 kbit/s). Luego, el club desapareció y la computadora con los archivos de música se trasladó a otra empresa que organizaba eventos públicos. ¡Imagínense que empezaron a tocar esta música en el fondo de la ciudad! Era terrible cuando, con una acústica más o menos decente, se podían escuchar todos los defectos introducidos por el embalaje a una tasa de bits tan baja. El sonido era peor que el de su misma grabadora de casetes maltrecha con casetes medio masticados. Sería prudente evitar repetir los errores de los demás, ¿verdad?

Equipos de prueba y software.

Computadora: Athlon TB 650MHz, M/B Acorp 7KTA 100MHz FSB, 128Mb RAM PC-133, HDD Quantum 40Gb 5400rpm, SoundBlaster 16 Vibra, códec AC97.
Sistema de audio: amplificador Radiotehnika U-7111, pareja de altavoces Radiotehnika S-90B.
Software: SO Windows98 SE, Winamp 2.75, Eac 0.9pb11, Lame 3.90a, GOGO-no-coda 3.07a




Arriba