¿Qué es el sonido 3D? Envolvente - sonido envolvente

El término "sonido 3D" se ha utilizado con tanta frecuencia en diversas tecnologías que ahora es difícil entender qué significa exactamente. Podría ser un algoritmo simple para ampliar la base estéreo o, por ejemplo, una grabación binaural para auriculares. Por ello, Auro destaca que a su entender el sonido 3D es sonido en tres dimensiones, cuando la disposición de los altavoces se realiza a lo largo de tres ejes perpendiculares (x, y, z), y la grabación y mezcla se realizan en base a esta disposición del sistema. Hablaremos de lo que sucede dentro de las pistas de Auro y de por qué la compañía belga decidió arrebatarle el mercado a Dolby Atmos y DTS:X.

Historia

Todo empezó con una llamada telefónica en marzo de 2005. El productor alemán Tom Hapke se inspiró en la idea de hacer una mezcla en formato de audio 2+2+2 y sugirió que Wilfried Van Baelen, director del estudio belga Galaxy, lo hiciera. Al principio, Wilfried se mostró escéptico ante la idea: esta configuración suponía un circuito cuadrafónico con dos canales adicionales instalados encima de los frontales, y parecía justificada en el doblaje de películas, pero no entendía cómo se beneficiaría la música con dos canales frontales adicionales. Todavía no he escuchado los clásicos en este formato.

El sonido resultó ser más profundo, más transparente y más voluminoso que en la configuración "planar" 5.1, lo que impulsó a Wilfried a experimentar. Como el álbum debía grabarse en formatos 2+2+2, 5.1 y 2.0, tomó como punto de partida el esquema 5.1 y le añadió un par de canales frontales, pero luego sintió un desequilibrio: 6 canales eran responsables de el hemisferio delantero, mientras que el trasero, sólo 2. Su solución fue simple: agregar aún más canales, por lo que los traseros también adquirieron un par adicional de altavoces ubicados un poco más arriba. La configuración ha crecido al formato 9.1, pero no ha perdido la compatibilidad con el formato 5.1.


Según Wilfried, lo que experimentó fue comparable a su primer encuentro con el sonido cuadrafónico. Los parlantes realmente desaparecieron y hubo una sensación de estar en el lugar donde se estaba realizando la grabación.

Este experimento marcó el comienzo de cinco años de historia de desarrollo del formato Auro 3D.

Del oído al cerebro

Wilfried comenzó a estudiar los principios del audífono para comprender por qué la adición de una dimensión sonora adicional cambió tanto su percepción del sonido y de dónde venía esta sensación de inmersión. Como resultado, aprendió que una impresión tan completa se crea mediante un campo difuso detrás de su espalda.

Como sabes, cuando se mezcla en estéreo, se utiliza muy a menudo la técnica de transición del sonido de un canal a otro, creando la ilusión de que la fuente se mueve en el plano horizontal. Wilfried, continuando con sus experimentos, quiso lograr un efecto similar en el plano vertical, pero no lo logró. Al principio creyó que el problema estaba en el equipo, pero todo resultó más interesante: escuchó el efecto deseado inclinando la cabeza hacia un lado y acercándose a los parlantes.


La conclusión es que el patrón de directividad de la audición humana gravita más hacia el plano horizontal y, dado que las personas no tienen una oreja en la parte posterior de la cabeza, no podemos procesar el componente vertical en consecuencia. Al localizar el sonido, una persona ayuda a la diferencia en el nivel de las señales, la diferencia en el tiempo de percepción de la señal por los oídos izquierdo y derecho y las señales reflejadas. De hecho, el 90% de los sonidos que percibe el oído humano son reflejos tridimensionales de la señal original. Y los altavoces situados a la altura de la cabeza reproducen exactamente las señales que posteriormente se reflejan desde el suelo.

Por canales, por objetos.

El formato Auro-3D, a diferencia de Dolby Atmos y DTS:X de la competencia, no está orientado a objetos, sino por canal. Para lograr un “sonido envolvente” en dos capas de altavoces, uno clásico y otro situado en un ángulo de 30 grados con respecto al horizonte, Wilfried añadió un tercero instalado directamente encima del oyente. Esta tercera capa de acústica se llamó la "voz de Dios" y añadió una tercera dimensión al sonido: el tono. Si en las configuraciones cinematográficas estándar, incluso en Dolby Atmos y DTS:X, el oyente está rodeado por una capa esférica de sonido, en Auro-3D es como si estuviera envuelto por un hemisferio completo.


En la tecnología de grabación de sonido basada en objetos, cada fuente de sonido se graba por separado, pero en la tecnología canal por canal, el sonido se distribuye entre diferentes canales y luego se suma en los altavoces. Por ejemplo, al grabar el sonido de una carretera transitada en un formato orientado a objetos, no será posible aislar los objetos en movimiento (automóviles, bicicletas, personas) para su uso posterior, no será posible obtener imágenes tridimensionales; sonido reflejado por estos objetos, así como sonido directo. En un sistema por canal este problema se soluciona simplificándolo, y aquí es donde entra en juego el componente vertical.

La tercera capa de altavoces en Auro 3D crea un "campo estéreo vertical" alrededor del oyente, independientemente del diseño de la acústica en Auro 3D. La tercera capa en sí no ayuda con la localización: ayuda a reproducir helicópteros, naves espaciales y efectos climáticos que vuelan sobre nuestras cabezas, pero el oído humano es poco susceptible a los sonidos que vienen directamente desde arriba y, en general, poca información sonora proviene de allí, del techo. . La evolución tiene la culpa de esto: sucedió que la mayoría de las veces en los albores de la humanidad, el peligro venía aproximadamente del mismo nivel en el que se encontraba una persona, y no desde arriba, y es por eso que el cerebro procesaba intensamente los sonidos reflejados desde el suelo.

El formato Auro 3D, incluso en una configuración reducida con menos capas de audio, es capaz de reproducir la posición vertical de las fuentes de sonido, por lo que se adapta perfectamente a una amplia variedad de salas y sistemas. Además, Auro 3D es el único formato de audio 3D del mercado que admite un proceso de masterización basado en la mezcla de todos los canales, algo que los formatos de grabación basados ​​en objetos no pueden hacer. De hecho, Auro 3D es el único formato del mercado para música 3D. Además, en la era de los formatos comprimidos (MP3, AAC y otros), Auro 3D tiene una calidad de 24 bits/96 kHz.

En cada dispositivo

La tecnología Auro-3D Engine incluye el decodificador Auro-Codec y el mezclador ascendente Auro-Matic. Con la ayuda de estos dos algoritmos se logra la universalidad del sistema. El decodificador reconoce y decodifica audio nativo en formato Auro-3D, mientras que el mezclador utiliza un algoritmo para distribuir audio desde mono, estéreo, 5.1 y 7.1 a Auro-3D, siempre que, por supuesto, esté disponible la cantidad requerida de canales. Es decir, las películas ya grabadas en Blu-ray o incluso DVD, y la música montada en estéreo, se pueden apreciar en un nuevo formato, máximamente tridimensional.


Tradicionalmente, la tecnología upmix utiliza cambios en la ecualización del espectro y agrega algoritmos de reflexión. Al desarrollar el Auro-Matic, los ingenieros no querían escuchar reverberaciones innecesarias o imprecisiones de fase, sino transmitir el sonido lo más cerca posible de cómo lo escuchó y pretendió el autor. Y desarrollaron algoritmos asociados con HRTF (Función de transferencia relacionada con la cabeza), una tecnología que tiene en cuenta cómo el oído humano percibe los sonidos en condiciones naturales. Los propietarios de iPhone y iPad pueden evaluar el rendimiento del algoritmo consultando la aplicación Beautifyer (lamentablemente, no está disponible en Rusia).


Hubo un tiempo en que Auro-Technologies se enfrentaba a un problema interesante: los desarrolladores de equipos no estaban ansiosos por implementar la tecnología Auro-3D debido a que no había contenido correspondiente, y los creadores de contenido no utilizaban el formato Auro-3D debido a que No había nada que lo sustentara. Por lo tanto, la compañía decidió lanzar de forma independiente un receptor compatible con Auro-3D y, con el tiempo, otros siguieron su ejemplo. Ahora, además de la línea de productos StormAudio, cada vez más fabricantes han integrado Auro-3D en sus equipos AV, incluidos Denon, Marantz, Steinway Lyngdorf, Macintosh, Trinnov, Theta Digital, StormAudio, ATI y Datasat.


Interfaz de configuración de instalación de Auro-3D en el procesador Trinnov Altitude 32

Además de los sistemas de cine y audio domésticos y no domésticos, Auro-3D también ha encontrado un lugar en la industria automotriz. Junto con Continental, los desarrolladores han creado un sistema de sonido 3D integrado único en el automóvil, y los primeros automóviles equipados con el sistema Auro-3D se lanzarán en 2017. Un campo sonoro de este tipo cambia el ambiente para el conductor, le permite relajarse y sentirse más cómodo e incluso, según algunos, parece ampliar el espacio interior. Según Wilfried, al escuchar música en 3D nuestro cerebro se fatiga menos que al procesar una banda sonora en estéreo, de ahí el confort adicional.


Un Porsche Panamera con un sistema Burmester instalado que puede funcionar con sonido Auro-3D

Ya hay unos 200 álbumes grabados en formato Auro 9.1, y muy pocos en formato 10.1, utilizando el canal más alto. El alcance de uso de este canal es bastante específico: es necesario para reproducir exactamente aquellos sonidos que provienen directamente de arriba, y en la música generalmente no hay objetos ubicados encima del oyente. Incluso las grabaciones de conciertos en vivo no requieren la “voz de Dios”, porque generalmente hay menos reflexiones en las salas de conciertos. Entre los doscientos álbumes en formato 9.1 no sólo hay composiciones clásicas, sino también jazz, rock, artistas populares e incluso música de baile.


El formato también cubrirá los dispositivos móviles. En combinación con la tecnología binaural, Auro-3D para dispositivos móviles podrá crear sonido inmersivo tridimensional directamente en el teléfono inteligente y transmitirlo a los auriculares: el sistema es capaz de decodificar el contenido original de Auro-3D y reproducir todo el estéreo. biblioteca, películas y otros archivos multimedia en formato de audio Auro-3D usando upmix.


Interfaz del programa Wwise con opciones para trabajar con audio Auro-3D

Los videojuegos se destacan. La tecnología Auro-3D te permitirá crear paisajes sonoros que brindarán a los jugadores una experiencia completamente diferente. La empresa se asoció con Audio-Kinetics e incorporó el formato a Wwise, un programa de software para crear audio para juegos de computadora. La versión de AuroWwise admite audio 3D para juegos y medios interactivos manteniendo todas las funciones. El primer juego en formato Auro-3D será Get Even, que se lanzará en la primavera de 2017. Sin embargo, según Wilfried, este sonido todavía no se puede comparar con el de los altavoces.

¿Cuántas columnas necesitas?

Para cine en casa, la configuración mínima recomendada es 9.1, la solución óptima es 11.1 y en salas particularmente grandes conviene utilizar Auro 13.1. El espacio requerido es el mismo que para la ubicación óptima de los sistemas 5.1 y 7.1. Los desarrolladores probaron Auro-3D en una variedad de entornos (techos altos, techos bajos, ambientes secos y húmedos) y descubrieron que el sistema era realmente flexible.


Ahora hay un nuevo formato AuroMax: es un formato híbrido, orientado a canales y objetos que utiliza una configuración de 20.1 a 26.1. El formato AuroMax es un desarrollo conjunto de Auro-Technologies, Barco e Iosono y se utiliza en cines de pleno derecho. En los cines en casa, según los desarrolladores, no es necesaria una configuración tan máxima, pero la palabra del cliente es ley. Es cierto que necesitarás incluso más espacio que la versión de 13.1 canales.

Según Wilfried, ni siquiera un millón de altavoces pueden reproducir de forma natural el mundo que nos rodea: nuestros oídos son demasiado inteligentes para dejarse engañar. Por tanto, el objetivo de Auro-3D no es utilizar tantos canales como sea posible, sino conseguir el sonido más envolvente con el menor número de altavoces. Por lo tanto, no debe intentar instalar una configuración de 26.1 canales en un cine pequeño; simplemente no tendrá sentido, el efecto de los canales adicionales no cubrirá el esfuerzo, los nervios y el dinero gastado en la instalación. Es mejor arreglárselas con la versión de 11.1 canales.

Para cines de gran formato y estudios cinematográficos.

En 2011, Wilfried inició una asociación con el fabricante belga de equipos de vídeo Barco. Esta empresa comenzó a utilizar sistemas Auro-3D en sus equipos para cines, y ese mismo año instaló por primera vez el sistema Auro 11.1. La primera película en este formato fue Red Tails, dirigida por George Lucas. Actualmente, más de 550 cines están equipados con los sistemas Auro 11.1 de Barco y AuroMax en todo el mundo.


Hoy en Rusia, la principal sala de cine de estreno “Octubre” y 27 cines en Moscú y otras ciudades están equipados con este tipo de sonido. Ya se han instalado equipos Auro-3D en dos estudios: Pythagoras y Neva-Film. En total, más de 100 estudios en todo el mundo crean y doblan películas en el formato Auro-11.1 de Barco.

En primer lugar, lo bueno del formato es que resulta más económico para estudios y cines. El sitio web oficial de Auro-3D indica las siguientes ventajas:

Sin tarifa de licencia

Esfuerzo de distribución mínimo

Posibilidad de utilizar contenido creado en este formato en Auro-11.1 por los sistemas Barco

Realice una transición sencilla de DCP a una calidad equivalente en Blu-ray

Fácil de convertir más tarde

Capacidad de grabar en formato Auro-11.1 de Barco directamente en el set

No se necesitan claves ni masterización DCP adicionales

Los canales adicionales están codificados directamente en el maestro 5.1 (7.1)

Totalmente compatible con la mezcla 5.1 (7.1)

No es necesario perder el tiempo reescribiendo más en un formato diferente

La capacidad de utilizar la función "up mix" para películas terminadas en formato estéreo, 5.1, 7.1 para reproducción en Auro-11.1 de Barco

¿Dónde está el contenido?

Al principio, cuando el formato apenas nacía, había poco contenido. Pero ahora la situación ha cambiado: tanto la música como las películas están disponibles en formato Auro-3D. Las listas de películas y música, así como futuros estrenos en cines, se publican en el sitio web de Auro-3D.

Dado que la mayoría de las personas no son expertas en tecnología de audio/vídeo, elegir formatos de sonido envolvente para ellos puede ser una tarea muy difícil. Por eso, decidimos caracterizar todos los formatos de audio universales.

Primero, debemos considerar algunos términos y conceptos generales.

sonido de 5.1 canales- el formato de audio más común. Incluye seis canales de audio: cinco de ancho de banda completo (delantero, trasero, izquierdo, derecho y central) con un rango de frecuencia de 3 a 20 000 Hz y uno de baja frecuencia limitado (LFE) de 2 a 120 Hz. También existen sistemas de sonido envolvente 6.1 y 7.1, que se diferencian del 5.1 por tener canales adicionales de ancho de banda completo.

Sonido separado (discreto)- también dispone de varios canales de reproducción de señal, todos ellos independientes entre sí y la señal no se mezcla durante la reproducción.

formato matricial- La información de audio se graba en una pequeña cantidad de canales y, durante la reproducción, se decodifica (convierte) y se reproduce a través de una mayor cantidad de canales de audio. Los canales separados recrean con mayor precisión el entorno acústico envolvente, pero la codificación matricial también puede complacerlo con la calidad del sonido.

Compresión sin pérdidas- La mayoría de los formatos de sonido envolvente están comprimidos para que sean de tamaño pequeño y puedan grabarse en DVD o transmitirse por televisión por satélite. Pero muchos Blu-ray ahora contienen mucha más información, por lo que el audio se reproduce sin pérdidas y tiene la misma calidad que la grabación de estudio original.

Cuanto mayor sea la calidad de estos formatos, más detallado será el sonido saliente.

audio de 5.1 canales

Como dijimos anteriormente, el sonido de 5.1 canales es el más común en los cines en casa modernos. Hay dos formatos principales que se basan en sistemas 5.1.

Dolby Digital

El formato Dolby Digital rápidamente ganó popularidad gracias a las películas en DVD. También se utiliza actualmente en HDTV y videojuegos. Aunque Dolby Digital es, en términos generales, sólo un método para codificar información en un formato digital, el término en sí se utiliza a menudo para referirse al audio 5.1. Por tanto, a la hora de considerar Dolby Digital, nos centraremos en 5.1.

A diferencia de los formatos de sonido envolvente anteriores, el audio Dolby Digital con 5.1 canales es un sistema multicanal independiente. Gracias a seis canales independientes, la señal de audio se reproduce con mucha precisión. También obtienes un canal de baja frecuencia dedicado (subwoofer) para una reproducción de graves de alta calidad.

Al igual que Dolby Digital, DTS proporciona una señal digital de 5.1 canales. Sin embargo, DTS está menos comprimido cuando se graba que Dolby Digital. El resultado es un sonido un poco más preciso. Pero si bien la mayoría de los receptores A/V admiten Dolby Digital y DTS igualmente bien, la mayoría de los DVD y videojuegos están codificados en Dolby Digital.

audio de 6.1 canales

Aunque 5.1 es el formato más popular y la mayoría de los sistemas de cine en casa que se venden hoy en día son sistemas 5.1, el canal 6.1 también es común. El sistema 6.1 proporciona un efecto aún más inmersivo que el 5.1. Veamos las principales opciones de codificación en 6.1.

DTS-ES utiliza tecnologías digitales multicanal existentes para reproducir DTS de 5.1 canales, pero agrega un canal envolvente central dividido de ancho de banda completo. Aunque la mayoría de las películas están codificadas en EX Dolby Digital, todavía se utiliza ES DTS, por lo que los receptores 6.1 modernos admitirán ambos formatos.

Dolby Digital EX y THX envolvente EX

Dolby Labs, en colaboración con THX, ha ideado su propia solución para codificar sonido envolvente con 6.1 canales. Básicamente hicieron lo mismo que DTS-ES: agregaron un sonido envolvente central matricial para proporcionar un espacio sonoro completo de 360 ​​grados. Si tiene un sistema de 7.1 canales, la señal de audio irá a ambos altavoces traseros.

Muchos DVD están codificados en EX Dolby Digital y tienen un formato . Además, si reproduce un DVD Dolby Digital 5.1, el decodificador Dolby Digital EX o THX Surround EX seguirá simulando el sonido envolvente 6.1 procesando la información en canales traseros separados y enviando la pista de audio matricial a los altavoces traseros.

audio de 7.1 canales

Además de los formatos HD, los formatos Blu-ray modernos admiten audio más detallado. La mayoría de los reproductores de Blu-ray pueden reproducir 7.1 y algunos incluso garantizan audio sin pérdidas al decodificar. Si bien su reproductor y receptor podrán decodificar estos nuevos tipos de sonido envolvente, es importante tener en cuenta que no todos los discos están grabados en estos formatos. Por lo tanto, al comprar películas o videojuegos Blu-Ray, verifique la información sobre qué códecs de audio se utilizaron al grabar la información, para no decepcionarse más adelante con la calidad del sonido. Puede conectar su reproductor al receptor mediante salidas de audio analógicas o compatibles con HDMI 1.3.

Compresión sin pérdidas

Los últimos formatos de sonido envolvente de alta definición, Dolby TrueHD Y Audio maestro DTS-HD Ofrecen reproducción de hasta 7.1 canales de señal de audio sin pérdida de calidad. Además de la adición de dos canales traseros adicionales para formatos Dolby Digital y DTS estándar, los sistemas Dolby TrueHD y DTS-HD Master Audio están codificados con más información en los canales. De hecho, la calidad de estos formatos es idéntica a la de las grabaciones originales de estudio. La direccionalidad del sonido mejorada y la claridad de los efectos hacen que el sonido sea aún más realista.

Formatos adicionales con 7.1 canales separados

Es posible que observe que algunos discos Blu-ray están codificados con otros formatos envolventes 7.1 independientes. Por ejemplo, Dolby Digital Plus de DTS y Dolby Laboratories, y DTS-HD (alta definición). Estos formatos entregan sonido a través de 7.1 canales independientes. Proporcionan una experiencia más inmersiva que 5.1 Dolby Digital y DTS, pero no carecen de pérdidas como Dolby TrueHD y DTS-HD Master Audio. Los receptores que admiten formatos de audio sin pérdidas de 7.1 canales también pueden reproducir Dolby Digital Plus y DTS-HD en alta definición.

Decodificación matricial envolvente para fuentes más antiguas

Cuando se utiliza una conexión analógica estéreo al receptor o se conecta un equipo antiguo como una videograbadora, el convertidor puede utilizar uno de los siguientes tipos de procesamiento para decodificar la señal.

Dolby Pro Lógica II Incluye dos canales envolventes independientes de capacidad total, tres canales traseros de matriz y un canal de baja frecuencia dedicado para el subwoofer. Muchos de los últimos modelos también admiten el procesamiento Pro Logic IIx, que puede convertir la señal de audio a 7.1.

Los receptores con Dolby Pro Logic II y IIx pueden agregar intensidad adicional a miles de películas VHS y transmisiones de TV grabadas en estéreo o Dolby Surround de 4 canales. Muchos convertidores también tienen modos especiales que decodifican música estéreo en sonido envolvente.

DT Neo: 6 es básicamente idéntico a Pro Logic II: es simplemente un método de procesamiento desarrollado por DTS para decodificar audio estéreo de dos canales en 5.1 o 6.1. Y al igual que Pro Logic II, proporciona un efecto de sonido envolvente.

Canales de "altura" para escenario de sonido.

Algunos receptores ofrecen un nuevo formato de sonido envolvente Dolby Pro Logic IIz. Agrega dos canales de "altura" a su escenario sonoro. Estos altavoces suelen montarse en la pared encima de los altavoces frontales izquierdo y derecho.

Un receptor con Pro Logic IIz puede dividir la señal de audio en los escenarios de sonido frontales. Envía audio direccional a los parlantes frontales y audio no direccional (ruido de fondo, ruido de multitud, fanáticos del estadio) a los canales de altura.

Procesamiento de señales digitales DSP

A veces los fabricantes proporcionan sus propios sistemas de procesamiento especializados, a menudo llamados procesamiento de señales digitales DSP, además de admitir otros formatos. Muchos sistemas de cine en casa utilizan procesamiento de señales digitales para crear un escenario sonoro (que simula un entorno acústico como una sala de conciertos o un estadio) y para controlar con precisión la información multicanal de las bandas sonoras. Esta función puede denominarse de forma diferente según el fabricante. El nombre de esta función se puede encontrar en las instrucciones de uso de su receptor o sistema de cine en casa.

Dolby Digital y DTS

Actualmente se utilizan varios formatos de sonido envolvente diferentes y, a veces, puede resultar muy difícil para los principiantes comprender las diferencias entre ellos. Lo más importante para usted es saber qué formatos están disponibles y cuáles admite su receptor. La pista de audio de los discos DVD y Blu-ray suele estar codificada en varios formatos, siendo los más comunes Dolby Digital y DTS. Su receptor debe reconocer este flujo digital y convertirlo en señales analógicas para reproducirlas a través de un sistema multicanal.

Sin entrar en detalles, existen dos formatos principales:
Dolby Digital 5.1 es un formato que proporciona seis canales: dos al frente, dos atrás, uno en el centro y uno para el subwoofer. Ancho de banda de audio de 20 Hz a 20 kHz. Se utiliza codificación de 18 bits, por lo que el flujo de salida es de 384 kbps. Dolby Digital 5.1 también se llama AC-3 (Audio Codec-3), se utiliza en casi todos los DVD y programas de televisión (HD).
DTS también maneja flujo de bits 5.1. DTS está disponible en el 70 por ciento de los discos Blu-ray y DVD, generalmente junto con Dolby Digital.
Ambos formatos se utilizan hoy en día en casi todos los discos Blu-ray y DVD, y el 99% de los receptores admiten estos formatos de sonido envolvente.

Otros formatos envolventes

Los formatos más nuevos son Dolby Digital Surround EX y DTS ES, que incluyen canales traseros adicionales. Dolby Digital Surround EX se introdujo en 1999. Su peculiaridad es la aparición de un tercer canal a espaldas de los espectadores. Se introduce un canal adicional en la fuente de audio al codificar la banda sonora de una película.

Los formatos Dolby y DTS permiten audio de cinco o más canales incluso cuando se reproduce una grabación estéreo, creando una imitación de sonido envolvente. Formatos similares incluyen Dolby Pro Logic. Pero la tecnología Dolby Pro Logic no se utiliza al codificar fonogramas o al grabar discos DVD y Blu-ray, sino que es simplemente una configuración del receptor.
La tecnología Dolby Pro Logic es un sistema de decodificación desarrollado por Dolby Laboratories para crear sonido envolvente de una pista de audio de dos canales cuando se escucha en sistemas de audio 5.1.

La tecnología Dolby Pro Logic IIz también se aplica a los receptores, pero no a fuentes de sonido como DVD y discos Blu-ray, y proporciona dos canales frontales adicionales, cuyos emisores se encuentran encima de los altavoces frontales principales. La reproducción del sonido en esta configuración se vuelve más realista, especialmente para efectos de sonido como el ruido del viento o la lluvia. En este caso, lo único que necesitas son dos altavoces adicionales y un receptor que admita la tecnología Pro Logic IIz.
Esta tecnología Dolby puede enriquecer el audio, ya sea grabado en estéreo o en 7.1 canales. Permite identificar el ruido ambiental no direccional y reproducirlo selectivamente a través de los canales frontales superiores.
Los efectos de sonido de la película adquieren un sonido tridimensional y parecen más realistas. Los conciertos de orquesta tienen un impacto más poderoso en los oyentes y las películas musicales tienen un efecto de inmersión.

Audio HD en cine en casa

En la era del vídeo de alta definición, formatos como Dolby True HD y DTS-HD Master Audio son de especial interés. Estos dos formatos son actualizaciones de los habituales Dolby y DTS. La única diferencia es que tienen un grado de compresión de audio mucho menor, por lo que los formatos HD se pueden encontrar en discos Blu-ray, pero no en discos DVD. Si desea mejorar la calidad del sonido de su sistema de cine en casa, necesita tener un reproductor y receptor de Blu-ray con la capacidad de decodificar pistas de audio Dolby True HD y DTS-HD Master Audio. Es posible que algunos receptores más antiguos no tengan dichos decodificadores.

Tenga en cuenta que si tiene un receptor antiguo pero el reproductor de Blu-ray puede reproducir sonido envolvente de alta resolución desde el disco, deberá decodificar la señal al formato PCM (modulación de código de pulso). Esto quizás sea un poco más complicado y tendrás que consultar el manual de uso del reproductor. También puedes comprar un reproductor de Blu-ray que tenga salidas de audio analógicas 5.1 (seis salidas de audio separadas). Así, desde la salida del reproductor podrás enviar sonido analógico a las entradas del amplificador del receptor.

Formatos envolventes más avanzados

Aunque la mayoría de los cines en casa hoy en día utilizan configuraciones de audio de 5.1 y 7.1 canales, desde hace mucho tiempo existen opciones que utilizan canales de audio adicionales, como Audyssey DSX y DTS Neo:X, y están siendo reemplazadas más recientemente por Dolby Atmos y Auro 3D, que prometen "insuperables". Sonido realista” debido a fuentes de sonido adicionales ubicadas arriba (sobre la cabeza del espectador). Así, las gotas de lluvia sobre el tejado o el sonido de un avión sobrevolando se acercan lo más posible a la realidad cuando se reproduce una banda sonora o una pista de audio de una película con el sonido codificado correspondientemente.
Ya se encuentran en las tiendas equipos de audio similares, incluidos receptores y parlantes superiores especiales; algunos modelos de receptores multicanal más antiguos se pueden actualizar a niveles Dolby Atmos y Auro 3D solo actualizando el firmware.

Requisitos THX

Si alguna vez ha estado en una sala de cine en la ciudad, seguramente habrá encontrado afirmaciones de THX implementadas en la pantalla grande, pero hoy puede encontrar el logotipo de THX en la parte posterior de los mejores componentes de cine en casa. Mucha gente piensa que THX es un formato de audio, como DTS, Dolby Surround, etc., pero esto no es del todo cierto. La certificación THX es el sello distintivo del audio y vídeo de alta calidad de una autoridad como Lucasfilm.
Este estándar fue desarrollado por Tomlinson Holman para Lucasfilm en 1982 para asegurar la banda sonora original de la sexta entrega de la saga Star Wars, El regreso del Jedi. Por tanto, THX es una especie de estándar de calidad generalmente reconocido.

Audio/técnica con el logo THX es un producto bueno (pero caro) y confiable que cumple con las más altas exigencias de fidelidad de video y audio. Por supuesto, existen otras opiniones sobre el significado real de un logo hoy en día, relacionadas con la comercialización y la ganancia de dinero con el reconocimiento de la marca. Y, además, para que "el sonido se reproduzca exactamente como lo pretendía el director", es necesario cumplir con una serie de otros requisitos para la ubicación de las fuentes en una sala de cine en casa, donde las condiciones acústicas pueden desviarse seriamente de los ideales. Evidentemente, esta es la razón por la que han surgido niveles de exigencia THX, teniendo en cuenta las particularidades de la vivienda.

THX Seleccione 2 y THX Ultra 2

Para receptores y parlantes, la certificación THX Select(2) significa que esos componentes están certificados para funcionar en sistemas de cine en casa de aproximadamente 56 metros cúbicos. THX Ultra (2) proporciona un mayor nivel de requisitos. Este certificado se otorga a componentes que pueden proporcionar sonido en habitaciones de hasta 85 metros cúbicos de volumen. En teoría, los receptores y altavoces THX Select en un espacio de 56 metros cúbicos o menos ofrecen el mismo rendimiento que los componentes que llevan el logotipo THX Ultra. Los amplificadores, reproductores de DVD y Blu-ray no están certificados por THX Select. Estos componentes están identificados únicamente por THX.

Tecnologías Audyssey

Los fabricantes de sistemas de altavoces se esfuerzan por garantizar que los altavoces de audio que desarrollan reproduzcan el sonido sin distorsiones ni caídas en el espectro de frecuencias. Sin embargo, el carácter sonoro de cualquier sistema de altavoces depende de las características acústicas del entorno de instalación. Las paredes, muebles y otros objetos reflejan y absorben determinadas frecuencias de sonido con intensidades variables. Es por eso que un mismo equipo de audio puede sonar diferente, dependiendo de las características acústicas de la habitación. No todos los fabricantes de altavoces tienen en cuenta este fenómeno. Audyssey (y muchos otros) ponen el mayor énfasis en optimizar el sonido para adaptarlo a las características acústicas de cualquier habitación. La disponibilidad del software Audyssey adecuado se confirma mediante un logotipo en el receptor.

Audyssey MultEQ
Esta tecnología Audyssey le permite obtener un sonido óptimo desde sus parlantes y receptor (habilitados con esta tecnología) en cualquier habitación. Cada altavoz de audio y el canal del amplificador cargado en él se pueden configurar individualmente. Con dicho equipo de audio, por regla general, se incluye un micrófono para configurar el sistema utilizando el programa Audyssey MultEQ instalado en la computadora.

Ecualizador dinámico Audyssey
Audyssey Dynamic EQ es una tecnología de corrección de volumen que aborda el problema de reducir la presión sonora a niveles de volumen bajos, teniendo en cuenta las características de la audición humana y la sala de escucha. Al crear una película, se utiliza un nivel de sonido de referencia bastante alto. En una sala de estar típica, a volúmenes más bajos, los graves desaparecen y la experiencia sonora general se deteriora. Pero Dynaminc EQ te permitirá presentar el sonido original a cualquier volumen. Tenga en cuenta que Dynamic EQ solo funciona en combinación con MultEQ.

Volumen dinámico Audyssey
El volumen del sonido de los programas de televisión (incluso dentro del mismo programa), películas y anuncios publicitarios puede variar mucho. Esto puede significar que a veces tengas que bajar el volumen, por ejemplo durante las pausas comerciales. Con Audyssey Dynamic Volume, estas diferencias de volumen se corrigen automáticamente. El nivel de sonido se controla constantemente y se ajusta si es necesario.

Audyssey DSX (Expansión de sonido dinámico)
Esta es una tecnología de expansión de audio dinámica que le permite agregar más canales de audio a un sistema de sonido envolvente, permitiéndole expandir un sistema 5.1 a una configuración 7.1, 9.1 u 11.1. Con Audyssey DSX, puede agregar dos altavoces envolventes adicionales a los altavoces frontales izquierdo y derecho, usar dos canales de altura adicionales o agregar dos canales traseros más. Audyssey garantiza así un sonido envolvente más impresionante.

Este artículo se basa en mi tesis sobre el tema "Desarrollo de principios para simular el sonido envolvente en el sector del entretenimiento", Departamento de Tecnología de la Información, Instituto de Aviación de Moscú, 2011. Para adaptar el texto, se eliminaron las estadísticas secas, se hizo más animado el lenguaje y se insertaron referencias a libros y artículos que puedo recomendar. Las cuestiones planteadas serán de interés para quienes todavía están estudiando los mecanismos de localización del sonido. La parte del software no se aborda en el artículo. Para mayor interés, la parte práctica de crear un micrófono falso binaural no fue eliminada del artículo.

Me gustaría expresar mi agradecimiento a Boris Klimov por crear ilustraciones exclusivas, así como a Nadezhda Gurskaya por analizar y editar el texto.

Introducción

El objetivo principal de la realidad virtual es "sumergir" a una persona en el espacio del juego, la acción en la pantalla (película, dibujos animados, cine 5D) hasta el punto de que por un tiempo se olvida de la realidad del mundo que lo rodea. .

Puedes leer sobre los conceptos de “inmersión”, así como “suspensión de la incredulidad” en relación con el sonido y la música, en el libro Winifred Phillips – A Composer’s Guide to Game Music.

El sonido envolvente es la clave para que una persona pueda sentir el efecto de la "presencia". La percepción del espacio sonoro, obviamente, estaba en demanda mucho antes de la aparición de los medios de grabación sonora: a lo largo de los siglos, se crearon locales como iglesias, teatros y salas de conciertos, donde el oyente se “sumergía” en el espacio sonoro, creando un efecto acústico natural: la reverberación. Los estudios científicos de Bose sobre el comportamiento de la acústica en las salas de conciertos han demostrado que aproximadamente el 11% llega directamente al oyente, el porcentaje restante del sonido llega en forma reflejada desde las paredes, el suelo y el techo y otros objetos alrededor del oyente, creando así el volumen. de sonido. Desde el punto de vista informativo, el 25% de la información que recibe una persona sobre el mundo que la rodea proviene del sonido.

El enfoque del sonido en los cines modernos acostumbra al oyente al hecho de que el sonido puede y debe ser realista y de alta calidad. Los desarrolladores profesionales de aplicaciones de juegos modernas dedican hasta el 40 por ciento de su presupuesto y recursos humanos temporales a trabajar con sonido. Por otro lado, todavía es necesario convencer a algunos desarrolladores de juegos y aplicaciones para que inviertan tiempo y dinero en implementar un sonido de alta calidad.

Sobre el tema de los diferentes enfoques, es interesante leer los artículos “Puntuación de juegos de computadora”, partes 1 y 2 de Christopher (buscados libremente en Internet).

Percepción humana del sonido.

El oído humano es capaz de percibir sonidos en el rango de 16 a 20 Hz a 15 a 20 kHz. Los sonidos con una frecuencia inferior a 20-30 Hz (infrasonidos) no se perciben mediante el órgano del oído, sino mediante el tacto, por ejemplo, a través de la vibración de superficies. Las frecuencias de los valores límite inferiores del espectro audible se pueden percibir a través de las resonancias de los órganos internos humanos. A baja intensidad, el sonido de baja frecuencia tiene un impacto emocional adicional (por ejemplo, el popular efecto sub drop).

Una disminución en el rango de frecuencias audibles se asocia con cambios en el oído interno y el desarrollo de pérdida auditiva neurosensorial relacionada con la edad. A la edad de 60 años, el rango audible en el límite superior no supera los 10-12 kHz. Dado que el principal contingente del sector del entretenimiento son los jóvenes, se debe tener plenamente en cuenta el alcance percibido por el oído. Pero un especialista en sonido también debe tener una audición completa, oír un timbre poco natural e incompleto y ser capaz de identificar resonancias. Y lo que no deja de ser importante es proteger su oído de sobrecargas. Muchas personas en la industria de la música y el sonido experimentan un estrés constante debido a los equipos de refuerzo de sonido y los instrumentos acústicos ruidosos (como yo, después de más de 12 años de tocar instrumentos de percusión). El hombre moderno es susceptible a los efectos negativos del ruido ambiental, que reduce su sensibilidad y embota los límites superiores de frecuencia antes de la pérdida natural de audición. No hay que descuidar la protección auditiva como los tapones para los oídos. Los sonidos de baja frecuencia también pueden tener un impacto negativo.

Se pueden encontrar más detalles sobre el impacto negativo del sonido (incluido el técnico) en el libro de Chadd G. - Sound.

La percepción del sonido es individual, depende de la configuración (forma) del pabellón auricular, las características fisiológicas, la edad y el estado de ánimo psicológico en un momento determinado. En la zona considerada, la percepción del sonido también depende de:
- equipos de reproducción (altavoces del dispositivo de reproducción, auriculares, altavoces, sistemas multicanal),
- la sala en la que se realiza la escucha,
- calidad de las herramientas de conversión (por ejemplo, implementación de un procesador de sonido, motor),
- Cumplimiento de los principios de creación de la imagen sonora correcta en lo que respecta al diseño de sonido.

Mecanismos de localización de fuentes de sonido por parte del oído humano.

La capacidad de una persona para localizar una fuente de sonido en el espacio se basa en el principio de audición binaural. La estructura binaural (del latín bini - "dos" y auricula - "oído") del sistema auditivo radica en la percepción diferente de las señales sonoras que llegan al oído derecho e izquierdo. Algoritmo de localización de fuente de sonido:
- la señal sonora que emana de la fuente sonora y los reflejos de la habitación ingresa a la parte externa del sistema auditivo, donde la configuración del pabellón auricular permite transmitir una señal procesada en frecuencia al conducto auditivo externo,
- la señal pasa al tímpano humano, los mecanismos del oído interno entran en vigor,
- Desde el oído interno, la información ingresa a las partes del cerebro, donde, a partir de un análisis de la comparación de las señales recibidas de cada uno de los canales auditivos, se extraen conclusiones sobre la ubicación de la fuente del sonido.

El cerebro humano compara la información procedente de los tímpanos con la información que ya está almacenada en la memoria.

Arroz. 1. La estructura de la parte externa del sistema auditivo humano.

Puede leer en detalle sobre la estructura de la audición externa e interna y mucho más en el libro de Irina Aldoshina y Roy Pritts - Musical Acoustics, capítulo “Percepción del sonido. Fundamentos de la psicoacústica"

Para determinar la ubicación de una fuente de sonido en el espacio, el sistema auditivo utiliza mecanismos básicos de localización: por diferencia de tiempo, por diferencia de intensidad, por diferencia en el espectro de amplitud-frecuencia. Los mecanismos auxiliares incluyen reflejos de sonido del torso y hombros humanos, reverberación, oclusión (sonido que atraviesa un obstáculo), obstrucción (sonido filtrado por un obstáculo), efecto Doppler, efecto Haas (efecto de precedencia). No nos olvidemos del efecto de la percepción psicológica: si la fuente en el espacio visible no coincide con el sonido o hay una violación de la sincronicidad, la calidad de la localización cae drásticamente.

Es necesario determinar la posición espacial de la fuente de sonido en presencia de interferencias de sonido. Existen mecanismos naturales de inmunidad al ruido del sistema auditivo. Uno de ellos se manifiesta en la liberación binaural del enmascaramiento. El fenómeno es que es más fácil localizar una señal de audio en un contexto de interferencia estática (por ejemplo, ruido ambiental).

Unas pocas palabras sobre la sana transparencia. Déjenme darles un ejemplo bien conocido. Imaginemos varios dibujos de contornos de animales superpuestos entre sí. El reconocimiento de patrones combinados en el espacio es más difícil cuanto más cercanas están las formas de los animales representados (el término forma tiene el mismo significado que en una señal sonora). Si estos dibujos se distribuyen en el espacio, la tarea de identificar al animal por su forma se vuelve mucho más fácil.

Localización por diferencia horaria (localización de fase)

Este mecanismo opera en frecuencias de 300 Hz a 1,5 kHz. Debido a la diferencia entre la posición del oído izquierdo y derecho, el sonido proveniente de una fuente ubicada en ángulo con la dirección frontal tarda diferentes tiempos en llegar a los tímpanos.


Arroz. 2. Ejemplo esquemático de localización de fase.

Dado el mismo tiempo necesario para alcanzar la señal de los oídos izquierdo y derecho, este mecanismo localizará la fuente en 0 y 180 grados de acimut. Diferentes tiempos para llegar a los tímpanos dan como resultado un cambio de fase. El sistema auditivo distingue cambios de fase de hasta 10 a 15 grados. Al aumentar la frecuencia y, en consecuencia, al disminuir la longitud de onda del sonido, aumenta el cambio de fase de las señales provenientes de la misma fuente a diferentes oídos. Tan pronto como el desplazamiento alcanza un valor cercano a la mitad de la longitud de onda del sonido, el mecanismo deja de funcionar. El cerebro humano no puede determinar de forma inequívoca si la señal sonora en uno de los canales auditivos va por detrás del otro o, por el contrario, lo adelanta.

La diferencia de tiempo máxima correspondiente a un desplazamiento completo de la fuente sonora hacia la derecha o hacia la izquierda no puede ser superior a 630 μs.

La distancia entre la oreja derecha e izquierda de un adulto es de 0,15 m-0,20 m, si tomamos el valor medio por sexo. Con una fuente que emite una onda sonora con una frecuencia de 20 Hz y una velocidad del sonido de 340 m/s, la longitud de onda será de 17 m. En consecuencia, si una persona gira hacia un lado hacia la fuente, se producirá un desplazamiento de fase de las señales que llegan. en un oído y luego en el otro, será aproximadamente el 1,1% de todo el período de la onda de 20 Hz (la localización a frecuencias tan bajas es imposible). Fisiológicamente, la precisión de la localización depende del tamaño de la cabeza, es decir, de la distancia entre las orejas. Cuanto mayor es esta distancia, mayor es la diferencia en las señales sonoras que llegan a cada oído.

Cuando el sonido es emitido por una fuente ubicada en un cierto ángulo con respecto a la dirección frontal, el nivel de presión sonora en los tímpanos en diferentes oídos será diferente. Esto se debe al hecho de que un oído estará “en la sombra” creada por la cabeza, y también al hecho de que las ondas sonoras por encima de 1000 Hz se atenúan relativamente rápido en el espacio.


Arroz. 3. Ejemplo esquemático de localización por nivel de intensidad.

Este mecanismo es bastante eficaz, pero en el rango de frecuencia de audio de 1600 Hz. Cuando la longitud de onda del sonido es comparable al diámetro de la cabeza humana, el oído más alejado de la fuente deja de estar en la “sombra acústica”, lo que se debe al fenómeno de difracción de la onda sonora en la superficie de la cabeza. Al mismo tiempo, se ha demostrado experimentalmente que la capacidad del oído humano para determinar el ángulo entre dos fuentes en el plano horizontal en el rango de frecuencia de 1500-2000 Hz disminuye drásticamente.

Este mecanismo ayuda a determinar la distancia a la fuente de sonido. Sin embargo, el nivel de sonido de una fuente débil pero cercana puede ser el mismo que el de una fuente potente pero distante. En tales condiciones, la localización se ve facilitada por el siguiente mecanismo.

Localización por diferencia en el espectro de amplitud-frecuencia.

El mecanismo se basa en la capacidad del cerebro para analizar las caídas y aumentos de frecuencia de ciertas frecuencias en una señal compleja. El sonido que llega en un ángulo de 90° contiene componentes de alta y baja frecuencia, y en el espectro del sonido que actúa en el oído lejano habrá menos componentes de alta frecuencia: el efecto protector de la cabeza. Además, la señal de sonido se refleja de manera diferente en partes del pabellón auricular y diferentes partes del espectro de sonido se fortalecen o debilitan.

Este mecanismo es responsable de la localización de adelante hacia atrás y del plano vertical. El estudio del efecto de filtrado de la cabeza y los oídos del oyente permitió introducir el concepto de bandas portadoras. Al localizar, una persona no analiza todo el espectro del sonido entrante, sino solo los cambios en algunas frecuencias. Estas franjas se formaron evolutivamente; el oído desarrolló su propio sistema de seguimiento y advertencia de peligro, localizando con bastante precisión de dónde proviene la amenaza.

Los cambios en las bandas de 16 a 500 Hz y de 2 a 6 kHz son responsables de la localización de las fuentes de sonido frontales. Banda de 0,7 a 2 kHz: cambia el timbre de las fuentes que pueden estar ubicadas detrás.

Una señal con una composición espectral compleja se localiza mejor y el sentido de la dirección "de adelante hacia atrás" está formado predominantemente por aquellas bandas direccionales en las que se concentra la mayor parte de la potencia de la señal. Los tonos puros, que prácticamente nunca se encuentran en la naturaleza, se localizan peor que las señales complejas. Por tanto, los tonos puros por encima de 8000 Hz son difíciles de localizar. También es imposible determinar la ubicación de fuentes de sonido de baja frecuencia, menos de 150 Hz.

La localización en el plano vertical es mucho peor que en el horizontal. Sin influencia psicológica y visual, es casi imposible crear una imitación de un objeto que debería ubicarse, por ejemplo, encima. Este sonido debería ser al menos familiar y esperado.

Gibson D., en sus libros y vídeos, plantea el concepto de disposición vertical de los instrumentos en una mezcla musical según su altura (tessitura) o formante (área de tonos parciales amplificados), ya que en el plano vertical el sonido -El equipo de reproducción se construye según el mismo principio. Mediante un crossover acústico con límites definidos, una señal compleja se divide en bandas de frecuencia. En un sistema de tres vías, hay un woffer que transmite las frecuencias bajas en la parte inferior, un controlador de medios para los medios en la parte media y un tweeter en la parte superior del sistema para transmitir las frecuencias altas. Y el subwoofer transmite parte de la información a través del suelo. Este enfoque es interesante, pero no adecuado para muchos sistemas, por ejemplo, cuando se utilizan auriculares o cualquier otro sistema sin bandas.

Se pueden encontrar más detalles sobre los principios descritos en el libro Gibson D. - A Visual Guide to Recording and Proproduction.

Sin embargo, reducir psicoacústicamente la intensidad de las bajas frecuencias ayuda a “elevar” el objeto, haciéndolo más ligero.

Mover la fuente de sonido

Hasta la década de 1960, el estudio de la capacidad humana para localizar una fuente sonora en el espacio se centraba principalmente en fuentes sonoras estacionarias. Posteriormente se inició el estudio de la percepción humana y las fuentes sonoras en movimiento: se determinaron las principales características de la percepción.

Durante la investigación, resultó que para que una persona tenga la sensación de movimiento sonoro, es necesario un cierto tiempo: una ventana de tiempo. Varía de 0,08 a 0,12 s. Localizar un sonido breve y estacionario (por ejemplo, un clic que dura aproximadamente 0,001 s) es bastante fácil.

Una persona también puede distinguir la velocidad de movimiento de una fuente de sonido: cuanto mayor es (dentro de ciertos límites), más sutil es esta capacidad. Si la fuente sonora se mueve con una velocidad de 90°/s (movimiento a lo largo de un semiperímetro delante de la cabeza del sujeto), una persona nota un cambio en la velocidad del 15%; y con una velocidad de movimiento de 360°/s, un 5,5%.

Si la fuente está estacionaria, para localizarla, una persona inconscientemente realiza micromovimientos de la cabeza, lo que aumenta en un orden de magnitud la precisión para determinar la posición de la fuente en el espacio.

Efectos

Para transmitir de manera plausible el sonido de una fuente en movimiento, es necesario tener en cuenta (el efecto de los cambios en la frecuencia del sonido de la fuente cuando se mueve de manera no radial en relación con el oyente). Según la sensación subjetiva del efecto, el sonido cambia bruscamente de tono: se vuelve más alto cuando el objeto se acerca y más bajo cuando se aleja. En el ámbito de los videojuegos, el efecto Doppler juega un papel importante. Especialmente cuando se trata de simuladores de automóviles y otras aplicaciones relacionadas con el movimiento rápido de objetos. El efecto Doppler es un complemento común para secuenciadores y, hasta donde yo sé, existe en muchos motores de sonido.

Uno de los principales efectos de la creación de espacio es el efecto de reverberación (el proceso de reflexión repetida de una señal de sonido desde varias superficies con una disminución gradual de su intensidad). La reverberación simulada tiene una serie de parámetros: tiempo de reflexión temprana, tiempo de reflexión tardía, tasa de caída, porcentaje de la señal "seca" con respecto a la procesada. Estos parámetros indican el tamaño de la habitación y la ubicación de la fuente de sonido en ella en relación con el oyente. En mi trabajo utilizo exclusivamente reverberadores convolucionales, aplicándoles impulsos de habitaciones reales. Sin entrar en detalles de la tecnología, el pulso en sí es una “huella” de ruido de la habitación (archivo wav), que modula el archivo de sonido original, colocándolo así en el espacio simulado. En el campo musical, las tecnologías de convolución se han utilizado durante mucho tiempo, por lo que en el shell Kontakt (4,5) de NI, se incluye una reverberación de convolución con un conjunto de pulsos en la lista de efectos estándar.

Sistemas de sonido. sistema binaural

Hay dos enfoques principales para organizar los sistemas de sonido modernos en una habitación: sistemas multicanal y sistemas de dos canales (incluidos los auriculares). En los sistemas multicanal, el sonido se transmite desde monitores colocados delante y detrás (o alrededor) del oyente.

Se pueden encontrar más detalles sobre los sistemas monoaurales, binaurales, estereofónicos y multicanal y sus complejidades en el libro de Yu Kovalgin: Transmisión estereofónica y grabación de sonido.

Para mejorar el efecto espacial, los fabricantes intentan promover conceptos de sistemas que ya no sean de cinco, sino de seis, siete e incluso nueve canales. Aumentar el número de canales requiere complicar el trabajo del ingeniero de sonido, aumentar el número de sistemas de altavoces, parchear cables y el uso de amplificadores más complejos y, por tanto, permite aumentar los ingresos por ventas.
No todos los consumidores necesitan sistemas de audio multicanal. Para algunos esto es inaceptable por razones económicas; otros no pueden reservar espacio en su vivienda para un sistema de entretenimiento doméstico. Algunas personas, por razones obvias, prefieren utilizar auriculares (por la noche, cuando se desplazan en transporte público, etc.).

Sólo dos oídos proporcionan a una persona toda la información necesaria sobre un objeto, lo que significa que sólo dos altavoces son suficientes para transmitirlo. Cuando se utiliza la grabación binaural, las fuentes de sonido aparentes, cuando se utilizan auriculares, se colocan fuera de la cabeza del oyente en el lugar donde se encuentran las fuentes de sonido reales. Por el contrario, cuando se escuchan señales estereofónicas convencionales a través de auriculares, se siente que las fuentes de sonido aparentes están ubicadas dentro de la cabeza del oyente.

La aparición de reverberación hace que sea difícil estimar el azimut de las fuentes de sonido aparentes en la región trasera, donde los oyentes a menudo indican la dirección frontal del espejo correspondiente en lugar de la dirección verdadera. Este fenómeno ocurre especialmente cuando el tiempo de reverberación estándar en la sala de escucha supera los 0,3 s.

Es posible la transmisión correcta de información espacial cuando se reproduce utilizando dos monitores, pero incluso un ligero desplazamiento (entre 9 y 15 cm) del centro de la cabeza del oyente hacia la izquierda o hacia la derecha de este punto conduce al hecho de que la localización del sonido aparente fuentes es imposible fuera del foco de los ejes de los monitores.

En el punto de escucha óptimo, el sistema binaural proporciona un sonido que es preferible con seguridad al estéreo convencional. Sin embargo, su aplicación es muy limitada: reproducción mediante auriculares, equipos portátiles de radiodifusión y reproducción de sonido, modelado por ordenador. Un sistema de sonido binaural no es muy adecuado para condiciones de escucha en grupo.

Cuando se reproduce una señal binaural a través de un sistema de altavoces, se produce una distorsión cruzada debido a que la señal del canal derecho ingresa al oído izquierdo del oyente y viceversa.

En la realidad del diseño de sonido de juegos, los archivos de audio binaural grabados no se utilizan, porque es imposible cambiar su posición en el espacio, no hay una fuente virtual ni un oyente virtual, esto no es modelado.

Algoritmos

El algoritmo principal, que utiliza los mecanismos básicos de localización del sonido humano, se implementa en HRTF (Funciones de transferencia relacionadas con la cabeza: funciones de movimiento del sonido en relación con el oyente. Las HRTF se determinan cuantitativamente mediante la transformada integral inversa de Fourier de coeficientes llamada HRIR (Head Related Transfer Functions). Respuesta al impulso), que en una primera aproximación están determinadas por la relación de presión sobre el tímpano del oído de una onda sonora en el espacio libre (campo libre) y en el espacio real, teniendo en cuenta la cabeza, los oídos, el cuerpo y otros obstáculos de la persona. .

HRTF es una función compleja con cuatro variables: tres coordenadas espaciales y frecuencia. Cuando se utilizan coordenadas esféricas para determinar distancias a fuentes de sonido superiores a un metro, se supone que las fuentes de sonido están en el campo lejano y el valor HRTF disminuye inversamente con la distancia. La mayoría de las mediciones de HRTF se realizan en campo lejano y el número de variables se reduce a tres: acimut, elevación y frecuencia. El efecto de HRTF depende del rango de frecuencia de la señal que se procesa: solo los sonidos con valores de componentes de frecuencia entre 3000 Hz y 10000 Hz pueden interpretarse con éxito utilizando las funciones HRTF. Si la señal de la fuente de sonido no contiene una frecuencia especial que afecte la diferencia entre las funciones HRTF delantera y trasera, dicha señal nunca se localizará en la dirección de adelante hacia atrás.

La HRTF se simuló utilizando un maniquí KEMAR (Knowless Electronics Manikin for Auditory Research) y un “oído digital” especial desarrollado por Sensaura. Se colocan micrófonos en los oídos del maniquí y altavoces alrededor del maniquí, lo que da como resultado una grabación de lo que escucha cada oído. Los resultados obtenidos de dicho modelado se utilizan para ampliar la base de datos HRTF, que luego se puede utilizar para seleccionar parámetros de forma interactiva al reproducir audio 3D posicionado (Sensaura tiene más de 1.100 HRTF en su base de datos). La necesidad de una base de datos de este tipo se explica, en primer lugar, por la diferencia en el tamaño y la forma de la cabeza y las orejas del maniquí y del oyente potencial y, en segundo lugar, por la denominada zona óptima determinada por estos parámetros, en la que el El efecto de sonido en el plano vertical se recrea correctamente y se determina correctamente la ubicación de las fuentes de sonido en el espacio. Cuanto mayor sea el área del punto óptimo, más libertad de acción tendrá el oyente. Por lo tanto, los desarrolladores buscan constantemente formas de aumentar el área de efecto del punto óptimo.

Al implementar tecnologías con HRTF, QSound se basa no solo en métodos matemáticos, sino también en pruebas realizadas por oyentes (se realizaron alrededor de 550 mil sesiones de escucha de este tipo). Los especialistas de Sensaura, después de una serie de experimentos, determinaron que HRTF en su forma pura "funciona" sólo cuando se reproduce a través de auriculares. El modelado de sonido en este caso es una tarea trivial: cada hablante controla su oído correspondiente. Sin embargo, cuando el mismo sonido se reproduce a través de unos altavoces, el oído derecho también escucha un sonido diseñado para "engañar" al oído izquierdo desde un punto de vista tridimensional, y viceversa. Para eliminar este fenómeno, se deben agregar cálculos de compensación adicionales al sonido. Se han desarrollado algoritmos de compensación exitosos que se denominan Cancelación de diafonía transaural (TCC). El problema se resolvió utilizando otra idea de los ingenieros de Sensaura. La razón es que las funciones HRTF sólo funcionan para el oído medio, ya que se derivan de un único maniquí o de las lecturas medias de un gran grupo de personas. Sensaura ha desarrollado un modelo de oído digital en el que se pueden configurar los parámetros del pabellón auricular. Utilizando este modelo digital, una combinación de diferentes parámetros puede reproducir la forma de casi cualquier oreja. El controlador de oído digital resultante funciona así: cuando se instala, una persona escucha una serie de sonidos de prueba y ajusta la configuración del controlador para experimentar mejor la tridimensionalidad del sonido. Los parámetros individuales del oyente se registran en un "perfil" especial, que posteriormente utilizan las aplicaciones.

Más recientemente, se pudo ver cómo el cine estéreo llegó al mundo de los cines comerciales y domésticos, y ahora el vídeo 4K de ultra alta resolución es el siguiente. El sonido no se queda atrás de la imagen: el audio 3D ha llegado al cine en casa, un entorno sonoro completo para el espectador, no sólo en el plano horizontal, sino también en la tercera dimensión. En inglés se utiliza para ello el término inmersivo.

Voz de Dios y otros canales de audio

El formato Auro-3D fue introducido en mayo de 2006 por la empresa belga Galaxy Studios. La primera película convencional grabada en este formato fue Red Tails, filmada en 2012 por George Lucas. La diferencia fundamental entre los formatos Auro-3D y Dolby Surround EX y DTS que prevalecían en ese momento fue que, además de los tradicionales 7.1 canales ubicados en el mismo plano, los desarrolladores propusieron utilizar la tercera dimensión, es decir, colocar sistemas de altavoces. (AS) no sólo alrededor del oyente, sino también encima, como una segunda “capa”, en un ángulo de 30 grados con respecto a los sistemas de altavoces frontales y los canales de sonido envolvente.

Una mejora adicional del formato condujo a la aparición de otra "capa", sobre las cabezas de los oyentes, que simbólicamente se llamaba la voz de Dios. El número máximo de canales (que no debe confundirse con el número de sistemas de altavoces) alcanzó 13,1, es decir, en realidad llegó a ser el doble que en los formatos 7.1 y 6.1 utilizados en ese momento. La introducción de canales aéreos permitió transmitir con mayor precisión una serie de eventos en la banda sonora de la película, como objetos que vuelan sobre el público (el ruido de un helicóptero o un avión de combate), efectos atmosféricos (aullidos del viento, truenos).


Si el techo es demasiado bajo, la acústica estará demasiado cerca del espectador. En este caso, Dolby recomienda utilizar sistemas de altavoces especiales que funcionen "por reflexión" desde el techo; según la empresa, el resultado será de mayor calidad.

Enfoque de objeto

El reproductor más antiguo del mercado del audio cinematográfico, Dolby Laboratories, utiliza dos “capas” de sistemas de altavoces en su nuevo formato Dolby Atmos. El primero está ubicado alrededor del oyente según el esquema clásico, y el segundo en el techo, en pares a izquierda y derecha. Pero lo más importante es un enfoque fundamentalmente nuevo a la hora de mezclar bandas sonoras. En lugar de la habitual mezcla canal por canal, el estudio utiliza el método de grabación "objeto". El director trabaja con archivos de sonido, especificando la ubicación en el espacio tridimensional desde donde deben reproducirse estos sonidos, cuándo y a qué volumen. Por ejemplo, si es necesario reproducir el ruido de un automóvil en movimiento, entonces el director indica el momento de aparición, el nivel de volumen, la trayectoria del movimiento, el lugar y la hora de terminación del sonido del "objeto".

Además, el sonido llega del estudio a la sala de cine no en forma de pistas grabadas, sino como un conjunto de archivos de sonido. Esta información es procesada por un procesador, que calcula en tiempo real la banda sonora de la película en cada ocasión, teniendo en cuenta el número de ponentes de la sala, su tipo y ubicación. Gracias a la calibración precisa, no hay referencia a ningún número "típico" de canales, y puedes usar diferentes números de altavoces en diferentes salas (cada sala está calibrada y configurada individualmente): el propio procesador calculará cómo y dónde enviar el sonido para obtener el panorama sonoro óptimo. El número máximo de "objetos" de sonido procesados ​​simultáneamente es 128 y el número de altavoces independientes admitidos simultáneamente es hasta 64.


Dolby Atmos no está vinculado a una cantidad específica de canales de audio. La imagen sonora la forma el procesador en tiempo real a partir de “objetos” y según un “programa” elaborado por el ingeniero de sonido de la película. En este caso, el procesador tiene en cuenta la ubicación exacta de los sistemas de altavoces, su tipo y cantidad; todo esto está prescrito en la configuración al calibrar cada sala específica. Es cierto que aún no está del todo claro cómo implementar este enfoque en un cine en casa.

Profesionales y aficionados

Tras su introducción en los cines comerciales, ambos formatos de audio 3D comenzaron a conquistar el mercado nacional. Auro-3D comenzó un poco antes; varios fabricantes de electrónica doméstica introdujeron los primeros procesadores y receptores compatibles con el formato a principios de 2014. Dolby Laboratories no tardó en esperar y a mediados de septiembre del año pasado presentó soluciones muy asequibles basadas en receptores económicos. Además, a principios de 2015, otro actor importante, la empresa estadounidense DTS, anunció su formato de sonido tridimensional, DTS: X (del que sólo se sabe que, como Dolby Atmos, está orientado a objetos y será respaldado por muchos fabricantes de productos electrónicos de consumo).

Mientras tanto, el cine comercial y el cine en casa tienen diferencias significativas en algunos aspectos. Las bobinas de película son cosa del pasado y las copias digitales de películas ahora se utilizan casi universalmente en la distribución cinematográfica. La banda sonora de la película “emerge” del servidor como una secuencia de audio digital de alta tasa de bits prácticamente sin compresión. Los servidores en los que se almacenan las películas pueden transmitir hasta 16 canales digitales de dichos datos en paralelo.


El medio de películas caseras más popular es el disco Blu-ray. Normalmente contiene una banda sonora grabada en uno de los dos formatos más populares: DTS HD Master Audio o Dolby True HD. También hay discos grabados con códecs DTS y Dolby Digital antiguos con sonido 2.1 (izquierda-derecha y LFE). Si la pista de la película se grabó originalmente en un estudio en formato 5.1 o 7.1, transferirla al disco es bastante simple, la única diferencia es la compresión de datos adicional asociada con la capacidad limitada de los medios digitales. ¿Cómo se adaptarán los nuevos formatos Auro-3D y Dolby Atmos cuando se pasen del cine profesional al cine en casa?

Camino a casa

Para Auro-3D, la transferencia será prácticamente perfecta. Si una película se grabó originalmente en un estudio en formato 13.1 u 11.1, se transferirá a discos Blu-ray con exactamente el mismo número de canales. Para compatibilidad con versiones anteriores, Auro-3D utiliza un algoritmo especial que puede "agregar" los canales superiores al códec DTS HD MA, que oficialmente admite un máximo de 7.1 canales; por ejemplo, la información del canal superior izquierdo está encapsulada en el canal izquierdo. , la información para el canal central superior se encapsula en el canal central, etc. d. Si el receptor o procesador tiene soporte para decodificar el códec Auro-3D, "sacará" la información incrustada y la enviará a los canales apropiados. . De lo contrario, simplemente decodifica los datos como una pista 7.1 normal, omitiendo la información "extra". Por lo tanto, un disco con una película en formato Auro-3D será leído correctamente en cualquier caso por cualquier reproductor moderno y reconocido por cualquier procesador o receptor que admita DTS HD MA. Y si el procesador o receptor tiene un decodificador Auro-3D incorporado, entonces la salida puede ser una banda sonora de 9.1, 11.1 o incluso 13.1 canales. También existe la posibilidad de "mezclar": un procesador que pueda funcionar con Auro-3D puede convertir incluso una grabación estéreo normal de dos canales a, digamos, 13.1.


Auro-3D utiliza un diseño de altavoces de tres capas y un enfoque de grabación de audio multicanal más tradicional. Esto garantiza una excelente compatibilidad con versiones anteriores del estándar con los formatos actuales y portabilidad a los sistemas domésticos.

La situación con Dolby Atmos en un cine en casa es mucho más complicada: el procesador calcula un flujo de datos bastante grande en tiempo real y emite sonido a los canales acústicos apropiados (teniendo en cuenta cuántos hay en una instalación en particular). Actualmente, las especificaciones Dolby Atmos para uso doméstico sugieren utilizar configuraciones de altavoces de 5.1.2 a 7.1.4, donde el primer número es el número de canales “normales”: izquierda-centro-derecha-trasera, el segundo es el bajo -canal de efectos de frecuencia, y el tercero, los llamados canales "superiores" (aéreos). Al mismo tiempo, el único procesador para uso comercial (Dolby CP850) cuesta más de un millón de rublos, y el costo de los receptores domésticos compatibles con Atmos comienza en solo 30-40 mil. Sin embargo, incluso para los receptores domésticos más asequibles, se anuncia tanto la decodificación como la compatibilidad con la “mezcla ascendente”, aunque no está del todo claro cómo se hace exactamente.

Otro punto no muy claro es que para poder calcular correctamente el campo sonoro es necesario conocer la ubicación exacta de todos los sistemas de altavoces. En un cine comercial este problema se soluciona calibrando el equipo, pero en los receptores domésticos, que sepamos, no existe esta posibilidad. Aún no está claro cómo, en este caso, se resuelve el problema de conseguir un sonido Atmos completo "como en una película" en casa. Es cierto que el formato aún no ha adquirido sus características definitivas. Varios fabricantes de procesadores premium incluso han retrasado el lanzamiento de actualizaciones con soporte Dolby Atmos debido a cambios en el algoritmo de procesamiento de señal, que, según dicen, están realizando los desarrolladores de Dolby. Por lo tanto, se puede suponer que en actualizaciones posteriores, Dolby puede realizar ajustes en el proceso de procesamiento de sonido y/o calibración del sistema para una ubicación específica de los sistemas de altavoces.


Problemas de compatibilidad

Dado que Auro-3D utiliza el método tradicional de mezcla canal por canal, y Dolby y DTS utilizan edición de audio orientada a objetos, no es posible convertir un formato a otro. Además, construir un cine en casa que pueda funcionar correctamente con todos los formatos tampoco es fácil. El problema de compatibilidad radica en los diferentes requisitos de instalación de los sistemas de altavoces. Dolby Atmos utiliza dos “capas” de acústica, mientras que Auro-3D utiliza tres. Se podría suponer que la banda sonora Dolby Atmos podría reproducirse a través de la parte Auro-3D de los altavoces, pero es poco probable que esto sea correcto. Los requisitos de ubicación de los altavoces son bastante estrictos para ambos formatos y, dada la sensibilidad al posicionamiento preciso para lograr transiciones suaves, esto puede representar un desafío para los diseñadores e instaladores de cine en casa (aún no hay información sobre la ubicación de los altavoces para DTS:X).


Perspectivas

A pesar de todas las ambigüedades en la descripción de Dolby Atmos, debemos admitir que este formato tiene mayor potencial que Auro-3D. En primer lugar, el enfoque de grabación orientado a objetos es claramente más prometedor que el enfoque tradicional canal por canal. En segundo lugar, la compatibilidad con Dolby Atmos en modelos masivos de receptores AV de empresas como Yamaha, Pioneer, Onkyo, Integra, Denon está disponible "en la base", mientras que será necesario adquirir una licencia para Auro3D como actualización de software opcional por 199 dólares. , lo cual se nota en los modelos económicos.

En el segmento más caro de procesadores para cine en casa, fabricantes como Trinnov Audio y Datasat Digital, que también operan en el mercado de películas comerciales, han anunciado soporte para todos los formatos de audio 3D. Su experiencia puede tener un efecto muy beneficioso en la implementación de Dolby Atmos para cine en casa: por ejemplo, Trinnov utiliza un micrófono tridimensional único para calibrar sus procesadores, lo que le permite determinar con precisión la ubicación de cada altavoz en el espacio y utilizar estos datos. para una corrección adicional del campo sonoro.

Los editores agradecen a la revista avreport.ru por su ayuda en la preparación del artículo.




Arriba