Sonido Binaural en Postproducción Audiovisual

0
Sonido binaural en postproducción audiovisual
Índice
1.Introducción (pág.2)
2. Sonido binaural(pág.2)
2.1 Nuestros órganos auditivos (pág.2)
2.1.1 Antropometría (pág.3)
2.1.2 Respuesta en frecuencia (pág.3)
2.1.3 Direccionalidad (pág.4)
2.2 Interpretación (pág.4)
2.2.1 Diferencia Interaural de Tiempo(pág.4)
2.2.2 Diferencia de Intensidad Interaural (pág.5)
2.2.3 HRTF Función de transferencia (pág.6)
2.2.4 Otros (pág.8)
3. Microfonía (pág.9)
3.1 Análisis de microfonía (pág.9)
4. Procesadores (pág.12)

4.1 Procesadores de frecuencia (pág.12)
4.2 Procesadores de tiempo (pág.13)
4.3 Procesadores de nivel (pág.13)
5. En este proyecto (pág.14 )

5.1 Captación (pág.15)
5.1.1 Vídeo (pág.15)
5.1.2 Sonido (pág.16)
5.1.3 Referencias y mediciones (pág.16)
5.2 Sincronización (pág.18)
5.3 Edición (pág.19)
5.4 Mezcla (pág.20)
5.5 Exportación (pág.23)
5.6 reproducción(pág.24)
6. Conclusiones (pág.24 )
7.Contenidos del CD (pág.27)
8. Bibliografía (pág 28)
Ismael Cerezo jorge

1
1.Introducción
El sonido binaural es aquel que intenta proporcionar una sensación similar o igual a la de
estar físicamente en la habitación o el lugar donde se producen los sonidos. Actualmente
disponemos de herramientas de captación (EJ: ku100, 3dio, Roland WPM-10 Wear Pro…)
que son capaces de captar sonido de forma muy similar a la de nuestros órganos auditivos.
Éstos se utilizan en algunas grabaciones musicales concretas, captación de ambientes y
sobre todo, en realidad virtual. También disponemos de herramientas informáticas basadas
en algoritmos capaces de recrear parte de estos procesos de forma digital (Dear VR,
BINCI...) con la ventaja de que algunos pueden modificar en tiempo real los parámetros del
receptor. Éstos se utilizan en videojuegos y en realidad virtual mayoritariamente.
En este proyecto vamos a analizar, interpretar y recrear, todos los procesos que ocurren
desde que un sonido es emitido hasta que es interpretado por nuestro cerebro, con el fin de
crear un vídeo con sonido inmersivo. Gran parte del procesado de audio se realizará en
postproducción, es decir, sin la utilización de técnicas de captación como son las cabezas
binaurales ni la utilización de procesadores específicos.
La finalidad es entender cómo funciona nuestra audición y poner en práctica distintas

técnicas que nos ayuden a recrearla. Para concluir, valorar si estas técnicas son viables
para futuros proyectos audiovisuales.
2. Sonido binaural
2.1 Nuestros órganos auditivos
Los humanos captamos variaciones de presión
con nuestros órganos auditivos y los
interpretamos en nuestro cerebro. El oído
humano se suele estudiar en tres partes
diferenciadas: el oído externo, oído medio y oído
interno. El oído externo es la parte del oído que
está en contacto con el aire del exterior. Está
formado por el pabellón auricular (oreja) y el
canal auditivo externo. El oído externo está
separado del oído medio por el tímpano.
En la cavidad timpánica se encuentra
suspendida la conocida como cadena de
huesecillos, compuesta por los huesos martillo,
yunque y estribo. La cadena de huesecillos conecta dos membranas: el tímpano por un lado
y la membrana oval por otro. En la cóclea se encuentra el órgano de Corti dónde están las
células pilosas. Estas células transforman un estímulo mecánico en un estímulo eléctrico
que transmiten a las fibras del nervio coclear.
Ismael Cerezo jorge

2
2.1.1 Antropometría
-El pabellón auricular está formado por cartílago recubierto de piel. Normalmente su tamaño
se encuentra entre los 5.5 y 6.5 cm de altura por 3 a 4.5 cm de anchura.
-La separación aproximada entre los oidos es de 14,5 cm.
-El conducto auditivo externo mide alrededor de 2.5 cm de longitud
-El tímpano tiene forma oval y un diámetro de alrededor de 1 cm
2.1.2 Respuesta en frecuencia

El rango de la audición humana se sitúa entre los 20 Hz y los 20 kHz, pero nuestros oídos
se comportan de distinta forma con cada frecuencia dependiendo de la intensidad con la
que las percibimos. La relación que hay entre frecuencia y percepción queda reflejada en
las curvas isofónicas. Estas curvas muestran la relación existente entre la frecuencia y la
intensidad (dB SPL) del estímulo acústico con el nivel de percepción que tenemos de estas.
La unidad de percepción, es el Fonio. 0 Fonios se corresponden la sensación de volumen
percibida al excitar el oído con 0 dB SPL a 1 kHz.
En esta gráfica podemos observar, por ejemplo, que a 100dBSPL los humanos percibimos
menor diferencia de intensidad entre frecuencias, es decir, respuesta significativamente
plana. Y que desde 0dBSPL hasta 50dBSPL no podemos escuchar las frecuencias más
graves o subgraves, esto se debe a que nuestro tímpano no se excita en estas frecuencias
hasta llegar a cierto nivel de presión sonora. Aunque no es correcto hablar de respuesta en
frecuencia, podemos hacer deducciones sólidas que aplicaremos posteriormente.
Ismael Cerezo jorge

3
2.1.3 Direccionalidad
De igual forma que con la respuesta en frecuencia, no podemos disponer de una gráfica de
el ángulo de captación de nuestros oídos, pero disponemos de sistemas suficientemente
fiables de los cuales podemos extraer esta información.
En la siguiente imagen podéis ver los patrones de directividad espacial captados con un
micrófono omnidireccional en la oreja derecha de un KEMAR 45BC-3 (Cabeza y torso).
Haciendo la comparativa con los patrones polares que utilizamos en microfonía, la imagen
anterior podríamos catalogarla como supercardioide pero habrá que tener en cuenta alguna
condición que comentaremos posteriormente.
2.2 Audición espacial

En el apartado anterior analizamos el funcionamiento de los oídos individualmente, pero
para poder crear sensación de espacialidad/posición, también será necesario analizar el
comportamiento de éstos como conjunto y la influencia del entorno.
2.2.1 Diferencia Interaural de Tiempo

La Diferencia Interaural de Tiempo o DIT se define como la diferencia de tiempo de llegada
de un sonido entre oídos dependiendo de la posición de la fuente respecto a la del receptor.
Nuestro cerebro interpreta esta diferencia temporal para definir la posición de una fuente
sonora.
Ismael Cerezo jorge

4
En la imagen observamos dos fuentes sonoras: Fuente A=0º respecto el receptor , Fuente
B=90º respecto el receptor.
En la fuente A no habrá diferencia temporal entre los oidos. Por lo que nuestro cerebro
interpretará que la señal está delante o detrás (según la DIT).
Sin embargo en la fuente B hay una diferencia de 15cm que se traduce en que el sonido
llegará 0,45ms antes al oído derecho que al izquierdo. De esta forma el cerebro interpretará
que el sonido proviene desde la derecha.
2.2.2 Diferencia de Intensidad Interaural
Para localizar la procedencia del sonido también usamos las diferencias interaurales de
intensidad. Su funcionamiento se basa en la comparación de energía que llega a los
diferentes oídos. La diferencia de intensidad se produce principalmente por el factor
denominado efecto sombra.
Para explicar el efecto sombra debemos antes entender una propiedad del sonido llamada
“Difracción”. La difracción del sonido es la capacidad del sonido para rodear un obstáculo,
Para que se dé esta propiedad, el tamaño del elemento a sortear debe ser inferior a la
longitud de onda de la frecuencia que lo debe sobrepasar. De esta explicación
interpretamos que las altas frecuencias el sonido no podrá sortear el obstáculo, produciendo
reflexiones, refracciones y absorciones. En la ilustración superior derecha podemos
observar que, a altas frecuencias, la cabeza genera efecto sombra atenuando la energía
Ismael Cerezo jorge

5
que llega al oído más alejado de la fuente. Por ámbito general, decimos que a partir de 1500
Hz las IID se vuelven fundamentales para la localización del sonido. Sin embargo, para
frecuencias menores no son realmente útiles, y sobre todo se hará uso de las DIT (2.2.1
Diferencia Interaural de Tiempo).
2.2.3 HRTF Función de transferencia
Hasta ahora hemos analizado cómo interpreta el

cerebro la posición de una fuente en el eje
horizontal, pero también somos capaces de distinguir
la posición de una fuente respecto a su eje vertical.
Nuestros pabellones auditivos tienen una forma
concreta, de esta forma las orejas son capaces de
modificar la respuesta en frecuencia de un sonido
dependiendo del ángulo de incisión de éste.
Para esclarecer de forma gráfica cómo se comportan nuestros pabellones auditivos

respecto a la altura de la fuente, he utilizado el plugin de sennheiser “Ambeo orbit”
(panoramizador binaural) sobre un “pink noise”.
Imagen 1: 90º inclinación
Ismael Cerezo jorge

6
Imagen2: 45º inclinación
Imagen 3: 0º inclinación
Imagen 4: -45º inclinación
Imagen 5: -90º inclinación
Podemos deducir que la función de transferencia afecta sobre todo a las frecuencias por
encima de los 5KHz. cuya longitud de onda es por ámbito general, del tamaño de nuestros
pabellones auditivos.
Ismael Cerezo jorge

7
2.2.4 Otros
Aunque no se trate de conceptos propios de la audición si no de la propia física del sonido,

debemos tener en cuenta también los fenómenos acústicos referentes al entorno y al medio:
Ley cuadrática inversa, velocidad del sonido, absorción acústica, tiempo de reverberación,
respuesta en frecuencia de la sala…
- Ley cuadrática inversa: La distancia de la fuente influirá en el nivel de llegada que

recibirá el receptor, este fenómeno indica que en campo libre, la señal disminuirá la
intensidad en razón de 6 dB cada vez que
se doble la distancia. Es decir: una fuente
que a 1 metro produce 80 dB SPL a 2m la
recibiremos con 74dB de presión sonora.
En este proyecto, no representaremos el
comportamiento del sonido en campo
libre, así que con el fin de recrear este
fenomeno, analizaremos mediciones que
nos ayudarán a esclarecer la diferencia
de nivel respecto a la distancia.
- Velocidad del sonido: El sonido se propaga a una velocidad concreta que depende
de la densidad del medio. En este proyecto nos centraremos en el aire, pues es el
canal habitual por el que los humanos percibimos el sonido. Los factores que
influyen en la densidad del aire, son: La temperatura, la humedad y la altura
respecto al mar. En este proyecto consideraremos que la velocidad del sonido es
340m/s pues es una aproximación redondeada de la temperatura y humedad media
de españa (15º, 50% humedad).
- Absorción acústica: Durante la propagación del sonido, puede producirse

disipación de la energía. Este fenómeno afecta sobre todo a las frecuencias agudas
(menos energéticas). Los factores que influyen a este fenómeno son la temperatura,
la humedad y la distancia. En la siguiente tabla mostramos un ejemplo de cómo
afecta la resistencia del aire.
Absorción del aire a 15º 50% humedad a 10m de distancia
50Hz 200Hz 600Hz 2kHz 6kHz 10kHz 13kHz 16kHz 18kHz 20kHz
-0dB -0dB -0dB -0,1dB -0,8dB -1,9dB -3dB -4dB -4,8dB -5,5dB
-Tiempo de reverberación: Solemos medirlo en TR60 y es el tiempo que tardan las

reflexiones en reducir su nivel de presión sonora 60 dB en un recinto acústico concreto.
Esta caída de nivel se produce sobre todo por la absorción de los materiales que se
encuentran en recinto. Aún siendo reflejos (copias) del sonido principal, la reverb es
percibida por nuestro cerebro como un solo sonido que se prolonga. Esto se debe al
fenómeno llamado persistencia acústica. Para que el oído perciba dos sonidos como
diferentes, ambos sonidos deben tener una diferencia entre sí de al menos 50 milisegundos.
Ismael Cerezo jorge

8
-Respuesta en frecuencia de la sala: Debido a la forma, tamaño, proporciones y

materiales, las reflexiones coinciden en distintos periodos o puntos en sus fases. Esto
provoca que se produzcan cancelaciones o sumas, lo cual hace altera el timbre de un
sonido que se produce en su interior. También hay que tener en cuenta los materiales en
que está recubierta o de los elementos que se encuentran en ella pues pueden absorber
ciertas frecuencias ayudando a modelar también el “tono” del lugar.
3. Microfonía
El primer aspecto que debemos tener en cuenta cuando queremos conseguir un sonido
realista, es la microfonía. Para este proyecto necesitaremos distintos tipos de recursos
sonoros: voces, efectos, ambientes y mediciones. Es necesario incidir que este trabajo se
basa principalmente en el procesado, razón por la que se trata de evitar las técnicas de
captación binaural ya nombradas anteriormente.
3.1 Análisis de microfonía
En base a las características comentadas en

el apartado 2.1 (Nuestros órganos auditivos)
se han analizado cuatro tipos de microfonía.
Éstos han sido probados y valorados de forma
objetiva (Especificaciones y características) y
subjetiva (escucha):
La prueba se realizó con las membranas de

los tres micrófonos a la misma distancia de
una fuente sonora (voz), conectados al mismo
equipo (digi 003) y con el mismo nivel de
sonoridad según los medidores de ProTools.
(Los archivos de muestra los podéis escuchar en el CD)
- Micrófonos de medición (ECM 8000):
Micrófono de respuesta plana, efectivo para

transitorios rápidos y con un rango dinámico
suficiente para nuestra actividad. Por otra parte su
patrón polar no se asemeja al del oído humano,
tampoco representa las frecuencias de forma
uniforme. Razón, por lo que no es efectivo en las
sensaciones auditivas que produce respecto a la
audición humana. Sin embargo, si lo podemos
considerar adecuado para realizar mediciones.
Ismael Cerezo jorge

9
-Micrófonos de medición (ECM 8000) con pabellón auditivo :
Siguiendo los estándares de captación binaural, una de las pruebas realizadas ha sido la de
un micrófono de medición a través de la protesi de un pabellón auricular con el fin obtener
las ventajas anteriormente mencionadas respecto al micrófono y corregir su patrón polar
haciéndolo similar a la del órgano humano.
A continuación se muestra las capturas de un ECM8000 sin la protesi (Imagen izquierda) y

la del mísmo micrófono con el complemento (Imagen derecha). Capturando ruido rosa a
50cm, 0º inclinación en X e Y.
Podemos observar en la imagen derecha que la respuesta en frecuencia presenta

alteraciones importantes no correspondidas con el funcionamiento habitual de un pabellón
auricular natural. Encontramos resonancias de hasta 10dB en 3/4kHz y como habíamos
mostrado anteriormente en el punto 2.1.2 (Respuesta en frecuencia) nuestro órgano
auditivo es más sensible a estas frecuencias y esto se debe a la resonancia natural que
produce nuestro canal auditivo externo (2.1 Nuestros órganos auditivos).
Finalmente el resultado no es el esperado, pues la respuesta en frecuencia se ve muy

afectada, agravando el problema de representación en frecuencia mencionada en el análisis
del micrófono ECM 8000. Desestimamos este micrófono/técnica de captación de voces o
efectos para este proyecto, pero desarrollaremos esta decisión y sus causas en las
conclusiones.
Ismael Cerezo jorge

10
- Micrófonos de condensador con membrana pequeña (Rode M5):
Este micrófono tiene una membrana de tamaño similar a la del

tímpano humano. Por esta razón, capta la micro-dinámica de
forma muy similar a la de nuestros oídos. Su patrón polar es
cardioide. Aunque anteriormente (2.1.3 Direccionalidad) hemos
observado que nuestra audición se comporta como un
transductor super-cardioide, debemos tener en cuenta que esto
sería relevante en el caso de utilizar técnicas de captación
binaural, pues sí sería posible utilizar el ángulo de captación de
180 grados del micrófono, pero al tratarse de un proyecto
basado en el postprocesado, no será relevante el
comportamiento del micrófono en 180º á de captación. Su
respuesta en frecuencia es adecuada comparada con la de
nuestra audición.
La sensación auditiva que produce es similar a la de nuestros órganos auditivos.
-Micrófonos de condensador con membrana grande (AKG C4000- Cardioide):
Este micrófono ofrece la posibilidad de cambiar su direccionalidad. Teniendo en cuenta la

información que ofrece el fabricante, se ha decidido que el patrón polar más adecuado para
este fin es el cardioide.
Este micrófono ofrece sonido nítido, buena relación señal/ruido y una respuesta en
frecuencia adecuada para la captación de voces (realzando levemente las bandas de
frecuencia que atribuimos generalmente a la inteligibilidad de la voz, atenuando el sonido
“nasal” y elevando los agudos para para proporcionar “brillo” a esta). Sin embargo la
sensación auditiva que produce no se asemeja a la de nuestros oídos, debido a su
respuesta en frecuencia y en gran parte por la forma que responde a los transitorios.
Ismael Cerezo jorge

11
4. Procesadores
Como hemos visto en el punto 2.2 (Audición espacial) para crear sensación de procedencia
necesitaremos alterar la frecuencia y el tiempo de llegada entre “oidos”. Para crear
sensación espacial, podemos utilizar procesadores de frecuencia, de tiempo (duración) y de
nivel.
Aunque disponemos de infinidad de procesadores, vamos a mencionar los plugins que son
o pueden ser relevantes para este proyecto.
4.1 Procesadores de frecuencia (EQ)
La función de los ecualizadores, por ámbito general, es alterar el nivel de amplitud de un

rango de frecuencias. Para este proyecto se han valorado las características de distintos
tipos de EQ en base a los siguientes criterios:
- Precisión: Consideraremos precisos los ecualizadores que permitan modificar los

parámetros: Frecuencia, Q o Ancho de banda y amplitud. De esta forma podemos
deducir que desestimamos los ecualizadores gráficos, shelving, paragráficos y
semi-paramétricos.
- Alteración del timbre: Algunos ecualizadores tienen la capacidad de “colorear” el

sonido que procesan. Esto es muy utilizado en mezcla musical pues esto puede
hacer que la señal sea más atractiva en un contexto artístico. Para este proyecto
debemos asegurarnos de que el plugin que se utiliza no cambie el timbre de la
señal, pues en este caso será desaconsejable.
- Alteración de fase: Para seleccionar las frecuencias que se requiere modificar, los
ecualizadores utilizan filtros. Una de las características de los filtros es que producen
variaciones en la fase de las frecuencias que se está procesando.
Esta propiedad puede ser contraproducente, ya que en este proyecto vamos a
trabajar con pequeños retardos (2.2.1 Diferencia Interaural de Tiempo). Una posible
solución es utilizar ecualizadores de fase lineal. Éstos ecualizadores son capaces de
alterar la amplitud de un rango de frecuencias sin afectar a la fase éstas. Por otra
parte estos plugins consumen muchos recursos de procesamiento y generalmente
producen latencia en la señal, aunque esta latencia pueda ser remediada por la PDC
(Plugin Delay Compensation).
Ismael Cerezo jorge

12
4.2 Procesadores de tiempo (Reverb, Delay)
Reverb: <La reverberación es un fenómeno sonoro producido por las reflexiones, que
consiste en la permanencia del sonido una vez que la fuente original lo ha dejado de emitir.>
Para recrear este fenómeno acústico utilizamos los plugins de reverb, que pueden ser
algorítmicos o convolucionales. Las reverbs algorítmicas generan las colas repitiendo las
señales con muy poco espacio temporal entre ellas y de forma aleatoria. De esta forma
consiguen emular las reflexiones de un espacio. Las reverbs de convolución son plugins
capaces de convolucionar impulsos grabados en espacios con reverb, con las señales a las
que se la queremos añadir. En este proyecto utilizaremos la reverb de convolución “SIR”. Es
una reverb de convolución gratuita que permite importar impulsos.
Delay: Consiste en retrasar la señal. Podemos utilizarla para generar conjuntos de retardos
espaciados temporalmente, que sumados entre ellos y con la señal original, recrean el
fenómeno acústico llamado “eco”. En nuestro caso utilizaremos el delay para generar los
destiempos que ocurren entre nuestros oídos ( 2.2.1 Diferencia Interaural de Tiempo). Para
ello tendremos en cuenta estos criterios.
- Tiempo mínimo de retardo: Según hemos visto en otros apartados del proyecto, la
diferencia de tiempo entre oídos puede ser desde 0ms hasta de 0,69ms. Estos son
valores muy pequeños que no todos los plugins de delay son capaces de producir.
Por eso se debe encontrar un plugin capaz de retrasar la señal en centésimas de
milisegundo.
- Overclocking: El overclocking o sobremuestreo es la propiedad que tienen algunos

procesadores para minimizar el impacto del procesado en el resultado final. En este
caso será necesario, pues el delay estará automatizado con el fin de recrear el
comportamiento del sonido en nuestros órganos auditivos cuando el emisor está en
movimiento. Este cambio en el retardo en tiempo real hará que la muestra se “estire”
o “comprima” pudiendo degradar la muestra de audio. Si nuestro plugin es capaz de
multiplicar la cantidad de muestras de nuestra señal, este proceso será menos
destructivo.
4.3 Procesadores de nivel

Aunque no se trate de procesadores propiamente dichos, uno de los pilares de este
proyecto es la variación del nivel. Sin la posibilidad de amplificar o atenuar de forma precisa
nuestras señales, no será posible crear la sensación de realismo en nuestra mezcla. Para
esta función utilizaremos los ”faders” de nuestro “DAW”.
Ismael Cerezo jorge

13
5. En este proyecto
Una vez analizados los conceptos y herramientas necesarios para la realización del
proyecto, se procede a la realización de este. A continuación se muestra la hoja de ruta
utilizada en este proyecto.
Nº Nombre Descripción Material/ Lugar Archivo/s Detalles

programa
1 Captación impulsos 5.1.3 -Edirol R44 Marxadella -Impulsos 1 : WAV 48kHz

-2xRode M5 (Torrent) L,R,Mono 24
-1xECM 8000
-Soportes -Impulsos 2:
-Cableado L,R,Mono
2 Captación “Room Tone” 5.1.2 -Edirol R44 Marxadella -AMB RT: WAV 48kHz
-2xRode M5 (Torrent) L,R,Mono 24
-1xECM 8000
-Soportes
-Cableado
3 Captación vídeo / 5.1.1 -Edirol R44 Marxadella -Video: C=Sonido

referencias sonido 5.1.3 -2xRode M5 (Torrent) +5x Canon de la
-1xECM 8000 +5x GoPro cámara
5.1.2
-Soportes
-Cableado -Sonido Sonido:
-Canon 1100D +REF WAV 48kHz
-Gopro 3White (1,2,3,4,5) 24
L,R,M,C
Video:
-Canon
1080 .MOV
-Gopro
x960 .MP4
4 Edición Vídeo 5.3 Premiere Estudio -Montaje

(Riba-roja del vídeo
Túria)
5 Sincronización 5.2 Premiere Estudio -Montaje

referencias/Vídeo (Riba-roja del vídeo
Túria)
6 Creación del proyecto Importación Cubase Estudio -Mezcla

archivo .OMF (Riba-roja del binaural
Túria)
7 Captación 5.1.2 Protools Marxadella -Voz: x13 WAV 48kHz

Voces/FXPasos -Rode M5 (Torrent) -Pasos x2 24
-Soporte
-Antipop
-Cableado
-Panel acústico
8 Sincronización 5.2 Protools Marxadella -Veu WAV 48kHz

Voces/FXPasos (Torrent) -Pasos 24
9 Edición Voces/FXPasos 5.3 Cubase Estudio -Veu Edit WAV 48kHz

(Riba-roja del -Pasos 24
Túria)
Ismael Cerezo jorge

14
10 Mezcla sonido 5.4 Cubase Estudio -Mezcla

(Riba-roja del binaural
Túria)
11 Exportación sonido Cubase Estudio -Audio Final WAV 48kHz

(Máster) 5.5 (Riba-roja del 24
Túria)
12 Sincronización máster 5.2 Premiere Estudio -Montaje

con vídeo (Riba-roja del vídeo
Túria)
13 Exportación Vídeo Final Premiere Estudio -Sonido Vídeo:

5.5 (Riba-roja del Binaural en 1080 .H264
Túria) postproducci
ón Sonido:
audiovisual ST 48kHz
16 .AAC
5.1 Captación
5.1.1 Vídeo
Para la realización de este proyecto se han utilizado dos tipos de captación visual. Una
principal y otra de referencia.
- Principal (Canon EOS1100D): Esta imagen emula un plano subjetivo. Dando a

entender que la persona que visualice el video será el receptor. En principio se
pretendía utilizar una técnica de captación binocular (razones explicadas en el
apartado [5.5 reproducción]), pero por cuestiones logísticas no pudo ser posible.
- Referencia de vídeo(GoPro 3): Esta imagen ha servido para medir las distancias y la
posición del emisor. Esto se ha conseguido añadiendo marcas en el suelo. Se
decidió utilizar este tipo de cámaras por su objetivo gran angular con el fin de poder
observar todos los indicadores de posición y distancia.
Ismael Cerezo jorge

15
5.1.2 Sonido
Se han utilizado 3 tipos de captación en la realización de este último apartado: Voz, FX

pasos, Room Tone. La microfonía se seleccionó en base a las características analizadas en
el apartado 3.1 de este proyecto.
Captación de voces: Para la captación de voces se ha utilizado el micrófono Rode M5,

campo cercano, con antipop y en estudio. Una técnica de captación similar a la utilizada en
captaciones “ADR” (Automatic Dialogue Replacement).
FX Pasos: Para esta captación se utilizó el “Rode M5” con el fin de conseguir coherencia
entre los sonidos. El micrófono se posicionó en picado a unos 45º pues es el ángulo
intermedio en el que suelen captar los pasos nuestros oídos. Esta captación tipo “Foley”, la
interpretó el mismo sujeto y zapatos que en el video original, aunque en distinto suelo.
Room Tone: Cuando se planteó esta captación se tuvieron en cuenta dos tipos de recursos
sonoros: Ambientes y Room Tone.
Los ambientes suelen ser utilizados para ubicar la escena y son captados en estéreo. En
este caso, utilizamos 2xRode M5 con una técnica similar a la ORTF. La “Room Tone” es el
sonido de la habitación cuando no hay fuentes sonoras y se suele captar en mono. Para
este proyecto se utilizó un ECM8000. Se llevaron a cabo ambas grabaciones, pues como
comentaremos en el siguiente apartado (5.1.3), la microfonía estaba disponible y no añadía
tiempo extra a la realización. Finalmente, debido a que las diferencias entre señales fueron
prácticamente inexistentes, se decidió utilizar la grabación en mono (Room tone) con el fin
de economizar recursos de memoria.
5.1.3 Referencias y mediciones de sonido.
Con el fin de conseguir el mejor resultado

posible, se ha decidido tomar una serie de
referencias y mediciones durante la
realización del proyecto. Éstas servirán
para sincronizar, ecualizar, retrasar,
automatizar, nivelar e incluso
convolucionar.
En la imagen de la izquierda (14-

Captación referencias y mediciones) se
muestra la disposición de la microfonía
que se ha utilizado para este fin.
Ismael Cerezo jorge

16
Microfonía utilizada:
- Micrófono integrado en la canon 1100D

- Behringer ECM800.
- 2xRode M5: Éstos como hemos comentado anteriormente, los posicionamos de forma
similar a un ORTF, pero por características concretas de este proyecto, las cápsulas en vez
de a 17cm estarán a a una distancia de 14,5 cm entre ellas (2.1.1).
Sonido directo: Es el sonido que ha captado la propia cámara y que utilizaremos en la fase
de sincronización (5.2 Sincronización).
Medición de niveles: Para ello disponemos de dos señales distintas. Una sería la de
nuestro micrófono de medición y por otra parte dispondremos de la captación estéreo
realizada con los rode M5. La finalidad de estas mediciones será especificar en qué medida
caerá el nivel de la señal respecto la distancia de la fuente.
Medicion respuesta en frecuencia: Nuestro micrófono de medición será imprescindible

para demostrar cómo afecta este espacio a la respuesta en frecuencia de una fuente
sonora. Para ello se lanzó ruido rosa a distintas distancias y posiciones.
Medición de Impulsos: Los impulsos (ECM8000) nos servirán para nuestra reverb de
convolución. (Se adjunta vídeo en el CD)
-
En la imagen superior se muestran algunas de las posiciones adoptadas en el

proceso de captación de impulsos. Para ello utilizamos un altavoz genelec en
distintas posiciones reproduciendo el impulso mientras captamos con nuestro
micrófono de medición.
Podemos encontrar distintos tipos de impulsos:
+ Impulso infinitesimal: Consiste en lanzar una muestra de sonido de la

menor duración posible y que produzca todas las frecuencias del espectro
audible. Esta técnica tiene una complicación: <Un impulso ultracorto tiene tan
poca energía, que, salvo que sea de un nivel descomunal -como una
Ismael Cerezo jorge

17
explosión con lo que saturaría y haría inútil cualquier intento de medida-

quedaría oculto entre el ruido de fondo y no serviría para medir nada útil.
(Pablo Fernández-Cid - Doctor en telecomunicaciones)>.
+ ”Sweep up” o barrido de frecuencias: Consiste en reproducir una

secuencia de ondas sinusoidales de 20Hz a 20kHz de forma progresiva y que
nuestro equipo “apilará” para conseguir un impulso “perfecto”.
Medición de retardos: Para esta medición de referencia nos valdremos de los Rode tal y
como se a explicado en la introducción de este apartado. De esta forma, se ha podido
comprobar la diferencia temporal que había entre ambos diafragmas.
5.2 Sincronización
Durante las distintas etapas de postproducción y captación se han llevado a cabo varias
sincronizaciones.
Vídeos: Para tener una buena referencia de la posición del emisor respecto al receptor, se
han sincronizado los vídeos de nuestras dos cámaras.
Referencias: La primera sincronización de sonido ha sido la de nuestras referencias con la

señal captada por la cámara. Para realizar esta sincronización se ha utilizado la “claqueta”
(en este caso palmada) que consiste en producir un sonido seco y corto mientras nuestros
equipos están funcionando. De esta forma, podemos comparar ambas señales para
posicionarlas en la línea de tiempo. Hay que aclarar, que este procedimiento se ha llevado a
cabo en el programa de edición de vídeo, pues el vídeo final contiene cortes. Después se ha
exportado un archivo .OMF que si se ha abierto en nuestro DAW.
ADR: Debido a la naturaleza del proyecto, ha sido necesario captar las voces en un
entorno controlado. Para generar la sensación de que es el emisor quien produce la voz es
necesario que esta esté perfectamente sincronizada, no solo temporalmente, si no también
en la expresión y caracterización. Para ello se han grabado distintas tomas mientras el
“actor” veía en tiempo real el material visual, apoyándose en las referencias para la
interpretación. Simultáneamente se han descartado las tomas menos válidas y ajustado en
el “time-line”.
Pasos: Los pasos han sido captados de forma muy similar que las voces. Esta técnica la
llamamos “Foley” y también ha sido corregida en el proceso de captación.
Final: Para finalizar, importamos el “bounce final” en el proyecto de vídeo. Comprobamos

que los TC (Códigos de tiempo) corresponden con lo previsto. Hay que aclarar que la
captación de vídeo se ha realizado a 25 cuadros por segundo por limitaciones de la cámara.
Habría sido más correcto capturar a 24FPS para que sea multiple de nuestra frecuencia de
muestreo (48KHz).
Ismael Cerezo jorge

18
5.3 Edición
Sin ánimo de entrar en detalles, en lo que refiere a la edición de vídeo, una vez
sincronizadas las imágenes, se ha cambiado el tamaño de una de ellas y se ha posicionado
en una de las esquinas del margen de pantalla. El siguiente paso fué calibrar el color de
ambas para que fueran coherentes.
El primer movimiento que se ha realizado en el proceso de edición de sonido, será ajustar el

nivel de nuestras captaciones. Hay que tener en cuenta que tenemos eventos de audio
separados y a diferente nivel, así que si normalizamos cada uno podemos influir de forma
negativa en la interpretación de nuestro “actor de doblaje”, así que se normalizará el
conjunto. Es común en esta etapa que los audios se normalicen lo más cerca posible del
0dBFs, pero en nuestro caso tan sólo conseguiremos limitar el recorrido de nuestro fader
virtual. Así que utilizaremos una normalización similar al nivel final de nuestro proyecto (5,4
Exportación).
En la etapa anterior se ha explicado que en ocasiones ha sido necesario ajustar algunas

señales para hacerlas coincidir con la información visual. Para conseguir esto, hay que
desplazar el evento de audio. Este proceso puede traer complicaciones que se pueden
atajar realizando crossfades entre los eventos. De esta forma, conseguimos evitar los
“clicks” producidos al cortar una onda o las diferencias bruscas de tono en el ruido de
fondo.
El siguiente paso sería la limpieza de los audios. Para ello, se ha utilizado el plugin de
Izotope RX “De-Noise”,
Cuando utilizamos esta herramienta, el

primer paso es seleccionar una muestra del
ruido que queremos eliminar e indicar al
plugin que capture el perfil de ruido (Learn-
Cuanto más tiempo de muestra de ruido
dispongamos mejor será el resultado).El
plugin invertirá la polaridad de este perfil de
ruido para sumarlo con la señal con el fin de
cancelarlo. Por regla general, el umbral y el
grado de reducción no sería necesario
cambiarlos pues el plugin detecta el nivel del
ruido y actúa en consecuencia, pero dependiendo de la relación señal/ruido algunas veces
podemos conseguir mejores resultados. Este proceso se realizará con cada evento de audio
y por “AudioSuite” pues este plugin insertado no ofrece resultados perfectos debido a
problemas de latencia.
Finalmente, consolidamos todos los eventos para mejorar la organización y limpieza visual.
Ismael Cerezo jorge

19
5.4 Mezcla
En este apartado vamos a detallar, paso a paso, los procedimientos que se han realizado
en la etapa de mezcla de este proyecto. En la siguiente imagen se puede observar un
diagrama de bloques en el que se muestra la ruta que siguen cada una de nuestras
señales. (Disponible en el CD)
Disponemos de un proyecto que contiene una pista de vídeo, nuestras referencias ya

sincronizadas y agrupadas para poder analizarlas con el plugin “SPAN”.También
disponemos de los elementos que se han captado en estudio (VOZ y FX PASOS)
sincronizados y editados (canales MONO). El siguiente paso ha sido importar la “Room” y
crear una nueva pista auxiliar con un analizador de espectro y nivel donde se puede enviar
cada una de las pistas de nuestros elementos principales en sus distintas etapas con el fin
de comparar con las referencias. También se ha creado una pista de reverb, donde se ha
insertado el plugin de reverberación de convolución “SIR”.
El primer paso a la hora de empezar a mezclar, ha sido ajustar el nivel de las voces, pasos
y Room. Para ello se han tenido en cuenta las mediciones y se han buscado referencias de
los niveles habituales (dBSPL) que generan estas fuentes. Según se ha podido observar en
distintas páginas web, la voz en una conversación es de unos 60dBSPL. En este caso, el
emisor produce más nivel que en una conversación normal pero se percibe a más distancia.
Calcularemos de forma aproximada que al receptor llegarán unos 65dBSPL. Entonces
empezamos la medición de nuestras referencias. En la siguiente tabla se muestran los
resultados:
Ismael Cerezo jorge

20
Fuente Nivel referencia Nivel estimado

(dBFs) (dBSPL)
Voz -15 65
Pasos -30 50
Room -50 30
El concepto más importante llegado a este punto, es el nivel en el que mezclar en nuestro
proyecto. Entonces se ha basado en la lógica para decidir qué valor es el más adecuado
para el nivel de salida en nuestro máster.
Lo primero que valoraremos es lo que queremos conseguir. En definitiva, este proyecto se

basa en el realismo sonoro y tal como se ha planteado la mezcla, influirá significativamente
que el nivel de reproducción sea similar al de la fuente sonora real que tratamos de recrear.
Se ha decidido que el nivel de nuestro proyecto sea el que produzca la sensación adecuada
teniendo nuestros equipos profesionales de reproducción en su valor medio y con unos
auriculares de estudio (70Ω en este caso). El nivel final es de -9dBFs valor de pico.
Recordar que el rango dinámico de nuestro proyecto es de unos 35dB (pico máximo/nivel
mínimo). A día de hoy nuestros equipos digitales ofrecen en 24 bits un rango dinámico de
138dB así que aún “perdiendo” 9dB de margen, (138-9-35=94) nos quedan 94 dB’s antes de
percibir pérdida de información. Si se hubiera ajustado cerca de los 0dBFs, habría sido
demasiado alto, obligandonos a reducirlo de forma considerable en la reproducción, en el
caso de querer disminuir la señal, en un “knoob” logarítmico obtendremos menos control
sobre la señal.
Una vez hecho esto, empezamos a procesar las voces y pasos. Primero insertamos un
ecualizador con el fin de adecuar el timbre de estas a la respuesta en frecuencia que
producen nuestros órganos auditivos. Para ello se tienen en cuenta las curvas isofónicas
mostradas en punto 2.1.2 de este proyecto.
Debido a los cambios de posición del emisor, se ha podido percibir en las referencias que
se produce una pérdida de agudos significantes cuando el emisor no proyecta el sonido
directamente al receptor. Por eso se ha añadido otro ecualizador que se ha automatizado
para recrear este fenómeno. Siempre teniendo en cuenta el analizador de las referencias y
comparando enviando a nuestro analizador “extra”.
En el caso de los pasos y aunque se trate de una característica propia del receptor, se ha
añadido otra EQ con el fin de emular la posición (altura) de la fuente en base a los principios
de HRTF (Función de transferencia).
Con el fin de ajustar “definitivamente” los niveles, se han enviado las pistas “VOZ y PASOS”
a nuestra pista auxiliar (ST) con el plugin de “Reverb”, pues la suma de la señal de
reverberación con las originales, va a afectar al nivel final de nuestro proyecto. El plugin
contiene el impulso estéreo de las muestras captadas a 2m de distancia, 1m a la izquierda y
1m a la derecha ya editadas. De esta forma, empezamos a editar los parámetros de
Ismael Cerezo jorge

21
nuestra reverb (aunque se trata de una reverb de convolución y en teoría presenta las
mismas características de nuestra sala, hay que tener en cuenta que la medición se realizó
con ruido rosa y a un nivel que no es similar al que producen nuestras fuentes sonoras).
Para ajustar nuestra reverb, primero indicamos al

plugin que solo nos interesa el sonido “mojado” y que
no queremos que deje pasar sonido “seco”. El tiempo
de la reverberación tampoco es similar al de nuestras
referencias, así que reducimos el parámetro
“Envelope”. Los parámetros “Length” y “Smooth”
producen degradación muy notoria de la señal, así
que no se van a utilizar. Aún así, la sensación que
produce es de un espacio demasiado grande, por
eso se ha reducido la apertura estéreo. También se
ha ecualizado de forma externa al plugin
(sacrificamos consumo de recursos por precisión y
maniobrabilidad), en base a la voz y la respuesta en
frecuencia de la sala.
El siguiente paso ha sido agrupar las voces y los pasos. Esto se debe a que ambas fuentes
provienen de un mismo emisor y por lo tanto, su posición siempre será igual. Entonces
procedemos a procesar en base a las características comentadas en el punto 2.2.5
automatizamos el nivel (Ley cuadrática inversa) y la respuesta en frecuencia (Absorción del
aire). En base a nuestras referencias y conceptos teóricos.
La salida es este grupo la enviamos a un nuevo canal auxiliar (MONO), donde se tenía
prevista añadir una ecualización que serviría para adaptar la respuesta de las señales a la
de nuestros oídos. Pero esto se ha llevado a cabo anteriormente debido a que es muy
complicado procesar para conseguir realismo, previendo el resultado con tanta antelación.
Además el timbre de uno de los elementos (PASOS), debía ser corregido con anterioridad.
Por esta razón, no será necesario su uso.
Este canal auxiliar lo enviamos a otros dos auxiliares(MONO), Panoramizados uno para
nuestro oído derecho y otro para nuestro oído izquierdo. Ambos contienen insertados un
plugin de “delay” para generar diferencias de tiempo entre los oidos (DIT 2.2.1) y un “EQ”
para recrear las diferencias de intensidad (DII 2.2.2).
Para generar las diferencias de tiempo utilizaremos el

plugin “Sound Delay”. Automatizamos el canal contrario
de la posición de la fuente sonora (Ej: si la fuente está
a la derecha, retrasamos el canal del oído izquierdo).
Este plugin nos permite automatizar las décimas y
centésimas de milisegundo. Así en la pista de
automatización cada unidad se representa en valores
de 10 por lo que es muy preciso. El problema que
presenta es que no permite que haya continuidad entre distintas unidades. Por lo que hay
que automatizar los dos “knobs” (décimas y centésimas) para que el delay se comporte de
forma continua y no escalonada.
Ismael Cerezo jorge

22
Para crear las diferencias interaurales de intensidad. Con el fin de conocer exactamente
cómo se produce este filtrado, se ha creado una nueva pista de sonido a la que se ha
insertado un generador de ruido blanco. Esta pista se ha enviado a un nuevo auxiliar donde
tenemos un plugin de panoramización binaural (AMBEO ORBIT) y posteriormente un
analizador.
Como podéis observar en la imagen siguiente, la sombra acústica que produce nuestro
cráneo, además de una pérdida notable en la banda de agudos, produce también
alteraciones en frecuencias específicas que son complicadas y laboriosas de reproducir en
un ecualizador.
Por esta razón, se ha decidido cambiar el

smooth del analizador para simplificar el
proceso de ecualización. Aún sabiendo,
que podemos estar sacrificando en parte
los resultados.
Finalmente creamos un punto “High

Shelf” en el ecualizador, que
automatizamos en nivel y en frecuencia
siguiendo los los criterios que nos ofrece
el panoramizador binaural junto con el
analizador de espectro.
El siguiente paso, ha sido re-agrupar las señales en un grupo (Stereo) donde se han
simulado los procesos “HRTF”. Para ello, se inserta un ecualizador y de igual manera que
con la “DII”, se analiza el funcionamiento de nuestros pabellones auditivos (ambeo orbit y
analizador con la curva simplificada).
Finalmente, escuchando nuestro proyecto, nos damos cuenta que nuestras señales
principales suenan demasiado nítidas. Entonces se decide añadir una segunda pista de
reverberación en la que añadimos el impulso cercano (1m), con el fin de recrear las
primeras reflexiones. Una reverb corta que nos ayuda a naturalizar la voz.
5.5 Exportación
Se han realizado dos exportaciones finales en este proyecto: Audio y vídeo con audio.
En la exportación de audio simplemente se ha producido un audio wav 48.000Hz de

muestreo con una profundidad de 16bits. En el conjunto audio/imagen se ha decidido
exportar en .H264 (MP4), pues aún sabiendo que se trata de un formato con compresión, no
es relevante en el resultado de vídeo y este formato es significativamente asequible de
reproducir, casi convirtiéndose en un códec estándar. Si es relevante mencionar que este
códec también comprime el audio, convirtiéndolo en un archivo con extensión .AAC 48kHz
16bits. Aunque la pérdida de información no debería ser notoria.
(Se adjuntan las exportaciones de sonido y vídeo en el CD)
Ismael Cerezo jorge

23
5.6 Reproducción
Para conseguir la sensación de inmersión sonora, será necesario utilizar auriculares y
reproducir a un nivel concreto (valor máximo de pico 65 dBSPL aproximadamente). Esto se
debe a que se ha tratado la respuesta en frecuencia tal y como se percibe respecto a su
nivel, si escuchamos el producto a un nivel poco apropiado, la sensación que producirá no
será adecuada.
Respecto a la relación del sonido con la imagen, para distinguir de forma correcta la
posición del emisor, será necesario que la relación distancia/tamaño de la pantalla sean las
adecuadas. Si no fuera así y por ejemplo, la persona que observa el producto se encuentra
a más distancia de la pantalla, escuchará el emisor totalmente por la izquierda mientras el
movimiento que percibe es mucho menor. Por esa razón, en un principio se planteó hacer la
captación visual en binocular con el fin de reproducir el resultado en soportes VR.
6. Conclusiones
Finalmente, podemos afirmar que “NO se han conseguido íntegramente los resultados
esperados”, pero debemos reflexionar sobre qué se ha conseguido, qué no se ha
conseguido y por qué.
Es importante aclarar que cada receptor tiene distinto tamaño de cabeza, pabellones
auditivos, umbral de audición... Incluso las curvas isofónicas son una media del
comportamiento de los oídos de distintos sujetos. Esto significa que cada uno de los
receptores de este proyecto puede percibir de forma distinta los resultados. Hay que tener
en cuenta que el mezclador del proyecto ha influido notoriamente en los resultados, pues
aún disponiendo de valores medios, el factor subjetivo ha sido inevitable.
El primer paso que ha influido de forma notoria en la creación de sonido “natural” o

“realista”, ha sido la elección de microfonía. Para ello, se han realizado análisis de los
micrófonos que se ha podido prever en base a los aspectos comentados en el punto 2.1 de
este proyecto. Pero el resultado de este análisis no ha resultado tal y como se había
pronosticado anteriormente. Es sabido que la técnica de captación más certera cuando
hablamos de sonido binaural es la utilización de “Dummy Heads”. Según se ha podido
observar, estos equipos utilizan micrófonos omnidireccionales en el interior de prótesis
auriculares. Por eso, como se muestra en el punto 3.1.2. Se construyó una protesi de este
tipo.
A pesar de ser la técnica más utilizada en captación binaural, en este proyecto no se ha

obtenido el resultado que se esperaba y hay que analizar por qué. La forma y el tamaño son
aunque no perfectos, correctos. Quizás el problema principal reside en la densidad.
Ismael Cerezo jorge

24
Anteriormente se ha mencionado que los órganos auditivos externos están formados por
cartílago y piel. Por eso se decidió utilizar látex líquido para la construcción de la protesi.
El látex ha resultado ser un material extremadamente

difícil de utilizar. Por esa razón, el grosor de nuestro
pabellón auditivo no es similar al de el órgano natural.
Así que podemos intuir que esto ha afectado a la
respuesta en frecuencia de nuestra captación,
provocando que el resultado no haya sido el
esperado. Hay que decir, que en el caso de que el
resultado hubiera sido concluyente. Nuestra captación
ya habría sido modificada en frecuencia en base a la
función de transferencia, cosa contraproducente,
pues posteriormente la frecuencia debe ser
modificada respecto a la posición del emisor y la
captación se ha realizado sin ningún tipo de
movimiento.
También sobre la captación, se puede sospechar que una captación cercana no puede ser
similar a la de nuestra audición pues aún procesando el timbre, la sensación que produce
no ha sido del todo efectiva.
Respecto a la sincronización de la captación hecha en estudio, simplemente apuntar que el

“actor” de doblaje, no era profesional y ha sido realmente difícil de sincronizar, siendo en
algunos momentos imposible.
En lo referente a los procesadores de frecuencia, uno de los aspectos que se ha valorado

anteriormente ha sido la variación de tiempo que producen los ecualizadores sobre nuestras
muestras de sonido. Debido a la falta de información concreta sobre este fenómeno, se
muestran imágenes capturadas de Jose Martí Faus.
Medición de la MAGNITUD y la FASE de un ECUALIZADOR

https://www.youtube.com/watch?v=TytdYpormTw&t=414s )
En las imágenes podemos observar cómo

un ecualizador “shelving”amplificando los agudos de una señal, en 2,4kHz amplificando
+5dB añade unos 50º de desfase. Esto supone una variación de 0,04ms. Sin embargo el
uso de un número elevado de plugins de este tipo (como es el caso) supone mucha
exigencia de procesamiento. Pudiendo generar problemas de latencia que podrían ser más
Ismael Cerezo jorge

25
perjudiciales para el producto que la propia alteración de fase. Por esta razón, se ha
desestimado utilizar ecualizadores de fase lineal en este proyecto.
En cuanto a la reverb, se debe señalar algunos aspectos que no ayudan a generar el sonido
natural que deseamos recrear. El primer aspecto que queremos tratar está relacionado con
el impulso grabado. Debido a que no es posible reproducir un sonido que pase de la nada a
una señal con la energía suficiente. El impulso que se creó era una señal muy corta que
empezaba y acababa con “fades” muy cortos. Esto hizo que la reverb tuviera un pequeño
pre delay que realmente no se correspondía con las reflexiones de la sala. Probablemente
la solución habría sido cortar este “fade” en el proceso de edición realizado antes de
importarlo al plugin de reverb.
También en nuestra reverberación percibimos un pequeño realce en la banda de

medios-agudos que se caracteriza por ser un sonido tipo “vibrato”. Esto se puede deber a
que nuestro impulso en el proceso de captación entró en resonancia con algún elemento
metálico que se encontraba en la sala y produjo este sonido tan característico y que nuestra
convolución tradujo en la reverb. Una posible solución habría sido reducir el nivel del
impulso cuando fué reproducido. Tendría sentido que el nivel de reproducción de éste
hubiera sido similar al de la fuente de mayor intensidad de nuestro proyecto, pues el TR
habría sido “igual” y no habríamos tenido este tipo de resonancias. Se ha intentado filtrar el
rango de frecuencias afectado, pero la sensación que producía era peor que con el propio
sonido. Finalmente se ha decidido reducir el nivel de estas frecuencias con un ecualizador
hasta el punto en el que no llegara a dar la sensación de “vacío” en esta banda, aunque
todavía se puede percibir, no es tan llamativo.
Sobre nuestro plugin de delay, aunque anteriormente se ha insistido en la importancia del

“overclocking” para este proceso, las dificultades para automatizar valores tan pequeños
(centésimas de milisegundo), ha propiciado que se utilice este plugin en concreto, aunque
no utilice sobremuestreo para procesar la señal. Aún así, no se han percibido cambios de
tono producidos por el estiramiento y la compresión de las muestras.
Para recrear la sensación de posición en el eje horizontal, se ha basado en los fenómenos

de DII y DIT. Aunque se puede decir que si produce la sensación de movimiento y se puede
percibir la posición de la fuente. La precisión y la sensación no han sido del todo fieles a la
percepción auditiva natural. También se producen pequeños desajustes entre la relación
frecuencia/tiempo que pueden desconcertar al receptor.
Como hemos visto en el apartado 5.3 (Mezcla), para reproducir la “Diferencia Interaural de
Intensidad” habría sido necesario ecualizar y filtrar de forma muy específica en algunas
frecuencias, por cuestiones prácticas, se ha decidido simplificar este proceso y esto puede
haber afectado a la precisión de la interpretación. También si analizamos la relación DIT/DII
encontramos pequeñas inconsistencias de las cuales podemos hacer ciertas deducciones.
Debo señalar que en el momento de decidir cómo procesar, se han utilizado muestras de
valores intermedios. Esto significa que para representar un movimiento de la fuente sonora
de 90º horizontal, se han tomado como referencias los valores de las frecuencias y de
tiempo en 0º, 45º y 90º. Si pudiéramos representar la diferencia de tiempo y la fluctuación
de frecuencia como líneas en una misma gráfica, es lógico pensar que estas serían curvas,
pues nuestro cráneo no es una esfera perfecta. Pero no se ha tenido en cuenta que estas
Ismael Cerezo jorge

26
curvas pudieran ser complejas y que se comportarán de forma distinta, creando de esta
forma desajustes entre ellas que hacen que esta recreación no sea del todo efectiva.
Se puede decir que la función de transferencia ha sido el proceso más perjudicado por la
simplificación de procesado que se ha llevado a cabo, haciendo que la sensación sea la
menos realista de todas las técnicas que se han llevado a cabo en este proyecto. Esto se
debe a que el HRTF se basa principalmente en filtrados muy específicos que habrían sido
realmente complicados de producir de forma manual. Cuando se ha analizado la función de
transferencia con el analizador (Smooth alto) se han podido divisar pequeñas variaciones en
el timbre que se han exagerado con el fin de propiciar la sensación de posición del emisor.
Durante el análisi de los resultados, se ha reproducido el producto en distintos equipos:

Monitores de campo cercano, auriculares intraurales (gama media), sistemas hi-fi…
Obviamente en los equipos domésticos 2.0 y 2.1 no se han percibido la mayor parte de los
procesos. Aunque sí podemos distinguir e interpretar de forma bastante acertada el
procesado que refiere a la DII y DIT.
Siendo de este modo, podemos decir que no es práctica la utilización de esta técnica para
un producto de sonido inmersivo, aunque podemos extrapolar algunos procedimientos para
mezcla 2.0 (como la creación de planos fuera de encuadre). Para la creación de planos
binaurales sería más eficiente utilizar “dummy’s” o en el caso de no poder realizarlos en
captación. Utilizar plugins de panoramización binaural junto con “Proximity” que es un plugin
tipo fader que recrea la distancia (mediante la reducción de nivel y agudos) o similar.
Para concluir, hay que decir que la percepción del sonido es un complejísimo proceso
natural con infinidad de variantes y que es realmente difícil de recrear de forma manual.
Mucho más complicado con los recursos que se han dispuesto.
7.Contenidos del CD
- Análisis microfonía
+ C4000 :
● 1x WAV
● 1x PDF
+ ECM 8000 :
● 1xWAV
● 1x PDF
+ ECM 8000 (Prótesis) :
● 1x Audio
+ Rode M5 :
● 1x WAV
● 1x PDF
- Bibliografía:
● 9x PDF
● 4x txt
● 1xHTML
Ismael Cerezo jorge

27
- Captación de impulsos:
● 1x .MOV
- Imágenes:
● 20x .JPG
- Máster:
● 1x WAV
● 1x MP4
- Mezcla:
● 1xJPG
- Proyecto:
● 1xPDF
8. Bibliografía
-ANTROPOMETRIA FACIAL A PARTIR DE MULTIPLES VISTAS:

http://www.docentes.unal.edu.co/jbgomezm/docs/Trab_Promocion.pdf
-Wikipedia oído:
https://es.wikipedia.org/wiki/O%C3%ADdo
-Datos antropométricos de la población laboral española:

http://comisionnacional.insht.es/InshtWeb/Contenidos/Documentacion/TextosOnline/Rev_IN
SHT/2001/14/artFondoTextCompl.pdf
-Direccionalidad que soporta el procesamiento auditivo natural. (CD)
-Ley cuadrática inversa

http://hyperphysics.phy-astr.gsu.edu/hbasees/Acoustic/invsqs.html
-Diseño, Construcción y Experimentación de un Modelo Humano para Microfonía Binaural

(CD)
-Manual Behringer ECM8000 (CD)
-La percepción acústica: Física de la audición (CD)
-HRTF Measurements of a KEMAR Dummy-Head Microphone
Ismael Cerezo jorge

28
https://sound.media.mit.edu/resources/KEMAR.html
-Manual Rode M5 (CD)
-Laboratorio C: Psicoacústica:
http://www.labc.usb.ve/paginas/EC4514/AUDIO/PSICOACUSTICA/Psicoacustica.html (CD)
-Función de transferencia relacionada con la cabeza:

https://es.wikipedia.org/wiki/Funci%C3%B3n_de_transferencia_relacionada_con_la_cabeza
-DISEÑO, CONSTRUCCIÓN Y EXPERIMENTACIÓN

DE UN MODELO HUMANO PARA MICROFONIA BINAURAL (CD)
-Manual C4000b: (CD)
Ismael Cerezo jorge

29

Sonido Binaural en Postproducción Audiovisual

Cargado por

Copyright:

Formatos disponibles

Sonido Binaural en Postproducción Audiovisual

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sonido Binaural en Postproducción Audiovisual

Cargado por

Copyright:

Formatos disponibles

0

Sonido binaural en postproducción audiovisual

4.​ ​Procesadores (pág.12)

5.​ ​En este proyecto (pág.14 )

6​. ​Conclusiones (pág.24 )

7.Contenidos del CD (pág.27)

8. Bibliografía (pág 28)

Ismael Cerezo jorge

La finalidad es entender cómo funciona nuestra audición y poner en práctica distintas

Ismael Cerezo jorge

2.1.2 Respuesta en frecuencia

Ismael Cerezo jorge

2.2 Audición espacial

2.2.1 Diferencia Interaural de Tiempo

Ismael Cerezo jorge

2.2.2 Diferencia de Intensidad Interaural

Ismael Cerezo jorge

2.2.3 HRTF Función de transferencia

Hasta ahora hemos analizado cómo interpreta el

Para esclarecer de forma gráfica cómo se comportan nuestros pabellones auditivos

Imagen 1: 90º inclinación

Ismael Cerezo jorge

Imagen2: 45º inclinación

Imagen 4: -45º inclinación

Imagen 5: -90º inclinación

Ismael Cerezo jorge

Aunque no se trate de conceptos propios de la audición si no de la propia física del sonido,

- Ley cuadrática inversa: La distancia de la fuente influirá en el nivel de llegada que

- Absorción acústica: ​Durante la propagación del sonido, puede producirse

Absorción del aire a 15º 50% humedad a 10m de distancia

-Tiempo de reverberación: Solemos medirlo en TR60 ​y es el tiempo que tardan las

Ismael Cerezo jorge

-Respuesta en frecuencia de la sala: ​Debido a la forma, tamaño, proporciones y

3.1 Análisis de microfonía

En base a las características comentadas en

La prueba se realizó con las membranas de

- Micrófonos de medición (ECM 8000):

Micrófono de respuesta plana, efectivo para

Ismael Cerezo jorge

-Micrófonos de medición (ECM 8000) con pabellón auditivo :

A continuación se muestra las capturas de un ECM8000 sin la protesi (Imagen izquierda) y

Podemos observar en la imagen derecha que la respuesta en frecuencia presenta

Finalmente el resultado no es el esperado, pues la respuesta en frecuencia se ve muy

Ismael Cerezo jorge

- Micrófonos de condensador con membrana pequeña (Rode M5):

Este micrófono tiene una membrana de tamaño similar a la del

La sensación auditiva que produce es similar a la de nuestros órganos auditivos.

-Micrófonos de condensador con membrana grande (AKG C4000- Cardioide):

Este micrófono ofrece la posibilidad de cambiar su direccionalidad. Teniendo en cuenta la

Ismael Cerezo jorge

4.1 Procesadores de frecuencia (EQ)

La función de los ecualizadores, por ámbito general, es alterar el nivel de amplitud de un

- Precisión: Consideraremos precisos los ecualizadores que permitan modificar los

- Alteración del timbre: Algunos ecualizadores tienen la capacidad de “colorear” el

Ismael Cerezo jorge

4.2 Procesadores de tiempo (Reverb, Delay)

- Overclocking: ​El overclocking o sobremuestreo es la propiedad que tienen algunos

4.3 Procesadores de nivel

Ismael Cerezo jorge

4. Procesadores (pág.12)

5. En este proyecto (pág.14 )

6. Conclusiones (pág.24 )

- Absorción acústica: Durante la propagación del sonido, puede producirse

-Tiempo de reverberación: Solemos medirlo en TR60 y es el tiempo que tardan las

-Respuesta en frecuencia de la sala: Debido a la forma, tamaño, proporciones y

- Overclocking: El overclocking o sobremuestreo es la propiedad que tienen algunos

Final: Para finalizar, importamos el “bounce final” en el proyecto de vídeo. Comprobamos