Procesamiento de Audio (Modulo 4)
Procesamiento de Audio (Modulo 4)
Procesamiento de Audio (Modulo 4)
audio
Marta Ruiz Costa-juss
Helenca Duxans Barrobs
PID_00188067
CC-BY-NC-ND PID_00188067
Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia de
Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlos
y transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya),
no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/
licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND PID_00188067
ndice
Introduccin...............................................................................................
Objetivos.......................................................................................................
1.
2.
Cuantificacin.....................................................................................
10
2.1.
11
2.2.
14
2.3.
16
3.
Cuantificacin inversa.....................................................................
19
4.
20
4.1.
Sobremuestreo .............................................................................
20
4.2.
Tramado .......................................................................................
21
5.
23
6.
24
6.1.
24
6.2.
25
6.3.
7.
8.
9.
codificados ...................................................................................
26
6.4.
28
6.5.
29
Codificadores perceptivos................................................................
32
7.1.
33
7.2.
34
7.3.
34
36
8.1.
37
8.2.
39
8.3.
39
41
9.1.
41
9.2.
42
9.3.
43
CC-BY-NC-ND PID_00188067
9.4.
44
9.5.
Vorbis OGG....................................................................................
44
CC-BY-NC-ND PID_00188067
Introduccin
La codificacin permite obtener una representacin ms compacta de las seales de audio. Las ventajas que proporciona son las siguientes:
En almacenamiento: sereduceelnmerodebits necesarios para representar la misma informacin. Por lo tanto, se consigue almacenar el mismo audio de modo que ocupa menos. Esto permite almacenar ms contenido en un mismo soporte fsico.
CC-BY-NC-ND PID_00188067
Objetivos
Este mdulo presenta el proceso de codificacin de la seal de audio para almacenarlo o transmitirlo digitalmente, y los procesos necesarios para recuperar el audio que ha sido codificado previamente. As, los objetivos principales
de este mdulo son los siguientes:
CC-BY-NC-ND PID_00188067
La seal de audio analgico es continua en tiempo y en amplitud. Los codificadores digitalizan las seales para almacenar o transmitir.
Codificador de audio
El proceso de digitalizacin de una seal consta de tres fases, como se muestra en la figura 1. En primer lugar, la seal analgica sediscretizaentiempo
por medio de un convertidor A/D, que muestrea la seal de entrada a una frecuencia fija, denominada frecuencia de muestreo. A continuacin, cada muestra
sediscretizaenamplitud, utilizando, como mnimo, un cuantificador para
representar todos los valores de las muestras posibles con un nmero finito de
smbolos. Finalmente, los smbolos se transforman en bits para transmitirlos
o almacenarlos.
En la figura 2 se muestra una seal sinusoidal analgica (lnea roja), la seal
discreta obtenida una vez se ha muestreado (secuencia de barras azules), los
smbolos que corresponden a cada muestra (valores de 0 a 15) y la transformacin de estos smbolos a bits.
Ved tambin
Recordad que la conversin A/
D y D/A la hemos explicado en
el apartado Conversin A/D
y D/A. Entorno analgico y entorno digital del mdulo 1.
CC-BY-NC-ND PID_00188067
Proceso de digitalizacin.
Figura 2. La seal sinusoidal analgica (x(t) rojo) se discretiza en tiempo (x[n] puntos sealados con las barras
azules) y obtiene muestras, que se discretizan en amplitud mediante codificacin 4-PCM (escalas en negro) y se
obtiene la secuencia de 0 y 1 s.
La operacin inversa a la codificacin se denomina descodificacin y tericamente permite recuperar la seal original (a pesar de que en la prctica veremos que no somos capaces de recuperar exactamente la seal original).
La codificacin tiene como objetivo representar una seal analgica de una
manera digital y compacta, es decir, el objetivo que tiene es minimizar la
cantidad de informacin necesaria para representar una seal. A la vez, intenta minimizar la prdida de calidad de la seal que se obtiene cuando se descodifica.
Para evaluar la eficacia de un codificador se tienen en cuenta diferentes parmetros:
La fidelidad, o cmo es de semejante para el odo humano el audio descodificado con el audio original.
CC-BY-NC-ND PID_00188067
Transcodificacin
Un transcodificador es un sistema que cambia la codificacin aplicada a una seal. Por
lo tanto, la entrada que tiene
es una seal codificada (digital) y la salida, la seal recodificada segn la nueva codificacin elegida. As, un transcodificador permite la conversin
directa (de digital a digital) de
una codificacin a otra.
10
CC-BY-NC-ND PID_00188067
2. Cuantificacin
El nmerodebits(b) nos indica la cantidad de estados de salida del cuantificador. Un cuantificador tiene ms resolucin si tiene ms nmero de
bits.
Los niveles de cuantificacin (N) son los valores nuevos que toma la
seal cuantificada y vienen dados por el nmero de bits del cuantificador.
Su expresin es
).
Rango dinmico
El mnimo y mximo de la seal que se ha de cuantificar se determina, entre otros rangos,
a partir del rango de valores analgicos que tiene la seal o a partir del rango de valores
analgicos que nos interesa para nuestro procesamiento digital.
El errordecuantificacin se define como la distancia entre la seal original y la seal cuantificada; por lo tanto, que:
CC-BY-NC-ND PID_00188067
11
Error de cuantificacin
Figura 3. Representacin de una seal analgica (rojo), el resultado de la cuantificacin de esta seal (verde) y el
error de cuantificacin (azul). La seal analgica (en rojo) se discretiza en tiempo con una frecuencia de muestreo
muy alta y al cuantificarse en amplitud (escalas verdes) surge un error de cuantificacin (en azul).
Si tenemos una seal continua cuya amplitud oscila entre 0 y 3, una cuantificacin posible es que a todos los valores entre 0 y 1 les demos un valor de 0,5, a los valores entre 1
y 2 un valor de 1,5 y a los valores entre 2 y 3 un valor de 2,5. Esto es una cuantificacin
uniforme. Por lo tanto, los niveles de cuantificacin son 0,5, 1,5 y 2,5.
12
CC-BY-NC-ND PID_00188067
Cuantificador uniforme
Referencia bibliogrfica
A.Moreno (2003). Cuantificacin.
As, observamos que el cuantificador uniforme de la figura 4 contiene los intervalos de cuantificacin siguientes:
Definimos el nmero de bits que queremos utilizar (b), que nos da el nmero de niveles de cuantificacin:
A partir de los niveles de cuantificacin de un cuantificador uniforme podemos definir la relacin seal-ruido (SNR) que tienen.
CC-BY-NC-ND PID_00188067
13
donde
Sabemos que:
Por lo tanto:
CC-BY-NC-ND PID_00188067
14
Observando el resultado vemos que la SNR mejora 6 dB por cada bit que aadimos al cuantificador, independientemente del tipo de seal que se tenga
que cuantificar. Ahora bien, la SNR tambin depende de la proporcin entre el
valor mximo de la seal y la varianza que tiene. Cuanto mayor es el cociente,
peor es la SNR.
Observad que es difcil decidir el rango de un cuantificador porque un cuantificador debe ser vlido para diferentes tipos de seales: voz (seales sordas y
sonoras, seales pronunciadas por diferentes locutores), msica, etc.
2.2. Cuantificacin no uniforme
La cuantificacin no uniforme asigna nivelesdecuantificacinquenoestndistribuidosuniformemente. La principal ventaja de este tipo de cuantificacin es que se puede adaptar a la seal. As, si una seal contiene ms
informacin en un margen de amplitud concreto, se asignan ms niveles de
cuantificacin en este margen.
Para hacer un cuantificador no uniforme se deben buscar los intervalos
Referencia bibliogrfica
AsuncinMoreno (2003).
Cuantificacin.
Figura 5. Pasos que se deben seguir en una cuantificacin escalar o logartmica: compresin, cuantificacin
uniforme y expansin de la seal
Por lo tanto, la cuantificacin escalar o logartmica consiste en aadir un compresorlogartmico antes de elaborar una etapa de cuantificacin uniforme
convencional. La utilidad del compresor logartmico es muy clara para seales
de audio. Sabemos que una seal de audio puede tener un rango de amplitudes
muy extenso (superior a 60 dB) pero no todas las amplitudes son igualmente
probables. Interesa minimizar el error de cuantificacin (es decir, aumentar la
CC-BY-NC-ND PID_00188067
15
resolucin del cuantificador) donde las amplitudes de la seal son ms probables (por ejemplo, en seales de voz telefnicas, los valores de las amplitudes
pequeas son los ms probables).
En trminos generales, podemos decir que hay dos estndares para hacer un
cuantificador logartmico: la ley-A (europeo) y la ley- (americano y japons).
La diferencia entre una y otra es el tipo de compresin y expansin. Ahora
bien, el objetivo es el mismo, esto es, amplificar los valores con amplitudes ms
pequeas antes de hacer la cuantificacin. La figura 6 muestra la compresin y
expansin que se realiza de la seal. Con la seal de salida de esta compresin
y expansin se efecta la cuantificacin uniforme.
Ley-A y ley- de compresin y expansin de la seal de voz
La varianza del error de cuantificacin en un cuantificador logartmico incorpora la curva de compresin c(x):
CC-BY-NC-ND PID_00188067
16
17
CC-BY-NC-ND PID_00188067
se veri-
3. Actualizacin del diccionario. Se calcula para cada grupo de vectores el nuevo centroide y. Este nuevo centroide cumple que es el vector que minimiza el
error cuadrtico medio del grupo.
4. Final o regreso al paso 2. Se acaba si se cumple cualquiera de las condiciones
siguientes:
El error cuadrtico medio total no disminuye de manera significativa respecto a la iteracin anterior.
El error de cuantificacin en este caso es la suma de las distancias de los vectores x a los centroides.
CC-BY-NC-ND PID_00188067
18
Queremos aplicar el algoritmo de Lloyd para hacer la cuantificacin de una seal triangular en Matlab. En primer lugar, diseamos la seal triangular muestreada mediante las
rdenes siguientes:
x=repmat([0:0.1:1 0.9:-0.1:0],1,1);
y=[1:1:21];
z=[x;y];
En segundo lugar, aplicamos el algoritmo de Lloyd a z, que es la representacin de la
seal en vectores de dos dimensiones, para crear una biblioteca de cdigos de medida 5:
[U, v, sumd, D]=kmeans(z,5);
U es la matriz que define a qu grupo pertenece cada vector de la seal; v son los centroides; D son las distancias de cada punto de la seal al centroide y sumd es la suma de
distancias dentro de cada centroide.
Con las rdenes siguientes visualizamos la seal y la cuantificacin:
plot(z(:,1),z(:,2),'v');
hold on;
plot(v(:,1),v(:,2),'sr');
Aplicacin
La seal de audio normalmente utiliza cuantificadores de 8, 16 o 20 bits. Esta cuantificacin implica que una seal sinusoidal (un tono puro) tiene una relacin de seal a
error de cuantificacin (SQNR) mxima, aproximadamente de 50, 100 y 123 dB, respectivamente. La calidad de CD se suele cuantificar con 16 bits (por canal si es sonido en
estreo), puesto que en la prctica los aparatos de msica no reproducen ms de 90 dB.
La cuantificacin es el proceso que permite transformar una seal discreta a una seal digital. Por ejemplo, la seal discreta [0,2 0,35 0,7] a
seal digital [0 0 1].
La cuantificacin uniforme distribuye los valores de la seal original en
L niveles separados uniformemente.
Como a menudo la informacin de una seal se concentra en un rango de valores determinado, es conveniente utilizar un cuantificador no
uniforme que presente ms granularidad donde la seal concentra ms
informacin. Dos estndares de cuantificacin no uniforme son la leyA y la ley-.
La cuantificacin vectorial cuantifica bloques de N muestras a la vez,
es decir, vectores de longitud N. As, se debe disear la biblioteca de
cdigos que contiene los vectores representativos de los vectores de la
seal original.
Referencia bibliogrfica
AsuncinMoreno (2003).
Cuantificacin.
RafaelMolina. Cuantificacin escalar.
CC-BY-NC-ND PID_00188067
19
3. Cuantificacin inversa
Normalmente, el cuantificador inverso est formado por dos etapas. En la primera etapa se lleva a cabo la correspondencia nivel-valor de muestra segn el
tipo de cuantificacin aplicado (escalar uniforme, no uniforme o vectorial). En
la segunda etapa se aplica un interpolador a las muestras obtenidas para suavizar la seal reconstruida. El interpolador ms simple es un filtro paso bajo.
Como ya habris advertido, cuando se realiza una cuantificacin inversa no se
puede recuperar perfectamente la seal original (la seal antes de codificar).
En el proceso de cuantificacin puede que haya valores diferentes (por ejemplo, 0,25 y 0,35) que sean cuantificados con el mismo nivel de cuantificacin
(por ejemplo, 100). Por lo tanto, cuando se vuelve atrs con la cuantificacin
inversa, no se puede saber si el nivel 100 perteneca al valor 0,25 o al valor
0,35. En este caso hemos de fijar un valor para la correspondencia nivel-muestra, como por ejemplo el valor medio del intervalo (por ejemplo, 0,30 para el
intervalo 0,25-0,35). Por lo tanto, todos los valores que vengan del nivel 100
sern transformados en el valor 0,30.
20
CC-BY-NC-ND PID_00188067
es la frecuencia de muestreo.
B es el ancho de banda de la
seal.
Por lo tanto, por cada bit que queremos aumentar en resolucin, debemos
multiplicar por cuatro la frecuencia de muestreo.
es la frecuencia de sobremuestreo.
w es el nmero de bits que
queremos aumentar en resolucin.
. Si esta
Referencia bibliogrfica
Th.Zawistowski;P.Shah.
"An Introduction to Sampling Theory".
CC-BY-NC-ND PID_00188067
21
CC-BY-NC-ND PID_00188067
22
Hemos visto dos tcnicas que aplicando conocimiento sobre el sistema acstico humano y la percepcin del sonido (podis ver el apartado
Percepcin del sonido) permiten perfeccionar la cuantificacin:
CC-BY-NC-ND PID_00188067
23
Hasta ahora hemos visto los cuantificadores como sistemas que permiten discretizar la amplitud de las muestras; por lo tanto, los cuantificadores son un
mdulo necesario para los codificadores. Existen otras tcnicas, como las que
comentaremos a continuacin, que, utilizadas junto con un cuantificador, aumentan la eficacia de la codificacin.
La principal estrategia de codificacin, utilizada para reducir la tasa de bits
manteniendo la fidelidad del audio, es hacer algn tipo de procesamiento en
las muestras de la seal antes de aplicar el cuantificador, es decir, entre el bloque de conversin A/D y el cuantificador de la figura 1. Segn cmo sea este
procesamiento, la codificacin se puede clasificar en:
Codificacin perceptiva.
CC-BY-NC-ND PID_00188067
24
CC-BY-NC-ND PID_00188067
25
Frecuencia de muestreo: 44,1 kHz. Por lo tanto, el ancho de banda de la seal que
se ha de codificar es de 22,05 kHz (recordad que el odo humano tiene el lmite de
audicin en torno a 20 kHz).
16 bits por muestra; esto significa 216 = 65.536 niveles (rango dinmico de 90 dB).
Estreo: dos canales. Cada canal tiene una tasa de bits de 44,1 kHz * 16 = 705, 6 kbps;
en total 1.411 kbps.
Figura 10. Diagrama de bloques de un codificador DPCM (izquierda) y del descodificador (derecha)
CC-BY-NC-ND PID_00188067
26
Figura 11. Diagrama de bloques de un codificador DPCM basado en anlisis por sntesis
Predictor
Un predictor es un sistema en
el que cuando se introduce
una seal en la entrada proporciona a la salida una prediccin de cul ser la muestra siguiente de la seal.
CC-BY-NC-ND PID_00188067
27
Figura 12. Adaptacin del paso de cuantificacin () segn el nivel de seal que se debe cuantificar
28
CC-BY-NC-ND PID_00188067
dor como en el descodificador (por ejemplo, eq[n]); por lo tanto, no hay ningn incremento de trnsito o dimensin. Aun as, la estrategia feedbackward
es menos robusta, puesto que si hay errores de transmisin pueden provocar
una desincronizacin entre el codificador y el descodificador, y, por lo tanto,
la versin reconstruida
La adaptacin de la codificacin ADPCM se puede extender al mdulo predictor de la seal x[n]. Es decir, los coeficientes fijos del mdulo predictor del
codificador DPCM se convierten en variables para adaptarse a la dinmica de
la seal y as proporcionar una prediccin mejor. En este caso se intenta minimizar la seal e[n] para reducir todava ms el rango dinmico.
6.4. Codificacin en subbandas
La codificacin en subbandas consiste en dividir la seal original en diferentes
bandas espectrales (proceso denominado anlisis basado en bancos de filtros) y
codificar cada una de estas bandas de manera independiente, utilizando una
tcnica de codificacin de forma de onda (por ejemplo, DPCM o APCM).
Un diagrama de bloques genrico de la codificacin por subbandas es el que
muestra la figura 13.
Codificacin en subbandas
Figura 13. Diagrama de bloques de un codificador (figura superior) y un descodificador (figura inferior) basado en
subbandas
Ejemplo
La estndar G.726 de la ITU-T
(sector de estandarizacin de
la International Telecomunication Union) prev la compresin de una llamada telefnica por medio del codificador
ADPCM. En concreto, se utiliza
para reducir la codificacin ley (Estados Unidos) o ley-A (Europa) PCM de 8 bits por muestra a 4 bits por muestra.
CC-BY-NC-ND PID_00188067
29
(2)
La interpolacin es el proceso
por el que se introducen (M-1)
muestras por cada muestra de la
seal de entrada. El resultado es
equivalente a un aumento de la
frecuencia de muestreo de la seal
de entrada por el mismo factor M.
Para ms informacin, podis consultar el libro Seales y sistemas, de
A. V. Oppenheim y A. S. Willsky.
CC-BY-NC-ND PID_00188067
30
Figura 14. Diagrama de bloques de un codificador (figura superior) y un descodificador (figura inferior) basados en
transformadas
Ejemplo
Un ejemplo de transformacin de bloques que conocemos todos es la FFT, que toma
bloques de muestras (por ejemplo, 512 o 1.024 muestras) y los transforma en coeficientes
FFT, sin variar el nmero de muestras entre la entrada y la salida de la transformacin
(para el ejemplo anterior tendramos 512 o 1.024 coeficientes de Fourier).
La transformacin ms utilizada para la codificacin de audio es la transformada discreta de coseno o discrete cosinus transform (DCT) o la versin modificada, la MDCT.
Transformada discreta de coseno
Aproximacin de una secuencia por medio de una suma de funciones cosenos de diferentes frecuencias:
Ved tambin
Para recordar las propiedades
de las ventanas, podis consultar el mdulo Diseo y anlisis de filtros en procesamiento
de audio.
CC-BY-NC-ND PID_00188067
31
CC-BY-NC-ND PID_00188067
32
7. Codificadores perceptivos
Los codificadores perceptivos son codificadores que se basan en las caractersticas de percepcin del sistema auditivo humano para intentar reducir el nmero de bits necesarios para realizar la codificacin.
En concreto, los codificadores perceptivos explotan dos caractersticas de la
percepcin del odo humano:
No hay que codificar los contenidos frecuenciales de entrada que se encuentran por debajo del umbral de sensibilidad.
No hay que codificar los contenidos frecuenciales de entrada que se encuentran por debajo del umbral de enmascaramiento.
Ved tambin
Podis revisar el apartado Enmascaramiento del sonido del
mdulo Introduccin a la acstica.
CC-BY-NC-ND PID_00188067
33
Figura 15. Diagrama de bloques de un codificador (figura superior) y un descodificador (figura inferior) perceptivo
(3)
34
CC-BY-NC-ND PID_00188067
(4)
Rango de frecuencias en torno a una frecuencia central en el que el umbral de enmascaramiento es constante (llano). Este valor se puede aproximar con la expresin siguiente:
Los codificadores perceptivos, como intentan incorporar informacin psicoacstica, trabajan en el dominio de la frecuencia. Por lo tanto, el primer paso
de la codificacin es pasar a este dominio.
Tal como hemos comentado en el apartado de codificador de forma de onda,
hay dos opciones para trabajar en el dominio frecuencial: utilizar un banco de
filtros paso banda o transformar la seal con FFT o DCT.
7.2. Modelo psicoacstico
El mdulo llamado modelo psicoacstico informa sobre los niveles de sensibilidad y los niveles de enmascaramiento dado el espectro de la seal de entrada. Es decir, dada una seal de entrada, el modelo psicoacstico nos dice
cul es el nivel de seal mnimo que distingue el odo humano. Este nivel
mnimo es lo que se conoce como umbral de enmascaramiento de esta seal
(
).
Los valores altos de la SMR indican que la seal de entrada provoca menos
enmascaramiento.
7.3. Asignacin de bits
Los codificadores perceptivos asignan a cada subbanda el nmero mnimo de
bits necesarios para codificar la seal sin introducir diferencias perceptivas
respecto a la seal original.
El objetivo del mdulo de asignacin de bits es encontrar cul es el nmero de
bits necesarios en cada subbanda que minimiza el ruido audible introducido
por el cuantificador.
El nmero de bits utilizados por el cuantificador en cada subbanda debe ser
conocido tanto en la etapa de codificacin como en la etapa de descodificacin. Por lo tanto, junto con la seal cuantificada se ha de transmitir y alma-
CC-BY-NC-ND PID_00188067
35
Los codificadores perceptivos remodelan el espectro del error de cuantificacin para conseguir que sea inaudible dada la seal que se debe
codificar.
Para saber qu niveles de seal son inaudibles, se calcula el nivel de
enmascaramiento en cada subbanda de la seal que se ha de codificar
mediante un modelo psicoacstico.
Cada subbanda frecuencial de la seal de entrada se cuantifica con un
nmero de bits diferentes. El nmero de bits utilizados para codificar
cada subbanda se calcula para que la cantidad de ruido de cuantificacin
que se encuentra por encima del nivel de enmascaramiento (es decir, el
ruido que podemos or) sea mnima.
CC-BY-NC-ND PID_00188067
36
La voz tiene unas caractersticas propias que la diferencian del resto del audio.
Ved tambin
(5)
37
CC-BY-NC-ND PID_00188067
Ved tambin
Recordad que hemos visto el
concepto de ruido blanco en
el apartado Espectro de sonido y densidad espectral.
Figura 16. Modelo de produccin de la voz LPC. Parmetros del modelo: la altura tonal
o pitch, la sonoridad y la envolvente. Componentes del modelo: excitacin (tren de
impulsos o ruido blanco) y filtro de envolvente espectral
La seal de excitacin es de dos tipos: un tren de impulsos (para generar sonidos sonoros) o ruido blanco (para generar sonidos sordos). El filtro utilizado
es un filtro IIR todo polos, del tipo siguiente:
Ved tambin
El filtro H(z) (es decir, la envolvente espectral) se disea para que funcione
como un predictor de x[n]. Si la prediccin
CC-BY-NC-ND PID_00188067
38
El modelo de voz se calcula cada pocos milisegundos (un valor habitual es cada 20 milisegundos) para asegurar que se pueden capturar todos los cambios
de la seal de voz. Finalmente, se cuantifican la sonoridad, la altura tonal y
los coeficientes LPC {ai}. Habitualmente, no se cuantifican directamente los
coeficientes {ai}, puesto que algunas pequeas variaciones en los valores de
los coeficientes descodificados, debidas al ruido de cuantificacin, pueden dar
lugar a filtros H(z) inestables. Para evitar este efecto, se aplica alguna transformada en los coeficientes LPC para asegurar ms robustez ante el ruido de
cuantificacin.
Fijaos en que la seal residuo e[n] no se codifica. Internamente, la seal e[n]
se calcula durante el clculo de los coeficientes LPC, la sonoridad y la altura
tonal, pero ni se transmite ni se almacena. Los vocoders simplifican el modelo
de generacin de la voz utilizando como seal de excitacin ruido blanco o
un tren de impulsos, en lugar del residuo e[n]. Gracias a esta simplificacin se
reduce la tasa de bits del codificador.
En la etapa de descodificacin, antes de nada se aplica el cuantificador inverso
a la sonoridad, la altura tonal y los coeficientes LPC. Con los valores obtenidos
se construye el modelo de seal y se obtiene la voz descodificada eligiendo
39
CC-BY-NC-ND PID_00188067
y una fase
diferente:
Lectura de la frmula
,{
}y{
CC-BY-NC-ND PID_00188067
40
Tal como hemos dicho antes, una de las causas principales de la prdida de
calidad de la voz codificada con un vocoder LPC es la utilizacin de una seal
de excitacin artificial muy simple (ruido blanco para sonidos sordos o un tren
de impulsos para sonidos sonoros), en lugar de la seal residual e[n].
La solucin ms directa para resolver esta prdida de calidad de la voz es codificar las muestras de la seal residual e[n] que est disponible en el mdulo
codificador durante el clculo de los coeficientes LPC. La dificultad es encontrar la manera de codificar esta seal sin aumentar excesivamente el nmero
de bits necesarios para hacerlo.
Los codificadores CELP cuantifican la seal residual e[n] por medio de un cuantificador vectorial (VQ) utilizando las propiedades de la psicoacstica. Es decir,
la seal residual e[n] se codifica por medio de un codificador perceptivo. De
este modo la codificacin est formada por los mismos bits que el vocoder
LCP (la cuantificacin de los parmetros de sonoridad y altura tonal y los coeficientes del filtro LPC) ms el ndice del codeword correspondiente a la seal
residual.
En la figura 19 se muestra un diagrama funcional de un codificador basado
en CELP:
Codificacin CELP
Los codificadores hbridos combinan los codificadores paramtricos (tasa de bits baja) con los codificadores perceptivos para codificar la seal
residual e[n] (calidad elevada), para mejorar la calidad del vocoder LPC
manteniendo baja la tasa de bits.
41
CC-BY-NC-ND PID_00188067
(6)
(7)
CC-BY-NC-ND PID_00188067
42
A pesar de que el formato WAV permite almacenar audio codificado con compresin, normalmente los ficheros WAV contienen audio codificado con PCM
y cuantificacin uniforme.
El formato WAV, a pesar de utilizarse mucho en almacenamiento, no est extendido en el mundo de Internet. La razn es que, dado que al audio no se
Canales de audio
Un canal de audio es una seal de audio que se codifica,
transmite y almacena y reproduce de manera independiente el resto de las seales de audio que permite la especificacin del formato.
MPEG-3
Es importante no confundir el MPEG-3 con el MP3. El
MPEG-3 es un grupo de estndares para la codificacin de
audio y vdeo, que actualmente no se utiliza, mientras que el
MP3 es parte de los estndares
MPEG-1 y MPEG -2.
CC-BY-NC-ND PID_00188067
43
Lectura recomendada
Para saber ms sobre el formato MP3, os recomendamos
que leis:
KarlheinzBrandenburg
(1999). MP3 and AAC explained
CC-BY-NC-ND PID_00188067
44
bajas, dado que, entre otras mejoras, utiliza un banco de filtros ms eficiente
para la separacin en subbandas. Adems, el AAC permite codificar audio de
hasta cuarenta y ocho canales.
9.4. Windows media audio
Windows media audio (WMA) es un formato desarrollado por Microsoft como
alternativa al MP3.
El formato WMA utiliza el contenedor advanced systems format (ASF) para encapsular audio comprimido. El ASF especifica una cabecera seguida de un conjunto o ms de un conjunto de muestras de audio y, opcionalmente, un ndice. En la cabecera, igual que sucede con los otros formatos, se indica qu tipo
de datos y caractersticas asociadas al muestreo y la codificacin se hallan en
los campos siguientes. Tambin se pueden incluir metadatos de una manera
similar al ID3.
Existen cuatro codificadores diferentes dentro de la familia WMA:
WAM original
WAM Pro, que extiende algunas de las funcionalidades del WMA, como
por ejemplo el soporte multicanal