Apuntes Redes Multimedia 2009 1ra Parte
Apuntes Redes Multimedia 2009 1ra Parte
Apuntes Redes Multimedia 2009 1ra Parte
- Nyquist En 1924 Nyquist formul el teorema que lleva su nombre, que establece que cuando una informacin digital se transporta por un canal analgico el nmero de baudios no puede ser mayor que el doble de la anchura del canal en hertzios. Dicho teorema tambin se aplica al caso en que una seal analgica se codifica en forma digital; en este caso el teorema dice que las muestras digitales de la seal se han de obtener a una frecuencia que sea como mnimo el doble que la frecuencia mxima que se quiere captar, por lo que se suele denominar Teorema de muestreo de Nyquist. Dicha frecuencia se conoce como Frecuencia de Nyquist. Por ejemplo una conversacin telefnica utiliza normalmente un ancho de banda de 3,1 KHz. Para tener un margen de seguridad la separacin entre canales telefnicos contiguos es de 4 KHz. Por esta razn cuando se digitaliza una conversacin telefnica se utiliza una frecuencia de muestreo de 8 KHz, de forma que sea posible restituir la onda original cuando se vuelva la seal a su forma analgica. Otro ejemplo interesante es el caso del audio de alta fidelidad. Aqu la frecuencia mxima a captar es de 20 KHz, valor mximo percibido por el odo humano en condiciones ptimas. Por eso el estndar de audio digital utilizado en discos compactos (CD/DA) emplea una frecuencia de muestreo de 44,1 KHz, capaz de captar frecuencias de audio de hasta 22,05 KHz. Aunque nos hemos centrado en el caso del audio el Teorema de Nyquist tambin se aplica a una seal de vdeo analgica. La seal de vdeo de una cmara analgica es tambien una onda. La nica diferencia es que en este caso se trata de canales con anchuras del orden de los MHz y por tanto las frecuencias de muestreo han de ser mucho mayores que en el caso del audio. 2.- Conversin Analgico Digital Muestreo de la Seal La primera fase en el proceso de digitalizacin consiste en medir la amplitud de la onda en cada muestra. Por ejemplo en el caso de la telefona sa toma de muestras se realiza 8.000 veces por segundo como ya hemos comentado. Esto equivale a tomar una muestra cada 125 microsegundos (1/8.000 = 0,000125). Aunque las normas de telefona digital varan segn los pases y los continentes la frecuencia de muestreo es una de las pocas cosas que son universales y comunes a todas ellas. 3.- Conversin Analgico Digital PCM La amplitud de la onda es una magnitud continua que puede tener cualquier valor. Por el contrario su representacin digital en un nmero limitado de bits obliga a utilizar un conjunto finito de valores discretos. La necesidad de ajustar el valor real al valor discreto ms prximo introduce una distorsin que se conoce como error o ruido de cuantizacin. Por ejemplo en la digitalizacin de un canal telefnico cada muestra se representa la amplitud de la onda utilizando ocho bits, lo cual permite representar hasta 256 diferentes valores de la amplitud; el valor en la onda analgica original, que es continuo, se ha de transformar en uno
de esos 256 valores discretos posibles (lgicamente aquel que se encuentre ms prximo a la magnitud real). Si en vez de un byte se utilizaran dos bytes por muestra (como ocurre por ejemplo con el audio digital en CD) la gama de valores de amplitud sera de 65536, lo cual permite representar con mucha mayor precisin el valor de la onda analgica original. Por tanto el error de cuantizacin disminuye al aumentar el nmero de bits empleados al digitalizar cada muestra. Este menor error de cuantizacin se percibe como una mejor (o ms elevada) relacin seal/ruido. En algunos sistemas de telefona los valores discretos utilizados en la codificacin digital no se corresponden linealmente con la magnitud digitalizada (la amplitud) sino con su logaritmo. De esta forma se consigue una mayor precisin en los valores pequeos. Este es el caso que se ha representado en la figura adjunta.
4.- Espectro Acstico de la Voz y la Msica La eleccin de un canal de 300 a 3.400 Hz para la telefona se debe a que se dise pensando en transmitir la voz humana, que tiene un espectro de frecuencias con la mayor parte de la energa concentrada en esta banda de frecuencias. Por ese motivo la voz de una persona tiene un sonido diferente cuando se escucha por telfono, ya que todas las frecuencias situadas fuera de este rango se pierden en la transmisin telefnica. A pesar de eso no tenemos ningn problema para entender una conversacin telefnica ya que la mayor parte de la informacin se encuentra presente.
Cuando se quiere transmitir msica por telfono la situacin es diferente, ya que la msica maneja una banda de frecuencias mucho ms amplia y la cantidad de informacin perdida en la transmisin telefnica resulta en este caso notable. Adems de una banda de frecuencias reducida el canal telefnico tiene una relacin seal/ruido pequea, es decir maneja una gama dinmica reducida. Esto se debe a que la voz maneja una gama dinmica ms reducida que la msica y aqu de nuevo el diseo se ha hecho pensando en la voz nicamente. En la telefona digital la gama dinmica reducida se debe a que se utilizan nicamente ocho bits para representar cada muestra obtenida de la seal original. 5.- Telefona digital G.711 La digitalizacin de audio para telefona se viene haciendo desde los aos 60 por varias razones, fundamentalmente: Mayor calidad de sonido, especialmente en largas distancias cuando es necesario regenerar la seal Mayores facilidades para multiplexar varias conversaciones En 1972 la ITU-T estableci el estndar G.711 para la telefona digital, tambin llamado PCM (Pulse Code Modulation) El muestreo se hace con una frecuencia de 8 KHz, es decir una muestra cada 125 s. La amplitud se representa en una escala logartmica utilizando 8 bits por muestra El caudal utilizado es de 64.000 bits por segundo, que es la base del canal B de RDSI Existen dos variantes: G.711 - law: usada en Norteamrica y Japn G.711 A-law: usada en el resto del mundo 6.- Comunicacin entre telfonos analgicos Hoy en da casi toda la infraestructura de comunicacin entre centrales telefnicas es digital. Por tanto cuando dos abonados establecen una comunicacin telefnica a travs de la red su conversacin esta siendo digitalizada mediante un codec en la central telefnica de la que dependen, de forma que la comunicacin discurre de forma digital en todo el trayecto excepto el bucle de abonado de cada uno de ellos. Asi pues entre centrales telefnicas una conversacin ocupa un canal de 64 Kb/s. En el caso de telfonos RDSI lo que se hace sencillamente es extender la comunicacin digital al propio bucle de abonado. En este caso la conversacin ocupa un canal de 64 Kb/s (un canal B) en todo el trayecto. En este caso el cdec se encuentra en el propio telfono RDSI. La telefona digital para la interconexin de centrales se empez a introducir hace ya mucho tiempo, en la dcada de 1960, fundamentalmente por los siguientes motivos: Simplifica la multiplexacin de conversaciones en un mismo cable (los equipos son ms baratos). La seal digital se puede regenerar mediante repetidores, que no degradan la seal. En el caso de transmisin analgica se tenan que utilizar amplificadores que introducan una distorsin por lo que haba que limitar el nmero mximo de amplificadores por los que poda pasar la seal. 3
Permite mayores capacidades, ya que es posible multiplexar ms conversaciones sobre un mismo cable. Con sistemas de transmisin avanzados (ATM por ejemplo) se pueden aplicar tcnicas de compresin con lo que se consigue aumentar an ms la capacidad. 7.- Audio Digital no comprimido La frecuencia de muestreo y el nmero de bits por muestra son las dos magnitudes que definen la calidad de una seal digital. De la frecuencia de muestreo depende la anchura de banda captada y del nmero de bits la relacin seal/ruido. Conocidas la frecuencia de muestreo y el tamao de cada muestra resulta trivial calcular el caudal que requiere una seal digital. Sigamos con los dos ejemplos anteriores. El sonido telefnico digital utiliza como ya hemos dicho ocho bits por muestra, lo cual nos da un caudal de 8 KHz x 8 bits/muestra = 64 Kb/s. Este es precisamente el caudal que corresponde a un canal B (Bearer) de RDSI. Esta forma de digitalizar el sonido telefnico, que es la ms habitual, est estandarizada por la ITU-T en la norma conocida como G.711. En el audio digital de disco compacto cada muestra tiene 16 bits (a fin de conseguir una relacin seal/ruido mejor que en telefona). Dado que el sonido es normalmente estreo el caudal resultante es de 44,1 KHz x 16 bits/muestra x 2 canales = 1,411 Mb/s. Este caudal (equivalente a 176 Kbytes/s) corresponde al de un lector de CD-ROM de simple velocidad y es el caudal de un lector de CD de audio. Los sistemas DVD-Audio emplean el mismo principio bsico que el CD o la telefona digital, pero la mayor capacidad de almacenamiento del DVD permite llegar a frecuencias de muestreo de hasta 192 KHz recogiendo hasta 24 bits por muestra. Utilizando estos parmetros con dos canales el caudal resultante es de 9,2 Mb/s, que se encuentra prximo al lmite del DVD-Audio (9,6 Mb/s). 8.- Clasificacin de algoritmos de compresin La compresin permite reducir el caudal de bits necesario para transmitir una determinada informacin. Segn su fidelidad podemos distinguir dos tipos de compresin: Compresin sin prdidas: en este caso es posible restituir bit a bit el flujo original (no comprimido) descomprimiendo el flujo comprimido. Esta es la compresin utilizada siempre que se envan datos. Compresin con prdidas: se tolera que el flujo resultante de la descompresin sea ligeramente diferente del flujo original, si con ello se consigue un mayor factor de compresin. Este tipo de compresin tiene sentido cuando lo que se transmite es informacin analgica digitalizada, ya que la informacin no es perfecta, el proceso de digitalizacin previo ha introducido un error debido al muestreo y la cuantizacin. La utilizacin de algoritmos de compresin con prdidas permite realizar una compresin considerablemente mayor a cambio de que el flujo descomprimido no sea idntico. Adems algunos algoritmos de compresin con prdidas aprovechan caractersticas psicolgicas del odo y del ojo humano para eliminar informacin cuya ausencia no ser detectada. Cuando el factor limitante en la calidad es el caudal
generado (que es lo habitual) la mayor compresin de los algoritmos con prdidas permite realizar la digitalizacin con mayor precisin (ms muestras por segundo o ms bits por muestra) con lo que a la postre se obtiene una mayor calidad para un mismo caudal de bits transmitidos. Tambin podemos hablar de algoritmos simtricos o asimtricos segn el tiempo de CPU requerido para la compresin sea parecido o mucho mayor que el de la descompresin. Generalmente la compresin requiere ms CPU, incluso en los algoritmos simtricos. Como era previsible los algoritmos que consiguen mayor compresin suelen ser los que consumen mayor cantidad de CPU. 9.- Tipos de Algoritmos de Compresin de audio Podemos clasificar las diferentes tcnicas de compresin de audio en dos grandes grupos en funcin de que estn diseadas para comprimir todo tipo de sonidos o especficamente para la voz. A su vez en las tcnicas de compresin de tipo general podemos hacer dos subgrupos. El primero esta formado por las tcnicas psicoacsticas, que aprovechan las caractersticas del odo humano para mejorar el nivel de compresin. En este grupo podramos situar las tcnicas de compresin aplicadas en la parte de audio de MPEG. El otro subgrupo est formado por las tcnicas adaptativas diferenciales, como las utilizadas en las diferentes normas ADPCM utilizadas en telefona (ver tabla en diapositiva siguiente). Existen varios algoritmos de compresin especficamente diseados para la voz; en este caso se consiguen una eficiencia muy elevada pero la calidad se degrada considerablemente cuando se intenta reproducir otro tipo de sonidos, como por ejemplo msica. 10.- Un ejemplo de compresin con prdidas lo tenemos en el algoritmo ADPCM utilizado en telefona. Este algoritmo se basa en el hecho de que los valores de amplitud de muestras consecutivas suelen ser muy similares entre s. Entonces en vez de representar en cada muestra la amplitud como una magnitud absoluta se la representa como la diferencia de amplitud respecto de la muestra anterior. Solo en la primera muestra se representa la amplitud como valor absoluto. Al codificar las diferencias de amplitud, que son generalmente valores pequeos, se pueden utilizar menos bits. Por ejemplo si se utilizan cuatro bits por nuestra los valores de amplitud que pueden representarse oscilan entre -7 y +7. En el caso de que la amplitud de la onda sufra una variacin mayor que 7 unidades el codec necesitar varios intervalos para poder llegar a la magnitud real, con lo que el uso de ADPCM impone cierta inercia en la digitalizacin de la seal y puede provocar cierta distorsin. Al ser las amplitudes relativas a la primera muestra la prdida de esta podra afectar seriamente la seal. Por este motivo se introduce una muestra de referencia cada cierto nmero de muestras. Se puede utilizar ADPCM con 2, 3, 4 5 bits, dando como caudal resultante 16, 24, 32 40 Kb/s. ADPCM es especialmente adecuado para telefona puesto que genera un caudal constante y no introduce retardo puesto que la codificacin de cada muestra se realiza de forma independiente .
11.- La calidad de diferentes algoritmos de compresin se mide realizando pruebas subjetivas ciegas en las que el sujeto escucha una determinada frase de prueba que es emitida por una fuente y transmitida a travs de un canal telefnico al cual se le ha aadido un cdec que implementa el algoritmo de compresin que se quiere evaluar. El sujeto debe emitir una valoracin puntuando la calidad en una escala de 1 a 5. La prueba se realiza con varios sujetos y se obtiene para cada cdec un valor medio que se denomina MOS (Mean Opinion Score). El estndar G.711 de la ITU-T establece el formato de codificacin de una comunicacin telefnica cuando no se utiliza ningn tipo de compresin (es decir ocupando 64 Kb/s). En este caso el MOS obtenido es de 4,2. Este valor corresponde a lo que podemos considerar calidad ptima, ya que los algoritmos de compresin actan sobre un flujo de bits de entrada G.711 y conseguirn un MOS de 4,2 cuando la compresin no introduzca ninguna degradacin perceptible de la calidad. 12.-Relacin entre calidad y factor de compresin. Normalmente para conseguir un mayor factor de compresin sin reducir la calidad es preciso utilizar algoritmos mas sofisticados, que requieren por tanto mayor consumo de CPU. Dado que la compresin en telefona ha de hacerse en tiempo real esto impone una limitacin al nivel de complejidad que puede tener el algoritmo utilizado. Cuando se quieren utilizar algoritmos complejos se utilizan chips que incorporan en hardware dichos algoritmos, como el chip DSP (Digital Signal Processor) que aparece en la fotografa. Esto se emplea sobre todo en equipos que han de realizar la compresin para varios canales de forma simultnea. Segn las pruebas subjetivas de calidad los cdecs ms habituales obtienen las siguientes puntuaciones MOS: G.711 (64 Kb/s): 4,1 G.729 (8 Kb/s): 3,92 G.726 (32 Kb/s): 3,85 G.729a (8Kb/s): 3,7 G.723.1 (5,3 Kb/s): 3,65 G.728 (16 Kb/s): 3,61 En cuanto a complejidad de clculo los algoritmos mas complejos son precisamente los ms eficientes, es decir los que consiguen una mayor calidad con un menor caudal. Estos son G.729, G.723.1 y G.728. 13.-Los cdecs ms eficientes, como el que utiliza el algoritmo CELP, se basan en la utilizacin de un diccionario de fonemas habituales en la mayora de los idiomas, de forma que la informacin transmitida solo contiene la informacin sobre los fonemas utilizados. El receptor utiliza el mismo diccionario que el emisor para reproducir el sonido original. Este tipo de algoritmos requiere una elevada complejidad de clculo. Cuando solo se trata de procesar un flujo de audio es posible con los procesadores actuales realizar la compresin en tiempo real por software, pero esto no es posible si se quiere procesar varios flujos simultneamente, como es habitual en telefona. En estos casos se emplean chips especiales conocidos como DSP (Digital Signal Processor) que llevan ya programados en el hardware los algoritmos de compresin.
14.- Algunos Formatos de Audio Digital Generalmente cualquier tcnica de compresin de audio introduce una cierta merma de calidad respecto al audio no comprimido, aunque en algunos casos dicha merma es difcilmente perceptible. En general a mayor compresin menor calidad. Los diferentes algoritmos de compresin difieren tambin en su complejidad de clculo; en general para un mismo caudal las tcnicas ms complejas obtienen una mayor calidad a costa de emplear ms CPU. La mayora de las tcnicas de compresin de audio han sido estandarizadas por la ITU-T en las normas de telefona G.7xx. La comunicacin telefnica es muy sensible a los retardos y al jitter. Los algoritmos de compresin diseados para telefona deben introducir un retardo muy pequeo ya que de lo contrario se pierde interactividad y aparecen problemas de ecos y baja calidad del sonido. Esta restriccin limita las posibilidades de los algoritmos empleados en los estndares de telefona. Existen otros algoritmos de compresin de audio que al no contar con esta restriccin permiten unas tasas de compresin ms elevadas ya que pueden analizar muestras de audio ms extensas y emplear un mayor tiempo en su anlisis, introduciendo por tanto mayor retardo y jitter. Estos son los algoritmos de audio que forman parte de los estndares MPEG, estandarizados por ISO. Con caudales comparables a los de la telefona los algoritmos MPEG ofrecen calidades comparables al compact disc. En algunos casos la compresin puede no hacerse en tiempo real y puede ser muy asimtrica. La descompresin siempre ha de hacerse evidentemente en tiempo real. 15.- Audio Digital Comprimido. El audio de MPEG-1 es un buen ejemplo de compresin con prdidas aprovechando factores psicoacsticos. Tambin se aprovecha en ocasiones la redundancia de informacin entre ambos canales cuando se codifica un programa estreo (es lo que se denomina joint stereo). El audio MPEG-1 ofrece tres algoritmos de complejidad y eficiencia crecientes. Cada algoritmo se incorpora en una capa diferente. Las capas superiores (de mayor complejidad) son un superset de las anteriores; por ejemplo un decodificador de MPEG-1 capa III es capaz de decodificar programas de capas I y II, pero no a la inversa. El algoritmo ms eficiente es el que incorpora la capa III, que permite reproducir una calidad comparable a la de un CD de audio con tan slo 64 Kb/s por canal. El MPEG-1 capa III corresponde al formato conocido popularmente como MP3, y es el que se utiliza en las emisiones de radio digital (DAB, Digital Audio Broadcast). 16.- AAC En audio MPEG-2 permite utilizar todos los formatos existentes en MPEG-1, y aade la posibilidad de tener ms de dos canales para efectos especiales (surround, etc.) o para permitir bandas sonoras en diversos idiomas. Adems MPEG-2 incorpora nuevos algoritmos de compresin de audio, aun en estudio, que permiten conseguir calidades comparables a MPEG-1 capa III con la mitad de caudal.