Unidad Ii-Formateada

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 32

UNIDAD N° 2

TEORIA DE LA INFORMACION

Cuantificación de la Información.
Los Aportes de Claude Shannon.
Teoría de la información – Concepto-Elementos
Información y Certidumbre.
Información Mutua.
Binit y Bit.
Entropía.
Fuentes Continuas.
Máxima capacidad de transferencia de un canal.
Ley de Shannon-Hartley.
CUANTIFICACIÓN DE LA INFORMACIÓN

La información transmitida en un proceso electrónico de comunicación fue


cuantificada por Claude Shannon, donde establece que se logra mediante la
identificación de la viabilidad de métodos de compresión y comunicación de datos
sin causar la degradación en la integridad de los datos.

LA INFORMACIÓN. Es el elemento que hay que tratar y procesar cuando en una


computadora ejecutamos un programa, y se define como todo aquello que permite
adquirir cualquier tipo de conocimiento; por tanto, existirá información cuando se
da a conocer algo que se desconoce.

LOS DATOS Que maneja un programa son en principio informaciones no


elaboradas y una vez procesados (ordenados, sumados, comparados, etc.)
constituyen lo que se denomina información o simplemente resultados. Para que
una información sea tratada necesita transmitirse o trasladarse de un lugar a él, y
para esta TRANSMISIÓN DE INFORMACIÓN son necesarios tres elementos que
a continuación se detallan:

El emisor que da origen a la información.


El medio que permite la transmisión.
El receptor que recibe la información.

"Al Conjunto de operaciones que se realizan sobre una información se


le denomina TRATAMIENTO DE LA INFORMACION"

Los Aportes de Claude Shannon

Sobre todo en su invención de la palabra y concepto, "bit", que a partir de


entonces fue una unidad de medida muy importante, como el metro, el kilogramo y
muchas otras que el hombre ha inventado y utiliza. Con esa unidad de medida y
con la posibilidad de medir, la información, los conocimientos y muchas otras
cosas formadas por información, se dispararon las posibilidades de los hombres
de poner en marcha nuevas actividades. La tecnología digital surgió de sus
aportaciones, tanto el ordenador como los circuitos digitales, así como las
modernas redes de Telecomunicación. Un genio como él llegó a predecir la
Economía de la Información o "Economía de Internet" que se desarrolla con fuerza
en la actualidad en nuestro mundo.
Los trabajos de Shannon en esa última materia (criptografía) realizados durante la
segunda guerra mundial le sirvieron para desarrollar su famosa “Teoría de la
Información” .Tuvo en ese terreno una actividad paralela a la de Alan Turing, el
gran criptoanalista inglés que descifró Enigma, el código secreto utilizado por el
ejército alemán. Shannon trabajó en el Sistema X utilizado para codificar las
conversaciones de Roosevelt y Churchill y coincidió con Turing en los Bell Labs.
Parece que hablaron poco de sus respectivos trabajos que eran supersecretos
pero intercambiaron muchas ideas sobre los ordenadores, máquinas que
empezaban a ser realidad entonces y sobre la posibilidad de construir máquinas
pensantes.
Los esfuerzos realizados en la codificación y decodificación de sistemas de
comunicación encriptados le valieron para acumular multitud de conocimientos
relacionados con los idiomas, su redundancia, su aleatoriedad y la elaboración de
señales como cadenas de símbolos discretos.
Se ocupó de forma preeminente de medir la cantidad de información transmitida
por un determinado canal y para ello acuñó el término “bit” deducido de la
expresión “binary digit".
Analizó los circuitos de telecomunicación como canales en los que existía una
fuente de información, un mensaje, un transmisor, una señal emitida y el
procedimiento inverso: señal recibida, receptor, mensaje y destino. En medio del
canal y afectando a todo él está la fuente de ruidos, los cuales pueden ser de muy
diverso tipo: adiciones no deseadas, simples errores, alteraciones aleatorias, las
corrientes estáticas del circuito, las cuestiones atmosféricas, las interferencias, las
distorsiones y otros desajustes. Cuestiones todas mucho más graves en los
circuitos de la época en los que había señales discretas y señales analógicas.
Shannon esquivaba todos estos problemas tratando la señal como una cadena de
símbolos discretos, es decir, pensó en los circuitos digitales mucho antes de las
telecomunicaciones pasarán de la analógico a lo digital. Imaginó también que el
tratamiento de los mensajes como variables discretas podía no sólo aplicarse en
las telecomunicaciones sino también en el nuevo terreno de los ordenadores.
A pesar de la insistencia de Shannon en que “el significado de un mensaje es
normalmente irrelevante” el impacto de sus teorías fue enorme en multitud de
disciplinas en las que el significado y el mensaje eran muy importantes. La
información suponía, o estaba relacionada, con la incertidumbre, la sorpresa, la
dificultad y la entropía.

Muchas disciplinas se sintieron involucradas con la forma matemática de definir y


medir la información y asuntos como el principio de incertidumbre de Heisenberg,
los teoremas de Gödel y el concepto de entropía, se vieron relacionados con las
ideas de Shannon, Wiener y otros científicos de la época.
Claude Shannon, para concluir, hizo multitud de aportaciones más y fue el padre
de la Teoría de la Información.

TEORIA DE LA INFORMACION
CONCEPTO-ELEMENTOS

¿Que es la Teoría de la información?

Conceptualmente: La teoría de la información fue desarrollada inicialmente, en


1948, por el ingeniero electrónico estadounidense Claude E. Shannon. La
necesidad de una base teórica para la tecnología de la comunicación surgió del
aumento de la complejidad y de la masificación de las vías de comunicación, tales
como el teléfono, las redes de teletipo y los sistemas de comunicación por radio.
La Teoría de la información es una teoría relacionada con las leyes matemáticas
que rige la transmisión y el procesamiento de la información. Más concretamente,
es la que se ocupa de la medición de la información y de la representación de la
misma (como, por ejemplo, su codificación) y de la capacidad de los sistemas de
comunicación para transmitir y procesar información.
La codificación puede referirse tanto a la transformación de voz o imagen en
señales eléctricas o electromagnéticas, como al cifrado de mensajes para
asegurar su privacidad.
La teoría de la información también abarca todas las restantes formas de
transmisión y almacenamiento de información, incluyendo la televisión y los
impulsos eléctricos que se transmiten en las computadoras y en la grabación
óptica de datos e imágenes.
El término información se refiere a los mensajes transmitidos: voz o música
transmitida por teléfono o radio, imágenes transmitidas por sistemas de televisión,
información digital en sistemas y redes de computadoras, e incluso a los impulsos
nerviosos en organismos vivientes.
De forma más general, la teoría de la información ha sido aplicada en campos tan
diversos como la cibernética, la criptografía, la lingüística, la psicología y la
estadística.
El sistema de comunicación presentado por Shannon se representa por un
esquema compuesto por cinco elementos: una fuente, un transmisor, un canal, un
receptor, un destino. Dentro de este modelo incluimos el ruido, que aporta una
cierta perturbación.
El primero es una fuente de información (por ejemplo, una persona hablando)
que produce un mensaje o información que será transmitida. El segundo es un
transmisor (como, por ejemplo, un teléfono y un amplificador, o un micrófono y un
transmisor de radio) que convierte el mensaje en señales electrónicas o
electromagnéticas. Estas señales son transmitidas a través de un canal o medio,
que es el tercer componente, como puede ser un cable o la atmósfera. Este canal
es especialmente susceptible a interferencias procedentes de otras fuentes, que
distorsionan y degradan la señal. (Algunos ejemplos de interferencias, conocidas
como ruido, incluyen la estática en la recepción de radios y teléfonos, y la nieve en
la recepción de imágenes televisivas). El cuarto componente es el receptor, como
por ejemplo el de radio, que transforma de nuevo la señal recibida en el mensaje
original. El último componente es el destinatario, como por ejemplo una persona
escuchando el mensaje.

Dos de las principales preocupaciones en la teoría de la información son la


reducción de errores por interferencias en los sistemas de comunicación, y
el uso más eficiente de la capacidad total del canal.

Gráficamente quedaría así:

Esta teoría permite sobre todo estudiar la cantidad de información de un mensaje


en función de la capacidad del medio. Esta capacidad se mide según el sistema
binario (dos posibilidades, O ó 1) en bit (bínary digits) asociados a la velocidad de
transmisión del mensaje, pudiendo ésta velocidad ser disminuida por el ruido.
Un concepto fundamental en la teoría de la información es que la cantidad de
información contenida en un mensaje es un valor matemático bien definido y
medible. El término cantidad no se refiere a la cuantía de datos, sino a la
probabilidad de que un mensaje, dentro de un conjunto de mensajes posibles, sea
recibido.

¿Cuál es el rol de las probabilidades en las comunicaciones?

Las probabilidades nos dan una manera de determinar


cuantitativamente las características que queremos estudiar en los
sistemas (por ejemplo la distribución de la información de un origen,
la confiabilidad de un canal, la relación entre el origen y el destino de
la información entre otras).
Las probabilidades están basadas en las frecuencias observables de
la ocurrencia de eventos.

Se puede decir que: La probabilidad de ocurrencia de un determinado suceso


podría definirse como la proporción de veces que ocurriría dicho suceso si se
repitiese un experimento o una observación en un número grande de ocasiones
bajo condiciones similares. Por definición, entonces, la probabilidad se mide por
un número entre cero y uno: si un suceso no ocurre nunca, su probabilidad
asociada es cero, mientras que si ocurriese siempre su probabilidad sería igual a
uno. Así, las probabilidades suelen venir expresadas como decimales, fracciones
o porcentajes.
Por ejemplo una población con N elementos, de los cuales k presentan una
característica A, se estimará la probabilidad de la característica A como:

P(A) = k/N.
Aplicando la fórmula para el caso mencionado decimos:
N= población de 100 pacientes
K= 5 de los cuales son diabéticos
¿Cuál sería la probabilidad de padecer diabetes?

p(Diabetes) se estimará como el cociente 5/100= 0.5

INFORMACION Y CERTIDUMBRE

Sabemos que la información contribuye a disminuir la incertidumbre que se tiene


acerca de cuál es el mejor camino para determinar un accionar.
Su elaboración permite tener una certeza acerca de la existencia u ocurrencia de
algún aspecto de la realidad antes desconocido, por lo que disminuye el grado de
incertidumbre que se tenía para tomar una decisión.
Si se genera información acerca de lo esperado, lo conocido, aquello respecto de
lo cual tenemos certeza total (probabilidad 100 % de ocurrencia o existencia), no
significará información
En contraposición, si se genera información en relación a algo significativo, que
por su baja probabilidad de ocurrencia estábamos bastante seguros que no iba a
tener lugar, puede tener para nosotros un gran valor informativo. Por ejemplo si
nos enteramos a tiempo que la casa matriz de un banco extranjero muy
acreditado quiebra, la elaboración inmediata de conclusiones al respecto, permitirá
tomar decisiones importantes.

La Teoría de la Información trata con tres conceptos básicos:

La medida de la información.
La capacidad de un canal o sistema de transmisión para transferir
información.
La codificación como un medio de utilizar los sistemas a máxima capacidad.
Estos conceptos pueden ser enlazados por el teorema fundamental de la teoría de
la información que dice:

"Dada una fuente de información y un canal de comunicación, existe una


técnica de codificación, tal que la información puede ser transmitida sobre el
canal con una tasa menor que la capacidad del canal y con una frecuencia
de errores arbitrariamente pequeña a pesar de la presencia de ruido".
Lo sorprendente de esto es la posibilidad de transmisión casi libre de
errores sobre un medio ruidoso, logrado por medio de la codificación. En
esencia la codificación es usada para adaptar la fuente al canal, para máxima
transferencia de información.

Como consecuencia de todo lo anterior nos planteamos las siguientes preguntas:

¿Cómo se mide la información?


¿A qué nos referimos cuando decimos cantidad de información? -¿como se
mide la capacidad de un sistema o canal?
¿Cuáles son las características de eficiencia de un proceso de codificación?
¿Cómo se puede minimizar los efectos indeseables de factores exógenos?
.

La Teoría de la Información, verifica la diferencia entre los conceptos de


“información” y “cantidad de información”. Vamos a ver cómo influye la
incertidumbre en la toma de decisiones en la medida que se recibe información.
Para ello vamos a suponer que tenemos un sistema compuesto por un emisor, con
una pila eléctrica que puede ser aplicada en el extremo de dos cables. En el otro
extremo tenemos un receptor que puede medir la tensión eléctrica, verificando si
está colocada o no a la pila. A fin de que ambos extremos funcionen
sincrónicamente, se tiene un reloj que sirve para tomar los tiempos en que deberá
realizarse la medición.
De esta manera, hemos implementado un sistema binario de transmisión de
mensajes. Así, si hemos acordado que cuando se mide una tensión eléctrica
equivale a un "1"y cuando nos encontramos con ausencia de tensión eléctrica,
tenemos un "0", podemos transmitir mensajes codificados de esta manera.
A fin de simplificar, vamos a suponer que tenemos que transmitir ocho letras (de la
A hasta la H). Por tratarse de un sistema binario, se necesitan tres elementos
binarios para codificar las ocho letras. Esto viene del hecho de que al ser binario, o
sea cada elemento puede variar en dos estados posibles (0 y 1), con una sola
variable se pueden codificar dos estados, con dos variables se pueden codificar
cuatro estados, con tres variables se pueden codificar ocho estados, y así
sucesivamente.

Generalizando, con "n" variables se puede codificar "2n" estados.

Para ello vamos a codificar las ocho letras como sigue:

Letras Código
binario
A 000
B 001
C 010
D 011
E 100
F 101
G 110
H 111

Para enviar una letra deberá enviarse tres variables binarias, así, por ejemplo, si
se quiere emitir la letra " A", deberá transmitirse el código "000", si se quiere enviar
la letra "B", se hará a través del código "001", y así sucesivamente, hasta la "H"
que corresponde al código "111".
Si además, convenimos que se comenzará la transmisión desde el dígito más
significativo (el más a la izquierda), el receptor, a medida que van llegando, irá
disminuyendo la interesa, por cuanto aumenta la probabilidad de arribo de una
determinada letra. Para ello veamos el siguiente ejemplo:
Antes de comenzar la transmisión, el receptor tiene una incertidumbre total de cuál
será el mensaje a recibir. Como la fuente tiene "8" elementos (letras A a la H), y
como todas tienen la misma probabilidad de emitirse (sistema equiprobable), la
incertidumbre tiene una probabilidad de:

P = 1/8 = 0,125 =12,5 %

Supongamos, que la primera medición indica ausencia de tensión eléctrica, o sea


que ha llegado un "0". Ahora sabemos que la letra estará entre las cuatro
primeras, ya que ellas son las que comienzan con "0".

A = 000
B = 001
C = 010
D = 011

Ahora la probabilidad de que llegue una letra es de:

P = 1/4 = 0,25 = 25 %
Si en el segundo periodo, medimos y nos encontramos que existe una tensión
eléctrica, estamos ante la presencia de un "1", con lo cual se reduce la
incertidumbre por cuanto solo hay dos posibilidades:

C = 010
D = 011

La probabilidad aumenta a:

P = 1/2 = 0,5 = 50 %

Al recibir el tercer símbolo, se alcanza la certidumbre total, ya que si suponemos


que después de la tercer medición obtenemos que existe ausencia de tensión
eléctrica, o sea que llegó otro "0", estaremos ante la única alternativa posible:

C = 010
En este caso la probabilidad será:

P = 1/1 = 1 = 100 %

Como podemos apreciar, en el ejemplo anterior, la llegada de un símbolo duplica


la probabilidad, disminuyendo en la misma proporción la incertidumbre de la
llegada de un símbolo.
En otras palabras, podemos decir que la incertidumbre era:

Antes de comenzar a transmitir era = 1 = 100 %.

Después de la llegada del primer símbolo (0) = 0,75 = 75 %.


Después de la llegada del segundo símbolo (1) = 0,75 = 50 %.
Después de la llegada del tercer símbolo (1) = 0 = 0 %.

O sea, con cada llegada de símbolo la incertidumbre se reduce, hasta llegar a la


incertidumbre nula, cuando la probabilidad es del 100%.

Si en vez de tener que transmitir 8 letras se necesita transmitir 16 letras, hacen


falta 4 variables binarias, ya que:

2n = 24 = 16

Para poder codificar todo el alfabeto (27 letras) se necesitarían 5 variables


binarías, ya que:
2n = 25 = 32

En este caso nos sobrarían combinaciones.

Para codificar más símbolos, como ser las letras más los números (0 al 9), y
algunos otros códigos de control se utilizan "n = 7" ó "n = 8" elementos,
dependiendo del tipo de código.
Como podemos apreciar, que ahora los mensajes contienen mayor "cantidad de
información", ya que para letra debemos transmitir 7 u 8 elementos.

Generalizando, si tenemos una fuente con "N = 2n" mensajes posibles a trasmitir,
se requerirá combinar un número mínimo "n" de elementos binarios para codificar
cada uno de los "N". Conocido "N", por definición de logaritmo será:
n = log2 N

De acuerdo a la teoría de la información, puede definirse la cantidad de


información de un mensaje "I", como: "el número mínimo "n" de elementos
codificados en binarios necesarios para identificar el mensaje entre un total
de "N" mensajes posibles".

O sea:

I = n = log2 N

Resulta práctico relacionar la cantidad de información de un mensaje con el grado


de probabilidad de ocurrencia del mensaje.

De acuerdo a lo que ya vimos en el ejemplo anterior, la probabilidad de ocurrencia


es:

P = 1/N

Resulta que:

N = 1/P

O sea que:

I = log2 1/P = log2 P-1 = - log2 p

Expresión que relaciona la cantidad de información con la probabilidad de que


ocurra un evento. Para poder medir la "cantidad de información", es necesario
medir la UNIDAD de medida. Como todas las unidades se debe utilizar una
convención para determinarla.
Para ello, se define como "unidad de cantidad de información la obtenida al
especificar una de las dos alternativas igualmente probables, llamándose [bit] a
esa unidad.
Estas alternativas se presentan, por ejemplo, al observar una moneda lanzada al
aire, o la salida de una comunicación digital. Ya hemos visto que la información
está relacionada con la incertidumbre. Entonces podríamos decir que información
es lo que reduce la incertidumbre, por consiguiente, puede afIrmarse
intuitivamente que:

La cantidad de información es una función f(P) decreciente al aumentar la


probabilidad P de un proceso. La información relativa a un suceso cierto es nula
f(1) = 0; y f(0) = 00
En el caso de dos posibilidades igualmente probables (caso de la moneda), la
probabilidad es:
P = NE
Donde: N = cantidad de variables y E = cantidad de elementos. Entonces por
definición, cantidad de información es:

(1) I = log2 NE [bit]

El caso de la moneda lanzada al aire es: N = 2 (las dos alternativas, cara y cruz) y
E = 1 (la moneda).

Aplicando la formula: (1):

I = log2 NE = log2 21 = l[bit]


Ahora que ya conocemos la unidad de información, vamos a ver dos ejemplos
prácticos, que nos darán una idea de "cantidad de información".

Ejemplo 1: Imagen de TV:

A los fines del ejemplo y para facilitar su entendimiento, vamos a realizar algunas
simplificaciones. Para ello vamos a considerar una pantalla compuesta por 500
líneas y 600 columnas, tal como se aprecia en la figura.

Esto nos da un total de 500 X 600 = 300.000 puntos.

Supongamos que cada punto puede tomar 10 valores distintos entre el negro y el
blanco pasando por 8 grises intermedios.
De esta forma, vamos a tener NE = 10300.000 imágenes distintas, que son las
combinaciones de los 300.000 puntos variando entre los 10 valores. Si todas son
igualmente probables, la cantidad de información será, aplicando la formula ( 1):

I = log2 NE = log2 10300.000 = 300.000 * log2 10 =


= 300.000 * 3,32 = 106 [bit]

De las definiciones anteriores resulta evidente la diferencia entre


información y cantidad de información.

Información se refiere al significado de un conjunto de símbolos, mientras


que cantidad de información mide el número de símbolos necesarios para
codificar un mensaje, cuya probabilidad de ocurrencia es "P".
INFORMACION MUTUA
Consideremos una fuente que produce varios mensajes. Sea A uno de los
mensajes, y PA su probabilidad que sea elegido para su transmisión Mutua
asociada con A como:

IA = f(PA)
Donde la función "PA" debe ser determinada. Para encontrar f(PA), es intuitivo
suponer los siguientes requerimientos:

f(PA) >= 0 donde 0 <= PA <= 1


limPA _l f(PA) = 0
f(PA) > f(PB) para PA < PB

Existen muchas funciones que satisfacen las tres anteriores, pero la decisión final
se obtiene al considerar la transmisión de mensajes independientes.
Cuando el mensaje "A" es entregado al usuario, este recibe "IA" unidades de
información.
Cuando es entregado un segundo mensaje, la información total recibida debería
ser la suma de las informaciones mutuas: IA + IB.

Esto es fácil de ver si consideramos que "A" y "B" vienen de diferentes fuentes.
Pero supongamos que "A" y "B" provienen de la misma fuente: podemos hablar
entonces del mensaje compuesto: C = AB.

Si " A" y "B" son estadísticamente independientes tenemos:

PC = PA * PB ------ IC = f(PA * PB)


Pero la información recibida es:
IC = IA + IB = f(PA) + f(PB)
Y así:

f(PA * PB) = f(PA) + f(PB)

Que es el requerimiento para f(PC).

Hay una sola ecuación que satisface las condiciones anteriores, y es la función
logarítmica "f(x) = logb (x)". Donde "b" es la base del logaritmo.

Así la información mutua en definida como:

IA = logb 1/PA

Como 0 < PA < 1, el logaritmo es positivo, como se desea.


Si especificamos la base "b" del logaritmo, podemos determinar la unidad de
información.

Lo más usual es tomar "b = 2" denominándose la unidad así determinada como
[bit], como ya habíamos determinado anteriormente. Si PA = PB = 1/2, entonces:

IA = IB = log2 2 = 1 [bit]

Si hubiéramos tomado como base b = e = 2,71828, la base de los logaritmos


naturales tendríamos:

IA = IB = Ln 1/PA = 1 [NAT]

Si hubiéramos tomado como base b = 10 base de los logaritmos decimales


tendríamos:
IA = IB = log10 10 = 1/PA = 1 [HARTLEY]

Es evidente que:

1 HARTLEY = 3,32 bits.

BINIT Y BIT

Es interesante observar que la palabra dígito binario (binary digit), cuya


contracción es [bit], indica que dos estados pueden ser representados por los
dígitos binarios: "0" y" 1". Pero un dígito binario puede llevar más de un bit de
información, o menos, dependiendo de su probabilidad de ocurrencia.
Por ello no siempre es correcto decir que un "1" o un "0" es un bit, ya que esto
puede interpretarse como la unidad de información. Esto solo es cierto para
sucesos equiprobable, o sea que la probabilidad de que ocurra un "o" es igual a la
probabilidad de que ocurra un "1" y es igual al 50%.

Por ejemplo:

PA= 1/4 y PB = 3/4

Entonces:

IA = log2 4 = 2 [bit]
IB = log2 4/3 = 0,414 [bit]

Para evitar errores de interpretación, a los dígitos binarios como elementos de


mensajes se los llama "binit", en lugar de bit (aunque esta última es la que se usa
habitualmente).
A continuación se dan algunos ejemplos para que los resuelva el lector:

Ejemplo 1:
Calcular la información asociada a la caída de una moneda ( suceso
estadísticamente independiente).
Ejemplo 2:
Calcular la información entregada por la aparición de una letra entre 32
equiprobable posibles.

Ejemplo 3:
Supongamos que una fuente produce los símbolos A, B, C y D, con probabilidades
1/2, 1/4, 1/8, y 1/8 respectivamente.
Calcular:
La información en cada caso.

Si los símbolos son independientes, calcular los bits de información del mensaje
BACA.

Ejemplo 4:
Calcular la probabilidad de que aparezcan 3 caras consecutivamente en la tirada
de una moneda y su información asociada.

Ejemplo 5:
En un naipe de barajas españolas se extrae una carta. Si me informan que es de
"ORO". ¿Cuántos bits de información ha recibido?. ¿Que información adicional es
necesaria para especificar la carta?

Ejemplo 6:
Supongamos una imagen formada por 400 líneas horizontales, y cada línea con
300 puntos discretos, con una posibilidad de variación de su brillo de 8 niveles
distintos. ¿Cuántas imágenes distintas se podrán formar, y qué cantidad de
información proveerán?

ENTROPIA
Entropía de una fuente
Ya hablamos del concepto de información. De acuerdo a la teoría de la
información, el nivel de información de una fuente se puede medir según la
entropía de la misma. Los estudios sobre la entropía son de suma importancia en
la teoría de la información y se deben principalmente a Shannon, existen a su vez
un gran número de propiedades respecto de la entropía de variables aleatorias
debidas a Kolmogorov.

Dada una fuente "F" que emite mensajes, resulta frecuente observar que los
mensajes emitidos no resulten equiprobables, sino que tienen una cierta
probabilidad de ocurrencia dependiendo del mensaje. Para codificar los mensajes
de una fuente intentaremos utilizar menor cantidad de bits para los mensajes más
probables y mayor cantidad de bits para los mensajes menos probables de forma
tal que el promedio de bits utilizados para codificar los mensajes sea menor a la
cantidad de bits promedio de los mensajes originales. Esta es la base de la
compresión de datos.

En la teoría de la información, la entropía es la medida de la incertidumbre que


existe ante un conjunto de mensajes (de los cuales sólo se recibirá uno solo). Se
trata de una medida de la información que es necesaria para reducir o eliminar la
incertidumbre.
Otra manera de entender la entropía es como la cantidad media de información
que contienen los símbolos transmitidos.

La entropía nos indica el límite teórico para la compresión de datos.

Su cálculo se realiza mediante la siguiente fórmula:


donde H es la entropía, las p son las probabilidades de que aparezcan los
diferentes códigos y m el número total de códigos. Si nos referimos a un sistema,
las p se refieren a las probabilidades de que se encuentre en un determinado
estado y m el número total de posibles estados
Se utiliza habitualmente el logaritmo en base 2.
Por ejemplo: El lanzamiento de una moneda al aire para ver si sale cara o cruz
(dos estados con probabilidad 0,5) tiene una entropía:

Un mundo de 8 bits
Como sabemos un archivo en una computadora es una secuencia de BITS, sin
embargo en nuestras definiciones de entropía y longitud ideal de los caracteres
estamos considerando la probabilidad de ocurrencia de caracteres es decir
bloques de 8 bits, podríamos pensar si los resultados cambiarían considerando
bytes de 9 o 7 bits, por ejemplo. La respuesta es afirmativa, pero la entropía
tendería a aumentar a medida que nos alejamos del valor de 8 bits por byte. El
motivo por el cual ocurre esto reside en que en cualquier archivo almacenado en
una computadora los elementos que pueden ser dependientes unos de otros son
los bytes y no los bits. A medida que nos alejamos del valor de 8 bits para nuestro
concepto de byte perdemos estructura en nuestra fuente y la misma cada vez se
vuelve más aleatoria por lo que podremos comprimirla en menor medida. De aquí
surge que tomemos siempre bytes de 8 bits, tarea que puede sonar obvia pero
que merece más de una reflexión.

Ejemplo:

Sea el siguiente string/archivo/fuente:

"Holasaludosatodos" (17 bytes)


Tenemos la siguiente tabla:

Carácter Frecuencia Probabilidad Longitud Ideal

H 1 1/17=0.0588 -log2(0.0588)=4.0874 bits

o 4 4/17=0.2353 -log2(0.0588)=4.0874 bits


l 2 2/17=0.1176 -log2(0.1176)=3.0874 bits.
a 3 3/17=0.1765 -log2(0.1765)=2.5025 bits
s 3 3/17=0.1765 -log2(0.1765)=2.5025 bits
u 1 1/17=0.0588 -log2(0.0588)=4.0874 bits
d 2 2/17=0.1176 -log2(0.1176)=3.0874 bits
t 1 1/17=0.0588 -log2(0.0588)=4.0874 bits

H = 3 * 0.0588 * 4.0874 + 0.2353 * 2.0874 + 2 * 0.1176 * 3.0874 + 2 * 0.1765


* 2.5025

H = 2.82176233222 bits x byte.

H * 17 = 47.96 bits.

El string en cuestión no puede ser comprimido en menos de 47.96 bits, es decir


unos 6 bytes. Este es el límite teórico e ideal al cual puede comprimirse nuestra
fuente.

FUENTES CONTINUAS

Son aquellas cuyos mensajes son funcionales que varían continuamente con el
tiempo. La definición de entropía para fuentes continuas es muy compleja y
escapa a los conceptos de esta materia, no obstante, por razones de simplicidad,
en la mayoría de los casos se aplica la presentación discreta, ya que por razones
de limitaciones físicas fundamentales, los sistemas de computación y de
comunicaciones son procesos discretos sin consideración de la fuente. A título de
ejemplo, veremos una aplicación sobre el idioma:
La información que disponemos en este caso son palabras, es decir una sucesión
de letras que constituyen un texto coherente. Supongamos que utilizamos 27
letras y un espacio, por lo tanto tengo 28 símbolos distintos.

Haremos distintas suposiciones teóricas que nos darán diferentes modelos.

Primer modelo
Suposiciones:

a) Cada símbolo o letra no depende del anterior.


b) Todos los símbolos o letras son equiprobable. O sea, se trata de una fuente
sin memoria, con m = 28.

En este modelo, la entropía vale su valor máximo, o sea:

H = log2 28 = 4,8 bit/letra

Segundo modelo
Suposiciones:

a) Cada símbolo o letra no depende del anterior.


b) Consideremos a los símbolos con su probabilidad de aparición.

P(espacio) = 0,1858
P(A) = 0,05642
P(B) = 0,0127
P(Z) = 0,0005

Calculando, con lo que ya sabemos, H = 4,03 bit/símbolo.

Tercer modelo:
Suposiciones:

a) Cada letra depende solamente del último símbolo transmitido.


b) Probabilidades reales.

En este caso la entropía sigue bajando y vale:

H = 3,32 bit/símbolo

Cuarto modelo:
Suposiciones:

a) Cada letra depende de las dos anteriores.


b) Probabilidades reales.

La entropía es más baja y vales:

H = 3,10 bit/símbolo

Quinto modelo

Suposiciones:
a) Conozco todo el texto anterior.
b) Probabilidades reales.

En este caso la entropía vale:

H = 1 bit/símbolo.

Este dato es interesante, ya que si tengo la facilidad de "recordar" las letras


anteriores y codificar, la transmisión a enviar que se adiciona al producir una
nueva letra de 1 bit.

Es decir, que si el sistema es muy eficiente, debo enviar solo 1 bit. Este
último modelo es el más eficiente, ya que debe manejar menor información.
Por lo visto, el primer modelo debe estar preparado para manejar 5 bit/letra, y este
último modelo solo debe manejar 1 bit/letra, o sea, viéndolo de otra forma este
último modelo puede transformase 5 veces más información, o ser 5 veces más
rápido que el primer modelo.
En la práctica se aprovecha el estudio teórico de éstos modelo. El primer modelo
se utiliza normalmente en teletipos, ya que es el más económico. Normalmente se
utilizan cinco dígitos binarios por letras cuando solo sería necesario en promedio
un dígito binario por símbolo si se utilizara en el código morse de puntos y rayas.
Los modelos posteriores, (tercero y cuarto) se utilizan en sistemas muy
sofisticados de comunicaciones, como es el caso de comunicaciones espaciales.
En un futuro se espera poder usar el modelo número cinco.

El estudio desarrollado en forma simplificada lo realizó Shannon en el año 1951.

MAXIMA CAPACIDAD DE TRANSFERENCIA DE UN CANAL

Nyquist dedujo una ecuación que expresa la velocidad máxima de datos a través
de un canal sin ruido> con un ancho de banda finito.
Shannon lo amplió para el caso de un canal sujeto a ruido aleatorio (término).
Según Nyquist, si una señal arbitraria se la hace pasar a través de un canal con su
Ancho de Banda "H", la señal filtrada puede reconstruirse por completo mediante,
la obtención simple y sencilla de por lo menos "2H" muestras por segundo.
El llevar acabo muestreo de las líneas a frecuencias más altas no tiene sentido,
porque los componentes de frecuencias más altas no pueden recuperarse por
haber sido filtrada. Si la señal contiene "V" niveles discretos, el teorema de Nyquist
establece que:

Velocidad máxima de datos = 2H log2 V [bit/seg]


Por ejemplo, un canal sin ruidos de 3 KHz no puede transmitir señales binarias (de
dos niveles lógicos) a más de 6000/bps.

Velocidad máxima de datos = 2 * 3000 log2 2 [bits/seg]


Velocidad máxima de datos = 2 * 3000 * 1 [bits/seg]
Velocidad máxima de datos = 6000 [bits/seg]

Esto sin considerar el ruido.


Al diseñar un sistema de transmisión, se debe tener en cuenta la cantidad de
información que puede trasformar el sistema.
Para ver la forma en que estos conceptos se ajustan a las comunicaciones,
consideremos el diagrama tensión – tiempo que sigue:

Supongamos un intervalo de "T" segundos de duración en el cual se transmite


información y una amplitud máxima de 3 voltios.

¿Cuánta información puede transmitirse en este intervalo?.


¿Por qué existe un límite en ella cantidad de información?

Si la información está relacionada con señales que cambian impredeciblemente en


el tiempo, ¿Por qué no hacer que la señal cambie tan rápidamente y con tantas
subdivisiones de la amplitud máxima como se requiera? .Esto implicaría el
aumento del contenido de información en forma indefinida.
Como estamos antes sistemas físicos, estos no podrán aumentar indefinidamente
la velocidad de cambio de una señal, ni distinguir infinitos valores de tensión o
niveles por lo siguiente:

Todos los sistemas tienen dispositivos de almacenamiento de energía, por


lo que cambiar una señal implica modificar los contenidos de energía.
Todo sistema provoca variaciones inherentes o fluctuaciones de tensión
para medir la amplitud de la señal, por lo que no puede subdividirse
independientemente la señal. Estas variaciones indeseadas de los
parámetros que varían se llaman ruido.

Hay entonces un tiempo mínimo "t" que se requiere para que la energía cambie, y
una variación mínima detectable de la amplitud.
Por ejemplo, la figura anterior: t = 1 seg; y las variaciones de tensión son +- 1
voltio. Cuando la amplitud máxima es de 3V, solo existen 4 niveles detectables.

Si la señal varía menos de 1 voltio, no podrá ser distinguida entre las variaciones
indeseables del ruido.

Se entiende por "cantidad de información" como el número de combinaciones


diferentes de amplitudes de la señal a trasmitirse en ese tiempo.
Fueron estos los argumentos que empleo Shanon para desarrollar su concepto de
capacidad de un canal.
La capacidad del sistema, o velocidad máxima a la que puede trasmitirse
información, debe ser medible en términos de "t" y de "n".

Una medida cuantitativa de la capacidad del sistema puede deducirse si se


supone que la información transmitida en el intervalo de 10 seg, de la figura, está
directamente relacionada con el número de combinaciones diferentes de amplitud
de la señal. ¿Cuántas combinaciones pueden ser especificadas?.
En el ejemplo existen 4 posibilidades por cada intervalo.

Para un intervalo tenemos 4 combinaciones, para dos intervalos 42 = 16


combinaciones.

Para "n" niveles de intervalos de "t" segundos, el número total de combinaciones


en un tiempo T ( seg) será:

NT/t

Con esta suposición básica, la información transmitida en T seg se relaciona con


el número de combinaciones de señales.

Sin embargo, inútilmente puede notarse que la información debe ser proporcional
al tiempo de transmisión. Al duplicar T se debería doblar el contenido de
información.

Entonces, el contenido de información puede hacerse proporcional si tomamos el


logaritmo de “nT/t”, con lo que resulta:

Información transmitida en T (seg) log nT/t


Información transmitida en T (seg) nT/t log n.

El factor de proporcionalidad dependerá de la base de los logaritmos empleados.


La base más simple y la más usada es 2.

Información = T/t log2 n. [bit]

La unidad de información definida de esta manera es el "bit". Para nuestro ejemplo


será:
Información = 10/1 log2 4 = 20 bit.

Si hubiéramos tenido dos niveles de tensión:


Información = 10/1 log2 2 = 10 bit.

La capacidad del sistema puede definirse como la máxima velocidad de


transmisión de información:

C= información/T = 1/t log2 n

La capacidad es pues inversamente proporcional al mínimo intervalo de tiempo de


comunicación, y proporcional al logaritmo de "n".

Veremos que existe una estrecha relación entre repuesta en el tiempo y respuesta
en frecuencia, lo que nos permite relacionar información con Ancho de Banda.

DÍGITOS BINARIOS EN LA TRANSMISIÓN DE INFORMACIÓN:

Información = T/t log2 n [bit]

El uso de log en base 2 lo podemos explicar como sigue:

Supongamos una señal que varia entre 0 y 7 voltios.

A causa de las limitaciones del sistema en el intervalo "t" no hay variaciones


sensibles de la señal.
¿Puede enviarse esta información con menos de 8 niveles? .
La respuesta es SÍ. La forma mas sencilla es la de especificar si existe o no un
nivel. Para 8 niveles se necesitan 3 instrucciones SÍ - NO.

Supongamos que la señal está en 7 voltios. Primero se pregunta si está en los


cuatros niveles superiores o inferiores.

1 = superior.
0 = inferior.

Luego se elige dentro del grupo si es superior o inferior, y así sucesivamente.

O sea que el nivel 7 voltios = 111

Nivel Código De esta forma, en vez de transmitir un valor de "7 voltios", se


Binario transmiten tres intervalos SI - NO Esto se llama codificación
7 111 binaria cada etiqueta Si - No es un bit.
6 110
5 101 Para "n" niveles se requiere
4 100 Log2 n bits
3 011
2 010
1 001
0 000

LEY DE SHANNON -HARTLEY

SHANNON demostró que la capacidad tiene relación con la potencia de la señal y


la de ruido, en la forma.

C = B log2 (1 + S/N) [bits/seg]


Esto se demuestra como sigue:
Supóngase que se dispone de "S" vatios de potencia promedio.
Si tomamos "n' niveles posibles igualmente probables, separados "a" unidades
entre si, los niveles transmitidos son:

+- a/2 ;+- 3 a/2;……+- (n-1) a/2

La potencia promedio será:


S = 2/m a(a/2)2 + (3a/2)2 +…… (n -1) a/2é2 é = (a)2 [(n2 – 1)/12]

De donde:
(n2 12 S + 1) / a 2

Según el teorema del muestreo de Nyquist:


C = 2B log2 n= B * log2 n2 [bits/seg]

Reemplazando n2 tendremos:
C = B log2 [(1 + 12 S) / a2] [bits/seg]

¿Cómo podemos determinar el esparcimiento entre niveles "a"?.

En última instancia esto depende del ruido al tratar de decodificar las señales
recibidas. La elección de "a" depende de la variancia " " y de probabilidad de
error Pe.
El esparcimiento debe ser K veces el ruido (rms) .
C = B log2 [(1 + 12 s)/K2 N][bits/seg]

El valor 12 K2 es constante, por lo que la ecuación genérica de la LEY DE


SHANNON quedará:
C = B log2 ( 1 + S/N) [bits/seg]

Veamos un ejemplo:
Un canal telefónica de Ancho de Banda de 3000 Hz, y una S/N = 3 - db
(parámetros típico del sistema) tienen una capacidad teórica de:
C = 3000 log2 ( 1 + 1000) [bits/seg]
log2 1001 = 1/ log10 2 * log 1000 = 1/0,30103 * 3 = 9,9657

En la práctica es imposible siquiera aproximarse al limite de Shannon.


Una velocidad de 9600 bpd se considera excelente, y esta se obtiene enviando 4
bits a 2400 baudios.

También podría gustarte