Divergencia de Kullback-Leibler

En teoría de la probabilidad y teoría de la información, la divergencia de Kullback-Leibler (KL)^[1]^[2]^[3] (también conocida como divergencia de la información, ganancia de la información, entropía relativa o KLIC por sus siglas en inglés) es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P. Generalmente P representa la "verdadera" distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P.

Aunque a menudo se considera como una métrica o distancia, la divergencia KL no lo es en realidad — por ejemplo, no es simétrica: la divergencia KL de P a Q no necesariamente es la misma KL de Q a P.

La divergencia KL es un caso especial de una clase más amplia de divergencias llamadas divergencias f. Fue originalmente introducida por Solomon Kullback y Richard Leibler en 1951 como la divergencia direccionada entre dos distribuciones. KL se puede derivar de la divergencia de Bregman.

Definición

Para distribuciones de probabilidad P y Q de una variable aleatoria discreta su divergencia KL se define como

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\ln {\frac {P(i)}{Q(i)}}.\!

En palabras, es el promedio ponderado de la diferencia logarítmica entre las probabilidades P y Q, donde el promedio se toma usando las probabilidades P. La divergencia KL solamente se define si P y Q suman 1 y si $Q(i)>0$ para cualquier i tal que $P(i)>0$ . Si la cantidad $0\ln 0$ aparece en la fórmula, se interpreta como cero.

Para distribuciones P y Q de una variable aleatoria continua, la divergencia KL se define como la integral:^[4]

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\ln {\frac {p(x)}{q(x)}}\,{\rm {d}}x,\!

donde p y q representan las densidades de P y Q.

Más generalmente, si P y Q son medidas de probabilidad sobre un conjunto X, y Q es absolutamente continua con respecto a P, entonces la divergencia Kullback–Leibler de P a Q se define como

D_{\mathrm {KL} }(P\|Q)=-\int _{X}\ln {\frac {{\rm {d}}Q}{{\rm {d}}P}}\,{\rm {d}}P,\!

donde ${\frac {{\rm {d}}Q}{{\rm {d}}P}}$ es la derivada de Radon-Nikodym de Q con respecto a P, y dado que la expresión al lado derecho existe.

De la misma manera, si P es absolutamente continua con respecto a Q, entonces

D_{\mathrm {KL} }(P\|Q)=\int _{X}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}P=\int _{X}{\frac {{\rm {d}}P}{{\rm {d}}Q}}\ln {\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q,

lo cual se conoce como la entropía de P relativa a Q.

Continuando en este caso, si $\mu$ es cualquier medida en X para la cual $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ y $q={\frac {{\rm {d}}Q}{{\rm {d}}\mu }}$ existe, entonces la divergencia Kullback–Leibler de P a Q está dada por

D_{\mathrm {KL} }(P\|Q)=\int _{X}p\ln {\frac {p}{q}}\,{\rm {d}}\mu .\!

Los logaritmos en estas fórmulas se toman como en base 2 si la información se mide en unidades de bits, o en base e si la información se mide en nats. La mayoría de fórmulas relacionadas con la divergencia KL se mantienen independiente de la base logarítmica.

Nos referiremos a la divergencia de P a Q, aunque algunos autores la llaman la divergencia "de Q a P" y otros la divergencia "entre P y Q" (aunque note que no es simétrica). Se debe tener cuidado debido a la falta de estandarización en la terminología.

Propiedades

Es siempre positiva (puede probarse usando la desigualdad de Jensen).
Es nula si y sólo si P = Q.
No es simétrica (por lo que no se trata de una distancia).

Aplicaciones

Estadística

En estadística, la divergencia de Kullback-Leibler está íntimamente relacionada con el método de ajuste de distribuciones por máxima verosimilitud. En efecto, si se tienen observaciones $x_{1},...,x_{n}$ independientes de una variable aleatoria con función de densidad desconocida f y se tratan de ajustar dentro de una familia de funciones de densidad $f_{\lambda }$ , de acuerdo con la teoría de la máxima verosimilitud, se busca el parámetro $\lambda$ que maximiza la función

L_{\lambda }=\sum _{i}\log f_{\lambda }(x_{i}),

que puede aproximarse (cuando n es grande) por

\int f(x)\log f_{\lambda }(x).

Restando dicha expresión del término constante

\int f(x)\log f(x)

se obtiene

\int f(x)\log f(x)-\int f(x)\log f_{\lambda }(x)=\int f(x)\log {\frac {f(x)}{f_{\lambda }(x)}},

que es la divergencia de Kullback-Leibler entre $f_{\lambda }$ y la distribución verdadera determinada por f. Es decir, maximizar la función de verosimilitud es (aproximadamente) equivalente a encontrar el parámetro $\lambda$ que minimiza la divergencia de Kullback-Leibler entre la distribución real y la familia de distribuciones parametrizadas por dicho parámetro.

Referencias

↑ Kullback, S.; Leibler, R.A. (1951). «On Information and Sufficiency». Annals of Mathematical Statistics 22 (1): 79-86. MR 39968. doi:10.1214/aoms/1177729694.
↑ S. Kullback (1959) Information theory and statistics (John Wiley and Sons, NY).
↑ Kullback, S.; Burnham, K. P.; Laubscher, N. F.; Dallal, G. E.; Wilkinson, L.; Morrison, D. F.; Loyer, M. W.; Eisenberg, B. et al. (1987). «Letter to the Editor: The Kullback–Leibler distance». The American Statistician 41 (4): 340-341. JSTOR 2684769.
↑ C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.

Enlaces externos

Matlab code for calculating KL divergence Archivado el 29 de septiembre de 2007 en Wayback Machine.
Sergio Verdú, Relative Entropy, NIPS 2009. One-hour video lecture.
Jon Shlens' tutorial on Kullback-Leibler divergence and likelihood theory
A modern summary of info-theoretic divergence measures

Datos: Q255166

[1] Kullback, S.; Leibler, R.A. (1951). «On Information and Sufficiency». Annals of Mathematical Statistics 22 (1): 79-86. MR 39968. doi:10.1214/aoms/1177729694.

[2] S. Kullback (1959) Information theory and statistics (John Wiley and Sons, NY).

[3] Kullback, S.; Burnham, K. P.; Laubscher, N. F.; Dallal, G. E.; Wilkinson, L.; Morrison, D. F.; Loyer, M. W.; Eisenberg, B. et al. (1987). «Letter to the Editor: The Kullback–Leibler distance». The American Statistician 41 (4): 340-341. JSTOR 2684769.

[4] C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.

[1]

[2]

[3]

[4]