La Problematica de Un SARP (Extraccion y Sleccion)
La Problematica de Un SARP (Extraccion y Sleccion)
La Problematica de Un SARP (Extraccion y Sleccion)
Indice
1. Modelo de Sistema de Reconocimiento de Patrones
1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. Apendizaje no supervisado
10
11
Pixel
Segmentos
Primitivas
de Objetos
Objetos
Grupos
de Objetos
Escena
Informacin Relacional
Informacin de Atributos
INDICE
Universo
(Objetos, Conceptos)
Sensor
Extractor
Decisin
Caractersticas
Clasificador
de
Representacin Caractersticas
Patrn
P (i ) = 1
i=1
La densidad conjunta o funcio n de densidad de probabilidad no condicional p(x) vienen dada por
p(x) =
m
!
i=1
p(x|i )P (i ).
En la practica nos interesa calcular la probabilidad a posteriori (una vez observado el patr o n x) para cada
clase i , la cual viene dada por la Fo rmula de Bayes que relaciona probabilidades condicionales seg u n:
P (i |x) =
p(x|i )P (i )
p(x|i )P (i )
= "m
.
p(x)
j=1 p(x|j )P (j )
x3
x2
x1
ij
ij 0
Ejemplo: Verificacion de Firmas
En una aplicacion de deteccion de firmas falsas tendramos en principio dos clases
#
1 la firma es autentica
2 la firma ha sido falsificada
Claramente en este contexto podemos cometer 2 tipos de errores de clasificaci o n que sin embargo implican
costos muy diferentes; de modo que se debera cumplir 21 12 .
INDICE
Denotaremos con j la region del espacio de observacio n tal que nuestra regla de decisio n asigna
x j
x j
o sea que la region j esta asociada con la clase j .
m
!
ij P (i |x)
i=1
Por lo tanto el costo para toda la regio n j se obtiene integrando sobre todos los valores posibles con sus
correspondientes probabilidades de observaci o n:
$
Rj =
rj (x)p(x)dx
j
j=1
i=1
De modo que podemos concluir que el costo total sera minimizado si el espacio de observacio n se particiona
de manera tal que si x j se tenga
m
!
i=1
ij P (i |x)
m
!
ik P (i |x) k = j
i=1
Hemos llegado por lo tanto a la llamada Regla de Decisi o n de Mnimo Costo de Bayes, que establece
Asignar x j
m
!
ij p(x|i )P (i ) = mn
1km
i=1
m
!
ik p(x|i )P (i )
i=1
ij = 1 1 i, j m, i = j
ik P (i |x) =
P (i |x) = 1 P (k |x)
1im
i=k
P (j |x) = m
ax P (k |x)
1km
Observar que si asumimos que se asigna x j , la probabilidad condicional de error (x) viene dada por
(x) = 1 P (j |x) .
Por lo tanto el error condicional sera mnimo si la clase j se elije usando la u ltima regla de decision. En este
caso el error medio
$
e=
(x)p(x)dx
j=1
i = Cov[x|i ] = E (x i )(x i ) |i ]
T
INDICE
Si tomamos logaritmo a ambos lados de la regla de Bayes del mnimo error obtenemos:
Asignar x j
*
1)
T
n log(2) + log |j | + (x j )1
=
j (x j )
-2
.
*
1)
1
T
m
ax log P (k )
(1)
n log(2) + log |k | + (x k )k (x k )
1km
2
log P (j )
Multiplicando por 2, sacando para afuera de la expresi o n el signo de menos y agrupando los terminos que no
dependen de x resulta:
Asignar x j
T
(x j )1
n
j (x j ) Cj = m
1km
siendo
T
(x k )1
k (x k ) Ck
1
1 k m y
m
log |k | = log |k | 1 k = k m
T
(x j )1
n
j (x j ) = m
1km
+
,
T
(x k )1
k (x k )
Si definimos para cada clase una norma a partir de su matriz de covarianza como sigue
2
T
x xk = x1
k x
1km
x j j = mn x k k
1km
De modo que asignamos un patro n x arbitrario a la clase j tal que su vector medio j este mas cercano en
la distancia inducida por la norma asociada a esa clase.
2.2.1. Caso Particular 1
Supongamos que las probabilidades a priori y las covarianzas son constantes en las clases
i = j = y
P (i ) = P (j ) 1 i = j m
x = x1 xT
d(x, x ) = x x
x, x
Esta distancia se conoce como distancia de Mahalanobis asociada a la covarianza . Notar que en el caso
particular que = I esta distancia coincide con la distancia cuadratica Euclidiana.
Por lo tanto la regla del mnimo error se reduce a asignar el patro n x a la clase cuyo vector medio sea el mas
cercano segun la distancia de Mahalanobis (Regla de decisi o n por media mas cercana):
Asignar x j
d(x, j ) = mn d(x k )
1km
d( x , 2 )
x
d( x , 1 )
d( x , 3 )
3
Figura 4: Regla de asignacio n por media mas cercana.
2.2.2. Caso Particular 2
Ahora analizaremos el problema general de decisi o n entre dos clases
m = 2,
1 = 2
lineal
cuadratico
m = 2,
1 = 2 =
Observando la ecuacion para el caso anterior, vemos que se anula el termino cuadratico y por lo tanto la
superficie discriminante resulta lineal como funci o n del patron vectorial x. La superficie de separacio n es un
hiperplano definido por:
)
*
xT 1 2 + cte = xT w + cte = 0
)
*
siendo w = 1 2 .
Esta estructura es identica a la de una importante familia de maquinas lineales usadas en sistemas de decisi o n,
entre las cuales podemos mencionar al Perceptr o n.
2.2.4. Inferencia de los parametros
La inferencia de los parametros i y i involucrados en las reglas de decisio n es directa a partir de los
conjuntos de entrenamiento
{xij
i = 1, , m; j = 1, , Ni } con xij i .
INDICE
xTw + cte = 0
2
Ni
1 !
xij
Ni j=1
xij
Ni j=1
de un Sistema de Clasificacion
2.3. Evaluacion del Desempeno
Supongamos que disponemos de un conjunto de patrones vectoriales x j j = 1, , N con sus correspondientes clases verdaderas j conocidas. Es importante notar que este conjunto de patrones debera tener
independencia estadstica con el conjuntos de patrones de entrenamiento del sistema.
Sean j las etiquetas asignadas a cada xj por el sistema de reconocimiento de patrones que estamos evaluando, e introduzcamos las variables aleatorias (x j ) definidas segun
#
0
si j = j
(xj ) =
1
si j = j
Notar que el valor esperado de (x) para un patr o n x elegido al azar es
$
$
E [] =
(1 (x) + 0 [1 (x)]) p(x)dx =
(x)p(x)dx = e
(x)p(x)dx e2 = e(1 e) .
Podemos tambien deducir esto observando es una variable aleatoria de Bernoulli tal que la probabilidad
p{ = 1} es igual a la probabilidad media e de error del sistema.
Si hacemos N observaciones independientes de y definimos la nueva variable aleatoria e como
e =
N
1 !
j
N j=1
3. Apendizaje no supervisado
encontramos que e tiene distribucio n Binomial con valor medio e (como se ve calculando la esperanza) y por
lo tanto e es un estimador insesgado del error medio e.
La desviacion estandar de este estimador se calcula como
3
) + ,
*1
e] = E e2 e2 2
e = Var [
Sustituyendo e y desarrollando resulta
Var [
e] =
N N
1 + 2, N 1 2
1
1 !!
E +
e e2 =
e(1 e)
E [j k ] e2 =
N 2 j=1
N
N
N
k=1
e(1 e)
1
.
N
2 N
Resumiendo, hemos visto que podemos estimar el error medio de clasificaci o n e presentandole a nuestro sistema de clasificacion un conjunto de patrones que pertenecen a clases conocidas. El error se estima contando
el numero de discrepancias entre la clase verdadera y la etiqueta de clase asignada por el sistema, y dividiendo
finalmente este resultado entre el nu mero de muestras en la prueba.
Notar que si el error medio del sistema es peque n o, digamos de 1 %, vamos a necesitar de un nu mero
grande de muestras de prueba para verificar este valor de desempe n o con una razonable confianza relativa.
3. Apendizaje no supervisado
Es comun encontrarse con situaciones en las que el sistema de clasificaci o n de patrones debe disenarse partiendo de un conjunto de patrones de entrenamiento {x j ; j = 1, 2, , N } para los cuales no conocemos
sus etiquetas de clase i
Estas situaciones se presentan cuando no disponemos del conocimiento de un experto o bien cuando el etiquetado de cada muestra individual es impracticable. Esto u ltimo ocurre por ejemplo en el caso de aplicaciones
con sensores remotos, como ser imagenes satelitales de terrenos donde sera muy costoso o imposible recoger
informacion real del tipo de suelo sensado en cada punto de las imagenes. En estos casos el proceso de disen o
requiere una primera etapa de analisis de las estructuras presentes en los datos de entrenamiento.
m
!
P (i )p(x|i )
i=1
podemos deducir que si la densidad conjunta es multimodal cada uno de los modos debera corresponderse
con la distribucion condicional de cada una de las clases presentes. Por lo tanto identificando estos modos en
p(x) sera en principio posible particionar el espacio de observaci o n en regiones disjuntas i , i = 1, , m
asociadas con cada una de las clases presentes.
Si las distribuciones condicionales de cada clase son normales cabria la posibilidad de recuperar los par a metros de cada distribucion a partir del conjunto de entrenamiento. A partir de esto podramos seguir con el
diseno del clasificador como se vio en la seccio n anterior. Sin embargo podemos conformarnos con recobrar
INDICE
10
p(x)
3. Apendizaje no supervisado
11
k
!
i=1
Ji =
Ni
k !
!
i=1 j=1
INDICE
12
Claramente esta reasignacio n afectara solo a los agrupamientos l y r cuyos valores medios pasar a n a ser
l = l +
1
(l x)
Nl 1
y
r = r
1
(r x)
Nr + 1
respectivamente.
Para deducir la primera ecuacio n calculamos el valor medio de Xi antes y despues de la reasignacio n
Nl
N
Nl
l 1
!
1 !
1
1 !
l =
xj =
xj x
xj
l =
Nl j=1
Nl 1 j=1
Nl 1 j=1
donde hemos asumido que el punto reasignado es el u ltimo en la sumatoria. De aqui resulta que
(Nl 1)
l = Nl l x
l =
1
Nl
l
x
Nl 1
Nl 1
l = l +
1
(l x)
Nl 1
N
l 1
!
d(xj , mul ) =
j=1
j=1
Nl
!
j=1
Jl
N
l 1
!
xj l +
(xj l )T (xj l ) =
l x *T )
l x * )
l x *T )
l x *
xj l +
x l +
x l +
=
Nl 1
Nl 1
Nl 1
Nl 1
Nl
!
2
Nl
Nl2
T
(xj l ) +
(l x)
(
x)
(
x)
+
(l x)T (l x)
l
l
2
2
Nl 1
(N
1)
(N
1)
l
l
j=1
/
01
2
0
Nl
Nl
(l x)T (l x) = Jl
d(x, l )
Nl 1
Nl 1
Nr
Nr
(r x)T (r x) = Jr +
d(x, r )
Nr 1
Nr 1