Analisis Multivariado

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 42

UNIVERSIDAD GALILEO

FACULTAD DE CIENCIA TECNOLOGIA


E INDUSTRIA
MAESTRIA DE ADMINISTRACION EN NEGOCIOS

ESTADISTICA PARA LA ADMINISTRACION


DOCENTE: SAMUEL REYES

TEMA
Investigacin Anlisis Multivariado
(Anlisis Discriminante)

ALEXIS IVAN RACANCOJ CABRERA IDE12382014


ERIK FERNANDO HERNANDEZ RAMIREZ IDE16001721

Guatemala, Febrero del 2016

Contenido
INTRODUCCIN............................................................................................................... 3
OBJETIVOS....................................................................................................................... 4
General........................................................................................................................... 4
Especficos...................................................................................................................... 4
CONCEPTO GENERAL ANALISIS MULTIVARIADO...............................................................5
ANALISIS DISCRIMINANTE...............................................................................................7
MODELO MATEMATICO........................................................................................... 12
DESCOMPOSICION DE LA VARIANZA.......................................................................12
EXTRACCION DE LA FUNCIONES DISCRIMINANTES.................................................12
PROCEDIMIENTO MATRICIAL...................................................................................12
Aplicacin del El anlisis discriminante.........................................................................13
Visin geomtrica del anlisis discriminante.................................................................13
Anlisis Discriminante con SPSS...................................................................................17
Seleccin de las variables discriminantes.....................................................................18
Estadsticos usados....................................................................................................... 19
Variables originales que se consideran.........................................................................20
En el SPSS se considera tambin para cada variable la tolerancia asociada.................21
Tolerancia...................................................................................................................... 21
Clculo de la F y de la de Wilks multivariantes para fijar los criterios de entrada y
salida............................................................................................................................ 21
Estadsticos que se calculan en el procedimiento stepwise...........................................22
F de entrada (F to enter)............................................................................................... 22
F de salida (F to remove):............................................................................................. 22
Correlacin Cannica.................................................................................................... 23
Significacin y coeficientes de las funciones discriminantes.........................................23
Interpretacin de los coeficientes de la funcin discriminante......................................24
Matriz de estructura...................................................................................................... 24
Clasificacin de los objetos........................................................................................... 24
Regla de Bayes............................................................................................................. 25
Matriz de confusin....................................................................................................... 26
Ejemplos....................................................................................................................... 27
Conclusiones................................................................................................................. 40
E-GRAFIA....................................................................................................................... 41

Anlisis Discriminante

Pgina 2

INTRODUCCIN
La siguiente investigacin primeramente hace una resea de los anlisis Multivariado de
estadstica y sus divisiones.
A continuacin se hace un detalle del anlisis discriminante que se basa en encontrar la
combinacin lineal de las variables independientes que mejor permiten diferenciar en este
caso diremos discriminar a los grupos. Al haber encontrado esta combinacin la cual
llamaremos funcin discriminante se podr clasificar en casos y as aprovechar las
relaciones existentes entre una gran cantidad de variables independientes para maximizar
la capacidad de diferenciar.
El anlisis discriminante es muy similar al anlisis de varianza multivariante de un factor
ya que su propsito es el mismo, lo que en realidad lo diferencia es que solo admite
variables cuantitativas y si alguna de las variables independientes es categrica, es
preferible utilizar otro mtodo de anlisis.

Anlisis Discriminante

Pgina 3

OBJETIVOS
General
Estudiar otra tcnica del anlisis multivariado, especficamente la del anlisis
discriminante.

Especficos
Definir que es el anlisis de discriminante, sus conceptos bsicos y su aplicacin.
Presentar ejemplos de la aplicacin del anlisis discriminante.

CONCEPTO GENERAL ANALISIS MULTIVARIADO


Se le llama Anlisis Multivariado al mtodo estadstico que se utiliza para determinar la
contribucin de varios factores para un resultado o un evento.
Anlisis Discriminante

Pgina 4

La mayora de sus tcnicas buscan una combinacin optima de la variables implicadas en


el anlisis y esta mezcla se adaptara a los hechos observados, las cuales sirven para
medir, explicar y predecir todas la relaciones existentes entre los elementos que
conforman una tabla de datos, el cual nos dar un resultado que ser interpretado por un
analista.
Estas tcnicas permiten establecer ciertas relaciones, investigar estructuras latentes y
ensayar diversas maneras de organizar dichos datos de tal manera que llegar a un
resumen lo ms completo posible de el conjunto de datos que se utiliz, por lo que
podemos decir que sus objetivos son el estudio conjunto de datos multivalentes que el
anlisis estadstico uni y bidimensional es incapaz de conseguir y que el analista o
investigador pueda tomar decisiones ptimas en el contexto en el que se encuentre
teniendo en cuenta la informacin disponible por el conjunto de datos analizado.
El anlisis se divide en:

Tcnicas de la dependencia
Tcnicas de interdependencia
Mtodos estructurales

TECNICAS DE LA DEPENDENCIA

Anlisis de la varianza o la covarianza


Anlisis discriminante
Regresin Lineal Mltiple
Regresin lineal mltiple con variable ficticias
Modelos de eleccin discreta
Modelos de eleccin discreta con variables ficticias
Anlisis conjunto
Segmentacin jerrquica
Anlisis de ecuaciones estructurales
Anlisis con clases latentes
Anlisis de correlacin cannica
Anlisis multivariante de la varianza
Regresin logstica

TECNICAS INTERDEPENDIENTES

Anlisis de componentes principales


Anlisis clster
Iconografa de la correlaciones

Anlisis Discriminante

Pgina 5

Anlisis factorial y por componentes principales


Anlisis de la correspondencia
Anlisis de conglomerados
Escalamiento multidimensional
Anlisis con clases latentes

METODOS ESTRUCTURALES

Modelos de ecuaciones estructurales

ANALISIS DISCRIMINANTE
A continuacin se representa grficamente donde se encuentra ubicado el anlisis
discriminante en relacin al anlisis de dependencias:

Anlisis Discriminante

Pgina 6

Figura 1. Ubicacin del anlisis discriminante en relacin a las dependencias.


La utilidad del anlisis discriminante es clasificar y modelar la pertenencia a un grupo de
variables o individuos en funcin de datos, adems de predecir el grupo ms probable de
una variable o individuo.
El Anlisis Discriminante se puede considerar como un anlisis de regresin donde la
variable dependiente es categrica y tiene como categoras la etiqueta de cada uno de los
grupos, y las variables independientes son continuas y determinan a qu grupos
pertenecen los objetos. Se pretende encontrar relaciones lineales entre las variables
continuas que mejor discriminen en los grupos dados a los objetos.
El anlisis discriminante es una tcnica estadstica multivariante cuya finalidad es
describir siempre cuando existan, las diferencias significativas entre grupos de objetos
sobre los que se observan variables, se comparan y describen las medias de las
variables clasificadoras a travs de los grupos.

Anlisis Discriminante

Pgina 7

Siempre que estas diferencias existan, intentar explicar en qu sentido se dan y


proporcionar procedimientos de asignacin sistemtica de nuevas observaciones con
grupo desconocido a uno de los grupos analizados, utilizando para ello sus valores en las
variables clasificadoras.
Para llegar a conocer en qu se diferencian los grupos necesitamos disponer de la
informacin cuantificada en una serie de variables, en la que suponemos que se
diferencian. El anlisis discriminante es una tcnica estadstica capaz de decirnos qu
variables permiten diferenciar a los grupos y cuntas de estas variables son necesarias
para alcanzar la mejor clasificacin posible. La pertenencia a los grupos, conocida de
antemano, se utiliza como variable dependiente, una variable categrica con tantos
valores discretos como grupos. Las variables en las que suponemos que se diferencian
los grupos se utilizan como variables independientes o variables de clasificacin tambin
llamadas variables discriminantes.
Segn hemos sealado ya, el anlisis discriminante permite diferenciar entre cualquier
nmero de grupos. Sin embargo, por simplicidad, comenzaremos con el caso de dos
grupos, para ampliar posteriormente el razonamiento al caso de k grupos.
En la figura que se encontrara a continuacin estn representadas, en el espacio definido
por las variables X1 y

X2, las nubes de puntos correspondientes a dos grupos

hipotticos. Los dos grupos representados se diferencian entre s en ambas variables,


pero no por completo, pues, de hecho, se solapan en una pequea regin situada entre
ambos, tambin est representada la funcin D, que es una combinacin lineal de ambas
variables. Sobre la funcin D se representa la proyeccin de las dos nubes de puntos en
forma de histograma, como si la funcin D cortara a las dos nubes de puntos en la
direccin de su eje. Las dos lneas punteadas de cada uno de los histogramas
representan la ubicacin proyectada de los puntos medios de cada grupo.

Anlisis Discriminante

Pgina 8

Figura 2. Diagramas de dispersin de dos grupos en dos variables de clasificacin


Uno de los principales objetivos del anlisis discriminante consiste en aprovechar la
informacin contenida en las variables independientes para crear una funcin D
combinacin lineal de X1 y X2 capaz de diferenciar lo ms posible a ambos grupos. La
funcin discriminante es de la forma:

Donde b1 y b2 son las ponderaciones de las variables independientes que consiguen


hacer que los sujetos de uno de los grupos obtengan puntuaciones mximas en D, y los
sujetos del otro grupo puntuaciones mnimas.
Una vez hallada la funcin discriminante D, carece de sentido intentar representar la
situacin de los grupos en el espacio definido por las variables X1 y X2. Conviene ms
bien centrar el inters en la representacin de la funcin discriminante, que es
unidimensional. La representacin en p dimensiones resulta complicada cuando p es
mayor de 2 y aade poco o nada a la interpretacin de la funcin. En la siguiente figura
est representa slo la funcin discriminante D extrada del espacio de las variables X1 y
X2. Los grupos aparecen representados por sus histogramas y las proyecciones de los
centroides aparecen marcadas por lneas de puntos.

Anlisis Discriminante

Pgina 9

Figura 3. Histogramas de cada grupo y centroides representados


Sobre la funcin discriminante

Sustituyendo en la funcin discriminante el valor de las medias del grupo 1 en las


variables X1 y X2, obtenemos el centroide del grupo 1:

De igual modo sustituyendo las medias del grupo 2, obtenemos el centroide del grupo 2:

Las tcnicas de clasificacin de sujetos en grupos ya definidos. Partimos de una muestra


de N sujetos en los que se ha medido p variables cuantitativas independientes, que son
las que se utilizarn para tomar la decisin en cuanto al grupo en el que se clasifica cada
sujeto, mediante el modelo matemtico estimado a partir de los datos. Dentro del anlisis
discriminante nos encontramos a su vez con dos enfoques diferentes, uno que
denominaremos predictivo y otro explicativo. En el anlisis discriminante predictivo se
trata de estimar a partir de los datos unas ecuaciones que aplicadas a un nuevo sujeto,
para el que se determinan los valores de las diferentes variables, pero del que se
desconoce a qu grupo pertenece, nos proporcionen una regla de clasificacin lo ms
precisa posible. Se trata pues de formular un algoritmo por el que se pueda determinar a
qu grupo pertenece una nueva observacin. Este tipo de anlisis puede constituir por
ejemplo una ayuda al diagnstico, o un mtodo de ayuda a la decisin sobre la utilizacin
Anlisis Discriminante

Pgina 10

de una terapia concreta. En el anlisis discriminante predictivo es importante cuantificar


con qu precisin se clasificar a un nuevo sujeto.
A diferencia del anterior, en el anlisis discriminante descriptivo estamos ms interesados
en las variables empleadas para diferenciar los grupos, en las variables explicativas, y lo
que deseamos es determinar cules de esas variables son las que ms diferencian a los
grupos, cuales son importantes y cules no a efectos de clasificar los sujetos.
Mediante las ecuaciones estimadas en el procedimiento de anlisis discriminante
obtenemos un mecanismo para asignar un sujeto a uno de los grupos, a partir de los
valores de las variables explicativas. Si estamos trabajando slo con dos grupos, en la
asignacin existen dos posibles errores: el que se comete al clasificarlo en el primer
grupo, cuando en realidad pertenece al segundo P(I/II), y el que se cometera al incluirlo
en el segundo grupo, cuando en realidad pertenece al primero P(II/I). El criterio
matemtico de clasificacin se determina de tal manera que minimice la probabilidad de
error, que en el caso ms general de prevalencias diferentes en cada grupo con valores P
(I) y P (II), ser P (error) = P (I/II) P (II) + P (II/I) P (I)
Cuando la importancia de cada uno de los errores es diferente, por ejemplo si estamos
ante un diagnstico, cuando es ms grave el error que se comente al clasificar a un
individuo enfermo como sano (falso negativo) que el que se cometera al clasificar a uno
sano como enfermo (falso positivo), el criterio de clasificacin puede tenerlo en cuenta,
introduciendo en la ecuacin que se va a minimizar un peso o coste para cada error. Si
llamamos C1 al peso o coste del error de clasificar en el grupo II a un sujeto del grupo I, y
C2 al de clasificar en el grupo I a un sujeto del grupo II, se trata ahora de minimizar la
ecuacin C (error) = C1 P (I/II) P (II) + C2 P (II/I) P (I) siendo C1+C2=1
Cuando tenemos dos grupos y p variables explicativas, el anlisis discriminante nos
permite estimar los coeficientes b0, b1... bp de una funcin de clasificacin

Siendo P (I) y P (II) las prevalencias de cada grupo, C1 y C2 los costes de clasificacin
incorrecta anteriormente definidos, y si denominamos

Anlisis Discriminante

Pgina 11

la regla de decisin consiste en clasificar una observacin concreta de X en el grupo I


cuando D > ln c, y clasificarla en el grupo II cuando D < ln c
Este procedimiento se generaliza para clasificacin en ms de dos grupos.
MODELO MATEMATICO
Empezando de grupos donde se asignan una serie de variables medidas sobre ellos, se
trata de obtener para cada objeto una serie de puntuaciones al que pertenecen de modo
que sean funciones lineales.

DESCOMPOSICION DE LA VARIANZA
Se puede descomponer la variabilidad total de la muestra en variabilidad dentro de los
grupos y entre los grupos.

EXTRACCION DE LA FUNCIONES DISCRIMINANTES


La principal idea del anlisis discriminante consiste en extraer a partir de variables
observadas en grupos y funciones de forma.

PROCEDIMIENTO MATRICIAL
Se sigue un mtodo parecido al anlisis factorial, en el cual se busca una funcin lineal de
modo que la variabilidad entre grupos ms la variabilidad dentro de grupos.

Para maximizar la variabilidad entre los grupos para discriminarlos mejor y esto equivale a
hacer,

Anlisis Discriminante

Pgina 12

Aplicacin del El anlisis discriminante


El anlisis discriminante se utiliza para clasificar a distintos individuos en grupos o
poblaciones alternativos a partir de los valores de un conjunto de variables sobre
los individuos a los que se pretende clasificar. Ejemplo, que un director de una
sucursal bancaria necesita establecer algn criterio que para conceder o no los
prstamos que le son solicitados. Su misin es detectar si el solicitante
pertenecer en el futuro al grupo de los que devuelven los prstamos o si, por el
contrario, ser de aquellos que no lo hacen.
Supongamos que ese director tiene el historial de todos aquellos individuos que,
en el pasado, solicitaron prstamos. En esa historial figura, evidentemente, si
finalmente el prstamo fue devuelto o no, es decir, el director tiene clasificados a
los individuos en solventes e insolventes. Lo que se plantea ahora es si se puede
obtener algn tipo de funcin que le permita, ante una nueva solicitud, predecir a
cul de los dos grupos va a pertenecer el solicitante.
Para esto sirve el anlisis discriminante. Dada una poblacin, que tenemos
dividida en grupos, el anlisis discriminante encuentra una funcin que permite,
con un determinado grado de acierto, explicar esa divisin en grupos (visin
explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos individuos
en alguno de los grupos en que est dividida la poblacin.

Visin geomtrica del anlisis discriminante


Intentaremos ofrecer una intuicin geomtrica del anlisis discriminante que nos
servir, adems, para introducir algunos conceptos necesarios. Supongamos que
tenemos una poblacin que puede dividirse en dos grupos. Siguiendo con el
ejemplo inicial del director de banco: clientes solventes e insolventes.
Supongamos, tambin, que queremos ser capaces de explicar esa clasificacin
atendiendo a una nica variable, por ejemplo, el nivel de ingresos del cliente.
Anlisis Discriminante

Pgina 13

Como el director del banco tiene el historial de los crditos pasados que concedi,
sabe qu nivel de ingresos tenan los solventes y los insolventes. De esta
informacin podra obtenerse fcilmente la figura 4.

Figura 4. Funciones de discriminacin hipotticas de dos grupos

Un criterio que podra adoptar el director de banco para conceder o no un


prstamo, podra ser calcular la media de ingresos de los dos grupos. La media de
ambas medias (C) sera un buen punto de corte como se ilustra en la figura.
1. Si el nuevo solicitante tiene unos ingresos (X) superiores a C, se le
concede el prstamo y si los tiene inferiores no se le concede:

Anlisis Discriminante

Pgina 14

es decir, si X>C al individuo se le clasifica en el grupo de los solventes y si X<C en


el de los probables insolventes.
Este criterio, como tambin se observa en la figura 4, no es infalible, dado que en
la base de datos del director del banco hay clientes con unos ingresos inferiores a
C que s que devolvieron sus crditos y, por el contrario, hay clientes que tenan
ingresos superiores a esa cantidad y que acabaron siendo insolventes.
La misin del anlisis discriminante es obtener un criterio de clasificacin que
reduzca ese error. Es decir, encontrar una funcin discriminante que separe lo
mejor posible las dos poblaciones.
La figura 5, ilustra el caso anterior cuando utilizamos no una variable explicativa
(los ingresos), sino dos, por ejemplo, los ingresos y la edad del solicitante.

Anlisis Discriminante

Pgina 15

Figura 5 Anlisis discriminante con dos variables explicativas


En esta figura 5, se intenta ilustrar cmo, si en lugar de utilizar para clasificar una
de las dos variables X1 y X2 por separado, se utiliza una combinacin de ambas
D, el rea que recoge el error, es mucho menor. En sntesis, el anlisis
discriminante pretende encontrar aquella funcin discriminante:
D = u1X1 + u2X2 +K+ ukXk
que menor error de clasificacin produzca, donde X1...Xk son las k variables
explicativas y u1...uk son coeficientes de ponderacin.
Cuando a los individuos se les quiera clasificar en dos grupos, bastar con una
funcin discriminante D, pero si se les quiere clasificar en tres grupos, harn falta
dos funciones discriminantes. En general sern necesarias G-1 funciones
discriminantes donde G es el nmero de grupos en que se divide la poblacin,
figura 6.
Anlisis Discriminante

Pgina 16

Figura 6. Ilustracin del caso de tres grupos

Anlisis Discriminante con SPSS


Cuando se utiliza SPSS se suelen considerar varias fases en el anlisis
discriminante.
Comprobacin de los supuestos paramtricos del anlisis discriminante
En sentido estricto, la funcin discriminante minimiza la probabilidad de
equivocarse al clasificar los individuos en cada grupo. Para ello, las variables
originales se deben distribuir como una normal multivariante y las matrices de
covarianzas deben ser iguales en todos los grupos. En la prctica es una tcnica
robusta y funciona bien aunque las dos restricciones anteriores no se cumplan.
Si un conjunto de variables se distribuye como una normal multivariante, entonces
cualquier combinacin lineal de ellas se distribuye como una normal univariante.
Por ello, si alguna de las variables originales no se distribuye como una normal,
entonces es seguro que todas las variables conjuntamente no se distribuirn como
una normal multivariante.

Anlisis Discriminante

Pgina 17

La segunda restriccin se refiere a la igualdad entre las matrices de covarianzas


de los grupos. Para comprobar esto, se puede usar la prueba M de Box, que est
incluida en el
SPSS. Dicha prueba tiene como hiptesis nula que las matrices de covarianzas
son iguales.
Se basa en el clculo de los determinantes de las matrices de covarianzas de
cada grupo.
El valor obtenido se aproxima por una F de Snedecor. Si el p-valor es menor que
0,05 se rechaza la igualdad entre las matrices de covarianzas.
El test M de Box es sensible a la falta de normalidad multivariante, es decir,
matrices iguales pueden aparecer como significativamente diferentes si no existe
normalidad. Por otra parte, si las muestras son grandes, pierde efectividad (es
ms fcil rechazar la hiptesis nula).

Seleccin de las variables discriminantes


Primero se puede realizar un anlisis descriptivo univariante calculando las medias
y las desviaciones estndar de las variables originales para cada uno de los
grupos por separado. Si para alguna variable las medias de los grupos son
diferentes y la variabilidad es pequea, se considera que dicha variable ser
importante a la hora de discriminar a los grupos.
A continuacin, se observan las relaciones entre las variables. Se calculan
matrices de correlaciones en lugar de matrices de covarianzas por ser ms
fcilmente interpretables.
Adems de analizar la correlacin entre pares de variables sin distinguir grupos,
se debe analizar las correlaciones dentro de cada grupo y luego considerar la
media de las mismas. Se calcula tambin la matriz Pooled within-groups
correlation matrix. Dicha matriz se calcula como una matriz media de correlaciones
calculadas por separado en cada grupo. A menudo no se parece a la matriz de
correlaciones total por ejemplo:
Anlisis Discriminante

Pgina 18

Si se considera cada grupo por separado (1, 2 y 3), el coeficiente de correlacin


entre x1 y x2 es 0 (el hecho de variar x1 no influye en x2: la pendiente de la recta
de regresin es 0). Si hallamos la media de esos coeficientes, su valor es tambin
0; sin embargo, el coeficiente de correlacin calculado para todos los datos sin
tener en cuenta a los grupos est prximo a 1, porque cuando aumenta el valor de
x1 tambin lo hace el valor de x2.

Estadsticos usados
F de Snedecor se compara para cada variable las desviaciones de las medias de
cada uno de los grupos a la media total, entre las desviaciones a la media dentro
de cada grupo.
Si F es grande para cada variable, entonces las medias de cada grupo estn muy
separadas y la variable discrimina bien. Si F es pequea, la variable discriminar
poco, ya que habr poca homogeneidad en los grupos y stos estarn muy
prximos.
de Wilks Tambin se la denomina U-estadstico. Cuando se considera a las
variables de modo individual, la es igual al cociente entre la suma de cuadrados
dentro de los grupos y la suma de cuadrados total (sin distinguir grupos). Es decir,
equivale a las desviaciones a la media dentro de cada grupo, entre las
desviaciones a la media total sin distinguir grupos. Si su valor es pequeo, la
Anlisis Discriminante

Pgina 19

variable discrimina mucho: la variabilidad total se debe a las diferencias entre


grupos, no a las diferencias dentro de grupos.

Variables originales que se consideran


La idea del Anlisis discriminante es construir funciones lineales de las variables
originales que discriminen entre los distintos grupos. Sin embargo, no todas las
variables discriminan de la misma forma o tienen los mismos valores de la F de
Snedecor o de la de Wilks. Por ello, a la hora de construir las funciones lineales,
no es necesario incluir a todas las variables iniciales en la funcin.
Como criterio general para seleccionar una variable se emplea la seleccin del
valor de la de Wilks o, de modo equivalente, del valor de su F asociada.
Se usan fundamentalmente dos mtodos de seleccin de variables: el mtodo
directo y el mtodo stepwise.
En el mtodo directo se consideran todas las variables originales que verifiquen un
criterio de seleccin.
El mtodo stepwise es un mtodo que funciona con varios pasos:
1. Se incluye en el anlisis la variable que tenga el mayor valor aceptable para
el criterio de seleccin o de entrada.
2. Se evala el criterio de seleccin para las variables no seleccionadas. La
variable que presenta el valor ms alto para el criterio se selecciona
(siempre que est dentro de un lmite).
3. Se examinan las variables seleccionadas segn un criterio de salida y se
examinan tambin las variables no seleccionadas, para ver si cumplen el
criterio de entrada. Se excluyen o se incluyen variables segn cumplan los
criterios de entrada y de salida.
4. Se repite el paso (3) hasta que ninguna variable ms pueda ser
seleccionada o eliminada.

Anlisis Discriminante

Pgina 20

Adems de todo lo anterior, en el SPSS se considera un nmero mximo de


pasos, dado que una variable puede ser incluida y eliminada en ms de una
ocasin. Se toma el doble del nmero de variables originales como nmero
mximo de pasos del mtodo stepwise.

En el SPSS se considera tambin para cada variable la


tolerancia asociada.
Tolerancia
Se define para un conjunto de p variables, Ri, el coeficiente de correlacin mltiple
que expresa el porcentaje de variabilidad de la variable xi (i = 1, . . . , p) recogida
por el resto de (p 1) variables. Si se eleva al cuadrado R 2

se obtiene el

coeficiente de determinacin.
Entonces, la tolerancia se define como 1 R 2i . As, cuanto mayor sea la tolerancia
de una variable, ms informacin independiente del resto de variables recoger.
De este modo, si en una iteracin dada del procedimiento stepwise la variable
seleccionada verifica que su tolerancia con respecto a las variables ya incluidas en
la funcin discriminante es muy pequea entonces la variable no se incluye en
dicha etapa. As, se evita la redundancia de informacin.

Clculo de la F y de la de Wilks multivariantes para


fijar los criterios de entrada y salida
Para un conjunto de variables se define la F como

donde
|B| = determinante de la matriz de covarianzas entre grupos.

Anlisis Discriminante

Pgina 21

|W | = determinante de la suma de las matrices de covarianzas dentro de los


grupos.
En general, el determinante de una matriz de covarianzas da una medida de la
variabilidad total de un conjunto de variables.
A partir de este valor de F, se puede calcular la correspondiente de Wilks, ya que

donde
n = nmero de observaciones
k = nmero de grupos
p = nmero de variables
La F y la de Wilks se interpretan del mismo modo que en el caso univariante.
Cuando se comparan covarianzas entre grupos, se hace en base a los centroides
de los grupos, es decir, a los vectores de medias de las variables en cada grupo.

Estadsticos que se calculan en el procedimiento


stepwise
F de entrada (F to enter)
Expresa la disminucin en la de Wilks que se produce si se incluye una variable
dada entre las que no estn dentro de la funcin discriminante. Si el valor es
pequeo, la disminucin de la de Wilks ser inapreciable y la variable no entrar
en la funcin.

F de salida (F to remove):
Expresa el incremento que se produce en la de Wilks, si se elimina de la funcin
discriminante una variable dada. Si el valor de la F de salida es pequeo, el
incremento no ser significativo y la variable se eliminar del anlisis.
Anlisis Discriminante

Pgina 22

Correlacin Cannica
Da una medida del grado de asociacin entre las puntuaciones discriminantes de
cada uno de los objetos y el grupo concreto de pertenencia

es decir, es la proporcin de la variabilidad total debida a la diferencia entre grupos


para las funciones discriminantes.
Cuando slo se tienen dos grupos, la correlacin cannica es igual al coeficiente
de correlacin entre la puntuacin discriminante y el grupo de pertenencia, que se
representa por una variable codificada en 01 (en SPSS).

Significacin y coeficientes de las funciones


discriminantes
Cuando no existen diferencias entre los grupos, las funciones discriminantes slo
indican variabilidad aleatoria (ruido). Se puede usar la de Wilks para realizar un
test en el cual la hiptesis nula es que las medias de las funciones discriminantes
en cada grupo son iguales.
Cuando se tienen varios grupos y varias funciones, se calcula una de Wilks total
mediante el producto de las de Wilks de cada funcin. sta se puede aproximar
por una
2, usando la siguiente transformacin:

de modo que V 2

p(k1)

aproximadamente. De este modo, si es pequeo V es

grande y se rechaza la hiptesis nula.


Si la significacin asociada al valor de la 2 es menor que 0,05 (o bien otro valor
prefijado) se rechaza la hiptesis nula (a dicho nivel de confianza).
Anlisis Discriminante

Pgina 23

Interpretacin de los coeficientes de la funcin


discriminante
Si usamos variables originales tipificadas, se obtienen los coeficientes a ij que
relacionan las variables con las funciones discriminantes:

Se pueden interpretar las magnitudes de los coeficientes como indicadores de la


importancia relativa de las variables en cada funcin discriminante. As, si a ij es
grande en valor absoluto, entonces hay una fuerte asociacin entre la variable x j y
la funcin yi, en relacin al resto de variables. Aun as, al existir en general
correlaciones significativas entre las variables originales, se debe tener cuidado al
hacer interpretaciones precipitadas.

Matriz de estructura
Otra forma de calcular la contribucin de cada variable a una funcin discriminante
es examinar las correlaciones entre los valores de la funcin y los valores de las
variables.
Se calculan, dentro de cada grupo, las correlaciones entre las variables y las
puntuaciones; luego se combinan en una matriz pooled within-groups correlation
matrix. Los valores obtenidos dan una medida de las contribuciones.

Clasificacin de los objetos


Una vez calculadas las funciones discriminantes, es decir, las combinaciones
lineales de las variables originales, a cada objeto se le puede asignar una
puntuacin o valor dado en la funcin discriminante.

Anlisis Discriminante

Pgina 24

Esto equivale al valor que se recoge en una ecuacin de regresin. As, si x ij es el


valor que alcanza el objeto i-simo en la variable j-sima, entonces la puntuacin o
valor alcanzado en la funcin discriminante k ser:

Regla de Bayes
Se pueden usar las puntuaciones discriminantes para obtener una regla para
clasificar los casos en los grupos. En el SPSS se usa la regla de Bayes.
As, la probabilidad de que un objeto j, con una puntuacin discriminante D =
(yj1, ..., yjm), pertenezca al grupo i-simo se puede estimar mediante la regla de
Bayes:

P (Gi) es la probabilidad a priori y es una estima de la confianza de que un objeto


pertenezca a un grupo si no se tiene informacin previa. Por ejemplo, si 75 de 120
personas sobreviven en la muestra, la probabilidad de sobrevivir se aproxima por
75/120.
Las probabilidades a priori se pueden determinar de distintos modos. Si la muestra
se considera representativa de la poblacin, se pueden usar las proporciones de
los casos en cada grupo como estimadores de dichas probabilidades. Cuando
todos los grupos tienen el mismo nmero de objetos y no se tiene ningn tipo de
informacin previa, se asignan probabilidades a priori iguales para todos los
grupos.
P (D|Gi) es la probabilidad de obtener la puntuacin D estando en el grupo i-simo.
Como las puntuaciones discriminantes se calculan a partir de combinaciones
lineales de p variables, distribuidas segn una normal, se distribuyen a su vez

Anlisis Discriminante

Pgina 25

como una normal, cuya media y varianza se estiman a partir de todas las
puntuaciones que se recogen en el grupo i-simo.
P (Gi|D) es la probabilidad a posteriori que se estima a travs de P (G i) y de P (D|
Gi).
En realidad, mide lo mismo que la P (G i), pero refina la medida de incertidumbre al
tener en cuenta la informacin que recogen las puntuaciones discriminantes D. Es
decir, lo que interesa es calcular la probabilidad de que un objeto pertenezca al
grupo Gi, dado que presenta la puntuacin D.
Se asignar un objeto al grupo G i cuya probabilidad a posteriori sea mxima, es
decir, dado que presenta la puntuacin D.

Matriz de confusin
Da una idea de la tasa de clasificaciones incorrectas. Como se sabe el grupo al
que pertenece cada objeto, se puede comprobar la efectividad del mtodo de
clasificacin usando la mxima probabilidad a posteriori, cuando se observa el
porcentaje de casos bien clasificados. No obstante, se tiene que tener en cuenta
tambin la tasa de clasificaciones incorrectas esperadas segn las probabilidades
a priori.

Anlisis Discriminante

Pgina 26

Ejemplo
Se consideran los datos recogidos sobre 32 crneos en el Tibet.

Anlisis Discriminante

Pgina 27

Los datos corresponden a dos tipos raciales diferentes en los que se practicaron
diferentes medidas antropomtricas de longitudes, anchuras de crneo y de cara.
Se trata de hacer un anlisis discriminante sobre los dos tipos raciales.
Se toma una muestra de 50 vehculos producidos en EE.UU, Japn y Europa. Se
consideran las siguientes variables: Consumo, Cilindrada, Potencia, Peso,
Aceleracin, Ao del modelo y Nmero de cilindros. Se trata de hacer un anlisis
discriminante sobre los tres tipos de vehculos, en funcin de su origen.

Anlisis Discriminante

Pgina 28

Anlisis Discriminante

Pgina 29

Media, desviacin tpica, nmero de casos vlidos (ponderado y no ponderado)


para cada uno de los grupos y para la muestra total:

Anlisis Discriminante

Pgina 30

Tabla de ANOVA con estadsticos F que permiten contrastar la hiptesis de


igualdad de medias entre los grupos en cada variable independiente. La tabla de
ANOVA incluye tambin el estadstico lambda de Wilks univariante. La informacin
Anlisis Discriminante

Pgina 31

de esta tabla suele utilizarse como prueba preliminar para detectar si los grupos
difieren en las variables de clasificacin seleccionadas; sin embargo, debe tenerse
en cuenta que una variable no significativa a nivel univariante podra aportar
informacin discriminativa a nivel multivariante.

Correlacin

intra-grupos.

Muestra

la

matriz

de

correlaciones

intra-grupo

combinada, es decir la matriz de correlaciones entre las variables independientes


estimada a partir de las correlaciones obtenidas dentro de cada grupo.

Box's Test of Equality of Covariance Matrices

Anlisis Discriminante

Pgina 32

Anlisis Discriminante

Pgina 33

Anlisis Discriminante

Pgina 34

Anlisis Discriminante

Pgina 35

Anlisis Discriminante

Pgina 36

Anlisis Discriminante

Pgina 37

Validacin cruzada: para comprobar la capacidad predictiva de la funcin


discriminante, para ello el SPSS genera tantas funciones discriminantes como
casos vlidos tiene el anlisis; cada una de esas funciones se obtiene eliminando
un caso; despus, cada caso es clasificado utilizando la funcin discriminante en
la que no ha intervenido.

Anlisis Discriminante

Pgina 38

Anlisis Discriminante (con R)

Anlisis Discriminante

Pgina 39

Anlisis Discriminante

Pgina 40

Conclusiones
El anlisis discriminante es una tcnica de clasificacin donde se busca obtener una
funcin la cual clasifica sujeto a partir del conocimiento de los valores de ciertas variables
que pueden discriminarse.
Se deben conocer las caractersticas de los grupos antes del anlisis; as tambin a qu
grupo son miembros ciertos individuos de los que tambin se conoce sus valores en las
variables discriminantes.
Para el clculo de las variables discriminantes es necesario contar con un software de
anlisis de datos tal como SPSS.
El anlisis discriminante es un anlisis ayuda a comprender las diferencias entre grupos;
as mismo da razn mediante funciones de variables mtricas del porqu los casos de
estudio se encuentran asociados a distintos niveles de un factor.

Anlisis Discriminante

Pgina 41

E-GRAFIA
https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema-20-analisisdiscriminante/
https://www.uam.es/personal_pdi/economicas/eva/pdf/discriminante.pdf
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENTACION/DISCRIMI
NANTE/analisis-discriminante.pdf
http://www.ugr.es/~bioestad/_private/cpfund8.pdf
http://pendientedemigracion.ucm.es/info/socivmyt/paginas/D_departamento/materiales/an
alisis_datosyMultivariable/23discr_SPSS.pdf
https://es.wikipedia.org/wiki/Significaci%C3%B3n_estad%C3%ADstica
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/AMult/tema6am.pdf

Anlisis Discriminante

Pgina 42

También podría gustarte