La CHI o Ji CUADRADa

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 13

TEMA:

La Chi – Ji cuadrada

RESPONSABLE:
Mg. Mejía Benavides, Aníbal

DOCENTE:
Dr. Manuel Eduardo Saavedra Nuñez

ASIGNATURA:
Desarrollo de Investigación

PERÚ – 2014
LA CHI O JI CUADRADA

EL ÍNDICE "CHI (JI) CUADRADO" SE DEFINE:

Donde:
FE: Frecuencia Empírica, o frecuencia observada
FT: Frecuencia Teórica o frecuencia esperada

El índice ji cuadrado se basa en la comparación de las frecuencias bivariadas


obtenidas a partir de los datos (frecuencias empíricas) con las frecuencias que
resultarían si no hubiere relación de asociación entre las variables (frecuencias
teóricas).

Las frecuencias teóricas pueden ser obtenidas a partir de un razonamiento sencillo:


si no hubiere asociación entre x e y, cada una de las modalidades de cada variable
estaría emparejada con cada una de las modalidades del otra variable. Si no hay
emparejamiento significa que hay asociación entre las variables.

El cálculo consiste en:

a) Sumar cada fila y cada columna, obteniendo las renombradas distribuciones


marginales (que son las de cada variable por separado).
b) Para cada casilla del interior de la Tabla, obtener el producto de la casilla de su
marginal fila por la casilla de su marginal columna y dividir por N (número de
casos).
EXPLICACIÓN DE LOS GRADOS DE LIBERTAD USADOS EN LA
DISTRIBUCIÓN CHI CUADRADO:

Dentro de la Distribución Ji Cuadrado los denominados «Grados de Libertad»


atribuibles a un conjunto de variables equivalen al número de datos independientes
entre sí existentes dentro de ese conjunto que es necesario conocer previamente
para poder estimar el valor de cualquier otro dato independiente del mismo grupo.

Por ejemplo, si se afirma que en un cesto hay un conjunto de 10 manzanas,


conformado por 2 clases independientes de manzanas, pues algunas de esas 10
manzanas son de color rojo y otras son de color verde, entonces en tal caso basta
con saber que en el cesto hay 4 manzanas rojas para poder calcular inmediatamente
que las restantes son 6 manzanas de color verde, es decir, en este caso hay 2
clases de datos independientes entre sí (rojas y verdes), pero para poder conocer el
valor de una clase de esos dos datos es siempre necesario conocer previamente el
valor de la otra clase de datos, motivo por el cual se concluye que el Grado de
Libertad o el grado de independencia existente entre las dos clases de datos tiene
un valor de uno (1).

En otro ejemplo, si se afirma que en una sala hay un conjunto de 30 personas,


conformado por 3 clases de razas independientes entre sí, pues algunas de esas
personas son caucásicas, otras son negras y otras son asiáticas, entonces basta
con saber que en la sala hay 12 personas caucásicas y 9 negras para poder calcular
exactamente que las restantes 9 personas son asiáticas, es decir, en este caso hay
3 clases de datos independientes entre sí, pero para poder conocer cuál es el valor
de una clase particular de esos datos es siempre necesario conocer previamente el
valor de las otras 2 clases de datos; en otras palabras, si sólo se sabe que en la sala
hay 12 personas caucásicas, ese dato resulta insuficiente para poder saber con
exactitud cuántas son negras y cuántas son asiáticas dentro de las restantes 18
personas de la sala, y si sólo se sabe que en la sala 9 personas son asiáticas, ese
dato por sí sólo también resulta insuficiente para poder saber cuántas son negras y
cuántas son caucásicas dentro de las restantes 21 personas de la sala, motivo por el
cual se concluye que el Grado de Libertad o grado de independencia existente
entre las tres clases de datos tiene un valor de 2, pues únicamente conociendo el
valor de 2 clases de datos se puede saber con exactitud cómo están distribuidas las
tres clases de razas dentro de la población total del conjunto analizado.

En otro ejemplo, si se afirma que existe un conjunto formado por 5 números


diferentes que al ser sumados dan como resultado 24, en tal caso no es
indispensable conocer previamente todos los cinco números que conforman el
conjunto, pero para poder calcular el valor exacto de cualquiera de los 5 números
que conforman ese conjunto sí es necesario conocer al menos 4 de esos 5 números,
como podría ocurrir con la combinación conformada por los siguientes cinco
números: 4+3+10+2+X = 24, combinación en la cual necesariamente se requiere
conocer al menos 4 números para poder calcular directamente que el quinto número
desconocido (representado por la X) es un 5, es decir, el Grado de Libertad existente
entre los cinco datos diferentes tiene un valor de 4.

En síntesis, el Grado de Libertad, que usualmente se representa por las letras G.L.,
equivale a restarle 1 a un conjunto conformado por k variables consideradas
independientes entre sí, lo cual se resume en la fórmula:

G.L. = k − 1.

Así, si el conjunto contiene 5 variables consideradas independientes entre sí,


entonces el Grado de Libertad que le corresponde a cualquier variable de ese
conjunto es de: G.L. = 5−1 = 4, lo que equivale a que en ese conjunto sólo 4
variables una vez conocidas pueden operar de manera independiente sin necesidad
de que deba ser conocido el valor exacto de la quinta variable del conjunto. Y si el
conjunto contiene 2 variables independientes, como en el ejemplo de las manzanas
verdes y las manzanas rojas, entonces el Grado de Libertad es 1, ya que: G.L. = 2−1
= 1, lo que equivale a que en ese conjunto sólo una variable ya conocida puede
operar de manera independiente sin necesidad de que deba ser conocido el valor
exacto de la otra.

Por ejemplo, si se afirma que en un cesto hay un conjunto de 10 manzanas,


conformado por 2 clases independientes de manzanas, pues algunas de esas 10
manzanas son de color rojo y otras son de color verde, entonces en tal caso basta
con saber que en el cesto hay 4 manzanas rojas para poder calcular inmediatamente
que las restantes son 6 manzanas de color verde, es decir, en este caso hay 2
clases de datos independientes entre sí (rojas y verdes), pero para poder conocer el
valor de una clase de esos dos datos es siempre necesario conocer previamente el
valor de la otra clase de datos, motivo por el cual se concluye que el Grado de
Libertad o el grado de independencia existente entre las dos clases de datos tiene
un valor de uno (1).

En otro ejemplo, si se afirma que en una sala hay un conjunto de 30 personas,


conformado por 3 clases de razas independientes entre sí, pues algunas de esas
personas son caucásicas, otras son negras y otras son asiáticas, entonces basta
con saber que en la sala hay 12 personas caucásicas y 9 negras para poder calcular
exactamente que las restantes 9 personas son asiáticas, es decir, en este caso hay
3 clases de datos independientes entre sí, pero para poder conocer cuál es el valor
de una clase particular de esos datos es siempre necesario conocer previamente el
valor de las otras 2 clases de datos; en otras palabras, si sólo se sabe que en la sala
hay 12 personas caucásicas, ese dato resulta insuficiente para poder saber con
exactitud cuántas son negras y cuántas son asiáticas dentro de las restantes 18
personas de la sala, y si sólo se sabe que en la sala 9 personas son asiáticas, ese
dato por sí sólo también resulta insuficiente para poder saber cuántas son negras y
cuántas son caucásicas dentro de las restantes 21 personas de la sala, motivo por el
cual se concluye que el Grado de Libertad o grado de independencia existente
entre las tres clases de datos tiene un valor de 2, pues únicamente conociendo el
valor de 2 clases de datos se puede saber con exactitud cómo están distribuidas las
tres clases de razas dentro de la población total del conjunto analizado.

En otro ejemplo, si se afirma que existe un conjunto formado por 5 números


diferentes que al ser sumados dan como resultado 24, en tal caso no es
indispensable conocer previamente todos los cinco números que conforman el
conjunto, pero para poder calcular el valor exacto de cualquiera de los 5 números
que conforman ese conjunto sí es necesario conocer al menos 4 de esos 5 números,
como podría ocurrir con la combinación conformada por los siguientes cinco
números: 4+3+10+2+X = 24, combinación en la cual necesariamente se requiere
conocer al menos 4 números para poder calcular directamente que el quinto número
desconocido (representado por la X) es un 5, es decir, el Grado de Libertad existente
entre los cinco datos diferentes tiene un valor de 4.

En síntesis, el Grado de Libertad, que usualmente se representa por las letras G.L.,
equivale a restarle 1 a un conjunto conformado por k variables consideradas
independientes entre sí, lo cual se resume en la fórmula:

G.L. = k − 1.

Así, si el conjunto contiene 5 variables consideradas independientes entre sí,


entonces el Grado de Libertad que le corresponde a cualquier variable de ese
conjunto es de: G.L. = 5−1 = 4, lo que equivale a que en ese conjunto sólo 4
variables una vez conocidas pueden operar de manera independiente sin necesidad
de que deba ser conocido el valor exacto de la quinta variable del conjunto. Y si el
conjunto contiene 2 variables independientes, como en el ejemplo de las manzanas
verdes y las manzanas rojas, entonces el Grado de Libertad es 1, ya que: G.L. = 2−1
= 1, lo que equivale a que en ese conjunto sólo una variable ya conocida puede
operar de manera independiente sin necesidad de que deba ser conocido el valor
exacto de la otra.

Algunos
valores de Probabilidad de ocurrencia de X según los Grados de Libertad aplicados:
X
1 1 grado = 0,31731081 2 grados = 0,60653066 3 grados = 0,80125196 20 grados = 1
2 1 grado = 0,15729926 2 grados = 0,36787944 4 grados = 0,73575888 25 grados = 1
5 1 grado = 0,02534732 5 grados = 0,41588023 8 grados = 0,75757614 36 grados = 1
10 1 grado = 0,0015654 10 grados = 0,44049329 13 grados = 0,69393438 49 grados = 1
20 1 grado = 0,0000077442 20 grados = 0,45792971 25 grados = 0,74682532 71 grados = 1
50 1 grado = 0,000000000001 50 grados = 0,47339846 57 grados = 0,73283137 124 grados = 1
EJEMPLO 1:

A continuación se aplica la fórmula obteniendo para cada casilla del cuerpo central
de la Tabla el cuadrado de la diferencia entre la frecuencia empírica y la teórica,
dividiéndolo por la frecuencia teórica. La suma total es el valor del estadístico Ji
Cuadrado:

PRINCIPALES CARACTERÍSTICAS

A) El índice ji cuadrado tiene valor mínimo 0, que indica no asociación entre las
variables.
B) No hay máximo, por lo que no se puede hacer comparaciones entre
diferentes variables.
EJEMPLO 2:

f f
eó o

ft - fe

Aplicando la fórmula de la ji cuadrada

DONDE:
FE - FO: Frecuencia Empírica o frecuencia observada
FT - FE: Frecuencia Teórica o frecuencia esperada

Asimismo, se observa que la tabla tiene tres filas y dos columnas, lo que significa
que podemos tener 6 posibles combinaciones entre filas y columnas, como se
observa en la siguiente tabla para hallar la ji cuadrada:

COMPROBACIÓN DE HIPÓTESIS:

EJEMPLO:

HIPÓTESIS NULA: HO = no hay relación en las variables

HIPÓTESIS ALTERNATIVA: H1 = Hay relación en las variables


POR LO TANTO:

Calculamos los grados de libertad, se determina la suma del número de filas menos
uno y s multiplica número de columnas menos un:

Gl = (3-1) (2-1) = 2

Sabiendo que la Chi cuadrada es de X2 = 15.52

Luego, se toma la tabla de la Chi cuadrada y se busca los grados de libertad


que obtuvimos, que en este caso son 2:

POR LO TANTO: Elegimos una de las columnas, es necesario tomar el nivel de


mayor confianza.

Llamaremos alfa (  ) a una de estas columnas, este valor hace referencia al nivel de
confianza que deseamos que tengan los cálculos de la prueba; es decir, si queremos
tener un nivel de confianza de 95%, el valor de alfa debe ser del 0.05, lo cual
corresponde al complemento porcentual de la confianza.

Tomando los grados de libertad de 2 y el valor de alfa de 0.05, e interceptamos


dichos valores en la tabla obtenemos el valor de 5,99.

Y en esta ocasión nos dice que para aceptar la hipótesis nula chi cuadrada pudo
haber tenido el valor de 5.99, para nuestro ejercicio chi cuadrada es de 15.52 es un
valor más grande que el valor que parce aquí, por lo tanto se desecha la hipótesis
nula y acepta la hipótesis alternativa, que en este caso hay relación entre las
variables raza y la preferencia por el partido político
USO DE EXCEL PARA CALCULAR LA PROBABILIDAD DENTRO DE LA
DISTRIBUCIÓN CHI CUADRADO:

Actualmente para obtener el valor


de la probabilidad que le
corresponde a una variable X
dentro de una Distribución Chi
Cuadrado el lector puede utilizar
ciertas tablas que fácilmente se
consiguen en la Web y que
contienen esos valores de
probabilidad, o puede utilizar la
útil función «DISTR.CHI» de la
hoja de cálculo Excel de
Microsoft que facilita
enormemente esa labor como se señala a la figura:

En primer lugar, como se


observa en la anterior
imagen, basta abrir un libro
en blanco y situar el curso
en cualquier celda vacía. A
continuación se activa la
pestaña «Insertar» de la
barra de herramientas y se
selecciona insertar
«Función». En el cuadro de
diálogo que se abre se
escoge la categoría de las
funciones «Estadísticas», y
dentro de esta categoría luego se selecciona la función «DISTR.CHI» y se oprime
Aceptar.
En el nuevo cuadro de diálogo que automáticamente se abre para incluir los
argumentos de la función aparecen dos casillas vacías. La primera casilla es para
incluir cualquier posible valor ubicado entre cero y el infinito que pueda asumir la
variable X, y la segunda casilla es para incluir los Grados de Libertad que le
corresponden a ese valor dentro de un conjunto de variables similares. Por ejemplo,
podemos asumir que X tiene un valor de 2 y que tiene un (1) solo Grado de Libertad
frente a otra variable similar, y al introducir estos datos en las casillas respectivas se
observa que la hoja de cálculo inmediatamente arroja el valor de probabilidad
equivalente a 0,157299265.

VARIACIÓN DE LA PROBABILIDAD EN LA DISTRIBUCIÓN CHI CUADRADO


SEGÚN LOS GRADOS DE LIBERTAD:

Las siguientes gráficas, basadas en el uso de la hoja de cálculo Excel, muestran que
cuando X tiene un valor de 2, su probabilidad de ocurrencia según una Distribución
Chi−Cuadrado se incrementa bastante a medida que aumentan los Grados de
Libertad que son atribuibles a ese valor respecto de otras variables similares de un
mismo conjunto:
Estas gráficas muestran que con 2 Grados de Libertad la probabilidad de ocurrencia
del valor 2 asignado a X es tan sólo de 0,367879. Con 3 Grados de Libertad la
probabilidad de ocurrencia del valor 2 se incrementa hasta 0,572406. Con 20 Grados
de Libertad la probabilidad de ocurrencia del valor 2 asignado a X se incrementa
enormemente hasta 0,999999, lo que indica que su ocurrencia se vuelve altamente
probablemente. Y finalmente, con 25 Grados de Libertad la probabilidad de
ocurrencia del valor 2 es prácticamente segura, porque adquiere un valor de
probabilidad equivalente a 1.

Lo anterior es algo que no sólo le ocurre al valor 2 asignado a X, sino que también le
ocurre a cualquier otro valor entre 0 y el infinito (∞) ubicado sobre el eje horizontal
que pueda ser asumido por la variable aleatoria X. Es decir, en una Distribución Chi
Cuadrado todo valor que pueda asumir la variable X con un solo Grado de Libertad
tiene un determinado valor de probabilidad dentro de la escala que va de 0
(Improbable) hasta 1 (Muy Probable), pero a partir de ese valor de probabilidad se
observa que entre más se incrementen los respectivos Grados de Libertad,
entonces el valor de la probabilidad tiende a aumentar paulatinamente hasta llegar a
1 (Muy Probable).

La siguiente tabla, acompañada por el gráfico que representa del valor de la


probabilidad, incluye algunos valores del eje horizontal que pueden ser asumidos por
la variable X, y se muestra que dentro de la Distribución Chi Cuadrado todos esos
valores tienen una probabilidad de ocurrencia muy baja cuando sólo les corresponde
un Grado de Libertad, pero entre más se incrementan los Grados de Libertad
aplicables al valor de X, entonces se observa que aumenta considerablemente el
valor de su probabilidad hasta que en cierto punto llega hasta 1:

REFERENCIAS BIBLIOGRÁFICAS

 BARBOIANU, Catalin. Probability Guide to Gambling: The mathematics of dice,


slots, roulette, baccarat, blackjack, poker, lottery and sport bets. 2006.
 CUADRAS, Carles. Problemas de probabilidades y estadística.  P.P.U.,
Barcelona, 1990.
 FERRIS J. R., McGraw Hill. Libro de estadística para las ciencias sociales.
Méxic; Bogota. 2008.
 FREUND, John, y otros. Estadística matemática con aplicaciones. Prentice Hall,
1987.
 GROEBNER, D.; SHANNON, P.; FRY, P.; SMITH, K. Business statistics: a
decision making approach. Prentice Hall, 6a edición.
 HINKELMANN, Klaus, y KEMPTHOME, Oscar. Design and analysis of
experiments. Wiley, New York, 2008.
 THORP, Edward. Elementary probability. Wiley & Sons, New York, 1976. 
 TIJMS, Henk. Understanding probability: Chance rules in everyday life.
Cambridge University Press, 2004.
 WIKIPEDIA. Consulta de los términos: Chi-Square Distribution; Chi-Square Test;
Degree of Freedom; Descriptive Statistics; Pearson's Chi Square Test; Probability
Theory; Statistical Hypothesis Test; Statistical Randomness; Statistical Theory.  

También podría gustarte