Analisis Estadistico
Analisis Estadistico
Analisis Estadistico
La Era de la Información
Almacenamiento de Datos
Cuando se investiga una población de individuos en una o más
características, la lógica nos dice que al menos deben
estudiarse algunos individuos que Representen al grupo. A
estos individuos que llamaremos Muestras, se les toman una o
varias medidas conocidas como Datos, importantes para los
fines de la investigación. Al origen de una o más variables se le
conoce como Observación.
La modernidad nos permite que las observaciones sean
capturadas, almacenadas y tratadas en un Ordenador. En este
curso se agregará:
Y analizarlas con las herramientas estadísticas de uso
general que el mismo ordenador opera.
El Propósito de la Investigación. 5
Para que el proyecto sea útil, el Análisis de los Resultados debe derivar en
Conclusiones y Recomendaciones.
En todo el proyecto de investigación se han considerado directa o
indirectamente dos posiciones bien definidas:
La del Investigador cuyos fines usualmente son prácticos y más de las
veces económicos;
Y las de los usuarios de los productos resultantes de la investigación.
Las Técnicas Estadísticas consideran estas posiciones mediante las
probabilidades:
De confianza que tiene el investigador de recomendar las conclusiones
del proyecto;
De riesgo que corre el “comprador” de los productos resultantes de la
investigación.
También conocidos respectivamente como error del fabricante y error del
consumidor .
Puntualización 10
Debe puntualizarse:
EL TIPO DE DISTRIBUCIÓN DE LOS DATOS ES INDISPENSABLE
PARA APROXIMARSE A POBLACIÓN QUE LOS ORIGINA USANDO
TÉCNICAS ESTADÍSTICAS.
Poblaciones a las que se les toman datos métricos —kilos, metros, litros,
libras, onzas...— para ser caracterizadas deberán ser aproximadas
mediante distribuciones de tipo Continuo.
Para los fines de este curso interesa en especial la denominada:
DISTRIBUCIÓN NORMAL
Y más específicamente:
LA DISTRIBUCIÓN NORMAL ESTÁNDAR
Que ha dado origen a poderosas herramientas de análisis y proyección.
14
Problema 1.1
Mediante un ejemplo se ilustrará el concepto de distribuciones de datos.
Una inversor ha decidido colocar su dinero en un proyecto agrícola
consistente en la reproducción de una especie de gallina con muchas
posibilidades en la producción de carne. El inversor confía en su socio, un
zootecnista dedicado a la crianza de aves pues, sabe poco de estas, pero si
conoce de análisis de la producción y sobre todo, del flujo de dinero
encargándose del análisis de los datos.
Ha considerado tres variables:
•El número de huevos que una gallina pone en una año, dato de tipo
discreto;
•El peso de los huevos, dato de tipo continuo;
•El número de machos y hembras que nacieron de los huevos, dato de
tipo cualitativo.
Por facilidad de análisis se iniciará con la variable de tipo continuo.
19
La Hoja Electrónica
Un motor del avance de la especie humana ha sido la
consecución de instrumentos que hagan la vida del hombre
más cómoda y que son universalmente aceptados, excepto por
individuos reactivos al cambio, como aquél ingeniero que
prefieren la regla de cálculo a la computadora. Al que sus
compañeros de generación ven como un “bicho raro”.
El criterio del profesor es abordar el veloz autobús de la
modernidad utilizando las herramientas modernas de uso
general para el tratamiento informático de datos. Con los
riesgos que esto implica para el estudiante poco dedicado que
supone, por simple pachorra mental, que la herramienta lleva
implícita la base teórica que soportará las conclusiones y
recomendaciones de los proyectos.
20
EL Intervalo de Clases.
Se iniciará el trabajo con la variable continua, el peso promedio de los
huevos. Al ser un promedio, el resultado de una división, la variable se
transforma en una variable continua o muy aproximadamente continua.
La técnica que se ha desarrollado para observar las distribuciones de
datos consiste en establecer un determinado número de clases, entre 5 y 15
considerando intervalos igualmente distanciados que incluyan a todos los
individuos de la población. Después, de acuerdo a su valor, cada individuo
se asignará a la clase correspondiente llevando un conteo que se
acomodará en una tabla especialmente diseñada para el caso.
Una regla empírica nos dice que un indicador del tamaño de las clases se
puede obtenerse dividiendo la Desviación Estándar entre 2 y 4. Después
dividir el Rango por este número y eligiendo el número de clases,
usualmente entre 7 y 21.
Se irán utilizando formulas y estadísticos que serán definidos en el
momento oportuno, por el momento, se mostrarán las instrucciones de la
HE y la fórmula.
22
El Número de Clases
La Desviación Estándar es un estadístico que ofrece una idea de la
variación de la población. Se identifica con una s y se obtiene en la HE
mediante:
s = DESVEST(B12 : B291) 14,3017
Una idea del intervalo de clases o tamaño de clases se obtiene dividiendo
por 2 y por 4.
s 14,3017 s 14,3017
IC 7,15; IC 3,58
2 2 4 4
Dividiendo el Rango = Máximo - Mínimo entre ambos Intervalos de Clase
se obtendrán los números de clase extremos.
r MAX($B$12 : $B$291) MIN($B$12 : $B$291) 76,2
NC 11
IC 7,15 7,15
r 76,2
NC 21
IC 3,58
Herramientas Gráficas
Hitograma y Polígono de Frecuencias de una
variable continua
60
Frecuencia de huevos 50
40
30
20
10
0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5
Frecuencias Relativas
Frecuencias Relativas
Nº Clase L. Inferior Pto. Medio L. Superior Absoluta Ascendente Descendente
0 7,5 10,5 13,4 0,0 0,0 100,0
1 13,5 16,5 19,4 1,1 1,1 98,9
2 19,5 22,5 25,4 1,1 2,1 97,9
3 25,5 28,5 31,4 5,4 7,5 92,5
4 31,5 34,5 37,4 8,2 15,7 84,3
5 37,5 40,5 43,4 8,6 24,3 75,7
6 43,5 46,5 49,4 14,6 38,9 61,1
7 49,5 52,5 55,4 17,9 56,8 43,2
8 55,5 58,5 61,4 15,0 71,8 28,2
9 61,5 64,5 67,4 12,9 84,6 15,4
10 67,5 70,5 73,4 6,8 91,4 8,6
11 73,5 76,5 79,4 5,4 96,8 3,2
12 79,5 82,5 85,4 2,5 99,3 0,7
13 85,5 88,5 91,4 0,7 100,0 0,0
14 91,5 94,5 97,4 0,0 100,0 0,0
60 60
de la variable.
50 50
40 40
30 30
20 20 El estadígrafo de orden que
mejor se comprende es la
10 10
0 0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5
Medina. Valor que divide a los
Peso del huevo en gramos
datos en dos subconjuntos con
Ascendente Descendente
los mismos elementos.
n 1 280 1
Está ubicada en la posición media de los estadígrafos de orden: 140,5
2 2
Esto es, el valor que presenta la observación 140. Sin la ayuda de la HE, los
datos se debían ordenar a mano y ubicar la observación, a la HE se le
solicita.:
~
x = MEDIANA(B1 2 : B291) 53,2
30
Utilidad de la Ojivas
Si la cantidad de observaciones es par, la mediana es el promedio del valor
para el estadístico mediano x140 y el siguiente x141. En el ejemplo
x140 = K.ESIMO.MENOR($B$12 : $B$291;140) 53,1
Y
x141 = K.ESIMO.MENOR($B$12 : $B$291;141) 53,3
Por tanto:
~ x x141 53,1 53,3
x 140 53,2
2 2
La Mediana en la ojiva se identifica por ser la línea que parte de los
valores de los márgenes en 50% y cae en el eje x sobre el valor 53,2. De la
misma manera se pueden obtener los cuartos o cuartiles y en general
cualquier percentil mediante la fórmula, ejemplificada para los cuartiles;
kp
n 1P ; k 25
280 125 70,25; k 75
( 280 1)75
210,75
100 100 100
Solicitados a ~
x25 = CUARTIL($B$12 : $B$291;1) 43,75;
la HE: ~
x75 = CUARTIL($B$12 : $B$291;3) 63,025
31
Variables Estándar
Una alternativa para obtener valores relativos es estandarizar las
variables, esto es, dividir la diferencia entre un dato yi con respecto al
Promedio entre la Desviación Estándar.
xi x
zi
s
Esta variable z posee unas características muy importantes en estadística,
por el momento nos interesa saber que el promedio de las variables
estandarizadas es 0 y que la desviación estándar es 1.
n n
zi
iz z 2
z i 1
0; s z i 1
1
n n 1
32
La Normal Estándar
Lo trascendente de esta variable Z es que existe una Distribución de
Probabilidad ampliamente estudiada en el Teoría Estadística que posee
media 0 y varianza 1. Que como de mencionó en la diapositiva 18, todas
las probabilidades bajo el área bajo la curva están determinadas.
Entonces, si la distribución de datos estandarizada es similar a la
distribución de probabilidad estadística, con esta se puede aproximar sin
dificultad y efectuar estimaciones y proyecciones con probabilidades.
La Distribución Normal Estándar tiene forma de campana, tal que también
se le conoce como campana de Gaus [Carl Friedrich Gauss (30 Abril 1777
– 23 Febrero 1855)] . Es simétrica y se aproxima muy apropiadamente a
variables biológicas, sociológicas, provenientes de procesos de fabricación
y muchas otras de tipo continuo.
33
fx
i 1
i i
x c
f
i 1
i
x
i 1
i
x
n
f i xi x
2
s2 i 1
m
fi 1
i 1
Propiedades de la Media
La propiedad más importante del valor promedio es:
La suma de las desviaciones de las observaciones con respecto al promedio
es cero;
n
D d i x1 x ( x2 x ) ... ( xn x ) 0
i 1
i 1
Propiedades de la Varianza
El promedio ajustado de las desviaciones cuadráticas tiene la propiedad de
ser la suma cuadrática mínima en una distribución. Al requerir del cálculo
previo de la media, sus propiedades están sujetas a las propiedades de la
media, por esto a la primera se le llama Primer Momento y a la segunda
Segundo Momento Muestrales.
Por si sola la varianza no indica valores útiles, al sacársele la raíz
cuadrada se obtiene la Desviación Estándar que es un indicador de la
variación de la población. Se espera que en el intervalo de más y menos
una Desviación Estándar del promedio se ubiquen poco más o menos el
68% de los datos como se puede comprobar en la HE. Por tanto, cuando
en trabajos de investigación se observe la expresión:
x s
Debe entenderse, para el caso del ejemplo:
Pr obabilidad38,67 X 67,48 68%
38
40
cuadrada que indica un
30
84,66% de que las
frecuencias observadas y
20
10
esperadas se parezcan.
0
10,5 16,5 22,5 28,5 34,5 40,5 46,5 52,5 58,5 64,5 70,5 76,5 82,5 88,5 94,5 Estadísticamente suficiente
Peso en gramos para considerarlas iguales.
Esperada Observada
39
La Variable Cualitativa:
Sexo del Producto.
La Distribución Binomial
Frecuencia en 28 bandejas
esperadas en azul se aprecia 6
5
una tendencia similar. Como 4
en el caso de la distribución 3
2
Normal, los resultados del 1
Estadísticas Descriptivas
Huevos
Los estadísticos importantes
para determinar si la
Media 178,436
Error típico 3,581
distribución de los datos
Mediana 180 puede aproximarse mediante
Moda 180
Desviación estándar 59,922 una distribución normal son:
Varianza de la muestra 3.590,706 La Media, La Mediana, La
Curtosis 0,002
Coeficiente de asimetría -0,075 Moda, como parámetros de
Rango 324 tendencia central también
Mínimo 18
Máximo 342 llamados de
Suma
Cuenta
49.962
280
posicionamiento.
El Coeficiente de Curtosis
El Coeficiente mide:
El alargamiento o estrechamiento de una distribución de
datos con respecto a una distribución normal de los mismos
datos.
Entre más se aproxime la distribución de los datos a
una normal más próximo a 3 será el coeficiente. O a 0 cuando
se corrige.
Según la tabla de para la valoración de la curtosis
mediante los valores ajustados y para un nivel de confianza
de 95% el coeficiente de curtosis debe mantenerse entre –0,41
y 0,47 para aceptar que la distribución se parece, por su
estrechez a una normal. En el ejemplo se Acepta que la
distribución es semejante a una normal.
51
El Coeficiente mide:
La simetría de una distribución de datos con respecto
a una normal.
Este coeficiente siempre se valora con respecto a un valor
cero en el que la distribución es, además de centrada
simétrica.
En el ejemplo el coeficiente de asimetría o sesgo es de –
0,0752 que para la valoración debe tomarse como valor
absoluto. El límite teórico de la distribución del estadístico
para n = 300 es de 0,23. Cómo 0,0752 es menor que 0,23, debe
aceptarse que la distribución de datos es simétrica con
respecto a la normal.
52
El Histograma.
Histograma de una variable discreta
El gráfico simple 70
muestra una 60
distribución muy 50
No de Gallinas
40
característica de 20
distribuciones de datos
10
que se parecen a una 12,5 37,5 62,5 87,5 112,5 137,5 162,5 187,5 212,5 237,5 262,5 287,5 312,5 337,5
f i ( xi x ) 2 x x
fi i fi i
Inferior Medio Superior Observada s s
0 12,5 25 3 37,5 83.363,10 -63,56 175,87
25 37,5 50 4 150,0 80.311,51 -52,05 122,42
50 62,5 75 5 312,5 68.090,28 -36,34 70,40
75 87,5 100 12 1.050,0 100.898,82 -42,32 64,41
100 112,5 125 30 3.375,0 133.452,41 -40,71 45,07
125 137,5 150 25 3.437,5 43.464,80 -8,29 5,74
150 162,5 175 48 7.800,0 13.380,99 -1,02 0,28
175 187,5 200 58 10.875,0 3.999,06 0,15 0,02
200 212,5 225 34 7.225,0 37.710,35 5,74 3,18
225 237,5 250 27 6.412,5 91.781,27 24,47 23,69
250 262,5 275 17 4.462,5 117.971,25 44,95 62,15
275 287,5 300 13 3.737,5 152.485,63 75,53 135,79
300 312,5 325 2 625,0 35.539,68 21,67 47,95
325 337,5 350 2 675,0 50.120,04 36,29 95,36
Interpretación
Histograma de una variable discreta Se han señalado en el
70
histograma los estadísticos
60
Media = 179,2
Mediana = 180,8
de posición y dos líneas en
50
Moda = 182,4
la parte inferior del
No de Gallinas
Conclusión
Éste capítulo hace referencia a las distribuciones de los datos.
Se han utilizado formulas, algunas muy complejas que requiere la
teoría estadística para analizar resultados de pruebas y proyectos,
pero fácilmente computables o obtenibles mediante funciones o
algoritmos de la HE.
Se han abordado los tres tipos de datos: continuos, discretos y
cualitativos asociando la distribución de datos observadas con las
distribuciones estadísticas de mayor uso puntualizando criterios
para determinar si tal o cual distribución estadística puede
utilizarse para estudiar los resultados obtenidos a partir de
conjuntos de datos de una población objetivo.
Se ha concluido con respecto a las implicaciones estadísticas de las
tres variables ejemplificadas.