Resumen Estadistica
Resumen Estadistica
Resumen Estadistica
Es el caculo matematico que evalua las posibilidades que existen de que una cosa suceda
cuando interviene el azar
¿Qué es la estadistica?
Es e metodo y la forma para que a partir de datos se pueda tomar desiciones en condiciones
de incertidumbre
Requisitos
Unidad de analisis: es cada uno de los elementos seleccionados de la poblacion y que integran
la muestra
Fuentes de datos
Por encuestas
Por estudio observacional
Por experimentos
Por datos ya publicados
Clasificacion
Discreta: sus valores forman un conjunto finito o infinito de valores. Ej: 0,1,2……k o
0,1,2……..
Escala ordinal: categorías que pueden ser ordenadas. Ej: fecha de nacimiento
Escala de razon: igual que la anterior pero existe un cero absoluto. Ej: volumen de
ventas
Interpretación: una conclusión valida después de interpretar los resultados del análisis
Para realizar un buen análisis de datos es necesario organizar y sintetizar para describir los
datos en estudio.
▪ Organización: Cuando se compilan datos, deben ser organizados en forma legible. Pueden
ser clasificados en cierta forma sistemática y presentados en un cuadro o tabla.
Presentación de Datos
Existen tres formas para presentar los datos ya organizados y procesados de un estudio
estadístico: texto, cuadros o tablas y gráficas.
Texto: Esta forma de presentación permite llamar la atención sobre las comparaciones de
importancia y destacar ciertas cifras. Sin embargo, sólo puede utilizarse cuando los datos por
presentar son pocos.
Cuadros o Tablas: Este tipo de presentación permite volcar un gran número de datos en forma
resumida, lo que hace fácil y clara su lectura. Además, facilita las comparaciones de los datos.
▪ Frecuencia simple absoluta (fi ): representa el número de individuos que presentan cada
modalidad xi.
▪ Frecuencia simple relativa (fri ): nos permite valorar la representatividad de cada categoría
respecto al total de los datos. Se calcula: fi / n.
▪ Variable (xi): para poder operar con los datos de la tabla o referirnos a ella, podemos
representar la característica a observar (estatura de los estu-diantes universitarios) mediante la
variable X y a la modalidad i-ésima de dicha variable con la notación xi.
▪ Frecuencia simple absoluta (fi): representa el número de individuos que presentan cada
modalidad xi.
▪ Frecuencia simple relativa (fri): nos permite valorar la representatividad de cada categoría
respecto al total de los datos. Se calcula: fi / n.
Muchas veces, es necesario o resulta más cómodo trabajar con los datos agrupa-dos en
intervalos (o clases).
Datos cualitativos: Los gráficos más usuales para variables cualitativas son los gráficos de
barras, que pueden ser verticales u horizontales y los gráficos de sectores.
Datos cuantitativos
Gráfico de puntos
Para resumir la información y adquirir una visión global y sintética de la va-riable en estudio,
agruparemos los datos en intervalos o clases. No obstante, es-ta operación implica una pérdida
de información que será preciso tener en cuenta en la interpretación de las tablas, gráficos y
estadísticos de datos agrupados.
▪ Máximo (xmáx): se llama máximo de una variable estadística al mayor valor que toma la
variable en toda la serie estadística.
▪ Mínimo (xmín): se llama mínimo de una variable estadística al menor valor que toma la
variable en toda la serie estadística.
▪ Clase: se llama clase a cada uno de los intervalos en que podemos dividir el recorrido de la
variable estadística. Los intervalos pueden o no ser de la misma amplitud.
▪ Marca de clase (xi): es el punto medio de cada clase y es el promedio entre los extremos del
intervalo.
▪ Cantidad de intervalos (k): se obtiene a partir de la fórmula de Sturges, que está dada por: 1 +
3,3.log n. Para tamaños de muestra pequeños tam-bién es útil utilizar n (raíz cuadrada de n),
aunque la fórmula de Sturges es válida para todos los casos.
Histograma
Un histograma se obtiene construyendo sobre unos ejes cartesianos rectángulos cuyas áreas
son proporcionales a las frecuencias de cada intervalo.
Sobre el eje de abscisas se representan dos intervalos, el anterior al primero y el posterior al
último, que no tienen valores en ellos.
Polígono de frecuencias
Otra forma de representar los datos es el polígono de frecuencias, que es la poligonal que
resulta de unir, con segmentos, los puntos medios de las bases su-periores de los rectángulos
de un histograma de frecuencias. Además, completa-remos la poligonal, uniendo los puntos
medios del intervalo anterior al primero de nuestra muestra y posterior al último de nuestra
muestra.
Ojiva
Llamamos ojiva al polígono de frecuencias acumuladas. Se obtiene uniendo con segmentos los
puntos cuyas coordenadas son: la abscisa correspondiente al extremo superior de cada clase y
la ordenada correspondiente a la frecuencia acumulada (relativa o absoluta) hasta dicha clase.
Patrón de comportamiento
Estos valores máximos se llaman modos o modas o valores modales, en el caso de datos
agrupados por clases, a la o las clases que presentan la máxima frecuencia se las llama
clases modales.
Ejemplo bimodal
Claro está que las calificaciones del Curso A presenta una distribución simé-trica, mientras que
las de los Cursos B y C son asimétricas. La distribución del Curso B se llama asimétrica a
derecha o positivamente asimétrica y la del Curso C, asimétrica a izquierda o
negativamente asimétrica.
Las distribuciones de frecuencias no sólo sirven para organizar datos, sino que es también una
medida descriptiva del modelo de distribución de una variable. Realmente, pueden ser
consideradas como un conjunto de medidas descriptivas, porque cada número que muestra la
frecuencia (o densidad) de observaciones de una clase es una estadística . Pero, a menudo,
necesitamos medidas descriptivas en forma de números que pueden concentrar mejor la
atención en varias propiedades de un conjunto de datos que se investiga.
Las medidas de tendencia central suelen llamarse promedios, y son el ‘valor típico’ en el
sentido de que se emplea a veces para representar todos los valores individuales de un
conjunto de datos. Es decir, las medidas de tendencia central dan un valor típico o
representativo de un conjunto de datos. Las más frecuentemente utilizadas son la media
aritmética, la mediana y la moda.
Media Aritmética
La media aritmética de las observaciones x1, x2, ..., xn es el promedio aritmético de éstas.
Interpretación: La estatura promedio de los estudiantes es de 166,55 cm
Mediana
La mediana es, como su nombre lo indica, el valor medio o valor central de un conjunto de
observaciones.
Interpretación: El 50% de los estudiantes universitarios observados miden 167,50 cm o menos
y el otro 50% miden 167,50 cm o más.
Medidas de Dispersión
Las medidas de tendencia central nos indican los valores alrededor de los cuales se distribuyen
los datos.
Las medidas de dispersión son estadísticos que nos proporcionan una medida del mayor o
menor agrupamiento de los datos respecto a los valores de tendencia central.
Gráficamente vemos que el valor de la media aritmética no es suficiente para describir cada
una de las situaciones.
Para precisar mejor lo que denominamos como ‘dispersión’ podemos calcular unos estadísticos
que nos den información, sin necesidad de representar los da-tos.
Rango o Recorrido
Es la diferencia entre el mayor y menor valor observado de la variable.
R = xmáx – xmín
El rango indica la variabilidad existente entre las observaciones de un con-junto de datos, sin
embargo, debe usarse con precaución, ya que su valor es función únicamente de dos valores
extremos pertenecientes al conjunto.
Interpretación: La amplitud de la muestra es de 35 cm.
Varianza
La varianza de las observaciones x1, x2, ..., xn es el promedio del cuadrado de las distancias
entre cada observación y la media aritmética del conjunto de observaciones.
Interpretación: El promedio de los cuadrados de las desviaciones de las estatu-ras respecto a
la media aritmética es de 66,18 cm2.
Desviación Estándar
La raíz cuadrada de la varianza se denomina desviación estándar o desvío típico.
La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están
localizados los valores de una distribución de frecuencias con relación a la media.
Interpretación: Las estaturas se desvían, en promedio, respecto a la media aritmética, en 8,14
cm.
Coeficiente de Variación
Ejemplo:
Supongamos que nos informan que Mariano, un estudiante del grupo de alumnos universitarios
que venimos analizando, mide 174 cm.
Si desconociéramos las estaturas del grupo sería difícil decir si Mariano es alto o bajo, respecto
al grupo de alumnos universitarios. Pero nosotros sabemos que la estatura media es de 166,55
cm y el desvío estándar es de 8,14 cm. Con estos datos, queda claro que Mariano tiene una
estatura superior al promedio. También podemos ver que la estatura de Mariano está 7,45 cm
por encima de la media.
Supongamos que el conjunto de datos analizado es nuestra población, entonces la media
aritmética se debería indicar como = 166,55 cm y la desviación están-dar como = 8,14 cm.
Los estadísticos de orden o medidas de posición no centradas, son aquellos valores numéricos
que nos indican su posición en el conjunto de datos ordenados, pues una fracción dada de los
datos presenta un valor de la variable menor o igual que el estadístico.
Si una serie de observaciones se colocan en orden creciente, el valor que di-vide al conjunto de
datos en dos partes iguales es la mediana. Por extensión, si preferimos tener una descripción
más detallada de la variabilidad de los valores individuales, se puede dividir los datos en otra
cantidad de partes iguales. Por ejemplo, en cuatro, en diez o en cien partes iguales, llamando a
estas medidas cuartiles, deciles y percentiles, respectivamente.
Cuartiles
▪ Al dividir los datos en cuatro partes iguales, quedan definidos los cuartiles: Q1, Q2 y Q3.
Q1 = 160 cm
Interpretación: Significa que el 25% de las estaturas de los estudiantes univer-sitarios
observados son inferiores o iguales a 160 cm y el 75% restante son ma-yores o iguales a 160
cm.
Deciles
▪ Al dividir los datos en diez partes iguales, quedan definidos los deciles: D1, D2, ..., D9.
D8 = 173,80 cm
Interpretación: Significa que el 80% de las estaturas de los estudiantes univer-sitarios
observados son inferiores o iguales a 173,80 cm y el 20% restante son mayores o iguales a
173,80 cm.
Percentiles
▪ Al dividir los datos en cien partes iguales, quedan definidos los percentiles: P1, P2, ..., P99.
P43 = 164,46 cm
Interpretación: Significa que el 43% de las estaturas de los estudiantes univer-sitarios
observados son inferiores o iguales a 164,46 cm y el 57% restante son mayores o iguales a
164,46 cm.
Datos agrupados
Descripción de datos: Gráfico de caja y extensiones
• Si alguno de los valores observados en la muestra queda fuera del intervalo cubierto
por la caja y estas extensiones, se señala en el gráfico mediante un símbolo que lo represente
como un punto. Estos datos son los llamados valo-res apartados (‘outliers’), o En particular, los
valores que se encuentran entre la REF 1 y la REF 2 o entre la REF 3 y la REF 4 son llamados
valores atípicos. Los indicaremos con .
o En particular, los valores menores que la REF 1 o mayores que la REF 4 son llamados
valores anómalos. Los indicaremos con .
Si las variables en estudio son X e Y, donde X toma los valores x1, x2, ..., xn e Y toma los
valores y1, y2, ..., ym. Podemos escribir los datos obtenidos de dis-tintas maneras:
CORRELACIÓN Y REGRESIÓN
Covarianza
En el caso de variables numéricas podemos emplear algunos coeficientes cuyo valor nos indica
el tipo de relación entre las variables. El primero de ellos es la covarianza, que se indica con
Sxy y cuya fórmula de cálculo viene dada por la expresión:
Coeficiente de Correlación