Módulo Repaso de ESTADÍ DESCR-2020-2 (Ipc)
Módulo Repaso de ESTADÍ DESCR-2020-2 (Ipc)
Módulo Repaso de ESTADÍ DESCR-2020-2 (Ipc)
LA POBLACIÓN es el conjunto de “todas” las unidades de estudio sobre las cuales se desea analizar
una o varias características en particular (variables). Las unidades de estudio pueden estar
representadas por ejemplo por un conjunto de individuos, familias, productos de cierta marca,
colegios de una ciudad, etc. El tamaño de la población se representa por N y se define por el
investigador de acuerdo al objetivo buscado.
Discretas. Asumen valores enteros (no hay datos intermedios). Sus datos provienen del proceso
de conteo.
Ejemplos:
X: número de hermanos,
Continuas. Puede tomar cualquier valor entero o decimal, de forma que entre dos valores
posibles siempre se puede encontrar un número infinito de otros valores. Generalmente sus
valores provienen del proceso de medición. Ejemplo: X: Peso (kg, gs,mg), X:tiempo (seg, min, hr)
Para resumir la información de tal manera que se conozcas aspectos de forma global acerca de la
muestra (n) o población (N) se utilizan gráficos y tablas de frecuencia. A continuación se muestra
algunos:
Una interpretación conjunta de la tabla y los gráficos concuerda en que el mayor porcentaje de
estudiantes en su orden es de Ing. Mecánica, seguido Ing. Eléctrónica y Eléctrica.
Se quiere investigar sobre el número de hijos de unas familias en un determinado barrio de una
ciudad intermedia. Para esto se seleccionó aleatoriamente una muestra de n=50 familias y se
registró el número de hijos en el núcleo familiar, con los siguientes resultados:
4 familias no tiene hijos ( 0 hijos), 9 familias (1 hijo), 12 familias (2 hijos), 10 familias (3 hijos), 8
familias (4 hijos), 4 familias (5 hijos), 2 familias (6 hijos), 1 familia (7 hijos).
De la tabla de frecuencias se puede observar que el 20% de las familias tienen 3 hijos, también que el 50% de las
familias tienen menos de 3 hijos.
Del diagrama de barras y polígono de frecuencias se observa que sobresale el número de familias con 2 hijos.
Se tiene información acerca de las edades de los estudiantes de la Facultad de Ingeniería que
pertenecen a semilleros de investigación. Los resultados son los siguientes:
16, 21, 16, 16, 17,17, 22, 18, 18, 19, 19, 25, 18, 18, 18, 18, 18, 22, 18, 18, 19, 19, 17, 17, 19, 20,
19, 19, 20, 17, 20, 20, 19, 20, 20, 21, 21, 21, 22, 21, 21 23, 23, 24, 18, 18, 24
Nota: para la tabla de frecuencias (con variable discreta y continua) las columnas se explican así:
.f : frecuencia absoluta
F: frecuencia acumulada (acumulado de valores de f)
.h: frecuencia relativa (hi=fi/# total de datos)
H: frecuencia relativa acumulada (acumulados de los valores de h)
Tablas de contingencia:
En algunas ocasiones los elementos de una muestra o los de la población pueden clasificarse con
dos o más criterios diferentes (cruce de variables). Generalmente dicha relación se da con
variables de tipo cualitativa, pero también se pueden hacer relaciones con variables cuantitativas.
Gráficamente:
Aquí se totaliza porcentualmente el estado civil repartido en cada modalidad de respuesta según
género:
Se puede observar de la tabla anterior que el 47.4 % de las personas casadas son mujeres.
Gráficamente:
El cálculo se realizó de la siguiente manera:
Entre el grupo de personas casadas se calcula el % de mujeres así:
¿ mujeres casadas 74
% ( mujeres )= ∗100 %= ∗100 % ≈ 47.4 %
¿ total de personas casadas 156
Nota: queda claro que un baldosín puede tener uno o más defectos del mismo o diferente tipo.
Elaboración del gráfico:
Se observa en el gráfico que el 75.76% de los defectos presentados en los baldosines se dan por
los tipos de defectos averías y poros. Es decir sólo dos causas de 5 (40%) son las responsables
del 75.76 % de los defectos.
Una forma de resumir los datos numéricos es buscar el centro de ellos. A las medidas que tiene
dicho objetivo se les conoce como medidas de tendencia central. Algunas de ellas se muestran a
continuación.
1. Media aritmética (promedio aritmético). Es el valor que resulta de dividir la sumatoria de los
datos por el número de estos.
X́ =
∑ Xi ; n: Tamaño muestral
n
μ=
∑ Xi ; N: Tamaño poblacional.
N
~
2. Mediana ( X ): Es el dato ubicado en el centro después de organizarlos de menor a mayor
valor.
Ejemplo 1: 21 2223 24 25 X =23
~
Xn+X n
{
+1
~
X= 2 2
, Si n es par n n
2 , Nota y +1 Son sudíndices de posición
2 2
X n +1 , Si n es impar
2
Para el ejemplo 1, como n=5 (o sea un número impar), entonces la mediana es:
~
X ¿ X n +1 =X 5+1 =23
2 2
Para el ejemplo 1, como n=6 o sea un número par, entonces la mediana es:
X n+ X n X6+X6
~ 2 2
+1
2 2
+1 X 3+ X 4 23+24
X= = = = =23,5
2 2 2 2
~
Nota: Una propiedad importante de La mediana X es que no está afectada por valores
extremos (ni altos ni bajos)
~
X =1,72mts
3. Moda ( M o): Es el dato que se presenta con mayor frecuencia. Puede haber una moda
(Unimodal), dos modas (Bimodal), etc.
MEDIDAS DE VARIABILIDAD
Determinan que tan variable o disperso está un grupo de datos. Las medidas más usuales son las
siguientes:
Muestral:
∑ ( X i− X́)2 donde , n=Tamaño de muestra
S=
√ n−1
Poblacional:
Nota: “La desviación estándar es el alejamiento de los datos tomando como referencia la media
(muestral o poblacional).” ó también se define como “la variación promedio de los datos con
respecto de la media”
1,71+1,72+1,73+1,80
Primero se halla X́ : X́ = =1,732 mts
5
Luego se halla la desviación estándar (Variación promedio) – S:
Lo que significa que entre el dato mayor y menor hay una distancia de 0,1 mts.
RI =Q 3−Q 1
El rango intercuartil muestra el rango de valores en el cual se encuentra el 50% de los datos más
centrales. Los cuartiles Q1 y Q3 son medidas de localización así como la mediana.
Para entender mejor este concepto, primero se explica la mediana como una mediad de
localización.
Nota: Quiere decir que la mediana divide la población o la muestra en dos grupos de igual
tamaño, por eso representa también una medida de localización.
Otra medida de localización son los cuartiles, “dividen los datos en 4 partes de igual tamaño”.
Supóngase que los datos de los pesos de las personas que se ubican en los caurtiles son los
siguientes:
Interpretación: Del gráfico se observa que
la persona que pesa 65Kg representa el
de mayor peso del grupo del 25% con
menor peso, al mismo tiempo es el de
menor peso del grupo del 75% del grupo
de mayor peso. (Q 1=65 kg).
~
Interpretación: El percentil 50 ( P50) es el mismo Q 2 y X . El percentil 60
( P60 ) representa el mayor valor del grupo en el 60% de los datos con menor
valor y al mismo tiempo representa el valor menor del restante 40%
(valores más altos).
Diagrama caja y bigote (box-plot):
Un gráfico muy utilizado que hace referencia a los cuartiles es el diagrama de caja y bigotes (Box-
Plot). Es de gran utilidad para describir las características importantes en un conjunto de datos
como lo son: centro, simetría y asimetría, valores atípicos, entre otros. Este gráfico presenta una
descripción clara de la información ya que emplea medidas descriptivas que son poco sensibles a
datos extremos. El esquema está compuesto por una caja que delimitada entre el cuartil 1 y
cuartil 3, la cual encierra el 50% de los datos más centrales y unos bigotes que representan el otro
50% de los datos. A continuación se muestra el diagrama:
Recordar que:
El rango intercuartil es la distancia entre
el Q1 y Q3.
~
El Q2= X ; el cuartil dos es la mediana).
Cuando la media se aleja de la
mediana(Q2) puede haber distribución
asimétrica de los datos.
El rango de valores entre Q 1 y Q3 es más
pequeño que la longitud total de los
bigotes, y representa el 50% del total de
datos más centrales.
“El Coeficiente de variación (CV) mide la variación porcentual promedio de los datos con
respecto a la media ( X́ ).”
Ejemplo 8: Con un micrómetro, se realizan mediciones del diámetro de un balero, que tienen
una media de 4,03mm y una desviación estándar de 0,012 mm, con otro micrómetro se
toman mediciones de la longitud de un tornillo que tiene una media de 1,76 pulgadas y una
desviación estándar de 0,0075 pulgadas. ¿Cuál de los dos micrómetros presenta una
variabilidad relativamente menor?
Solución
0,012 0,0075
CV Baleros = ∗100 %=0,3 % CV Tornillos = ∗100 %=0,4 %
´
4,03 1,76
Interpretación: Las mediciones hechas por el micrómetro que midió los diámetros de
los baleros tienen variabilidad relativamente menor. El Valor de CV=0.3% significa que
los datos tienen un alejamiento de la media de un 0.3%.
a. Calcule la media (promedio) de las notas para ambos grupos (hombres y mujeres)
b. Calcule la desviación estándar para ambos grupos e interprete dicho valor sólo para
las notas de las mujeres.
c. ¿Cuál de los dos grupos de datos es más homogéneo? Justifique su respuesta.
a) 5.43875 y 0.402705
b) 5.63875 y 0.409756
c) 5.33875 y 0.412705
d) 5.53875 y 0.402705
e) Ninguna