Módulo Repaso de ESTADÍ DESCR-2020-2 (Ipc)

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 15

INGENIERIA EN PRODUCTIVIDAD Y CALIDAD

POLITECNICO COLOMBIANO JAIME ISAZA CADAVID

MODULO: ESTADISTICA DESCRIPTIVA (NOTAS DE CLASE)

SOCIALIZACIÓN DEL ENFOQUE ESTADÍSTICO DESCRIPTIVO

El objetivo de un análisis estadístico descriptivo es concluir acerca del comportamiento de una


población o una muestra en unos aspectos ó variables que pueden ser de carácter cualitativo o
cuantitativo. Para lograrlo es necesario determinar un método que permita recolectar la
información ó datos, los cuales serán tabulados y clasificados para elaborar algunas gráficos,
diagramas, tablas resumen y estadísticas, que permitan conocer de forma global sobre los
aspectos evaluados, los que a la vez servirán de insumo para la toma de decisiones.
REVISIÓN DE ALGUNOS CONCEPTOS:

LA POBLACIÓN es el conjunto de “todas” las unidades de estudio sobre las cuales se desea analizar
una o varias características en particular (variables). Las unidades de estudio pueden estar
representadas por ejemplo por un conjunto de individuos, familias, productos de cierta marca,
colegios de una ciudad, etc. El tamaño de la población se representa por N y se define por el
investigador de acuerdo al objetivo buscado.

LA MUESTRA es un subconjunto de la población. Si se utiliza para sacar conclusiones acerca de la


población se está hablando de la estadística inferencial, para lo cual deberán ser representativa de
la población. El tamaño de la muestra se denota por n.

Los aspectos a analizar de la población o la muestra se denomina VARIABLES, las cuales se


clasifican como sigue:

CUALITATIVAS: Representan cualidad o atributo. Se definen de dos tipos:

CUANTITATIVAS: Representan cantidad. Se definen de dos tipos:

Discretas. Asumen valores enteros (no hay datos intermedios). Sus datos provienen del proceso
de conteo.

Ejemplos:

X: número de hermanos,

X: números de clientes que llegan a una estación de servicios por hora.

Continuas. Puede tomar cualquier valor entero o decimal, de forma que entre dos valores
posibles siempre se puede encontrar un número infinito de otros valores. Generalmente sus
valores provienen del proceso de medición. Ejemplo: X: Peso (kg, gs,mg), X:tiempo (seg, min, hr)

Para resumir la información de tal manera que se conozcas aspectos de forma global acerca de la
muestra (n) o población (N) se utilizan gráficos y tablas de frecuencia. A continuación se muestra
algunos:

GRÁFICOS RESUMEN PARA LAS VARIABLES:

Los gráficos comúnmente utilizados en la estadística descriptiva para resumir la información


(datos) con respectos a las variables son: diagramas de barras, histogramas de frecuencia,
polígonos de frecuencia, gráficos de tendencias, entre otros.

Algunos ejemplos se presentan a continuación:

EJEMPLO: “gráficos para resumir información de la variable cualitativa”


Se tiene información de un grupo de estudiantes de la facultad de ingeniería de la U de A. Los
datos tabulados permitieron obtener las siguientes tablas y gráficos:

Tabla de frecuencias Diagrama circular Diagrama de barras

Una interpretación conjunta de la tabla y los gráficos concuerda en que el mayor porcentaje de
estudiantes en su orden es de Ing. Mecánica, seguido Ing. Eléctrónica y Eléctrica.

EJEMPLO: “gráfico para resumir información de la variable cuantitativa-discreta”

Se quiere investigar sobre el número de hijos de unas familias en un determinado barrio de una
ciudad intermedia. Para esto se seleccionó aleatoriamente una muestra de n=50 familias y se
registró el número de hijos en el núcleo familiar, con los siguientes resultados:

4 familias no tiene hijos ( 0 hijos), 9 familias (1 hijo), 12 familias (2 hijos), 10 familias (3 hijos), 8
familias (4 hijos), 4 familias (5 hijos), 2 familias (6 hijos), 1 familia (7 hijos).

Los resultados tabulados se presentan de la siguiente manera:


Tabla de frecuencias Diagrama de barras Polígono de frecuencias

De la tabla de frecuencias se puede observar que el 20% de las familias tienen 3 hijos, también que el 50% de las
familias tienen menos de 3 hijos.
Del diagrama de barras y polígono de frecuencias se observa que sobresale el número de familias con 2 hijos.

EJEMPLO: “gráfico para resumir información de la variable cuantitativa- continua”

Se tiene información acerca de las edades de los estudiantes de la Facultad de Ingeniería que
pertenecen a semilleros de investigación. Los resultados son los siguientes:

16, 21, 16, 16, 17,17, 22, 18, 18, 19, 19, 25, 18, 18, 18, 18, 18, 22, 18, 18, 19, 19, 17, 17, 19, 20,
19, 19, 20, 17, 20, 20, 19, 20, 20, 21, 21, 21, 22, 21, 21 23, 23, 24, 18, 18, 24

Variable de interés. X: edad (años)

Tabla de frecuencias Histograma de frecuencias


Se observa de la tabla de frecuencias que el 60% de los estudiantes tiene menos de 20 años. También
se observa que el 34% de ellos tiene edades entre 20 y 24 años.
Del histograma de frecuencias se observa que el rango de edades que se presenta con mayor
frecuencia está entre 18 y 20 años.

Nota: para la tabla de frecuencias (con variable discreta y continua) las columnas se explican así:
.f : frecuencia absoluta
F: frecuencia acumulada (acumulado de valores de f)
.h: frecuencia relativa (hi=fi/# total de datos)
H: frecuencia relativa acumulada (acumulados de los valores de h)

Tablas de contingencia:

En algunas ocasiones los elementos de una muestra o los de la población pueden clasificarse con
dos o más criterios diferentes (cruce de variables). Generalmente dicha relación se da con
variables de tipo cualitativa, pero también se pueden hacer relaciones con variables cuantitativas.

EJEMPLO: “Tabla de contingencia para cruzar dos aspectos cualitativos (atributos)”


Se tiene información acerca del estado civil de un grupo de personas que laboran en una unidad
de servicios. Se quiere clasificar dicha información por género para lo cual se tabuló la
información como sigue:

Tablas de porcentajes con clasificación por género (perfil fila):


Aquí se totaliza porcentualmente el género repartido en cada modalidad de respuesta del estado
civil:

Se puede observar de la tabla anterior que el 38.9 % de las mujeres están


Casadas.

Gráficamente:

El cálculo se realizó de la siguiente manera:


Entre el grupo de mujeres se calcula el % de las casadas así:
¿ mujeres casadas 74
% (casadas )= ∗100 %= ∗100 % ≈38.9 %
¿ total de mueres 190

Tablas de porcentajes con clasificación por estado civil (perfil columna):

Aquí se totaliza porcentualmente el estado civil repartido en cada modalidad de respuesta según
género:

Se puede observar de la tabla anterior que el 47.4 % de las personas casadas son mujeres.

Gráficamente:
El cálculo se realizó de la siguiente manera:
Entre el grupo de personas casadas se calcula el % de mujeres así:

¿ mujeres casadas 74
% ( mujeres )= ∗100 %= ∗100 % ≈ 47.4 %
¿ total de personas casadas 156

Nota: se debe hacer diferenciación entre ambos tipos de tablas.

OTRO GRÁFICO ESTADÍSTICO ENFOCADO AL CONTROL DE LA CALIDAD:

Gráfico de Pareto (también llamado diagrama 80-20).


El principio de Pareto afirma que en todo grupo de elementos o factores que contribuyen a un
mismo efecto, unos pocos son responsables de la mayor parte de dicho efecto. Para su análisis se
elabora una tabla de frecuencias y un gráfico. Obsérvese el siguiente ejemplo:

EJEMPLO: “aplicación del diagrama- gráfico de Pareto”


En el proceso de elaboración de baldosines se quiere identificar los defectos que se presentan con
mayor frecuencia para toma acciones correctivas. Para dicho fin se tomó una muestra del
producto y se clasifico el número de defectos por tipo como sigue:

Tipo de defecto # Defectos


Poros 200
Rayones 50
Averías 300
Bordes despicados 80
Otros 30
Total defectos 660

Nota: queda claro que un baldosín puede tener uno o más defectos del mismo o diferente tipo.
Elaboración del gráfico:
Se observa en el gráfico que el 75.76% de los defectos presentados en los baldosines se dan por
los tipos de defectos averías y poros. Es decir sólo dos causas de 5 (40%) son las responsables
del 75.76 % de los defectos.

ALGUNAS ESTADÍSTICAS BÁSICAS

MEDIDAS TENDENCIA CENTRAL

Una forma de resumir los datos numéricos es buscar el centro de ellos. A las medidas que tiene
dicho objetivo se les conoce como medidas de tendencia central. Algunas de ellas se muestran a
continuación.

1. Media aritmética (promedio aritmético). Es el valor que resulta de dividir la sumatoria de los
datos por el número de estos.

La media aritmética para los datos de la muestra se define como:

X́ =
∑ Xi ; n: Tamaño muestral
n

La media aritmética para los datos de la población se define como:

μ=
∑ Xi ; N: Tamaño poblacional.
N

~
2. Mediana ( X ): Es el dato ubicado en el centro después de organizarlos de menor a mayor
valor.
Ejemplo 1: 21 2223 24 25 X =23
~

Ejemplo 2: 21 2223 24 25 26 X =23,5


~
Nota: Si n es par, la mediana corresponderá al promedio de los dos datos más centrales.

La mediana se calcula de la siguiente manera:

Xn+X n

{
+1
~
X= 2 2
, Si n es par n n
2 , Nota y +1 Son sudíndices de posición
2 2
X n +1 , Si n es impar
2

Ejemplo 3: Calcular la mediana de los ejemplos anteriores.

 Para el ejemplo 1, como n=5 (o sea un número impar), entonces la mediana es:
~
X ¿ X n +1 =X 5+1 =23
2 2

 Para el ejemplo 1, como n=6 o sea un número par, entonces la mediana es:

X n+ X n X6+X6
~ 2 2
+1
2 2
+1 X 3+ X 4 23+24
X= = = = =23,5
2 2 2 2

~
Nota: Una propiedad importante de La mediana X es que no está afectada por valores
extremos (ni altos ni bajos)

Ejemplo 4: Sea X la estatura (mts) de un grupo de personas de la tercera edad:

~
X =1,72mts

1,70 1,71 1,72 1,73 1,80

3. Moda ( M o): Es el dato que se presenta con mayor frecuencia. Puede haber una moda
(Unimodal), dos modas (Bimodal), etc.
MEDIDAS DE VARIABILIDAD

Determinan que tan variable o disperso está un grupo de datos. Las medidas más usuales son las
siguientes:

1. Desviación estándar. Mide el alejamiento de los datos con respecto de su media X́ . Se


representa de la siguiente manera:

Muestral:
∑ ( X i− X́)2 donde , n=Tamaño de muestra
S=
√ n−1

Poblacional:

∑ ( X i−μ ) 2 donde , N=Tamaño de la población


σ=
√ N

Observación: Al elevar la desviación estándar al cuadrado queda representada la varianza:


S2: Varianza muestral
σ 2: Varianza poblacional

Nota: “La desviación estándar es el alejamiento de los datos tomando como referencia la media
(muestral o poblacional).” ó también se define como “la variación promedio de los datos con
respecto de la media”

Ejemplo 5: Halle la desviación promedio de las estaturas del ejercicio 4.

1,71+1,72+1,73+1,80
Primero se halla X́ : X́ = =1,732 mts
5
Luego se halla la desviación estándar (Variación promedio) – S:

( 1,71−1,732 )2 + ( 1,72−1,732 )2 +…+ ( 1,80−1,732 )2


S=
√ 5−1
=0,039mt
Las estaturas se alejan de la media X́ en promedio 0,039 mts. (Algunas se alejan más, otros
menos, pero en promedio se alejan ese valor).
2. El Rango (R): El rango es la diferencia entre el mayor valor y el menor valor.
R=X max −X min
Nota: El rango está afectado por valores extremos; es decir, un dato atípico elevará el valor del
rango.

Ejemplo 6: Halle el rango del Ejemplo 4.

R=1,80−1,70=0,1 mts=10 cms

Lo que significa que entre el dato mayor y menor hay una distancia de 0,1 mts.

3. El rango intercuartil (RI): Es la diferencia que existe entre los cuartiles 3 y 1.

RI =Q 3−Q 1

El rango intercuartil muestra el rango de valores en el cual se encuentra el 50% de los datos más
centrales. Los cuartiles Q1 y Q3 son medidas de localización así como la mediana.
Para entender mejor este concepto, primero se explica la mediana como una mediad de
localización.

Ejemplo 7: Se tiene un grupo de personas a los cuales se le registró sus pesos y se


organizaron de menor a mayor valor sus pesos (en kg), como sigue:

La mediana (el peso mediano) es


~
X =70 kg, es interpretado como la
persona, dentro del grupo, que tiene el
mayor peso entre el grupo del 50% de los
menos pesados y el de menor peso entre
el restante 50% (Los más pesados).

Nota: Quiere decir que la mediana divide la población o la muestra en dos grupos de igual
tamaño, por eso representa también una medida de localización.

Otra medida de localización son los cuartiles, “dividen los datos en 4 partes de igual tamaño”.
Supóngase que los datos de los pesos de las personas que se ubican en los caurtiles son los
siguientes:
Interpretación: Del gráfico se observa que
la persona que pesa 65Kg representa el
de mayor peso del grupo del 25% con
menor peso, al mismo tiempo es el de
menor peso del grupo del 75% del grupo
de mayor peso. (Q 1=65 kg).

De acuerdo a lo anterior, el rango intercuartil ( RI =Q 3−Q 1 ), representa el rango (ó


distancia) que hay entre el 50% de los datos más centrales.

De esta manera solo hay que calcular Q 1y


Q 3 para obtener el RI.
Es importante calcular el RI ya que da una
idea de cuan alejados está el 50% de los
datos más centrales (más cercanos a la
media y la mediana).
Nota: El cuartil 2 (Q2) es la misma
~
mediana X .

Se puede generalizar estas medidas de localización no solo para distribuir el conjunto de


datos en 4 partes (Cuartiles), sino también en cualquier número de datos. Se habla entonces
de percentiles P, de tal manera que el número de datos queda repartido en 100 partes
proporcionales:

~
Interpretación: El percentil 50 ( P50) es el mismo Q 2 y X . El percentil 60
( P60 ) representa el mayor valor del grupo en el 60% de los datos con menor
valor y al mismo tiempo representa el valor menor del restante 40%
(valores más altos).
Diagrama caja y bigote (box-plot):
Un gráfico muy utilizado que hace referencia a los cuartiles es el diagrama de caja y bigotes (Box-
Plot). Es de gran utilidad para describir las características importantes en un conjunto de datos
como lo son: centro, simetría y asimetría, valores atípicos, entre otros. Este gráfico presenta una
descripción clara de la información ya que emplea medidas descriptivas que son poco sensibles a
datos extremos. El esquema está compuesto por una caja que delimitada entre el cuartil 1 y
cuartil 3, la cual encierra el 50% de los datos más centrales y unos bigotes que representan el otro
50% de los datos. A continuación se muestra el diagrama:

Recordar que:
El rango intercuartil es la distancia entre
el Q1 y Q3.
~
El Q2= X ; el cuartil dos es la mediana).
Cuando la media se aleja de la
mediana(Q2) puede haber distribución
asimétrica de los datos.
El rango de valores entre Q 1 y Q3 es más
pequeño que la longitud total de los
bigotes, y representa el 50% del total de
datos más centrales.

4. El coeficiente de variación (CV).

El coeficiente de variación es una medida de variabilidad:


 Puede utilizarse para comparar la variabilidad entre dos grupos de datos referidos o
distintos sistemas de unidades de medida. Ejemplo: Kgs y cms.
 Puede utilizarse para comparar la variabilidad entre dos grupos de datos obtenidos por
dos o más personas distintas.

La fórmula se define como:


S
CV muestral = ∗100 %

“El Coeficiente de variación (CV) mide la variación porcentual promedio de los datos con
respecto a la media ( X́ ).”

Ejemplo 8: Con un micrómetro, se realizan mediciones del diámetro de un balero, que tienen
una media de 4,03mm y una desviación estándar de 0,012 mm, con otro micrómetro se
toman mediciones de la longitud de un tornillo que tiene una media de 1,76 pulgadas y una
desviación estándar de 0,0075 pulgadas. ¿Cuál de los dos micrómetros presenta una
variabilidad relativamente menor?

Solución

Datos del balero: Datos del tornillo


X́ =4,03 mm X́ =1,76 pulg
S=0,012mm S=0,0075 pulg

0,012 0,0075
CV Baleros = ∗100 %=0,3 % CV Tornillos = ∗100 %=0,4 %
´
4,03 1,76

Interpretación: Las mediciones hechas por el micrómetro que midió los diámetros de
los baleros tienen variabilidad relativamente menor. El Valor de CV=0.3% significa que
los datos tienen un alejamiento de la media de un 0.3%.

EJERCICIOS DE APLICACIÓN: CÁLCULOS DE ESTADÍSTICAS BÁSICAS

1 Se tiene información de las notas promedio acumuladas de un grupo de estudiantes


subclasificadas por género (ver cuadro siguiente). Con los datos suministrados responda
lo siguiente:

Notas mujeres Notas hombres


3,30 3,24
3,55 3,20
2,13 2,48
3,58 3,58
3,77 3,59
3,90 3,73
3,13 3,06
3,37 3,21
3,50 3,21
3,54 3,25
2,90 3,22
3,40 3,40
4,02 4,11
3,20 3,58
4,15 3,86
2,90 2,97
3,09 3,31
3,33 3,05
3,55 3,55
2,95 2,95

De acuerdo a la información suministrada en el cuadro anterior responda lo siguiente:

a. Calcule la media (promedio) de las notas para ambos grupos (hombres y mujeres)
b. Calcule la desviación estándar para ambos grupos e interprete dicho valor sólo para
las notas de las mujeres.
c. ¿Cuál de los dos grupos de datos es más homogéneo? Justifique su respuesta.

2. El espesor de una pieza torneada es una característica de calidad importante para


soportar una resistencia específica. Se tomaron los siguientes datos de dicha variable (en
cm): 5.23, 5.55, 5.10, 5.89, 4.99, 6.02, 5.13, 5.85, 5.00, 5.32, 4.86, 5.09, 6.00, 5.91, 5.41 y 5.67

Con los datos obtenidos, la media y la desviación estándar es:

a) 5.43875 y 0.402705
b) 5.63875 y 0.409756
c) 5.33875 y 0.412705
d) 5.53875 y 0.402705
e) Ninguna

También podría gustarte