Unidad 1 - Introducción A La Estadística y Análisis de Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 62

UNIDAD 1

INTRODUCCIÓN A LA ESTADÍSTICA
Y ANÁLISIS DE DATOS
Maxie Salazar
Unidad I
Introducción a la Estadística y Análisis de Datos
• Introducción • Rango Intercuartílico
• Conceptos Principales • Varianza
• Desviación estándar
• Ramas de la Estadística
• Resumen tabular
• Fuentes de los datos
• Tablas de frecuencia
• Recopilación de datos • Tipos de frecuencia
• Medidas de localización • Resumen gráfico
• Media • Gráfica de barras
• Media recortada • Gráfico circular
• Mediana • Diagrama de puntos
• Cuartiles • Histograma
• Percentiles • Diagrama de tallo y hoja
• Medidas de variabilidad • Gráfica de caja
• Rango • Diagrama de dispersión
Introducción
Introducción
Los conceptos y métodos estadísticos no son sólo útiles sino que con frecuencia son
indispensables para entender el mundo que nos rodea.
La disciplina de la estadística nos enseña cómo realizar juicios inteligentes y tomar decisiones
informadas entre la presencia de incertidumbre y variación. Sin incertidumbre y variación,
habría poca necesidad de métodos estadísticos o de profesionales en estadística.
Si cada componente de un tipo particular tuviera exactamente la misma duración, si todos los
resistores producidos por un fabricante tuvieran el mismo valor de resistencia, si las
determinaciones del pH en muestras de suelo de un lugar particular dieran resultados
idénticos, y así sucesivamente, entonces una sola observación revelaría toda la información
deseada y no habría necesidad de métodos estadísticos.
Supóngase, por ejemplo, que un ingeniero de materiales inventó un recubrimiento para
retardar la corrosión en tuberías de metal en circunstancias específicas.
Si este recubrimiento se aplica a diferentes segmentos de la tubería, la variación de las
condiciones ambientales y de los segmentos mismos producirá más corrosión sustancial en
algunos segmentos que en otros. Se podría utilizar un análisis estadístico en datos de dicho
experimento para decidir si la cantidad promedio de corrosión excede un límite superior
especificado de alguna clase o para predecir cuánta corrosión ocurrirá en una sola pieza de
tubería.
Por otra parte, supóngase que el ingeniero inventó el recubrimiento con la creencia de que
será superior al recubrimiento actualmente utilizado. Se podría realizar un experimento
comparativo para investigar esta cuestión aplicando el recubrimiento actual a algunos
segmentos de la tubería y el nuevo a otros segmentos.
Este es un ejemplo de cómo se pueden utilizar técnicas estadísticas para reunir
información y sacar conclusiones.
Conceptos Principales
Conceptos Principales
Los datos son los hechos y las cifras recolectados, analizados y resumidos para su
interpretación. Todos los datos recolectados en un estudio en particular se conocen como
banco de datos o base de datos, mientras que una sola cifra u observación es un dato
puntual.
Los elementos son las entidades a partir de las cuales se reúnen los datos. Las variables
son las características de interés para los elementos. Al conjunto de mediciones obtenidas
para un elemento en particular se llama observación.
Un conjunto de datos univariantes se compone de observaciones realizadas en una sola
variable, bivariantes cuando se realizan observaciones en cada una de dos variables, y si
tenemos más variables serían multivariantes.
Ejemplo
5 Elementos 3 Variables

Estudiante Edad Carrera Índice


Laura 21 Psicología 3.50
Luis 20 Contabilidad 3.65
5 Observaciones Gabriel 22 Ingeniería Industrial 3.61
Diana 20 Arquitectura 3.13
Pedro 21 Economía 3.42

Dato Puntual Base de Datos


Dependiendo del valor de la variable ésta puede ser:
• Categórica o cualitativa: incluyen aquellos datos que se agrupan en categorías.
• Cuantitativa: son aquellos que utilizan valores numéricos, que se dividen en:
• Datos Cuantitativos Discretos: son aquellos que toman valores aislados. Es decir,
no es posible tener una fracción de una unidad.
• Datos Cuantitativos Continuos: son aquellos que, entre dos valores cualesquiera,
permite que hayan valores fraccionarios.

Cualitativa Cuantitativa Discreta Cuantitativa Continua

Fondo de Inversión Tipo de Fondo Calificación Morning Star Valor Neto Razón de Gasto
Artisan Small Cap DE 3 16.92 1.18
Brown Cap Small DE 4 35.73 1.20
Fidelity Overseas IE 4 48.39 0.90
Oakmark I DE 2 40.37 1.05
RS Value A DE 4 26.27 1.36
USAA Income FI 3 12.10 0.62
Vanguard Sm Cp Idx DE 3 32.58 0.23
Ramas de la Estadística
La disciplina de estadística proporciona métodos de organizar y resumir datos y de sacar
conclusiones basadas en la información contenida en los datos. Y se divide en 2 ramas:
• Estadística Descriptiva: es aquella que se encarga de recolectar, procesar, resumir y
presentar los datos, de manera que facilite la comprensión al lector.
• Estadística Inferencial: es aquella que se encarga de sacar conclusiones con respecto a
la población, tomando en cuenta como base los resultados obtenidos en la estadística
descriptiva de una determinada muestra.
Fuentes de los Datos
Las fuentes de los datos se clasifican de acuerdo a su origen en:

• Fuentes existentes
• Estudios diseñados para recolectar datos nuevos.
• Estudios experimentales
• Estudios observacionales o no experimentales
Fuentes Existentes
En algunos casos, los datos necesarios para una aplicación o análisis en particular ya
existen en una o múltiples bases de datos.
En este caso no existe manera de modificar la data para satisfacer cualquier necesidad que
tenga el análisis que se desee realizar, por lo que este tipo de datos tiene finitas maneras
de ser analizados.
Estudios para Recolección Nuevos Datos
En numerosas ocasiones los datos no están disponibles a través de fuentes existentes. En
estos casos, los datos suelen obtenerse a través de estudios estadísticos.
Los estudios estadísticos se clasifican en:
• Estudios experimentales
• Estudios observacionales o no experimentales
Estudios Experimentales
En estos estudios se debe identificar la variable de interés y luego se toman una o más variables
para ser controladas y ver cómo influyen estas variables sobre la de interés.
Un ejemplo sería un estudio de una farmacéutica para conocer cómo afecta un nuevo
medicamento la presión sanguínea, que sería la variable de interés.
Como variable de control se selecciona la dosis del medicamento que será suministrado a
distintos pacientes y se verifica la presión sanguínea de los pacientes antes y después de la
ingesta del medicamento.

Estudios Observacionales
Los estudios no experimentales u observacionales no intentan controlar las variables de interés
de ninguna manera. Se basan en la obtención de datos para ser analizados tal y como son.
Los estudios experimentales más conocidos son:
• Las Encuestas: es un cuestionario que incluye todas las preguntas necesarias para resolver
un determinado problema o realizar un determinado análisis.
• Los Censos: es el proceso de realizar una encuesta para recolectar datos de toda una
población.
Estadística y Probabilidad
El dominio de la probabilidad permite entender mejor cómo se desarrollan y utilizan los
procedimientos inferenciales, cómo las conclusiones estadísticas pueden ser traducidas al
lenguaje diario e interpretadas y cuándo y dónde pueden ocurrir errores al aplicar los
métodos. La probabilidad y estadística se ocupan de cuestiones que implican poblaciones y
muestras, pero lo hacen de una “manera inversa” una con respecto a la otra.
La relación entre las dos disciplinas se resume diciendo que la probabilidad va de la
población a la muestra (razonamiento deductivo), mientras que la estadística inferencial
va de la muestra a la población (razonamiento inductivo).
Antes de que se pueda entender lo que una muestra particular pueda decir sobre la
población, primero se deberá entender la incertidumbre asociada con la toma de una
muestra de una población dada. Por eso se estudia la probabilidad antes que la estadística.
Como un ejemplo del enfoque contrastante de la probabilidad y la estadística inferencial, el
uso que los conductores hacen de los cinturones de seguridad.
Se podría suponer que probablemente 50% de todos los conductores de carros en cierta
área metropolitana utilizan de manera regular su cinturón de seguridad (una suposición
sobre la población), así que se podría preguntar, “¿qué tan probable es que una muestra de
100 conductores incluirá por lo menos 70 que regularmente utilicen su cinturón?” o
“¿cuántos de los conductores en una muestra de tamaño 100 se puede esperar que
utilicen con regularidad su cinturón?”
Por otra parte, en estadística inferencial se dispone de información sobre la muestra; por
ejemplo, una muestra de 100 conductores de tales vehículos reveló que 65 utilizan con
regularidad su cinturón. Se podría entonces preguntar: “¿proporciona esto evidencia
sustancial para concluir que más de 50% de todos los conductores en esta área utilizan con
regularidad su cinturón?”
En el último escenario, se intenta utilizar la información relativa a la muestra para
responder una pregunta acerca de la estructura de toda la población de la cual se
seleccionó la muestra.
Recopilación de datos
La estadística se ocupa no sólo de la organización y análisis de datos una vez que han sido
recopilados sino también con el desarrollo de técnicas de recopilación de datos. Si éstos no son
apropiadamente recopilados, un investigador no puede ser capaz de responder las preguntas
consideradas con un razonable grado de confianza.
Una investigación típicamente se enfocará en una colección bien definida de objetos que
constituyen una población de interés. Las restricciones de tiempo, dinero y otros recursos
escasos casi siempre hacen que obtener la población sea impráctico o infactible. En su lugar, se
selecciona un subconjunto de la población, una muestra, de manera prescrita.
Hay diferentes tipos de recopilación de muestras o de muestreo:
• Muestreo aleatorio simple: cualquier muestra de un tamaño específico tiene la misma
probabilidad de ser seleccionada que cualquiera otra muestra del mismo tamaño. Se podría
utilizar una tabla de números aleatorios o un generador de números aleatorios de
computadora.
• Muestreo aleatorio estratificado: implica separar las unidades de la población en grupos no
traslapantes o estratos, y tomar una muestra de cada uno.
• Muestreo de conveniencia: seleccionando individuos u objetos sin aleatorización
sistemática.
Medidas
Medidas de localización
Las medidas de localización están diseñadas para brindar al analista algunos valores
cuantitativos de la ubicación central o de otro tipo, de los datos en una muestra.
Dentro de las más utilizadas están:
• Media
• Mediana
• Cuartiles
• Percentiles
Media
La media, mejor conocida como el promedio, es la medida más conocida y útil. Suponga
que las observaciones en una muestra son 𝑥1 , 𝑥2 ,… 𝑥𝑛 , la media sería:
• Media muestral:
𝒏
𝒙𝒊 𝒙𝟏 + 𝒙𝟐 +… 𝒙𝒏
ഥ=෍ =
𝒙
𝒏 𝒏
𝒊=𝟏

𝑥ҧ = media de la muestra
𝑥𝑖 = elemento u observación
n = número total de elementos de la muestra
Ejemplo:
El agrietamiento de hierro y acero provocado por corrosión producida por esfuerzo
cáustico ha sido estudiado debido a las fallas que se presentan alrededor de los remaches
en calderas de acero y fallas de rotores de turbinas de vapor. Considérense las
observaciones adjuntas de x = longitud de agrietamiento derivadas de pruebas de
corrosión con esfuerzo constante en probetas de barras pulidas sometidas a tensión
durante un periodo fijo.

𝒏
𝒙𝒊 𝟒𝟒𝟒. 𝟖
ഥ=෍
𝒙 = = 𝟐𝟏. 𝟏𝟖
𝒏 𝟐𝟏
𝒊=𝟏
La media sufre de una deficiencia que la hace ser una medida inapropiada del centro en
algunas circunstancias: su valor puede ser afectado en gran medida por la presencia de
incluso un solo valor extremo (una observación inusualmente grande o pequeña).
En el ejemplo anterior, el valor 𝑥14 = 45.0 es obviamente un valor extremo. Sin esta
observación, la media sería de 19.99.
Media recortada
La media recortada se calcula “quitando” cierto porcentaje de los valores mayores y
menores del conjunto. Por ejemplo, la media recortada al 10% se encuentra eliminando
tanto el 10% de los valores mayores como el 10% de los menores, y calculando el promedio
de los valores restantes.
El enfoque de la media recortada es ser menos sensible a los valores extremos que la
media de la muestra, pero no tan insensible como la mediana.
Donde p% es el porcentaje que se desea recortar, se calcula n(p%/100) para identificar
cuantos valores se deben remover de cada extremo de los datos, y siempre se debe
redondear para que sea un número entero.
Ejemplo:
La producción de Bidri es una artesanía tradicional de India. Las artesanías Bidri (tazones,
recipientes, etc.) se funden con una aleación que contiene principalmente zinc y algo de
cobre. Considere las siguientes observaciones sobre contenido de cobre (%) de una
muestra de artefactos Bidri tomada del Museo Victoria y Albert en Londres:

Si queremos calcular la media recortada al 5%, calculamos 26(5/100) = 1.3 = ෥ 1, entonces


removemos el primero y el último x, para calcular el promedio con el resto.

73.4
𝑥ҧ 𝑟𝑒𝑐 5 = = 3.06
24
Los Percentiles
Un percentil proporciona información sobre cómo se distribuyen los datos en el intervalo del valor
menor al valor mayor, al separar los datos en 100 partes. Como la mediana es el valor que est[a en el
medio de la distribución, seria el percentil 50.
El percentil p-ésimo es un valor tal que por lo menos p por ciento de las observaciones es menor o
igual que este valor, y por lo menos (100 - p) por ciento de las observaciones es mayor o igual que
este valor.

Se calculan siguiendo los siguientes pasos:


1. Ordene los datos de modo ascendente (del valor menor al valor mayor).
𝑝
2. Calcule un índice i = 𝑛 , donde p es el percentil de interés y n es el número de
100
observaciones.
a) Si i no es un entero, redondéelo. El entero siguiente mayor que i denota la posición del p-
ésimo percentil.
b) Si i es un entero, el p-ésimo percentil es el promedio de los valores en las posiciones i e i + 1.
Ejemplo:
El riesgo de desarrollar deficiencia de hierro es especialmente alto durante el embarazo. El problema
con la detección de tal deficiencia es que algunos métodos para determinar el estado del hierro
pueden ser afectados por el estado de gravidez mismo. Considérense las siguientes observaciones
ordenadas de concentración de receptores de transferrina de una muestra de mujeres con evidencia
de laboratorio de anemia por deficiencia de hierro evidente:
8.3 9.4 10.4 11.5 9.4 7.6 11.9 20.4 16.2 15.2 9.3 9.7
Primero ordenamos los datos de menor a mayor:
7.6 8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4

p 50
P50 = n= 12 = 6 → 6 y 7 → (9.7+10.4)/2 = 10.05
100 100

p 60
P60 = n= 12 = 7.2 → 8 → 11.5
100 100
Los Cuartiles
Los cuartiles son puntos tomados a intervalos regulares de la función de distribución de una variable.
Se dividen los datos en cuatro partes, cada una de las cuales contiene aproximadamente un cuarto, o
25% de las observaciones. Son definidos como:
• Q1 = primer cuartil, o percentil 25.
• Q 2 = segundo cuartil, o percentil 50 (también la mediana).
• Q 3 = tercer cuartil, o percentil 75.
El cálculo de los cuartiles requiere el uso de la regla para obtener los percentiles 25, 50 y 75.
7.6 8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4

𝐐𝟏 𝐐𝟐 𝐐𝟑

p 25
Q1 = P25 = n= 12 = 3 → 3 y 4 → (9.3+9.4)/2 = 9.35
100 100

p 50
Q2= n= 12 = 6 → 6 y 7 → (9.7+10.4)/2 = 10.05
100 100

p 50
Q3= n= 12 = 6 → 9 y 10 → (11.9+15.2)/2 = 13.55
100 100
Medidas de variabilidad
El reporte de una medida de centro da sólo información parcial sobre un conjunto o
distribución de datos. Diferentes muestras o poblaciones pueden tener medidas idénticas
de centro y aún diferir entre sí en otras importantes maneras.
Esto lo podemos observar con las tres distribuciones de la figura. La media de las tres
curvas es la misma, pero la curva A tiene menor separación o variabilidad que la curva B, y
ésta tiene menor variabilidad que la C. Si medimos sólo la media de estas tres
distribuciones, estaremos pasando por alto una diferencia importante que existe entre las
tres curvas.
Las medidas de variabilidad miden el grado de variabilidad que hay en los datos. Dentro de
las mas utilizadas están:
• Rango
• Varianza
• Desviación Estándar
Rango
La medida más simple de variabilidad en una muestra es el rango, el cual es la diferencia
entre los valores muestrales más grande y más pequeño.
Rango = 𝐱 𝐦á𝐱𝐢𝐦𝐨 − 𝐱 𝐦í𝐧𝐢𝐦𝐨
Ejemplo:
La resistencia es una característica importante de los materiales utilizados en casas
prefabricadas. Cada uno de n = 11 elementos de placa prefabricados se sometieron a
prueba de esfuerzo severo y se registró el ancho máximo (mm) de las grietas resultantes.

Rango = 𝟑. 𝟓𝟐𝟎 − 𝟎. 𝟒𝟖𝟑 = 𝟑. 𝟎𝟑𝟕


El Rango Intercuartílico
Esta medida de variabilidad supera la dependencia sobre los valores extremos, y es la diferencia
entre el tercer cuartil, Q 3 o P75 , y el primer cuartil, Q1 o P25 .
Mide aproximadamente qué tan lejos de la mediana debemos ir en cualquiera de las dos direcciones
antes de recorrer una mitad de los valores del conjunto de datos. La fórmula es:

𝐑𝐈𝐂 = 𝐐𝟑 − 𝐐𝟏 = 𝐏𝟕𝟓 − 𝐏𝟐𝟓


Ejemplo:

Q1 = 0.924
Q 3 = 2.54
RIC = 2.54 − 0.924 = 1.616
Varianza
La varianza es una medida de la desviación cuadrática promedio de la media. Es decir, las
desviaciones de la media se obtienen restando la media de cada una de la n observaciones
muestrales.
Una desviación será positiva si la observación es más grande que la media (a la derecha de
la media sobre el eje de medición) y negativa si la observación es más pequeña que la
media. Si todas las desviaciones son pequeñas en magnitud, entonces todas las xi se
aproximan a la media y hay poca variabilidad. Alternativamente, si algunas de las
desviaciones son grandes en magnitud, entonces algunas xi quedan lejos de la media lo
que sugiere una mayor cantidad de variabilidad.
Una forma simple de combinar las desviaciones en una sola cantidad es promediarlas, pero
la desviación promedio siempre es cero. Entonces para evitar que las desviaciones
negativas y positivas se neutralicen entre sí, se utilizan las desviaciones al cuadrado.
Varianza muestral

σ𝑛 2
2 𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠 =
𝑛−1

s2 = varianza de la muestra
𝑥𝑖 = elemento u observación
𝑥ҧ = media de la muestra
n = número total de elementos de la muestra

La varianza de la muestra tiene unidades que son el cuadrado de las unidades en los datos
observados.
Desviación Estándar
La desviación estándar de la muestra mide la variabilidad en unidades lineales, por tanto se
obtiene sacando la raíz cuadrada de la varianza.
Varianza muestral

s= s2

Ejemplo:
En un ejemplo que se estudia ampliamente en el capítulo 10, un ingeniero se interesa en
probar el “sesgo” en un medidor de pH. Los datos se recaban con el medidor mediante la
medición del pH de una sustancia neutra (pH = 7.0). Se toma una muestra de tamaño 10 y
se obtienen los siguientes resultados:
7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08
Vamos a calcular la varianza y la desviación estándar. Primero necesitamos calcular la
media:
𝑛
𝑥𝑖 7.07 + 7.00 + 7.10 + 6.97 + 7.00 + 7.03 + 7.01 + 7.01 + 6.98 + 7.08
𝑥ҧ = ෍ = = 7.0250
𝑛 10
𝑖=1

x x - 𝐱ത (x - 𝐱ത)²
7.07 0.045 0.002025 0.01745
s2 = = 0.001939
9
7 -0.025 0.000625
7.1 0.075 0.005625
6.97 -0.055 0.003025 s = s 2 = 0.001939 = 0.044
7 -0.025 0.000625
7.03 0.005 0.000025
7.01 -0.015 0.000225
7.01 -0.015 0.000225
6.98 -0.045 0.002025
7.08 0.055 0.003025
෍ 0.01745
Resumen Tabular
Distribución de Frecuencia
Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada
una de varias clases. Las clases son grupos de valores que describen una característica de los datos y no se superponen, es
decir, todos los datos caen en una u otra categoría.
Por tanto, una distribución de frecuencias muestra el número de observaciones del conjunto de datos que caen en cada
una de las clases. La suma de las frecuencias en cualquier distribución de frecuencia es siempre igual al número de
observaciones.
• Datos cualitativos: se cuenta el número de veces que aparece cada categoría en la base de datos.
• Datos cuantitativos: la data no cuenta con categorías, por tanto hay que definir sus clases siguiendo estos pasos:
1. Determinar el número de clases que no se superponen: como regla general, se recomienda utilizar entre 5 y
20 clases.
2. Definir el ancho de cada clase: se utiliza la siguiente fórmula.

valor de datos mayor − valor de datos menor


Ancho de clase aproximado =
número de clases
3. Determinar los límites de clase: deben elegirse de modo que cada elemento de datos pertenezca a una y sólo
una de las clases.
Tipos de Frecuencias
• La frecuencia absoluta es el número de veces que ocurre un valor en el conjunto de datos.
• La frecuencia relativa es igual a la fracción o proporción de elementos que pertenecen a cada
clase. Para un conjunto de datos con n observaciones, la frecuencia relativa de cada clase se
determina como sigue:
frecuencia de la clase
Frecuencia relativa = 𝒏

• La frecuencia porcentual de una clase es la frecuencia relativa multiplicada por 100.


Frecuencia porcentual = frecuencia relativa de la clase * 100
• La frecuencia acumulada muestra el número de elementos de datos con valores menores o
iguales que el límite de clase superior de cada clase.
Ejemplo:
La siguiente tabla muestra un banco de datos que contiene información de 25 fondos de inversión
que forman parte de Morningstar Funds500 para 2008.
1. Construir una tabla de frecuencia para la variable “Morning Star Rank”, con las frecuencias
absoluta, relativa, porcentual y acumulada.
2. Construir una tabla de frecuencia con ancho 10 para la variable “Net Asset Value”, con las
frecuencias absoluta, relativa, porcentual y acumulada.

Morning
Fa Fr Fp Fac
Star Rank
2-star 1 0.04 4% 1
3-star 12 0.48 48% 13
4-star 10 0.40 4% 23
5-star 2 0.08 8% 25
Total 25 1 100%

Net Asset
Fa Fr Fp Fac
Value
8.50-17.50 10 0.40 40% 10
17.51 – 26.50 4 0.16 16% 14
26.51 – 35.50 3 0.12 12% 17
35.51 – 44.50 3 0.12 12% 20
44.51 – 53.50 3 0.12 12% 23
53.51 – 62.50 1 0.04 4% 24
62.51 – 71.50 0 0 0% 24
71.51 – 80.50 1 0.04 4% 25
Total 25 1 100%
Datos Bivariados
Es de gran utilidad el análisis conjunto de dos variables para tener una idea de cómo puede influir
una variable sobre la otra.
Tabulación Cruzada
Una tabulación cruzada es un resumen de los datos para dos variables. Ilustremos su uso al
considerar la aplicación siguiente con base en los datos de Zagat’s Restaurant Review.
Se reunieron los datos sobre la calificación de calidad y precio de las comidas para una muestra de
300 restaurantes ubicados en el área de Los Ángeles. La tabla siguiente muestra los datos para los
primeros 10 negocios.

La calificación de calidad es una variable cualitativa


con categorías de calificación de bueno, muy
bueno y excelente. El precio de la comida es una
variable cuantitativa que varía de $10 a $49.
Una tabulación cruzada de los datos para esta aplicación se muestra en la tabla. Las etiquetas del
margen superior izquierdo definen las clases para las dos variables. En el margen izquierdo, las
etiquetas de las filas buena, muy buena y excelente corresponden a las tres clases de la variable de
calificación de la calidad. En el margen superior, las etiquetas de columna corresponden a las cuatro
clases de la variable precio de la comida.
Cada restaurante de la muestra exhibe una calificación de calidad y un precio de alimentos. Por tanto,
cada uno se asocia con una celda que aparece en una de las filas y en una de las columnas de la
tabulación cruzada.
Por ejemplo, el restaurante 5 se identifica con una calificación de muy buena calidad y un precio de
comida de $33. Este negocio pertenece a la celda que intercepta la fila 2 y la columna 3 de la tabla .
Resumen Gráfico
Gráficas de Barras
Una gráfica de barras es un dispositivo gráfico que se usa para representar los datos cualitativos
resumidos en una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual.
En un eje de la gráfica (por lo general el horizontal) se especifican las etiquetas utilizadas para las
clases (categorías). En el otro eje de la gráfica (por lo general el vertical) se coloca una escala de
frecuencia, de frecuencia relativa o de frecuencia porcentual. Luego se traza una barra de ancho fijo
arriba de cada etiqueta de clase y se extiende su longitud hasta llegar a la frecuencia, la frecuencia
relativa o la frecuencia porcentual de la clase.
Para los datos cualitativos, las barras deben estar a cierta distancia para recalcar el hecho de que
cada clase está separada.
Bebida Frecuencia
La figura siguiente muestra una gráfica de barras de la distribución
Coke Classic 19
de frecuencia de 50 bebidas refrescantes. Diet Coke 8
Dr. Pepper 5
Pepsi 13
Sprite 5
Total 50
Gráficas de Barras para las
Bebidas Refrescantes
Gráficas Circulares
La gráfica circular o de pastel es otro dispositivo gráfico que presenta las distribuciones de frecuencia
relativa y de frecuencia porcentual para datos cualitativos.
Para elaborarla, primero se traza un círculo que represente todos los datos. Luego se usan las
frecuencias relativas para subdividir el círculo en sectores, o partes, que corresponden a la frecuencia
relativa de cada clase.
Por ejemplo, como un círculo contiene 360 grados y la Coke Classic muestra una frecuencia relativa
de 0.38, el sector de la gráfica circular etiquetado como Coke Classic mide 0.38(360) = 136.8 grados.
El sector etiquetado como Diet Coke mide 0.16(360) = 57.6 grados.
Cálculos parecidos para las demás clases producen la gráfica circular de la figura siguiente. Los
valores numéricos mostrados para cada sector pueden ser frecuencias, frecuencias relativas o
frecuencias porcentuales.
Gráficas Circular para las Bebidas
Refrescantes
Diagrama de Puntos
Uno de los resúmenes gráficos de datos más sencillos es el diagrama de puntos. El eje horizontal
muestra el rango de los datos. Cada valor se representa por medio de un punto colocado sobre este
eje. Cuando un valor ocurre más de una vez, existe un punto por cada ocurrencia y estos puntos se
apilan verticalmente.
La figura siguiente es el diagrama de puntos de los datos de duración de la auditoría. Los tres puntos
ubicados por encima de 18 sobre el eje horizontal indican que una duración de la auditoría de 18 días
ocurrió tres veces.
Los diagramas de puntos muestran los detalles de los datos y son útiles para comparar la distribución
de los datos de dos o más variables.
Histograma
El histograma es una presentación gráfica común de los datos cuantitativos. Este resumen gráfico se
elabora para datos previamente resumidos, ya sea mediante una distribución de frecuencia, de
frecuencia relativa o de frecuencia porcentual.
Para elaborar un histograma, la variable de interés se coloca sobre el eje horizontal y la frecuencia de
que se trate, sobre el eje vertical. La frecuencia, la frecuencia relativa o la frecuencia porcentual de
cada clase se indica con el trazo de un rectángulo, cuya base está determinada por los límites de
clase sobre el eje horizontal, y cuya altura es la frecuencia, la frecuencia relativa o la frecuencia
porcentual correspondiente.
La figura siguiente es un histograma de los datos de duración de la auditoría. Observe que la clase
con mayor frecuencia se muestra por medio del rectángulo que aparece encima de la clase 15–19
días. La altura del rectángulo indica que la frecuencia de esta clase es 8.
Un histograma de la distribución de frecuencia relativa o porcentual de estos datos se ve igual que el
de la figura, con la excepción de que el eje vertical se etiqueta con los valores de la frecuencia
relativa o porcentual respectiva.
La diferencia entre una gráfica de barras, es que no hay una separación natural entre los rectángulos
de las clases adyacentes
Histograma de la Auditoría
Los histogramas se presentan en varias formas. Un histograma unimodal es el que se eleva a una sola cresta
y luego declina. Uno bimodal tiene dos crestas diferentes. Puede ocurrir bimodalidad cuando el conjunto
de datos se compone de observaciones de dos clases bastante diferentes de individuos u objetos. Se dice
que un histograma con más de dos crestas es multimodal.

Uno de los usos más importantes del histograma es proporcionar información acerca de la forma de una
distribución. La figura siguiente presenta cuatro histogramas elaborados a partir de distribuciones de
frecuencia relativa.
El panel A lo muestra para un conjunto de datos moderadamente sesgado a la izquierda. Se dice que un
histograma está sesgado a la izquierda si su cola se extiende más hacia esta dirección.
El panel B muestra el histograma para un conjunto de datos moderadamente sesgado a la derecha. Se dice
que está sesgado a la derecha si su cola se extiende más hacia esta dirección.
El histograma C es simétrico. En este tipo, la cola izquierda imita la forma de la cola derecha, se puede
doblar a lo largo de un eje vertical de manera que ambos lados coincidan.
Uno de los usos más importantes del histograma es proporcionar información acerca de la forma de
una distribución. La figura siguiente presenta cuatro histogramas elaborados a partir de
distribuciones de frecuencia relativa.
El panel A lo muestra para un conjunto de datos moderadamente sesgado a la izquierda. Se dice que
un histograma está sesgado a la izquierda si su cola se extiende más hacia esta dirección. Éste es
típico para las calificaciones de exámenes: no hay calificaciones superiores a 100%, la mayoría es
superior a 70%, y sólo algunas son realmente bajas.
El panel B muestra el histograma para un conjunto de datos moderadamente sesgado a la derecha.
Se dice que está sesgado a la derecha si su cola se extiende más hacia esta dirección. Un ejemplo de
este tipo son los histogramas de los precios de las viviendas: algunas casas costosas crean el sesgo de
la cola hacia la derecha.
El histograma C es simétrico. En este tipo, la cola izquierda imita la forma de la cola derecha. Con los
datos de las estaturas y los pesos de las personas, y así por el estilo, se generan histogramas
aproximadamente simétricos.
El histograma D está muy sesgado a la derecha. Con los datos de las aplicaciones a los negocios y la
economía, a menudo se elaboran histogramas sesgados a la derecha.
Diagrama de Tallo y Hoja
Las técnicas del análisis de datos exploratorio consisten en una aritmética simple y gráficas fáciles de
elaborar que pueden usarse para resumir los datos rápidamente. Una de ellas, conocida como
diagrama de tallo y hoja, puede utilizarse para mostrar simultáneamente tanto la clasificación como
la forma de un conjunto de datos.
Hay que seguir estos pasos:
1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segundos dígitos se
convierten en hojas.
2. Enumere los posibles valores de tallos en una columna vertical.
3. Anote la hoja para cada observación junto al valor de tallo.
4. Indique las unidades para tallos y hojas en algún lugar de la gráfica.
Considere los datos de la tabla. Éstos fueron obtenidos de una prueba de aptitudes de 150 preguntas
a 50 personas entrevistadas recientemente para un puesto en Haskens Manufacturing. Los datos
indican el número de preguntas respondidas correctamente.
Los números a la izquierda de la línea vertical (6, 7, 8, 9, 10, 11, 12, 13 y 14) forman el tallo, y cada
dígito a la derecha de la línea es una hoja.
Gráfica de Caja
Una gráfica de caja de caja se utiliza para describir varias de las características más prominentes de
un conjunto de datos. Estas características incluyen 1) el centro, 2) la dispersión, 3) el grado y
naturaleza de cualquier alejamiento de la simetría y 4) la identificación de las observaciones
“extremas o apartadas” inusualmente alejadas del cuerpo principal de los datos.
Para elaborar un diagrama se siguen los siguientes pasos:
1. Se traza una caja con sus extremos ubicados en el primer y tercer cuartiles. Este cuadro contiene
la mitad, 50%, de los datos.
2. Se traza una línea vertical en el cuadro donde se ubica la mediana.
3. Al usar el rango intercuartílico, RIC = Q 3 - Q1 , se localizan los límites. Para el diagrama de caja los
límites son 1.5(RIC) por debajo de Q1 y 1.5(RIC) por encima de Q 3 . Los datos fuera de estos
límites se consideran observaciones atípicas.
4. Se trazan los llamados bigotes, desde los extremos de la caja hasta los valores menor y mayor
dentro de los límites calculados en el paso 3.
5. Por último, la ubicación de cada observación atípica se señala con un asterisco (símbolo *).
Los efectos de descargas parciales en la degradación de materiales para cavidades aislantes tienen
implicaciones importantes en relación con las duraciones de componentes de alto voltaje.
Considérese la siguiente muestra de n = 25 anchos de pulso de descargas lentas en una cavidad
cilíndrica de polietileno.

Q1 = 0.25(25)= 6.25 = 7 = 90.2


Q 2 = 0.50(25)= 12.5 = 13 = 94.8
Q 3 = 0.75(25)= 18.75 = 19 = 96.7
RIC = Q 3 − Q1 = 96.7 – 90.2 = 6.5
Límites = 1.5(6.5) = 9.75
Diagrama de Dispersión
Un diagrama de dispersión es una presentación gráfica de la relación entre dos variables
cuantitativas, y una línea de tendencia es aquella que proporciona una aproximación de la relación.
Como ejemplo, considere la relación publicidad/ventas para una tienda de estéreos y equipos de
sonido en San Francisco. Durante los tres meses pasados, en 10 ocasiones la tienda usó los
comerciales de televisión de fin de semana para promover las ventas en sus establecimientos.
Los gerentes quieren investigar si existe una relación entre el número de comerciales transmitidos y
las ventas en la tienda durante la semana siguiente. Los datos muestrales de las 10 semanas con las
ventas en cientos de dólares se registran en la tabla siguiente.
La figura ilustra el diagrama de dispersión y la línea de tendencia para los datos de la tabla. El número
de comerciales (x) se observa en el eje horizontal y las ventas (y) en el eje vertical.
Para la semana 1, x = 2 y y = 50. Un punto con esas coordenadas se traza en el diagrama de
dispersión. Puntos similares se trazan en las otras nueve semanas. Observe que en dos semanas se
transmitió un comercial, durante dos de las semanas se mostraron dos comerciales, etcétera.
El diagrama de dispersión completo de la figura indica una relación positiva entre el número de
comerciales y las ventas. Las ventas más altas se asocian con un número mayor de anuncios
publicitarios.
La relación no es perfecta, ya que no todos los puntos están en una línea recta; sin embargo, el
patrón general de los puntos y la línea de tendencia sugieren que en general la relación es positiva.
Algunos patrones generales de diagramas de dispersión y los tipos de relación que sugieren se
muestran en la figura. El panel superior izquierdo representa una relación positiva parecida a la del
ejemplo del número de comerciales y ventas. En el panel superior derecho, el diagrama de dispersión
no muestra una relación aparente entre las variables. El panel inferior representa una relación
negativa donde y tiende a disminuir a medida que x aumenta.
Práctica 1
Libro: Walpole, R. E., Myers, R. H., & Myers, S. L. (2012)

Realizar los ejercicios:


1.1, 1.2, 1.3, 1.4, 1.5, 1.7, 1.8, 1.9, 1.10, 1.12, 1.14, 1.17, 1.18 (incluir tabla de frecuencias), 1.19
(incluir todas las frecuencias), 1.20 (sustituir el a por un diagrama de caja), 1.21 (solo hacer gráfica de
caja), 1.22, 1.24 (incluir tabla de frecuencias), 1.28, 1.29, tabla 11.1 pág.393 (solo tabulación
cruzada), 11.1 (solo tabulación cruzada), 11.2 (solo diagrama de dispersión), 11.7 (solo diagrama de
dispersión).
Referencias
• Walpole, R. E., Myers, R. H., & Myers, S. L. (2012). Probabilidad y estadística para
Ingeniería y Ciencias (9a. Ed.). Pearson Educación
• Devore, J. L. (2008). Probabilidad y estadística para Ingeniería y ciencias. (J. H. Romo,
Trans., Saucedo Leonardo Bañuelos, Ed.) (7ma ed.). Cengage Learning
• Anderson, Sweeney y Williams. Estadística para Negocios y Economía. 11va Edición.
Cengage Learning, 2012.

También podría gustarte