Unidad 1 - Introducción A La Estadística y Análisis de Datos
Unidad 1 - Introducción A La Estadística y Análisis de Datos
Unidad 1 - Introducción A La Estadística y Análisis de Datos
INTRODUCCIÓN A LA ESTADÍSTICA
Y ANÁLISIS DE DATOS
Maxie Salazar
Unidad I
Introducción a la Estadística y Análisis de Datos
• Introducción • Rango Intercuartílico
• Conceptos Principales • Varianza
• Desviación estándar
• Ramas de la Estadística
• Resumen tabular
• Fuentes de los datos
• Tablas de frecuencia
• Recopilación de datos • Tipos de frecuencia
• Medidas de localización • Resumen gráfico
• Media • Gráfica de barras
• Media recortada • Gráfico circular
• Mediana • Diagrama de puntos
• Cuartiles • Histograma
• Percentiles • Diagrama de tallo y hoja
• Medidas de variabilidad • Gráfica de caja
• Rango • Diagrama de dispersión
Introducción
Introducción
Los conceptos y métodos estadísticos no son sólo útiles sino que con frecuencia son
indispensables para entender el mundo que nos rodea.
La disciplina de la estadística nos enseña cómo realizar juicios inteligentes y tomar decisiones
informadas entre la presencia de incertidumbre y variación. Sin incertidumbre y variación,
habría poca necesidad de métodos estadísticos o de profesionales en estadística.
Si cada componente de un tipo particular tuviera exactamente la misma duración, si todos los
resistores producidos por un fabricante tuvieran el mismo valor de resistencia, si las
determinaciones del pH en muestras de suelo de un lugar particular dieran resultados
idénticos, y así sucesivamente, entonces una sola observación revelaría toda la información
deseada y no habría necesidad de métodos estadísticos.
Supóngase, por ejemplo, que un ingeniero de materiales inventó un recubrimiento para
retardar la corrosión en tuberías de metal en circunstancias específicas.
Si este recubrimiento se aplica a diferentes segmentos de la tubería, la variación de las
condiciones ambientales y de los segmentos mismos producirá más corrosión sustancial en
algunos segmentos que en otros. Se podría utilizar un análisis estadístico en datos de dicho
experimento para decidir si la cantidad promedio de corrosión excede un límite superior
especificado de alguna clase o para predecir cuánta corrosión ocurrirá en una sola pieza de
tubería.
Por otra parte, supóngase que el ingeniero inventó el recubrimiento con la creencia de que
será superior al recubrimiento actualmente utilizado. Se podría realizar un experimento
comparativo para investigar esta cuestión aplicando el recubrimiento actual a algunos
segmentos de la tubería y el nuevo a otros segmentos.
Este es un ejemplo de cómo se pueden utilizar técnicas estadísticas para reunir
información y sacar conclusiones.
Conceptos Principales
Conceptos Principales
Los datos son los hechos y las cifras recolectados, analizados y resumidos para su
interpretación. Todos los datos recolectados en un estudio en particular se conocen como
banco de datos o base de datos, mientras que una sola cifra u observación es un dato
puntual.
Los elementos son las entidades a partir de las cuales se reúnen los datos. Las variables
son las características de interés para los elementos. Al conjunto de mediciones obtenidas
para un elemento en particular se llama observación.
Un conjunto de datos univariantes se compone de observaciones realizadas en una sola
variable, bivariantes cuando se realizan observaciones en cada una de dos variables, y si
tenemos más variables serían multivariantes.
Ejemplo
5 Elementos 3 Variables
Fondo de Inversión Tipo de Fondo Calificación Morning Star Valor Neto Razón de Gasto
Artisan Small Cap DE 3 16.92 1.18
Brown Cap Small DE 4 35.73 1.20
Fidelity Overseas IE 4 48.39 0.90
Oakmark I DE 2 40.37 1.05
RS Value A DE 4 26.27 1.36
USAA Income FI 3 12.10 0.62
Vanguard Sm Cp Idx DE 3 32.58 0.23
Ramas de la Estadística
La disciplina de estadística proporciona métodos de organizar y resumir datos y de sacar
conclusiones basadas en la información contenida en los datos. Y se divide en 2 ramas:
• Estadística Descriptiva: es aquella que se encarga de recolectar, procesar, resumir y
presentar los datos, de manera que facilite la comprensión al lector.
• Estadística Inferencial: es aquella que se encarga de sacar conclusiones con respecto a
la población, tomando en cuenta como base los resultados obtenidos en la estadística
descriptiva de una determinada muestra.
Fuentes de los Datos
Las fuentes de los datos se clasifican de acuerdo a su origen en:
• Fuentes existentes
• Estudios diseñados para recolectar datos nuevos.
• Estudios experimentales
• Estudios observacionales o no experimentales
Fuentes Existentes
En algunos casos, los datos necesarios para una aplicación o análisis en particular ya
existen en una o múltiples bases de datos.
En este caso no existe manera de modificar la data para satisfacer cualquier necesidad que
tenga el análisis que se desee realizar, por lo que este tipo de datos tiene finitas maneras
de ser analizados.
Estudios para Recolección Nuevos Datos
En numerosas ocasiones los datos no están disponibles a través de fuentes existentes. En
estos casos, los datos suelen obtenerse a través de estudios estadísticos.
Los estudios estadísticos se clasifican en:
• Estudios experimentales
• Estudios observacionales o no experimentales
Estudios Experimentales
En estos estudios se debe identificar la variable de interés y luego se toman una o más variables
para ser controladas y ver cómo influyen estas variables sobre la de interés.
Un ejemplo sería un estudio de una farmacéutica para conocer cómo afecta un nuevo
medicamento la presión sanguínea, que sería la variable de interés.
Como variable de control se selecciona la dosis del medicamento que será suministrado a
distintos pacientes y se verifica la presión sanguínea de los pacientes antes y después de la
ingesta del medicamento.
Estudios Observacionales
Los estudios no experimentales u observacionales no intentan controlar las variables de interés
de ninguna manera. Se basan en la obtención de datos para ser analizados tal y como son.
Los estudios experimentales más conocidos son:
• Las Encuestas: es un cuestionario que incluye todas las preguntas necesarias para resolver
un determinado problema o realizar un determinado análisis.
• Los Censos: es el proceso de realizar una encuesta para recolectar datos de toda una
población.
Estadística y Probabilidad
El dominio de la probabilidad permite entender mejor cómo se desarrollan y utilizan los
procedimientos inferenciales, cómo las conclusiones estadísticas pueden ser traducidas al
lenguaje diario e interpretadas y cuándo y dónde pueden ocurrir errores al aplicar los
métodos. La probabilidad y estadística se ocupan de cuestiones que implican poblaciones y
muestras, pero lo hacen de una “manera inversa” una con respecto a la otra.
La relación entre las dos disciplinas se resume diciendo que la probabilidad va de la
población a la muestra (razonamiento deductivo), mientras que la estadística inferencial
va de la muestra a la población (razonamiento inductivo).
Antes de que se pueda entender lo que una muestra particular pueda decir sobre la
población, primero se deberá entender la incertidumbre asociada con la toma de una
muestra de una población dada. Por eso se estudia la probabilidad antes que la estadística.
Como un ejemplo del enfoque contrastante de la probabilidad y la estadística inferencial, el
uso que los conductores hacen de los cinturones de seguridad.
Se podría suponer que probablemente 50% de todos los conductores de carros en cierta
área metropolitana utilizan de manera regular su cinturón de seguridad (una suposición
sobre la población), así que se podría preguntar, “¿qué tan probable es que una muestra de
100 conductores incluirá por lo menos 70 que regularmente utilicen su cinturón?” o
“¿cuántos de los conductores en una muestra de tamaño 100 se puede esperar que
utilicen con regularidad su cinturón?”
Por otra parte, en estadística inferencial se dispone de información sobre la muestra; por
ejemplo, una muestra de 100 conductores de tales vehículos reveló que 65 utilizan con
regularidad su cinturón. Se podría entonces preguntar: “¿proporciona esto evidencia
sustancial para concluir que más de 50% de todos los conductores en esta área utilizan con
regularidad su cinturón?”
En el último escenario, se intenta utilizar la información relativa a la muestra para
responder una pregunta acerca de la estructura de toda la población de la cual se
seleccionó la muestra.
Recopilación de datos
La estadística se ocupa no sólo de la organización y análisis de datos una vez que han sido
recopilados sino también con el desarrollo de técnicas de recopilación de datos. Si éstos no son
apropiadamente recopilados, un investigador no puede ser capaz de responder las preguntas
consideradas con un razonable grado de confianza.
Una investigación típicamente se enfocará en una colección bien definida de objetos que
constituyen una población de interés. Las restricciones de tiempo, dinero y otros recursos
escasos casi siempre hacen que obtener la población sea impráctico o infactible. En su lugar, se
selecciona un subconjunto de la población, una muestra, de manera prescrita.
Hay diferentes tipos de recopilación de muestras o de muestreo:
• Muestreo aleatorio simple: cualquier muestra de un tamaño específico tiene la misma
probabilidad de ser seleccionada que cualquiera otra muestra del mismo tamaño. Se podría
utilizar una tabla de números aleatorios o un generador de números aleatorios de
computadora.
• Muestreo aleatorio estratificado: implica separar las unidades de la población en grupos no
traslapantes o estratos, y tomar una muestra de cada uno.
• Muestreo de conveniencia: seleccionando individuos u objetos sin aleatorización
sistemática.
Medidas
Medidas de localización
Las medidas de localización están diseñadas para brindar al analista algunos valores
cuantitativos de la ubicación central o de otro tipo, de los datos en una muestra.
Dentro de las más utilizadas están:
• Media
• Mediana
• Cuartiles
• Percentiles
Media
La media, mejor conocida como el promedio, es la medida más conocida y útil. Suponga
que las observaciones en una muestra son 𝑥1 , 𝑥2 ,… 𝑥𝑛 , la media sería:
• Media muestral:
𝒏
𝒙𝒊 𝒙𝟏 + 𝒙𝟐 +… 𝒙𝒏
ഥ= =
𝒙
𝒏 𝒏
𝒊=𝟏
𝑥ҧ = media de la muestra
𝑥𝑖 = elemento u observación
n = número total de elementos de la muestra
Ejemplo:
El agrietamiento de hierro y acero provocado por corrosión producida por esfuerzo
cáustico ha sido estudiado debido a las fallas que se presentan alrededor de los remaches
en calderas de acero y fallas de rotores de turbinas de vapor. Considérense las
observaciones adjuntas de x = longitud de agrietamiento derivadas de pruebas de
corrosión con esfuerzo constante en probetas de barras pulidas sometidas a tensión
durante un periodo fijo.
𝒏
𝒙𝒊 𝟒𝟒𝟒. 𝟖
ഥ=
𝒙 = = 𝟐𝟏. 𝟏𝟖
𝒏 𝟐𝟏
𝒊=𝟏
La media sufre de una deficiencia que la hace ser una medida inapropiada del centro en
algunas circunstancias: su valor puede ser afectado en gran medida por la presencia de
incluso un solo valor extremo (una observación inusualmente grande o pequeña).
En el ejemplo anterior, el valor 𝑥14 = 45.0 es obviamente un valor extremo. Sin esta
observación, la media sería de 19.99.
Media recortada
La media recortada se calcula “quitando” cierto porcentaje de los valores mayores y
menores del conjunto. Por ejemplo, la media recortada al 10% se encuentra eliminando
tanto el 10% de los valores mayores como el 10% de los menores, y calculando el promedio
de los valores restantes.
El enfoque de la media recortada es ser menos sensible a los valores extremos que la
media de la muestra, pero no tan insensible como la mediana.
Donde p% es el porcentaje que se desea recortar, se calcula n(p%/100) para identificar
cuantos valores se deben remover de cada extremo de los datos, y siempre se debe
redondear para que sea un número entero.
Ejemplo:
La producción de Bidri es una artesanía tradicional de India. Las artesanías Bidri (tazones,
recipientes, etc.) se funden con una aleación que contiene principalmente zinc y algo de
cobre. Considere las siguientes observaciones sobre contenido de cobre (%) de una
muestra de artefactos Bidri tomada del Museo Victoria y Albert en Londres:
73.4
𝑥ҧ 𝑟𝑒𝑐 5 = = 3.06
24
Los Percentiles
Un percentil proporciona información sobre cómo se distribuyen los datos en el intervalo del valor
menor al valor mayor, al separar los datos en 100 partes. Como la mediana es el valor que est[a en el
medio de la distribución, seria el percentil 50.
El percentil p-ésimo es un valor tal que por lo menos p por ciento de las observaciones es menor o
igual que este valor, y por lo menos (100 - p) por ciento de las observaciones es mayor o igual que
este valor.
p 50
P50 = n= 12 = 6 → 6 y 7 → (9.7+10.4)/2 = 10.05
100 100
p 60
P60 = n= 12 = 7.2 → 8 → 11.5
100 100
Los Cuartiles
Los cuartiles son puntos tomados a intervalos regulares de la función de distribución de una variable.
Se dividen los datos en cuatro partes, cada una de las cuales contiene aproximadamente un cuarto, o
25% de las observaciones. Son definidos como:
• Q1 = primer cuartil, o percentil 25.
• Q 2 = segundo cuartil, o percentil 50 (también la mediana).
• Q 3 = tercer cuartil, o percentil 75.
El cálculo de los cuartiles requiere el uso de la regla para obtener los percentiles 25, 50 y 75.
7.6 8.3 9.3 9.4 9.4 9.7 10.4 11.5 11.9 15.2 16.2 20.4
𝐐𝟏 𝐐𝟐 𝐐𝟑
p 25
Q1 = P25 = n= 12 = 3 → 3 y 4 → (9.3+9.4)/2 = 9.35
100 100
p 50
Q2= n= 12 = 6 → 6 y 7 → (9.7+10.4)/2 = 10.05
100 100
p 50
Q3= n= 12 = 6 → 9 y 10 → (11.9+15.2)/2 = 13.55
100 100
Medidas de variabilidad
El reporte de una medida de centro da sólo información parcial sobre un conjunto o
distribución de datos. Diferentes muestras o poblaciones pueden tener medidas idénticas
de centro y aún diferir entre sí en otras importantes maneras.
Esto lo podemos observar con las tres distribuciones de la figura. La media de las tres
curvas es la misma, pero la curva A tiene menor separación o variabilidad que la curva B, y
ésta tiene menor variabilidad que la C. Si medimos sólo la media de estas tres
distribuciones, estaremos pasando por alto una diferencia importante que existe entre las
tres curvas.
Las medidas de variabilidad miden el grado de variabilidad que hay en los datos. Dentro de
las mas utilizadas están:
• Rango
• Varianza
• Desviación Estándar
Rango
La medida más simple de variabilidad en una muestra es el rango, el cual es la diferencia
entre los valores muestrales más grande y más pequeño.
Rango = 𝐱 𝐦á𝐱𝐢𝐦𝐨 − 𝐱 𝐦í𝐧𝐢𝐦𝐨
Ejemplo:
La resistencia es una característica importante de los materiales utilizados en casas
prefabricadas. Cada uno de n = 11 elementos de placa prefabricados se sometieron a
prueba de esfuerzo severo y se registró el ancho máximo (mm) de las grietas resultantes.
Q1 = 0.924
Q 3 = 2.54
RIC = 2.54 − 0.924 = 1.616
Varianza
La varianza es una medida de la desviación cuadrática promedio de la media. Es decir, las
desviaciones de la media se obtienen restando la media de cada una de la n observaciones
muestrales.
Una desviación será positiva si la observación es más grande que la media (a la derecha de
la media sobre el eje de medición) y negativa si la observación es más pequeña que la
media. Si todas las desviaciones son pequeñas en magnitud, entonces todas las xi se
aproximan a la media y hay poca variabilidad. Alternativamente, si algunas de las
desviaciones son grandes en magnitud, entonces algunas xi quedan lejos de la media lo
que sugiere una mayor cantidad de variabilidad.
Una forma simple de combinar las desviaciones en una sola cantidad es promediarlas, pero
la desviación promedio siempre es cero. Entonces para evitar que las desviaciones
negativas y positivas se neutralicen entre sí, se utilizan las desviaciones al cuadrado.
Varianza muestral
σ𝑛 2
2 𝑖=1 𝑥𝑖 − 𝑥ҧ
𝑠 =
𝑛−1
s2 = varianza de la muestra
𝑥𝑖 = elemento u observación
𝑥ҧ = media de la muestra
n = número total de elementos de la muestra
La varianza de la muestra tiene unidades que son el cuadrado de las unidades en los datos
observados.
Desviación Estándar
La desviación estándar de la muestra mide la variabilidad en unidades lineales, por tanto se
obtiene sacando la raíz cuadrada de la varianza.
Varianza muestral
s= s2
Ejemplo:
En un ejemplo que se estudia ampliamente en el capítulo 10, un ingeniero se interesa en
probar el “sesgo” en un medidor de pH. Los datos se recaban con el medidor mediante la
medición del pH de una sustancia neutra (pH = 7.0). Se toma una muestra de tamaño 10 y
se obtienen los siguientes resultados:
7.07 7.00 7.10 6.97 7.00 7.03 7.01 7.01 6.98 7.08
Vamos a calcular la varianza y la desviación estándar. Primero necesitamos calcular la
media:
𝑛
𝑥𝑖 7.07 + 7.00 + 7.10 + 6.97 + 7.00 + 7.03 + 7.01 + 7.01 + 6.98 + 7.08
𝑥ҧ = = = 7.0250
𝑛 10
𝑖=1
x x - 𝐱ത (x - 𝐱ത)²
7.07 0.045 0.002025 0.01745
s2 = = 0.001939
9
7 -0.025 0.000625
7.1 0.075 0.005625
6.97 -0.055 0.003025 s = s 2 = 0.001939 = 0.044
7 -0.025 0.000625
7.03 0.005 0.000025
7.01 -0.015 0.000225
7.01 -0.015 0.000225
6.98 -0.045 0.002025
7.08 0.055 0.003025
0.01745
Resumen Tabular
Distribución de Frecuencia
Una distribución de frecuencia es un resumen tabular de datos que muestra el número (frecuencia) de elementos en cada
una de varias clases. Las clases son grupos de valores que describen una característica de los datos y no se superponen, es
decir, todos los datos caen en una u otra categoría.
Por tanto, una distribución de frecuencias muestra el número de observaciones del conjunto de datos que caen en cada
una de las clases. La suma de las frecuencias en cualquier distribución de frecuencia es siempre igual al número de
observaciones.
• Datos cualitativos: se cuenta el número de veces que aparece cada categoría en la base de datos.
• Datos cuantitativos: la data no cuenta con categorías, por tanto hay que definir sus clases siguiendo estos pasos:
1. Determinar el número de clases que no se superponen: como regla general, se recomienda utilizar entre 5 y
20 clases.
2. Definir el ancho de cada clase: se utiliza la siguiente fórmula.
Morning
Fa Fr Fp Fac
Star Rank
2-star 1 0.04 4% 1
3-star 12 0.48 48% 13
4-star 10 0.40 4% 23
5-star 2 0.08 8% 25
Total 25 1 100%
Net Asset
Fa Fr Fp Fac
Value
8.50-17.50 10 0.40 40% 10
17.51 – 26.50 4 0.16 16% 14
26.51 – 35.50 3 0.12 12% 17
35.51 – 44.50 3 0.12 12% 20
44.51 – 53.50 3 0.12 12% 23
53.51 – 62.50 1 0.04 4% 24
62.51 – 71.50 0 0 0% 24
71.51 – 80.50 1 0.04 4% 25
Total 25 1 100%
Datos Bivariados
Es de gran utilidad el análisis conjunto de dos variables para tener una idea de cómo puede influir
una variable sobre la otra.
Tabulación Cruzada
Una tabulación cruzada es un resumen de los datos para dos variables. Ilustremos su uso al
considerar la aplicación siguiente con base en los datos de Zagat’s Restaurant Review.
Se reunieron los datos sobre la calificación de calidad y precio de las comidas para una muestra de
300 restaurantes ubicados en el área de Los Ángeles. La tabla siguiente muestra los datos para los
primeros 10 negocios.
Uno de los usos más importantes del histograma es proporcionar información acerca de la forma de una
distribución. La figura siguiente presenta cuatro histogramas elaborados a partir de distribuciones de
frecuencia relativa.
El panel A lo muestra para un conjunto de datos moderadamente sesgado a la izquierda. Se dice que un
histograma está sesgado a la izquierda si su cola se extiende más hacia esta dirección.
El panel B muestra el histograma para un conjunto de datos moderadamente sesgado a la derecha. Se dice
que está sesgado a la derecha si su cola se extiende más hacia esta dirección.
El histograma C es simétrico. En este tipo, la cola izquierda imita la forma de la cola derecha, se puede
doblar a lo largo de un eje vertical de manera que ambos lados coincidan.
Uno de los usos más importantes del histograma es proporcionar información acerca de la forma de
una distribución. La figura siguiente presenta cuatro histogramas elaborados a partir de
distribuciones de frecuencia relativa.
El panel A lo muestra para un conjunto de datos moderadamente sesgado a la izquierda. Se dice que
un histograma está sesgado a la izquierda si su cola se extiende más hacia esta dirección. Éste es
típico para las calificaciones de exámenes: no hay calificaciones superiores a 100%, la mayoría es
superior a 70%, y sólo algunas son realmente bajas.
El panel B muestra el histograma para un conjunto de datos moderadamente sesgado a la derecha.
Se dice que está sesgado a la derecha si su cola se extiende más hacia esta dirección. Un ejemplo de
este tipo son los histogramas de los precios de las viviendas: algunas casas costosas crean el sesgo de
la cola hacia la derecha.
El histograma C es simétrico. En este tipo, la cola izquierda imita la forma de la cola derecha. Con los
datos de las estaturas y los pesos de las personas, y así por el estilo, se generan histogramas
aproximadamente simétricos.
El histograma D está muy sesgado a la derecha. Con los datos de las aplicaciones a los negocios y la
economía, a menudo se elaboran histogramas sesgados a la derecha.
Diagrama de Tallo y Hoja
Las técnicas del análisis de datos exploratorio consisten en una aritmética simple y gráficas fáciles de
elaborar que pueden usarse para resumir los datos rápidamente. Una de ellas, conocida como
diagrama de tallo y hoja, puede utilizarse para mostrar simultáneamente tanto la clasificación como
la forma de un conjunto de datos.
Hay que seguir estos pasos:
1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segundos dígitos se
convierten en hojas.
2. Enumere los posibles valores de tallos en una columna vertical.
3. Anote la hoja para cada observación junto al valor de tallo.
4. Indique las unidades para tallos y hojas en algún lugar de la gráfica.
Considere los datos de la tabla. Éstos fueron obtenidos de una prueba de aptitudes de 150 preguntas
a 50 personas entrevistadas recientemente para un puesto en Haskens Manufacturing. Los datos
indican el número de preguntas respondidas correctamente.
Los números a la izquierda de la línea vertical (6, 7, 8, 9, 10, 11, 12, 13 y 14) forman el tallo, y cada
dígito a la derecha de la línea es una hoja.
Gráfica de Caja
Una gráfica de caja de caja se utiliza para describir varias de las características más prominentes de
un conjunto de datos. Estas características incluyen 1) el centro, 2) la dispersión, 3) el grado y
naturaleza de cualquier alejamiento de la simetría y 4) la identificación de las observaciones
“extremas o apartadas” inusualmente alejadas del cuerpo principal de los datos.
Para elaborar un diagrama se siguen los siguientes pasos:
1. Se traza una caja con sus extremos ubicados en el primer y tercer cuartiles. Este cuadro contiene
la mitad, 50%, de los datos.
2. Se traza una línea vertical en el cuadro donde se ubica la mediana.
3. Al usar el rango intercuartílico, RIC = Q 3 - Q1 , se localizan los límites. Para el diagrama de caja los
límites son 1.5(RIC) por debajo de Q1 y 1.5(RIC) por encima de Q 3 . Los datos fuera de estos
límites se consideran observaciones atípicas.
4. Se trazan los llamados bigotes, desde los extremos de la caja hasta los valores menor y mayor
dentro de los límites calculados en el paso 3.
5. Por último, la ubicación de cada observación atípica se señala con un asterisco (símbolo *).
Los efectos de descargas parciales en la degradación de materiales para cavidades aislantes tienen
implicaciones importantes en relación con las duraciones de componentes de alto voltaje.
Considérese la siguiente muestra de n = 25 anchos de pulso de descargas lentas en una cavidad
cilíndrica de polietileno.