Esta Di Stica
Esta Di Stica
Esta Di Stica
¿Qué es la Estadística?
Es un conjunto de métodos científicos para la recolección, organización, análisis e interpretación
de datos con la finalidad de realizar conclusiones y tomar decisiones válidas.
Ramas de la Estadística
• Estadística Descriptiva: El objetivo de la estadística descriptiva es resumir las principales
características de un conjunto de datos a través de tablas, gráficos y medidas numéricas.
(Capítulos 1 y 2)
• Estadística Inferencial: Se encarga del análisis de los datos con el propósito de realizar
conclusiones válidas acerca de la población de donde originalmente se recolectaron estos
datos. La Estadística inferencial esta basada en la teoría de probabilidades. (Capítulos 4 y 5)
Cualitativas
• Se usan instrumentos de registro estructurados o semiestructurados, donde antes de la toma
de datos, los instrumentos (cuestionarios, tests, etc.) han sido elaborados y divididos en
secciones, con un protocolo de aplicación definido y fijo.
• Las preguntas suelen tener opciones para marcar, opciones cerradas, tipo Si/No; En
desacuerdo/Acuerdo parcial/ Totalmente de acuerdo; etc
Tipos de investigación cualitativa
Investigación correlacional
• Cuando el propósito principal del estudio es identificar asociaciones entre variables, o sea,
determinar si hay algún “patrón de variación conjunta”.
• Por ejemplo, relación entre Aprestamiento (previo al ingreso a la escuela) y Comprensión
Lectora; relación entre Experiencia laboral e Ingreso del trabajador, etc.
Investigación explicativa
• Pretenden dar cuenta de la razón o razones del estado de la población.
• Por ejemplo, explicar el mejor rendimiento de los escolares por la mayor escolaridad de la
madre, por el mayor acceso a libros en casa y el mayor involucramiento del tutor del escolar
(padre, madre o persona responsable del escolar) en la ayuda con las tareas que se dejan para
casa.
❑ Población
Es un conjunto de elementos sobre los cuales se desea investigar una o más características de estos. El
número de elementos que conforman una población será denotado por la letra 𝑁.
❑ Muestra
Es un subconjunto de la población. El número de elementos que conforman una muestra será
denotado por la letra 𝑛. Se dirá que una muestra es aleatoria si sus elementos han sido seleccionados
mediante un procedimiento probabilístico.
❑ Estadística
Es un valor calculado a partir de los datos de una muestra, que sólo depende los valores muestrales.
Variable
• Es el resultado de una medición o una característica en los elementos de la población. Una variable
suele ser denotada por una letra, por ejemplo: 𝑥, 𝑦 o 𝑧.
• Se denominara como dato al valor que toma una variable en un elemento de la población. Un
conjunto de 𝑛 datos de una variable 𝑥 se suele denotar como 𝑥_1,𝑥_2,…,𝑥_𝑛.
Las variables se pueden clasificar en: Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen en
Discretas: son aquellas variables que toman un número finito o infinito numerable de valores.
Usualmente se consideran números enteros.
Continuas: son aquellas variables que pueden asumir cualquier valor dentro de un intervalo de
valores, por lo que toman un numero no numerable de valores.
Variables cualitativas: Si toma como valores categorías que representan alguna clasificación en la
población. Si bien estas puedan representarse por números, estos no admiten operaciones
aritméticas. Las variables cualitativas se denominan:
Nominales: si no existe una jerarquía entre las categorías.
Ordinales: si existe una jerarquía entre las categorías.
Escalas de medición para variables cualitativas
Escala Nominal: cuando el número es un rótulo que indica pertenencia a algún subconjunto o
categoría y no significa cantidad.
Ejemplos:
• Número de serie de un disco duro -Códigos postal
• RUC: Es una variable cualitativa nominal con escala de medición nominal
Escala Ordinal: Cuando el número es un rótulo que indica posición relativa o una jerarquía, pero no
indica cantidad.
Ejemplos:
• Orden de mérito -Talla de camisa.
• Grado de satisfacción con un servicio: Esta es una variable cualitativa ordinal que tiene una escala
de medición ordinal.
• Escalas de medición para variables cualitativas
➢ Escala de Intervalo: Cuando se puede definir una unidad de medida de modo que el número o
código numérico indica cantidad de unidades presentes en el objeto medido pero el valor 0 no
significa ausencia del atributo que se representa con el número. En estos casos el punto cero es
arbitrario, elegido por consenso, pero arbitrario.
• Ejemplos
• x=Temperatura en grados centígrados
• Tiempo calendario : Usando el sistema Gregoriano, la unidad es el año solar y el punto cero
corresponde al del nacimiento de Cristo.
• Y=Notas escolares y=0
➢ Escala de Razón: Cuando hay definida una unidad de medida de modo que el número indica
cantidad y el 0 indica ausencia del atributo que se representa con el número. Como el cero indica
ausencia del atributo (se dice que es absoluto), los cocientes o razones de puntos de la escala no
cambian, son invariantes y podemos hablar de proporcionalidad.
• Ejemplos:
• X=Saldo en cuenta corriente Y=Duración de una llamada Tamaño de la familia
Datos cuantitativos:
Presentación de datos • Discreto:
Datos cualitativos: • Tabla de frecuencias
• Tabla de frecuencias • Diagrama de varas o bastones (datos sin agrupar)
• Gráfico de barras • Frecuencias Acumuladas
• Gráfico de columnas • Diagrama de escalera(datos agrupados)
• Gráfico circular • Continuo:
• Gráfico de Pareto • Tabla de frecuencias -Histograma (datos sin agrupar)
Tabla de distribución de frecuencias • Polígono de frecuencias -Ojiva (datos agrupados)
Es la representación estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es útil para resumir grandes volúmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la información relevante.
Gráficos para datos de variables cualitativas
Gráfico de barras
Se usa para representar gráficamente la distribución de un conjunto de datos cualitativos.
• En uno de los ejes: las categorías o clases de la variable;
• para el otro eje: frecuencias absolutas, relativas o porcentuales.
• Se traza una barra sobre cada indicador de clase de una altura proporcional a la frecuencia
correspondiente.
• Las barras deben ser del mismo ancho y deben estar separadas para enfatizar el hecho de que
cada clase es diferente de otra.
Gráfico circular o de pastel
• Cuando se utiliza el gráfico circular, cada sector circular representa la frecuencia observada de
una clase o categoría.
• El sector circular que representa a una determinada clase o categoría de la variable tiene un
ángulo en el centro proporcional a la frecuencia relativa de dicha clase.
• El ángulo que le corresponde a cada clase se obtiene multiplicando 360º por la respectiva
frecuencia relativa.
• Recomendaciones: Usar pocas categorías o agrupar las categorías con menor frecuencia en
“Otros”.
Gráficos para datos de variables cuantitativas
DISCRETAS
Gráfico de bastones: a cada valor posible 𝑥_𝑗 se la representa por una línea vertical cuya altura es
proporcional a la frecuencia con que ocurre.
Tabulaciones con variables cuantitativas.
Cuando las variables son cuantitativas continuas:
Para determinar la longitud del intervalo, se divide el “Rango” 𝑅 de la serie de datos entre el número k
de intervalos que se desea tener (𝑘 es arbitrario y lo fija el analista). El resultado es lo que se conoce
como la “Amplitud de Clase” 𝐶. Formalmente:
*Sea 𝑅 = (Máximo valor-Mínimo valor) -> 𝐶 = 𝑅/𝑘, donde 𝐶 (longitud del intervalo) se
redondea por exceso según el número de decimales de los datos.
*Los intervalos son entonces de la forma:
[Mínimo, Mínimo+C[ ; [Mínimo+C, Mínimo+2C[ ;etc.
Para determinar el número de intervalos:
Utilizar la regla de Sturges: k= 1+3,3log(n) → redondeo por exceso
CONTINUAS
Histograma: Aquí cada clase es representada por una barra cuya altura es proporcional a la
frecuencia con que ocurre.
En este tipo de gráficos no se debe dejar espacios entre las barras para indicar que se esta
presentando información de una variable cuantitativa continua.
Polígono de frecuencias: Es formada uniendo los puntos medios altos de cada barra del histograma.
Ojiva: Es la gráfica de una distribución de frecuencias acumuladas (absolutas, relativas o
porcentuales).
Capítulo 2: Medidas estadísticas y presentación de
datos cuantitativos
MEDIDAS DE POSICIÓN
CUANTILES
El cuantil p (0<p<1), por ejemplo, el cuantil 0,5 = q0,5, será la mediana
Calcular cuantiles:
Ejemplo: Calcular el cuantil 0,5 de los datos de las edades de los estudiantes del curso EST 103.
Paso 1: Calcular
K= n x p = 47 x 0,5=23,5 → Como k no es entero, entonces se redondea por exceso → k=24
Paso 2: Determinar el valor del cuantil, entonces q0,5=x(24)=18
PERCENTILES
Los Percentiles dividen un conjunto de datos en
100 partes porcentualmente iguales.
CUARTILES
Cuartiles dividen un conjunto de datos en
4 partes porcentualmente iguales.
Se denotan por Q1, Q2 , Q3.
DECILES
Deciles dividen un conjunto de datos en
10 partes porcentualmente iguales.
Se denotan por D1, D2, ... , D8 , D9.
• 𝑗 denota el intervalo en el cual está 𝑃_𝑘, que es primer intervalo donde ocurre que la
frecuencia acumulada 𝐹𝑗>𝑘𝑛/100
• 𝑙𝑗 es el extremo izquierdo del intervalo;
• 𝐹𝑗−1 es la frecuencia acumulada del intervalo (𝑗−1) (el anterior al de 𝑷_𝒌);
• 𝑓𝑗 es la frecuencia del intervalo 𝑗 al cual pertenece 𝑃_𝑘;
• 𝑐𝑗 es la amplitud del intervalo 𝑗.
Mediana
• Es el valor que ocupa la posición central en un conjunto de datos ordenados. Por tanto es el valor
que divide en dos partes a dicho conjunto de datos.
• Es la medida más adecuada cuando hay presencia de valores extremos. Se calcula para variables
de medida en escala intervalo o razón.
• El 50% de los datos tienen valores que son menores o igual al valor de la mediana.
EJEMPLO de interpretación de MEDIANA:
El 50% de los ingresos mensuales de los trabajadores son aproximadamente
menores o iguales a 2021.44 dólares y el 50% son mayores a este valor
Media Aritmética
La media aritmética es el valor que se obtiene al dividir la suma total de los datos entre el número
de datos. n
Características xi
• Se puede calcular para datos medidos en escala de intervalo o razón. x= i =1
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión indican cuán alejados están los datos del valor que los representa.
Principales Medidas de dispersión
• Rango
• Rango Intercuartil
• Varianza
• Desviación estándar
Rango
También llamado de alcance, amplitud o recorrido, de un conjunto de datos observados
R = dato máximo – dato mínimo
• Aplicable a variables con escala de intervalo o de razón.
• Solo depende del máximo y del mínimo
• Afectado por valores extremos.
Rango Intercuartil
Se define:
RIC= Q3 – Q1 = P75 – P25
Características
• Aplicable a variables con escala de intervalo o de razón.
• No se ve afectado por valores extremos.
• Es la longitud del intervalo que contiene 50% de los datos centrales.
Varianza
Dados 𝑛 datos cuantitativos 𝑥1, 𝑥2,…, 𝑥𝑛 la varianza de los datos se define como la media de las
distancias al cuadrado de cada dato a la media aritmética
Sx = Sx2
Desviación estándar
Dados 𝑛 datos cuantitativos 𝑥1, 𝑥2,…, 𝑥𝑛 la desviación estándar muestral de los datos se define
como la raíz cuadrada de la varianza.
Propiedades de la varianza y la desviación estándar
• Son números no negativos.
• Para datos con escala de intervalo o de razón.
• Son sensibles a valores atípicos.
• La varianza tienen las unidades de los datos elevadas al cuadrado y la desviación estándar está
en las mismas unidades que los datos.
Coeficiente de variación
El coeficiente de variación (CV) de un conjunto de datos indica qué proporción de la media es la
desviación estándar.
✓ Es útil para comparar la variabilidad de grupos cuyas medias son diferentes.
sx
CV = ✓ Un valor menor del coeficiente de variación indica mayor homogeneidad del
conjunto de datos en relación a su media.
x
Menor C.V es igual a menor variabilidad y dispersión, y mayor homogeneidad
Mayor C.V es igual a mayor variabilidad y dispersión, y menor homogeneidad
MEDIDAS DE ASIMETRÍA
Presentaremos dos coeficientes de asimetría(adimensionales)alternativos
Las medidas don validas en conjuntos de datos unimodales.
El de Pearson A y el Fisher Y1:
Negativo: Asimetría negativa o hacía la izquierda
Nulo: hay simetría
Positivo: Asimetría positiva o hacía la derecha
EJEMPLO de Interpretación:
Como el coeficiente es positivo tenemos que los ingresos mensuales de los trabajadores de la
empresa A presentan asimetría positiva o hacia la derecha
Boxplot
Gráfico para el análisis de datos, que es útil para comprar varios conjuntos de datos.
Este gráfico permite visualizar la tendencia central, dispersión, asimetría y la
presencia de valores atípicos. Basado en las 5 medidas estadísticas dadas por el
comando summary: el mínimo, primer cuartil(Q1), mediana(Q2), tercer cuartil (Q3) y
el máximo tiene la forma
Valores atípicos
Interpretación:
• Si la caja es mas ancha, tiene mayor dispersión
• En al menos 12 años se presentan valores atípicos
• Asimetría arriba positiva
• Si hay presencia de datos atípicos y existe asimetría, es mejor usar la
mediana para describir la tendencia central
Capítulo 3: Análisis de regresión lineal simple y correlación
Diagrama de dispersión
dependiente
independiente
Correlación
La correlación entre las variables 𝑋 e 𝑌 mide el grado en el que estas dos variables tienden a
variar de manera conjunta, se usa para medir el grado de asociación lineal entre las
variables.
Regresión
La regresión encuentra una relación funcional entre las variables cuantitativas 𝑋 e 𝑌.
COVARIANZA
Dados 𝑛 pares de observaciones de las variables cuantitativas 𝑋 e 𝑌, (𝑥1 , 𝑦1), (𝑥2 , 𝑦2),…, (𝑥𝑛 , 𝑦𝑛),
la covarianza se define como:
Ejemplo
Si 𝑋 es tiempo medido en minutos, y cambiamos de unidad, midiendo el tiempo en segundos, todos
los valores originales de 𝑋 quedan multiplicados por 60 y lo mismo pasa con la covarianza 𝑆𝑋𝑌.
Características
• 𝑅^2 es la proporción de la varianza de 𝑦 ̂ que representa la varianza de 𝑌.
Es decir, la proporción de la varianza total, Var(𝑦), que es explicada por la recta de regresión de
mínimos cuadrados.
• 𝑅^2=r^2 El coeficiente de determinación es el cuadrado del coeficiente de correlación lineal de
Pearson.
• 〖0<𝑅〗^2<1
• Mientras más próximo a 1 sea el coeficiente de determinación, mejor será el ajuste de los datos al
modelo lineal.
• Mientras más próximo a 0 sea el coeficiente de determinación, peor será el ajuste de los datos al
modelo lineal.
✓ 𝑎 ̂ = 52.0491 (el CRAEst promedio o estimado para un tiempo de llegada después de las 2pm de
cero minutos es de 52.0491) (Considerando que el tiempo de llegada después de las 2pm sea
de cero minutos el CRAEST estimado será de 52.0491)
✓ 𝑏 ̂ = -0.0343 (Para cada minuto adicional después de las 2pm se estima que el CRAEst
disminuye en 1*0.0343 unidades)
✓ 𝑎 ̂→Indica el valor promedio de la variable respuesta 𝑌 cuando la variable
explicativa 𝑋 es cero
✓ 𝑏 ̂→ Indica el cambio promedio en la variable respuesta 𝑌 cuando la variable
explicativa 𝑋 se incrementa en una unidad