Esta Di Stica

Capítulo 1: Análisis Descriptivo
¿Qué es la Estadística?
Es un conjunto de métodos científicos para la recolección, organización, análisis e interpretación
de datos con la finalidad de realizar conclusiones y tomar decisiones válidas.
Ramas de la Estadística
• Estadística Descriptiva: El objetivo de la estadística descriptiva es resumir las principales
características de un conjunto de datos a través de tablas, gráficos y medidas numéricas.
(Capítulos 1 y 2)
• Estadística Inferencial: Se encarga del análisis de los datos con el propósito de realizar
conclusiones válidas acerca de la población de donde originalmente se recolectaron estos
datos. La Estadística inferencial esta basada en la teoría de probabilidades. (Capítulos 4 y 5)
Estadística y diseños de investigación

Cuantitativas
• Grupos pequeños para aplicar la observación directa y básicamente son entrevistas
abiertas, grupos de discusión o técnicas de observación de campo.
• En estos casos, después del análisis de contenido se identifican categorías conceptuales en
los registros, a partir de la teoría de la especialidad (Psicología, Antropología, Gestión, etc.).
• La estadística en este tipo de investigaciones se reduce básicamente al cálculo de
frecuencias y porcentajes que ayudan a ordenar la información, si mayor uso de técnicas
inferenciales.
Tipos de investigación cuantitativa
Investigación exploratoria
• No hay mayor teoría ni datos sobre el tema de investigación por ser este nuevo en el medio.
• En este caso la estadística que se aplica es básicamente de cálculo de porcentajes y algunas
medidas de tendencia como promedios, para describir el estado de la muestra.
• Por ejemplo, la presencia de trastornos alimentarios (tipo anorexia o bulimia) en jóvenes
varones.
Investigación descriptiva
• Cuando hay teoría relativa al tema de investigación, pero no se conoce en el medio, cuál es
el estado de la población.
• Por ejemplo, identificar el clima laboral en una corporación según diversas componentes de
clima, predefinidas, como Autorealización del trabajador, Satisfacción con condiciones de
trabajo, Evaluación de la comunicación con los colegas, etc.
Cualitativas
• Se usan instrumentos de registro estructurados o semiestructurados, donde antes de la toma
de datos, los instrumentos (cuestionarios, tests, etc.) han sido elaborados y divididos en
secciones, con un protocolo de aplicación definido y fijo.
• Las preguntas suelen tener opciones para marcar, opciones cerradas, tipo Si/No; En
desacuerdo/Acuerdo parcial/ Totalmente de acuerdo; etc
Tipos de investigación cualitativa
Investigación correlacional
• Cuando el propósito principal del estudio es identificar asociaciones entre variables, o sea,
determinar si hay algún “patrón de variación conjunta”.
• Por ejemplo, relación entre Aprestamiento (previo al ingreso a la escuela) y Comprensión
Lectora; relación entre Experiencia laboral e Ingreso del trabajador, etc.
Investigación explicativa
• Pretenden dar cuenta de la razón o razones del estado de la población.
• Por ejemplo, explicar el mejor rendimiento de los escolares por la mayor escolaridad de la
madre, por el mayor acceso a libros en casa y el mayor involucramiento del tutor del escolar
(padre, madre o persona responsable del escolar) en la ayuda con las tareas que se dejan para
casa.
❑ Población
Es un conjunto de elementos sobre los cuales se desea investigar una o más características de estos. El
número de elementos que conforman una población será denotado por la letra 𝑁.
❑ Muestra
Es un subconjunto de la población. El número de elementos que conforman una muestra será
denotado por la letra 𝑛. Se dirá que una muestra es aleatoria si sus elementos han sido seleccionados
mediante un procedimiento probabilístico.
❑ Estadística
Es un valor calculado a partir de los datos de una muestra, que sólo depende los valores muestrales.
Variable
• Es el resultado de una medición o una característica en los elementos de la población. Una variable
suele ser denotada por una letra, por ejemplo: 𝑥, 𝑦 o 𝑧.
• Se denominara como dato al valor que toma una variable en un elemento de la población. Un
conjunto de 𝑛 datos de una variable 𝑥 se suele denotar como 𝑥_1,𝑥_2,…,𝑥_𝑛.
Las variables se pueden clasificar en: Variables cuantitativas: Si toma valores numéricos con los
que se pueden realizar operaciones aritméticas. Se dividen en
Discretas: son aquellas variables que toman un número finito o infinito numerable de valores.
Usualmente se consideran números enteros.
Continuas: son aquellas variables que pueden asumir cualquier valor dentro de un intervalo de
valores, por lo que toman un numero no numerable de valores.
Variables cualitativas: Si toma como valores categorías que representan alguna clasificación en la
población. Si bien estas puedan representarse por números, estos no admiten operaciones
aritméticas. Las variables cualitativas se denominan:
Nominales: si no existe una jerarquía entre las categorías.
Ordinales: si existe una jerarquía entre las categorías.
Escalas de medición para variables cualitativas
Escala Nominal: cuando el número es un rótulo que indica pertenencia a algún subconjunto o
categoría y no significa cantidad.
Ejemplos:
• Número de serie de un disco duro -Códigos postal
• RUC: Es una variable cualitativa nominal con escala de medición nominal
Escala Ordinal: Cuando el número es un rótulo que indica posición relativa o una jerarquía, pero no
indica cantidad.
Ejemplos:
• Orden de mérito -Talla de camisa.
• Grado de satisfacción con un servicio: Esta es una variable cualitativa ordinal que tiene una escala
de medición ordinal.
• Escalas de medición para variables cualitativas
➢ Escala de Intervalo: Cuando se puede definir una unidad de medida de modo que el número o
código numérico indica cantidad de unidades presentes en el objeto medido pero el valor 0 no
significa ausencia del atributo que se representa con el número. En estos casos el punto cero es
arbitrario, elegido por consenso, pero arbitrario.
• Ejemplos
• x=Temperatura en grados centígrados
• Tiempo calendario : Usando el sistema Gregoriano, la unidad es el año solar y el punto cero
corresponde al del nacimiento de Cristo.
• Y=Notas escolares y=0
➢ Escala de Razón: Cuando hay definida una unidad de medida de modo que el número indica
cantidad y el 0 indica ausencia del atributo que se representa con el número. Como el cero indica
ausencia del atributo (se dice que es absoluto), los cocientes o razones de puntos de la escala no
cambian, son invariantes y podemos hablar de proporcionalidad.
• Ejemplos:
• X=Saldo en cuenta corriente Y=Duración de una llamada Tamaño de la familia
Datos cuantitativos:
Presentación de datos • Discreto:
Datos cualitativos: • Tabla de frecuencias
• Tabla de frecuencias • Diagrama de varas o bastones (datos sin agrupar)
• Gráfico de barras • Frecuencias Acumuladas
• Gráfico de columnas • Diagrama de escalera(datos agrupados)
• Gráfico circular • Continuo:
• Gráfico de Pareto • Tabla de frecuencias -Histograma (datos sin agrupar)
Tabla de distribución de frecuencias • Polígono de frecuencias -Ojiva (datos agrupados)
Es la representación estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es útil para resumir grandes volúmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la información relevante.
Gráficos para datos de variables cualitativas
Gráfico de barras
Se usa para representar gráficamente la distribución de un conjunto de datos cualitativos.
• En uno de los ejes: las categorías o clases de la variable;
• para el otro eje: frecuencias absolutas, relativas o porcentuales.
• Se traza una barra sobre cada indicador de clase de una altura proporcional a la frecuencia
correspondiente.
• Las barras deben ser del mismo ancho y deben estar separadas para enfatizar el hecho de que
cada clase es diferente de otra.
Gráfico circular o de pastel
• Cuando se utiliza el gráfico circular, cada sector circular representa la frecuencia observada de
una clase o categoría.
• El sector circular que representa a una determinada clase o categoría de la variable tiene un
ángulo en el centro proporcional a la frecuencia relativa de dicha clase.
• El ángulo que le corresponde a cada clase se obtiene multiplicando 360º por la respectiva
frecuencia relativa.
• Recomendaciones: Usar pocas categorías o agrupar las categorías con menor frecuencia en
“Otros”.
Gráficos para datos de variables cuantitativas
DISCRETAS
Gráfico de bastones: a cada valor posible 𝑥_𝑗 se la representa por una línea vertical cuya altura es
proporcional a la frecuencia con que ocurre.
Tabulaciones con variables cuantitativas.
Cuando las variables son cuantitativas continuas:
Para determinar la longitud del intervalo, se divide el “Rango” 𝑅 de la serie de datos entre el número k
de intervalos que se desea tener (𝑘 es arbitrario y lo fija el analista). El resultado es lo que se conoce
como la “Amplitud de Clase” 𝐶. Formalmente:
*Sea 𝑅 = (Máximo valor-Mínimo valor) -> 𝐶 = 𝑅/𝑘, donde 𝐶 (longitud del intervalo) se
redondea por exceso según el número de decimales de los datos.
*Los intervalos son entonces de la forma:
[Mínimo, Mínimo+C[ ; [Mínimo+C, Mínimo+2C[ ;etc.
Para determinar el número de intervalos:
Utilizar la regla de Sturges: k= 1+3,3log(n) → redondeo por exceso
CONTINUAS
Histograma: Aquí cada clase es representada por una barra cuya altura es proporcional a la
frecuencia con que ocurre.
En este tipo de gráficos no se debe dejar espacios entre las barras para indicar que se esta
presentando información de una variable cuantitativa continua.
Polígono de frecuencias: Es formada uniendo los puntos medios altos de cada barra del histograma.
Ojiva: Es la gráfica de una distribución de frecuencias acumuladas (absolutas, relativas o
porcentuales).
Capítulo 2: Medidas estadísticas y presentación de
datos cuantitativos
MEDIDAS DE POSICIÓN
CUANTILES
El cuantil p (0<p<1), por ejemplo, el cuantil 0,5 = q0,5, será la mediana
Calcular cuantiles:
Donde k=n.p y k* es el valor de k redondeado

por exceso
Ejemplo: Calcular el cuantil 0,5 de los datos de las edades de los estudiantes del curso EST 103.
Paso 1: Calcular
K= n x p = 47 x 0,5=23,5 → Como k no es entero, entonces se redondea por exceso → k=24
Paso 2: Determinar el valor del cuantil, entonces q0,5=x(24)=18
PERCENTILES
Los Percentiles dividen un conjunto de datos en
100 partes porcentualmente iguales.
CUARTILES
Cuartiles dividen un conjunto de datos en
Se denotan por Q1, Q2 , Q3.
DECILES
Deciles dividen un conjunto de datos en
Se denotan por D1, D2, ... , D8 , D9.
Percentil para datos agrupados en intervalos

El valor más aproximado de 𝑃_𝑘 donde 𝑘 es el "k−ésimo" percentil
• 𝑗 denota el intervalo en el cual está 𝑃_𝑘, que es primer intervalo donde ocurre que la
frecuencia acumulada 𝐹𝑗>𝑘𝑛/100
• 𝑙𝑗 es el extremo izquierdo del intervalo;
• 𝐹𝑗−1 es la frecuencia acumulada del intervalo (𝑗−1) (el anterior al de 𝑷_𝒌);
• 𝑓𝑗 es la frecuencia del intervalo 𝑗 al cual pertenece 𝑃_𝑘;
• 𝑐𝑗 es la amplitud del intervalo 𝑗.
MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central son medidas resumen que se usan como valores que
representan al conjunto de datos de una variable.
Existen varias medidas de tendencia central, como por ejemplo:
Moda, Mediana y Media
Moda
La moda de un conjunto de datos observados de una variable es el valor que se presenta con mayor
frecuencia.
Características
• La moda se puede calcular para datos medidos en cualquier escala de medición.
• El valor de la moda no se ve afectado por valores extremos. (valores atípicos, discrepantes)
• La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o
más modas (multimodal).
Mediana
• Es el valor que ocupa la posición central en un conjunto de datos ordenados. Por tanto es el valor
que divide en dos partes a dicho conjunto de datos.
• Es la medida más adecuada cuando hay presencia de valores extremos. Se calcula para variables
de medida en escala intervalo o razón.
• El 50% de los datos tienen valores que son menores o igual al valor de la mediana.
EJEMPLO de interpretación de MEDIANA:
El 50% de los ingresos mensuales de los trabajadores son aproximadamente
menores o iguales a 2021.44 dólares y el 50% son mayores a este valor
Media Aritmética
La media aritmética es el valor que se obtiene al dividir la suma total de los datos entre el número
de datos. n
Características  xi
• Se puede calcular para datos medidos en escala de intervalo o razón. x= i =1
• El cálculo de la media es sencillo y es la medida de tendencia central más conocida. n

• El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes o
muy pequeños con respecto a los demás pueden cambiar drásticamente su valor.
MEDIDAS DE DISPERSIÓN
Las medidas de dispersión indican cuán alejados están los datos del valor que los representa.
Principales Medidas de dispersión
• Rango
• Rango Intercuartil
• Varianza
• Desviación estándar
Rango
También llamado de alcance, amplitud o recorrido, de un conjunto de datos observados
R = dato máximo – dato mínimo
• Aplicable a variables con escala de intervalo o de razón.
• Solo depende del máximo y del mínimo
• Afectado por valores extremos.
Rango Intercuartil
Se define:
RIC= Q3 – Q1 = P75 – P25
Características
• Aplicable a variables con escala de intervalo o de razón.
• No se ve afectado por valores extremos.
• Es la longitud del intervalo que contiene 50% de los datos centrales.
Varianza
Dados 𝑛 datos cuantitativos 𝑥1, 𝑥2,…, 𝑥𝑛 la varianza de los datos se define como la media de las
distancias al cuadrado de cada dato a la media aritmética
Sx = Sx2
Desviación estándar
Dados 𝑛 datos cuantitativos 𝑥1, 𝑥2,…, 𝑥𝑛 la desviación estándar muestral de los datos se define
como la raíz cuadrada de la varianza.
Propiedades de la varianza y la desviación estándar
• Son números no negativos.
• Para datos con escala de intervalo o de razón.
• Son sensibles a valores atípicos.
• La varianza tienen las unidades de los datos elevadas al cuadrado y la desviación estándar está
en las mismas unidades que los datos.
Coeficiente de variación
El coeficiente de variación (CV) de un conjunto de datos indica qué proporción de la media es la
desviación estándar.
✓ Es útil para comparar la variabilidad de grupos cuyas medias son diferentes.
sx
CV = ✓ Un valor menor del coeficiente de variación indica mayor homogeneidad del
conjunto de datos en relación a su media.
x
Menor C.V es igual a menor variabilidad y dispersión, y mayor homogeneidad
Mayor C.V es igual a mayor variabilidad y dispersión, y menor homogeneidad
MEDIDAS DE ASIMETRÍA
Presentaremos dos coeficientes de asimetría(adimensionales)alternativos
Las medidas don validas en conjuntos de datos unimodales.
El de Pearson A y el Fisher Y1:
Negativo: Asimetría negativa o hacía la izquierda
Nulo: hay simetría
Positivo: Asimetría positiva o hacía la derecha
EJEMPLO de Interpretación:
Como el coeficiente es positivo tenemos que los ingresos mensuales de los trabajadores de la
empresa A presentan asimetría positiva o hacia la derecha
Boxplot
Gráfico para el análisis de datos, que es útil para comprar varios conjuntos de datos.
Este gráfico permite visualizar la tendencia central, dispersión, asimetría y la
presencia de valores atípicos. Basado en las 5 medidas estadísticas dadas por el
comando summary: el mínimo, primer cuartil(Q1), mediana(Q2), tercer cuartil (Q3) y
el máximo tiene la forma
Valores atípicos
Interpretación:
• Si la caja es mas ancha, tiene mayor dispersión
• En al menos 12 años se presentan valores atípicos
• Asimetría arriba positiva
• Si hay presencia de datos atípicos y existe asimetría, es mejor usar la
mediana para describir la tendencia central
Capítulo 3: Análisis de regresión lineal simple y correlación
Diagrama de dispersión
dependiente
independiente
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON
El coeficiente de correlación de Pearson carece de unidades y mide el GRADO DE ASOCIACIÓN.
Grado( la fuerza ) de la asociación lineal

rxy=0 se interpreta como asociación nula
rxy≠ 0 se interpreta como asociación débil
Características: rxy ≠ 1 se interpreta como asociación fuerte
• -1 ≤ r ≤ 1 Rxy= 1 se interpreta como asociación máxima
• Si 𝑟 = 0 → no hay asociación lineal entre las variables
(aunque puede haber otro tipo de asociación).
• 𝑟 es invariante a cualquier transformación lineal de 𝑥 o de 𝑦
Observaciones
• La correlación mide el grado de asociación. Una correlación alta no significa que la
relación es causal.
• Una correlación alta indica que el modelo lineal es adecuado para hacer
predicciones en el intervalo de variación de los datos.
• Con dos o tres pares de datos la correlación puede ser alta, pero la conclusión acerca de la
asociación entre las variables puede no ser válida.
• Diversos grupos de datos pueden tener el mismo coeficiente de correlación; pero el tipo
de relación entre las variables puede ser distinta Perfecta
positiva
Perfecta
negativa -1 Fuerte -0,9 Moderada -0,5 Débil 0 Débil 0,5 Moderada 0,9 Fuerte 1
negativa negativa negativa positiva positiva positiva
Correlación
La correlación entre las variables 𝑋 e 𝑌 mide el grado en el que estas dos variables tienden a
variar de manera conjunta, se usa para medir el grado de asociación lineal entre las
variables.
Regresión
La regresión encuentra una relación funcional entre las variables cuantitativas 𝑋 e 𝑌.
COVARIANZA
Dados 𝑛 pares de observaciones de las variables cuantitativas 𝑋 e 𝑌, (𝑥1 , 𝑦1), (𝑥2 , 𝑦2),…, (𝑥𝑛 , 𝑦𝑛),
la covarianza se define como:
Que es una medida de la asociación promedio en la muestra.

Con el signo 𝑆_𝑋𝑌 indica el Tipo de asociación:
Si 𝑺𝑿𝒀 > 𝟎 hay asociación positiva o directa entre 𝑋 e 𝑌.
Si 𝑺𝑿𝒀 < 0 hay asociación negativa o inversa entre 𝑋 e 𝑌.
Si 𝑺𝑿𝒀 = 𝟎 no hay asociación lineal entre 𝑋 e 𝑌, aunque puede haber asociación no lineal.
Ejemplo
Si 𝑋 es tiempo medido en minutos, y cambiamos de unidad, midiendo el tiempo en segundos, todos
los valores originales de 𝑋 quedan multiplicados por 60 y lo mismo pasa con la covarianza 𝑆𝑋𝑌.
COEFICIENTE DE DETERMINACIÓN (R-CUADRADO O R-SQUARE)
Características
• 𝑅^2 es la proporción de la varianza de 𝑦 ̂ que representa la varianza de 𝑌.
Es decir, la proporción de la varianza total, Var(𝑦), que es explicada por la recta de regresión de
mínimos cuadrados.
• 𝑅^2=r^2 El coeficiente de determinación es el cuadrado del coeficiente de correlación lineal de
Pearson.
• 〖0<𝑅〗^2<1
• Mientras más próximo a 1 sea el coeficiente de determinación, mejor será el ajuste de los datos al
modelo lineal.
• Mientras más próximo a 0 sea el coeficiente de determinación, peor será el ajuste de los datos al
modelo lineal.
REGRESIÓN LINEAL SIMPLE

El análisis de regresión lineal simple estudia la relación lineal entre dos variables numéricas y da
como resultado una ecuación matemática que describe dicha relación.
La regresión lineal simple encuentra una recta L:
𝑌 = 𝑎 + 𝑏 𝑋 , que modela los datos y que permite estimar el valor de la variable Y dado un valor de la
variable X.
Donde: s y s xy
= = 2
Si la recta 𝐿:𝑦=𝑎+𝑏𝑥 es la recta de regresión
Para 𝑖=1,…,𝑛, se definen:
a = y −b x b r
s x sx
• 𝑦 ̂𝑖=𝑎 ̂+𝑏 ̂𝑥𝑖 el valor estimado de " 𝒀" cuando 𝑿 = 𝒙𝒊
• 𝑒𝑖=𝑦 ̂𝑖−𝑦𝑖 el error de la estimación de 𝒚𝒊
Propiedades de la recta de regresión
• Si la recta 𝐿: 𝑦 ̂ = 𝑎 ̂ + 𝑏 ̂ 𝑥 es la recta de regresión de mínimos cuadrados:
• El punto (𝑋 ̅,𝑌 ̅) pertenece a la recta de regresión.
• La media de los errores es igual a cero, es decir: 𝑒 ̅=0
• La media de los valores estimados con la recta es igual a la media de los valores observados:
𝑌 ̂ ̅=𝑌 ̅
• 𝑋=0⟹𝑌̂ =𝑎
• Si la variable independiente 𝑋 aumenta 1 unidad ⟹ La variable dependiente 𝑌 aumenta 𝑏.
Interpretación:
COEFICIENTE DE DETERMINACIÓN
• A la vista del resultado analítico podemos afirmar que el ajuste del modelo no es bueno, ya que
el valor de R^2 = 0.015 es cercano a 0, en concreto, el 1.5% de la variabilidad de la variable Y a
su promedio es explicado por el modelo de regresión ajustado.
ECUACIÓN DE LA RECTA DE REGRESIÓN
• Determine la ecuación de la recta de regresión de mínimos cuadrados para predecir el CRAEst
a través del tiempo de llegada después de las 2pm. Interprete los coeficientes de esa recta.
✓ 𝑎 ̂ = 52.0491 (el CRAEst promedio o estimado para un tiempo de llegada después de las 2pm de
cero minutos es de 52.0491) (Considerando que el tiempo de llegada después de las 2pm sea
de cero minutos el CRAEST estimado será de 52.0491)
✓ 𝑏 ̂ = -0.0343 (Para cada minuto adicional después de las 2pm se estima que el CRAEst
disminuye en 1*0.0343 unidades)
✓ 𝑎 ̂→Indica el valor promedio de la variable respuesta 𝑌 cuando la variable
explicativa 𝑋 es cero
✓ 𝑏 ̂→ Indica el cambio promedio en la variable respuesta 𝑌 cuando la variable
explicativa 𝑋 se incrementa en una unidad

Esta Di Stica

Cargado por

Copyright:

Formatos disponibles

Esta Di Stica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Esta Di Stica

Cargado por

Copyright:

Formatos disponibles

Capítulo 1: Análisis Descriptivo

Estadística y diseños de investigación

Donde k=n.p y k* es el valor de k redondeado

Percentil para datos agrupados en intervalos

MEDIDAS DE TENDENCIA CENTRAL

• El cálculo de la media es sencillo y es la medida de tendencia central más conocida. n

COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON

El coeficiente de correlación de Pearson carece de unidades y mide el GRADO DE ASOCIACIÓN.

Grado( la fuerza ) de la asociación lineal

Que es una medida de la asociación promedio en la muestra.

COEFICIENTE DE DETERMINACIÓN (R-CUADRADO O R-SQUARE)

REGRESIÓN LINEAL SIMPLE

También podría gustarte