Stata: Básico

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 20

STATA BÁSICO

NUESTRAS MODALIDADES
ANALISIS
EXPLORATORIO
DEFINICIÓN
• El Análisis Exploratorio de Datos (EDA) es una concepción moderna del tratamiento
de los datos que permite mostrar gráficamente todas las características o
propiedades subyacentes en cada uno de los valores de los datos de la muestra.
• El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas
cuya finalidad es conseguir un entendimiento de los datos y de las relaciones
existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D.
proporciona métodos sistemáticos sencillos para organizar y preparar los datos,
detectar fallos en el diseño y recogida de los mismos, identificación de casos
atípicos (outliers) y comprobación de los supuestos subyacentes en la mayor
parte de las técnicas multivariantes (normalidad).
• El examen previo de los datos es un paso necesario, que lleva tiempo, y que
habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas
en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista,
pero son una parte esencial de cualquier análisis estadístico.
TÉCNICAS DEL ANÁLISIS
EXPLORATORIO DE DATOS
• Las técnicas del Análisis Exploratorio de Datos son esencialmente
gráficas. Por ello no son rigurosos, pueden ser subjetivos y un
investigador puede tener diferentes apreciaciones que otro, pero entre
los experimentados, la conclusión será la misma.
• Si bien estas técnicas no son rigurosas y pueden ser subjetivas, los
modelos construidos a partir del análisis realizado sobre los gráficos,
producirán modelos rigurosos, formales y adecuados al problema,
mucho antes que las técnicas clásicas.
DIAGRAMA DE TALLOS Y HOJAS
• Los diagramas de tallos y hojas se utilizan para describir
variables cuantitativas.
• Permiten visualizar globalmente la distribución de los
datos manteniendo su individualidad.
• Esta técnica funciona bien para los conjuntos de datos
que no tienen una dispersión muy grande.
• Implica separar cada dato en dos partes:
– El primer o primeros dígitos (Tallo)
– El dígito o dígitos restantes (Hojas)
DIAGRAMA DE TALLOS Y HOJAS

Ejm: Diagrama de tallos y hojas del Peso

2 3 99
5 4 02578
13 5 13455889
(14) 6 01223355578888
18 7 0002457899
8 8 0345689
1 9 0
GRÁFICO DE CAJAS (BOX-PLOT)
• El diagrama de cajas es una representación gráfica que
se construye en base a la mediana y los cuartiles Q1 y
Q3.
• Se traza un rectángulo con los extremos
correspondientes al primer y tercer cuartil.
• Dentro de la caja se traza una línea horizontal en el
lugar de la mediana.
• Se ubican los límites mediante el rango intercuartil
RIC.
GRÁFICO DE CAJAS (BOX-PLOT)
• RI = Q3 – Q1
– Límite inferior : Q1 – 1.5 RI
– Límite superior: Q3 + 1.5 RI
• Se trazan líneas verticales desde los
extremos de la caja hasta el valor máximo y
mínimo dentro de los límites (bigotes de la
caja).
• Se marcan con asterisco (*) las
localizaciones de los valores atípicos.
GRÁFICO DE CAJAS (BOX-PLOT)
◼ Graph → Boxplot …
GRÁFICO DE CAJAS (BOX-PLOT)
◼ Graph → Boxplot …
MEDIA RECORTADA
• La media recortada o podada es una medida más robusta que la media,
pero que usa más información que la mediana. La media α-podada se
calcula despreciando n.α datos de cada extremo y promediando las
observaciones centrales del conjunto ordenado de datos.
• Para calcular la media recortada
• 1. Ordenamos los datos de menor a mayor. 2. Excluimos el 5% de datos
más pequeños y el 5% de datos más grandes. 3. Calculamos el promedio
de los datos restantes y lo denominamos X.
• Se utiliza esta media cuando se sospecha que hay errores groseros en los
datos, pero no tenemos modo de decidir si el dato es erróneo. Esto permite
excluir datos aberrantes de un modo menos sesgado, porque estamos
excluyendo datos de ambos extremos.
ERROR TIPICO DE LA MEDIA
• La media de una muestra ( xˉ ) es una estimación de la media de la población (µ);
pero decir que es una estimación quiere decir que está sujeta a error. La media
exacta de la población no la conocemos; pero sí podemos estimar entre qué
límites extremos se encuentra, y esto a partir de la media de una muestra y del
error típico de la media.
• La utilidad mas importante es establecer los límites probables (intervalos de
confianza) entre los que se encuentra la media de la población(establecer
parámetros poblacionales).
• Hay un 68% de probabilidades de que la media de la población se encuentre entre
la media de la muestra más menos un error típico.
• Hay un 95% de probabilidades de que la media de la población se encuentre entre
la media de la muestra más menos 1.96 errores típicos.
• Si deseamos mayor seguridad al establecer los límites probables
entre los que se encuentra la media de la población, podemos
tomar como límite 2.57 errores típicos, porque sabemos que
entre la media más menos 2.57 desviaciones típicas se
encuentra el 99% de los casos.
VALORES EXTREMOS

• Se les llama asi a los 5 valores superiores


y a los 5 inferiores.
Descarga el certificado Digital del curso

Al terminar todo curso en la


Escuela del INEI recibirás
un correo con los datos de
acceso para poder
descargar tu certificado
Digital a nombre del INEI.

https://sistemas.inei.gob.pe/WebCerEnei/

También podría gustarte