Sintesis EySIE 1-5
Sintesis EySIE 1-5
Sintesis EySIE 1-5
catedra. Fue realizado como una forma de puntualizar las nociones principales a fin de acompañar
las lecturas y los recorridos de las clases prácticas y teóricas. El siguiente material fue elaborado
por las ayudantes de cátedra de EySIE, Daniela Moreno y Mariana Pino en el marco de las tutorías
de “acompañamiento a la cursada” del año 2022, a partir de conceptos del “Material didáctico de
estadística y sistemas de información educativa en ciencias de la educación”.
¿Qué es un dato?
Los datos son una observación, es lo que deseamos conocer de algún fenómeno. A partir de ellos,
se pueden realizar análisis y cálculos que proporcionen información útil sobre el comportamiento
de las variables estudiadas. Pueden ser:
Es el elemento donde efectuamos la medición y por lo tanto nos provee el dato. La elección de la
unidad de análisis depende del objetivo de la investigación o análisis que se requiere y del
fenómeno que se esté estudiando. Pueden ser individuos, instituciones, etc. Es importante definir
claramente la unidad de análisis ya que esto determinará cómo se recopilan los datos y qué
conclusiones se pueden extraer de ellos.
¿Qué es una variable?
Es la “piedra angular” del análisis estadístico. Es una propiedad o característica de la unidad de
análisis que puede asumir valores diferentes en cada una de ellas y por lo tanto ser cuantificada o
categorizada.
Las variables pueden asumir categorías (valores) diferentes. Estas categorías son exhaustivas (si
todo individuo tiene alguna categoría que le corresponda, es decir, si “entra” en las categorías) y
mutuamente excluyentes (si a cada individuo le corresponde no más de una categoría). Por
ejemplo:
En resumen:
Para poder entender el capitulo 1, es necesario prestar mucha atención a la relación entre las
nociones del siguiente cuadro.
Por ejemplo:
Un sistema de clasificación nominal exige casi siempre que las categorías sean exhaustivas y
mutuamente excluyentes.
Sistema ordinal
Un sistema ordinal es un tipo de escala de medición que se utiliza para clasificar unidades de
análisis en categorías jerárquicas, donde hay un orden entre las categorías, pero no es posible
establecer una distancia entre los valores. Los datos se agrupan de acuerdo con un orden
expresado con los operadores “mayor que” o “menor que”. El nivel de medición ordinal también
puede usarse para asignar rangos a las categorías (1-5 / 10-20). Por ejemplo:
Sistema Métrico
En este sistema además de establecerse una relación de orden, se verifica que las diferencias
entre las magnitudes se corresponden puntualmente con las diferencias de los objetos de
medición. Dentro del sistema métrico, las variables se pueden clasificar en:
Escala Intervalar
El nivel intervalar se caracteriza por tener propiedades de orden y una unidad de medida
constante, pero no tiene un punto de cero absoluto. Es decir, una variable está medida a nivel
intervalar cuando las distancias entre las categorías son proporcionales.
Aquí tomamos un ejemplo de Eduardo Bologna (2020):
En cierto modo decimos “han transcurrido 2020 años desde el momento que se acordó usar como
inicio de este calendario”. (…) En el calendario judío, por ejemplo, el presente es el año 5780. Hay
entonces libertad para decidir la ubicación del punto desde donde empezar a contar los años. Lo
que podría llamarse el “año cero”, no es necesariamente el mismo. Sin embargo, el tiempo
transcurrido entre la Toma de la Bastilla en Paris y la Toma del Palacio de Invierno en Petrogrado es
de 128 años, que es el período entre 1789 y 1917 en el calendario gregoriano y entre 5549 y 5677
según el calendario judío. Es decir que la transformación que lleva los años de un calendario al otro
conserva las distancias. Independientemente de la escala con que hayamos medido el año, la
diferencia entre dos años, se mantiene constante. (…) Si alguien tiene 30 años en el calendario
gregoriano, también tiene 30 años con el calendario judío; porque, aunque tanto el año de
nacimiento sean diferentes en los dos calendarios, la diferencia (el tiempo transcurrido) entre las
dos fechas es la misma. Ubicar el cero en un momento (en un determinado hecho histórico) o en
otro es una elección; ese cero no indica la “ausencia de tiempo”.
Escala proporcional
Este tipo de escala posee todas las características de las escalas anteriores (nominal, ordinal e
intervalar), y además tiene un punto de cero verdadero, lo que significa que el valor de cero
representa una ausencia absoluta de la característica que se está midiendo. Una variable está
medida a nivel proporcional cuando sus valores respetan relaciones de proporcionalidad y, en
consecuencia, el cero tiene un valor absoluto.
Por ejemplo:
El valor cero representa que no hubo errores, es decir, es la ausencia de lo que se mide. Cometer 4
errores es el doble que cometer 2. Por eso, la variable número de errores en el primer parcial de
EySIE es de nivel proporcional.
Son estadísticos que resumen un conjunto de datos. Estos datos, cuando son obtenidos de una
muestra reciben el nombre de estadísticos y cuando se calculan en una población se denominan
parámetros.
¿Cuáles son?
MODO/MODA:
- Puede aplicarse a variables que no hayan sido medidas en escala métrica, porque lo
importante es identificar la categoría de la variable que concentra la mayor frecuencia.
1,2,3,4,5,6,7,8,9,10 2,3,3,4,5,6,7,7,7,8,9,10,10
σ𝑛𝑖=1 𝑥
¿Cómo se lee esta fórmula?
VARIANZA
¿Cómo se lee? Como el promedio de las diferencias cuadráticas entre la media y los valores
originales. Si desarmamos la fórmula, podemos leerla de la siguiente manera:
𝒏
ഥሻ𝟐
𝒊=𝟏ሺ𝒙 − 𝒙
𝒗𝒂𝒓 =
𝒏
𝑛
Sumatoria de las diferencias de
ሺ𝑥 − 𝑥ҧ ሻ2 cada valor de X respecto a la media.
𝑖=1
Si hacés tus cálculos con calculadora Si hacés tus cálculos con Excel
ഥ = promedio
𝒙
n = cantidad de casos
Recordá que σ = sumatoria
DESVIACIÓN ESTÁNDAR
σ𝑛𝑖=1ሺ𝑥 − 𝑥ҧ ሻ2
ⅆⅇ = ඨ
𝑛
Si hacés tus cálculos con calculadora Si hacés tus cálculos con Excel
𝑥ҧ = promedio
n = cantidad de casos
Recordá que σ = sumatoria
𝜎
𝑣=
𝑥ҧ
¿Cómo se lee? Como cociente entre la desviación estándar y su media aritmética.
Si hacés tus cálculos con calculadora Si hacés tus cálculos con Excel
𝑥 = promedio
MEDIDA PORCENTUAL
Una medida general del coeficiente se logra multiplicándolo por 100 DE LA VARIACIÓN
𝜎
𝑣 = ⋅ 100
𝑥ҧ
Esta columna, la de Frecuencia Absoluta, se realiza un conteo de casos de cada una de las
categorías de la variable. La suma de todas las frecuencias debe ser igual al total de casos.
Variable Frecuencia
Solteros 122
Casados 107
Categoría
Separados 110
Viudos 1
Otras 5
Total 345
Frecuencia Relativa: Para calcular la Frecuencia Relativa se debe dividir el valor de la Frecuencia
absoluta de la categoría por el valor total de la muestra.
Solteros 122/345=0.3536
Casados 107/345=0.3101
Separados 110/345=0.2898
Viudos 1/345=0,0028
Otras 5/345=0,0144
Valor de la F. Absoluta
Total de la muestra
n= total de casos
Una vez obtenida la frecuencia relativa podemos sacar el Porcentaje, multiplicando a la frecuencia
relativa por 100.
Frecuencias acumuladas
Debes sumar de manera descendente los valores de la frecuencia en cada una de las celdas de la
categoría de la variable.
Viudos 1 339+1=340
Otras 5 340+5=345
Total 345
Porcentaje acumulados: El procedimiento para obtener los porcentajes acumulados es el mismo
que para las frecuencias acumuladas.
Total 97.07% =
100%
Las categorías son expresadas como etiquetas, el proceso de construcción de la tabla es idéntico
al de la escala nominal.
1 1 1.81% 0 0
2 3 5.45 % 2 3.63%
3 2 3.63 % 3 5.45%
4 8 14.54 % 5 9.09%
5 14 25.45 % 12 21.81%
6 12 21.81 % 11 20%
7 10 18.18 % 19 34.54%
8 2 3.63 % 1 1.81%
9 2 3.63 % 1 1.81%
10 1 1.81 % 1 1.81%
Las tablas de frecuencia de estas variables suelen agruparse en intervalos, dado que, entre dos
valores cualesquiera, pueden encontrarse otros tantos valores fraccionarios o pueden tener un
rango de valores muy amplios aun siendo discretas.
78,0<x<=80,0 78 – 80 15 49 20 % 65,31%
75
Diagrama de Barras
Las barras representan la relación entre la categoría y la frecuencia. Este gráfico se utiliza para
variables de tipo nominal, por tal motivo es que las barras están separadas entre sí denotando
que no existe continuidad entre las categorías.
Diagrama de sectores o gráfico de torta
Este gráfico es una alternativa al gráfico de sectores, utilizando los porcentajes de la tabla de
frecuencia. El área total de la circunferencia representa el 100% de población y cada categoría
será representada por una porción de dicha circunferencia.
Histograma
Se utiliza en una variable de tipo métrica, se representa con gráficos similares a los anteriores, en
ellos se evidencia que los intervalos de la variable son categorías de un conjunto de datos
continuos o discretos. Las barras deben ser del mismo ancho dado que los intervalos deben
contener la misma cantidad de datos, reflejando así la tendencia general de la distribución de la
frecuencia.
Polígono de frecuencia
Así como el gráfico de barras agrupadas nos permite comparar 2 variables de sistema ordinal o
nominal, para el sistema métrico se utiliza el polígono de frecuencia, reemplazando la altura de la
barra por un punto y luego los puntos obtenidos pueden unirse para generar un polígono. Al
reemplazar el histograma por el polígono, es posible comparar la distribución de frecuencia de dos
o más grupos en una misma variable métrica.
Es una sencilla representación de la dispersión de los datos para una variable que permite
comparar fácilmente el comportamiento de dicha variable en uno o más grupos. Generalmente
estos puntos representan la posición de los cuartiles de la distribución de datos. La interpretación
de un diagrama de cajas depende de la posición de los puntos de referencia del diagrama de la
distribución de datos observada, es por ello que el diagrama siempre se representa en el marco de
la intersección de ejes cartesianos.
Box plot - Cuartiles
Valor máximo
100% de los
casos Bigote
Q3
Mediana (Q2)
Q1
Valor mínimo
Para determinar que una distribución de datos contiene valores extremos, se toma en
consideración una medida proporcional del rango intercuartil, mediante la cual se determina la
extensión de los máximos y mínimos, es decir, la extensión de los bigotes no es azarosa, se
determina a través de los cálculos RI y RSI.
POBLACIÓN Y MUESTRA
- Población: cualquier entidad que pueda formar un conjunto
- La definición de la población determinará el tipo de muestreo posible
- Una muestra es una porción representativa de la población con características
equivalentes a esta.
En Estadística la definición
Población de estudiantes de la licenciatura en ciencias de la educación de la población se define
acorde a los objetivos de la
investigación, por ende, es
necesario saber si se podrá
acceder a dicha población
definida teóricamente.
Muestra
INFERENCIA
POBLACIÓN
MUESTRA
Inferencia
Un estimador o estadístico es un valor que puede calcularse a partir de los datos muestrales y
que proporciona información sobre el valor del parámetro
MUESTREO PROBABILÍSTICO
POBLACIÓN:
a) Acotada
MUESTRA
INFERENCIA
- La población es grande.
- Las unidades se eligen a intervalos del listado completo de la población.
- Se escoge el valor de arranque para la selección de participantes mediante la siguiente
fórmula N/n (N = población – n = muestra)
Cuando la población es compleja, cualquiera de los métodos descritos puede ser difícil de aplicar,
en estos casos se aplica un muestreo mixto que combina dos o más de los anteriores sobre
distintas unidades de la muestra.
El muestreo por etapas es un método para obtener una muestra de una población dividiendo dicha
población en grupos cada vez más pequeños y tomando muestras de unidades de los grupos
resultantes.
Por ejemplo, suponga que estamos interesados en estimar el ingreso familiar promedio en los
Argentina. Para simplificar, supongamos que hay 100 millones de hogares. Esto representa a toda
la población que nos interesa. Sin embargo, sería demasiado costoso y llevaría mucho tiempo
recopilar datos sobre los ingresos de cada hogar, por lo que en su lugar podríamos tomar una
muestra aleatoria simple de 12 provincias. Luego, dentro de cada provincia, podemos tomar una
muestra aleatoria simple de 10 departamentos. Luego, dentro de cada departamento, podemos
tomar una muestra aleatoria simple de 100 hogares.
MUESTREO NO PROBABILÍSTICO
POBLACIÓN:
a) Acotada
MUESTRA
No se garantiza la inferencia, la muestra no es representativa de la población, y solo asume que
cualquier conclusión queda restringida a ella.
MUESTREO ACCIDENTAL
Consiste en tomar una muestra de la población que está disponible y desea participar del estudio,
en lugar de determinarla y obtenerla a través de un procedimiento más cuidadoso. Este método
permite recoger opiniones, sugerencias, críticas y comentarios de forma fácil y sencilla.
Es similar al muestreo accidental con la particularidad de que se debe cumplir con una cuota en
las unidades de muestreo. Este tipo de muestreo permite conocer las características específicas
de un grupo e investigar sobre un rasgo especifico de la muestra.
MUESTREO INTENCIONAL
En este tipo de muestreo, importa la unidad ya que nos aporta información valiosa para el estudio,
más que el proceso.
BOLA DE NIEVE
Se realiza sobre poblaciones en las que no se conoce a sus individuos o es muy difícil acceder a
ellos. Se llama muestreo de bola de nieve porque cada individuo estudiado propone a otros,
produciendo un efecto acumulativo parecido al de la bola de nieve.
El RDS es una variante mejorada del muestreo de Bola de Nieve orientada al estudio de
poblaciones ocultas, aunque también es útil para ser utilizado con aquellas poblaciones que no
están registradas en marcos muestrales pero que, sin embargo, no ofrecen especiales dificultades
para ser contactadas. Esta muestra asume la existencia de una población que puede abordarse en
los términos de una organización, es decir, que ofrece una estructura de red: sus miembros están
conectados entre sí.
𝜎 = desviación estándar
𝛭= media
“3 desviaciones estándar”
La distribución normal es continua y asintótica (esto es, que se extiende indefinidamente en sus extremos),
esto quiere decir que cualquier valor de la variable estaría contenido dentro de la distribución normal
estandarizada
La forma de la distribución normal (la característica curva con forma de campana) se define por
una función que tiene solamente dos parámetros: la media y la desviación estándar. La media es
el valor que con mayor probabilidad aparecerá en una medida.
PUNTUACIÓN Z
En una distribución normal, los valores de la media y de la desviación estándar están expresados
en puntuación Z.
ഥ + ሺ𝒁 ∗ ⅆⅇሻ
𝑷0 = 𝒙
Desviación estándar
Puntuación Original
Promedio Valor Z