Resumen Estadística Muñoz 1 Parcial
Resumen Estadística Muñoz 1 Parcial
Resumen Estadística Muñoz 1 Parcial
ESTADÍSTICA
UNIDAD 1
ESTADISTICA
CONCEPTOS BASICOS
Obtiene
Es la parte de la Estadística que proporciona métodos para extraer conclusiones sobre las
poblaciones a partir de muestras representativas, controlando el margen de error que se puede
2
Problema:
Las dos epidemias que más les preocupan a los argentinos son el nuevo coronavirus, con el
74,1%, y el dengue en un 70,9%, según el relevamiento realizado por el Observatorio de
Psicología Social Aplicada de la Facultad de Psicología de la Universidad de Buenos Aires (UBA).
Sin embargo, la mayoría de los encuestados considera que el Covid-19 tiene una tasa de
mortalidad inferior mientras que en el caso de contraer dengue el riesgo de vida asciende entre c'
25%.
Muestra representativa
Personas mayores de 18 años que habitan en la Argentina
Población de referencia
Los 1729 individuos mayores de 18 años seleccionados en CABA, Gran Buenos Aires, Córdoba,
Rosario, Mendoza y Tucumán
Parámetro poblacional
Porcentaje de argentinos a los que les preocupa el coronavirus
Valor: desconocido
Estadístico
Porcentaje de argentinos en la muestra a los que les preocupa el coronavirus
Valor: 74.1%
Variable o Característica
3
Ejemplo:
Población: Pacientes atendidos en el mes de junio de 2019 en un Centro de Salud Mental Infantil
del barrio de Flores.
Sexo Edad
Tipo de Trastorno Puntaje en un Test de Inteligencia
Nivel Atencional Tiempo invertido en realizar el Test de
Inteligencia
Operacionalización: Definición operacional del constructo que permite asignar sin ambigüedad
un valor a la variable a través del proceso de medición.
Ejemplo:
Ejemplo 1:
Cantidad de hijos 1 0
2 1
3 2
4 3
5 4
5 o más
Ejemplo 2:
Clasificación de las variables estadísticas de acuerdo con el tipo de valores que pueden tomar:
Concepto de Medición
Que es medir?
CONCEPTO DE MEDICION
Homomorfismo:
V 2
M 1
V 2
M 1
Niveles de Medición:
Ordinal: Establece un orden / jerarquía entre los valores. Permite saber que algo es mayor
o menor que otra cosa
7
Intervalar: Incluye unidad de medida. Permite saber las distancias entre dos valores. El
cero es arbitrario. Por ejemplo: puntajes de los tests psicológicos
UNIDAD 2
Matriz de datos
• La matriz de datos es una disposición de números donde cada fila representa a un individuo
que posee la información de interés, y cada columna es un aspecto del individuo que se ha
seleccionado para estudiar (una variable) y cada celda es la modalidad que tiene el individuo de
la fila en el aspecto de la columna correspondiente (valor de la variable).
Distribución de Frecuencias
Frecuencia Absoluta
• Frecuencia absoluta es la cantidad de veces que se repite una determinada modalidad o valor
de variable. La suma de todas las frecuencias absolutas de una determinada distribución de
frecuencias siempre debe ser igual al total de observaciones (n). La letra n simboliza el tamaño
total de la muestra de individuos.
Frecuencia Relativa
Frecuencia Porcentual
Frecuencia porcentual es la frecuencia relativa multiplicada por 100. Al igual que la frecuencia
relativa, informa el peso de cada valor de la variable en el conjunto de observaciones. La suma de
todas las frecuencias porcentuales de una determinada distribución de frecuencias siempre es
igual a 100%.
Frecuencia Acumulada
Ejemplo
La distribución de frecuencias se define para todo tipo de variables ya sean cuali o cuantitativas.
Para ilustrar cómo se construyen las tablas de distribución de frecuencias consideremos un
fragmento de una matriz de datos (datos ficticios) obtenida con un programa estadístico o bien
con una aplicación como la que utilizarán en los trabajos prácticos.
4=Medio-Alto
5=Alto
LUGAR de RESIDENCIA: Codificada
1=CABA 2=Gran Buenos Aires 3=Otro
TIEMPO EMPLEADO en responder un cuestionario, medido en minutos.
ANSIEDAD: puntaje obtenido en una Escala de Ansiedad Generalizada. Para ser graficada se
tratará como una variable discreta.
A partir de la distribución de
frecuencias es posible construir
gráficos, que muestran la misma
información de las tablas con el
impacto de la visualización de los
resultados. Éstos difieren según sean
las variables cuali o cuantitativas.
• Los GRÁFICOS son las posibilidades más elementales de presentar las distribuciones de
frecuencias de manera que puedan ser aprehendidas visualmente para un primer análisis de los
datos.
• La ventaja de los gráficos con respecto a las tablas de distribuciones de frecuencias estudiadas
en él es que permiten una fácil interpretación y análisis de los datos, al mostrar las frecuencias
mediante símbolos, barras, polígonos y sectores.
• Tener una primera impresión de los datos antes de comenzar el análisis (explorar).
• Elección de tests estadísticos a realizar.
• Mostrar los valores que asumen los datos.
• Detectar patrones.
• Comparar distintas muestras, o comparar en el tiempo.
• Evaluar la distribución de los datos.
En este gráfico los sectores circulares son proporcionales a las frecuencias de los valores de la
variable, razón por la cual se pueden expresar las amplitudes angulares de los sectores medidas
en grados sexagesimales (llamémoslas ai); por ejemplo: en función de las frecuencias relativas,
como ai= pi*360°.
CABA
Reside nci a a1 = p1 * 360° = 0.45 * 360° =
CABA Gran Bs. As. Otros
Gran Bs As
a2 = p2 * 360° = 0.45 * 360° =
Otros
a3 = p3 * 360° = 0.10 * 360° =
11
En este tipo de gráfico se dibujan dos ejes perpendiculares de los cuales el eje horizontal donde
se exhiben rectángulos generalmente del mismo ancho y equiespaciados que representan a los
valores de la variable en cuestión, no es numérico en sentido estricto, a lo sumo se le adjudica un
orden. El eje vertical en cambio sí es numérico y allí se representan algún tipo de frecuencias.
Ejemplo: Utilizaremos este tipo de gráfico para la Variable NIVEL SOCIOECONÓMICO, variable
cualitativa medida a nivel ordinal, por lo cual sus valores pueden ordenarse, por ejemplo, de
menor a mayor nivel socioeconómico (de izquierda a derecha en el gráfico).
Para las variables cuantitativas discretas se utiliza el llamado gráfico de barras o bastones o
también el polígono de frecuencias. Como es habitual en las representaciones gráficas
matemáticas, hay un sistema de ejes numéricos perpendiculares tales que en el eje horizontal o
de abscisas se muestran los valores de la variable y en el vertical o de ordenadas se grafica algún
tipo de frecuencia.
Estos gráficos deberían ser líneas que indican que toda la frecuencia se concentra en un punto y
no en un intervalo alrededor del mismo (como en las variables continuas).
Polígono de frecuencias
Se obtienen uniendo los extremos superiores de las barras o bastones con los que se grafican la
distribución de los valores de una variable discreta.
Otro modo de mostrar las observaciones de una variable cuantitativa es utilizar un esquema de
presentación de los datos que es una combinación de tabla y gráfico como lo es el denominado
diagrama de tallo-hoja (Stem and Leaf plot). Esta presentación de los datos consiste en separar
cada dato en el último dígito, que se denomina hoja y las cifras delanteras restantes, que forman
el tallo.
El Diagrama de Tallo y Hojas es una forma de visualizar conjuntamente los datos (originales) junto con la
forma de la distribución.
Ejemplo:
Datos originales: 18—19—21—30—31—33 —33—39
13
• Para una variable cuantitativa continua se sabe que no puede hacerse un listado de sus valores
y adjudicarle una frecuencia absoluta a cada uno de ellos.
• Sabemos que los valores observados en realidad representan el centro de un intervalo de
números reales por lo tanto las frecuencias deberán ser asignadas a intervalos de valores de la
variable.
• Los extremos de los intervalos considerados suelen denominarse extremos exactos, para los
que el límite superior de uno de ellos coincide con el límite inferior del siguiente. A partir de
determinar la frecuencia absoluta de cada intervalo de clase pueden hallarse las frecuencias
relativas y porcentuales.
•Podemos construir la tabla de distribución de frecuencias para las observaciones de TIEMPO
EMPLEADO en contestar un cuestionario, agrupadas en intervalos de clase.
Histograma
El polígono cuyos vértices son: el punto medio de un intervalo previo al primero de altura cero, los
puntos correspondientes a las marcas de clase y las alturas correspondientes a cada rectángulo y
que finaliza en el punto medio de un intervalo posterior al último de altura cero se denomina
polígono de frecuencias y se muestra a continuación para la variable considerada.
Aunque las frecuencias se grafican en las alturas de los rectángulos, siendo todos los intervalos
de igual longitud, el área resulta proporcional a la frecuencia, por lo que podemos interpretar las
áreas como frecuencias.
Tiempo empleado
en el cuestionario
UNIDAD 3
Resúmenes Estadísticos
Resúmenes Estadísticos
Refiere a la magnitud general de las observaciones hechas. Puede cuantificarse mediante unos
índices conocidos como índices de tendencia central o promedios, y pretender ser síntesis de los
valores de las variables.
Menos Variabilidad: Mayor concentración de los casos en uno o unos pocos valores de la
variable. Los casos son más homogéneos o parecidos entre sí con respecto a la variable
estudiada.
Más Variabilidad: Mayor dispersión de los casos en el recorrido de los valores de la variable. Los
casos son más heterogéneos diferentes entre sí con respecto a la variable estudiada.
3. Asimetría
Refiere al grado en que los datos tienden a concentrarse en los valores centrales, en los valores
inferiores promedios, o en los valores superiores a éste. Existe simetría perfecta cuando en caso
de doblar la representación gráfica por una vertical trazada en la media, las dos mitades se
superponen perfectamente.
Las distribuciones con asimetría negativa son propias de pruebas o tests fáciles en las que la
mayoría de los sujetos puntúan alto; las de asimetría positiva son típicas donde la mayoría de los
sujetos puntúan bajo. Las pruebas/tareas/tests de dificultad media suelen producir distribuciones
más o menos asimétricas.
Hace referencia al grado en que los datos se reparten equilibradamente por encima y por
debajo de la tendencia central.
4. Curtosis
Medidas de Posición
Son Índices diseñados para revelar la situación de una puntuación con respecto a su grupo de
referencia. Indican que porcentaje de casos de la muestra queda por debajo de un valor
determinado de la Variable.
También pueden ser utilizados para caracterizar a las distribuciones de Frecuencias.
Por ejemplo, indicando que valores de la variable son los que dividen a la distribución en cuatro
subconjuntos tales que la frecuencia de cada uno no supere a la cuarta parte del tamaño de
muestra.
18
Medidas de Posición
Índices diseñados para revelar la situación de una puntuación con respecto a su grupo de
referencia.
Una puntuación por sí sola no nos da información si no se la pone en relación a otras
puntuaciones que son tomadas como grupo de referencia. Las valoraciones solo pueden hacerse
en términos relativos.
Indican que porcentaje de casos de la muestra queda por debajo de un valor determinado de la
Variable.
Ejemplo:
Una persona con 30 puntos en un Test de Creatividad ¿Es una persona muy creativa?
Si el 20% de las personas de su grupo de referencia han obtenido un puntaje menor o igual a 30
en este Test de Creatividad entonces esta persona tiene un nivel de creatividad bajo, ya que el
80% de las personas de su grupo de referencia han superado el puntaje 30, es decir, el 80% lo ha
superado en creatividad.
El centil 25 supera al 25% de las observaciones y es superado por el 75% de las mismas...
Se simboliza así:
Ejemplo:
A la persona con 30 puntos en un Test de Creatividad le corresponde el Centil 20.
C20 = 30
K es 20
Aunque por definición son 99 valores, por extensión a veces se utilizan posiciones intermedias.
Ejemplo:
C43,5 = 36
36 es el Valor de la Variable por debajo del cual se encuentra el 43,5% de las observaciones.
En la práctica estadística los centiles nos ayudan a responder dos tipos de preguntas:
Ejemplo:
¿Qué puntuación en el Test de Creatividad es la que deja por debajo de sí al 20% de las
observaciones?
= ¿Qué puntuación en el Test de Creatividad le corresponde al C20?
C20 = 30
Ejemplo:
Ck = 30
K=20 ====> C2 = 30
Centiles o Percentiles
Unos de los usos más frecuentes de los centiles consisten en la elaboración de Baremos de Test
Psicológicos (tabla que facilita la interpretación de los puntajes de un test).
Medidas de Posición
Ejemplo:
Q1 = 31 Q2 = 36 y Q3 = 42
El 25% de las personas evaluadas alcanzaron la puntuación 31, el 50% alcanzó el puntaje 36
(Mediana) y el 75% presentó una puntación igual o menor a 42.
Estas puntuaciones permiten dividir a los evaluados en 4 niveles de creatividad.
2. También pueden ser utilizadas para comparar la posición relativa de una puntuación en
dos conjuntos de datos diferentes.
Ejemplo:
La puntuación 36 tiene una posición relativa diferente según qué grupo de referencia se tome.
Puntajes en un Q1 Q2 Q3
Test de
creatividad
Muestra 1 Estudiantes de 36 42 47
Diseño Gráfico
22
Muestra 2 Estudiantes de 31 36 42
Kinesiología
Las definiciones de los términos tratados siguen la bibliografía de la Materia: Botella, J.; León, O.
y San Martín, R. (1993). Análisis de Datos en Psicología 1. Madrid: Ediciones Pirámide.
Medidas de resumen
Hacen referencia a la magnitud general de observaciones
Síntesis de los valores de la variables
Media aritmética:
Mediana:
Representa a la puntuación que es superada por la mitad de las observaciones, pero no por la
otra mitad. Se calcula del mismo modo que el centil 50
Moda:
• Media aritmética
Se trate de una variable con al menos nivel de medición intervalar. Su dificultad es que es muy
sensible a las puntuaciones extremas no compensadas (Ejemplo: si quiero hacer la media de edad de
un grupo donde todos son adolescentes y uno es un anciano, los resultados van a estar sesgados.
• Mediana
Existan puntuaciones extremas no compensadas
Se trate de una variable con nivel de medición ordinal
• Moda
Se trate de una variable con nivel de medición nominal
I. Primer Propiedad
a) Puntuaciones directas o brutas: son cada uno de los valores observables de la variable.
Formula y ejemplos:
_
Σ(x - x) = 0
Esta importante primera propiedad es la que permite interpretar a la media como el "centro de
equilibrio de la distribución".
24
En efecto si imaginamos los valores de la variable como los puntos de una barra rígida y sus
frecuencias como sus pesos, la media representa el punto sobre el que habría que apoyar tal
barra para mantenerla equilibrada; es decir, su centro de gravedad.
Para obtener las puntuaciones diferenciales con respecto a la media, a cada puntación directa (o
puntuación bruta) le RESTAMOS la media.
Suma de ñas
2 – 6 = -4 Puntuaciones puntuaciones
7–6= 1 diferenciales con -4 + 1 +3 = 0 diferenciales con
9–6= 3 respecto a la media. respecto a la media
Ejemplo:
Veamos un ejemplo nuevamente con sólo tres números: 2-7-9
Para obtener la suma de los cuadrados de las puntuaciones diferenciales con respecto a la
media, elevamos en primer lugar cada puntuación diferencial al cuadrado y luego las sumamos.
Ahora debemos realizar el procedimiento con puntuaciones diferenciales con respecto a cualquier
otro valor que no sea la media.
25
Para obtener la suma de cuadrados de las puntuaciones diferenciales con respecto 8, obtenemos
las puntuaciones diferenciales, luego elevamos cada puntuación diferencial al cuadrado y por
último, las sumamos.
26 < 38
Ejemplo:
Supongamos que aumento todos los datos en k (constante) = 3 y realizo el promedio nuevamente
2+3= 5
7 + 3 = 10 (5 + 10 + 12) / 3 = 9 = 6 + 3
9 + 3 = 12
Yi = k × xi → Y = k × X
Observación:
Las propiedades 3 y 4 expresan que la media se transforma de igual manera que los valores de
las variables cuando la transformación es de tipo lineal, justamente la admisible en el nivel
intervalar.
Ejemplo:
2x3= 6
7 x 3 = 21 (6 + 21 + 27) / 3 = 18 = 6 x 3
9 x 3 = 27
Quinta Propiedad
Otro método, nos permite calcular la media del grupo total, a partir del conocimiento de las media
de cada uno de los grupos parciales y de sus tamaños.
Ejemplo: Hay 3 grupos de estudiantes de diferentes tamaños (n) y media de calificaciones (x)
Sexta Propiedad
Una variable definida como la combinación lineal de otras variables, tiene como media la misma
combinación lineal de las medias de las variables intervenientes en su definición.
27
Índice J = 0.20, precio de la harina, + 0.50, precio de la leche, + 0.30, precio de la carne.
Libro Botella
Capítulo 1 (Hasta punto 1.3)
1. Introducción
Ejemplo:
Si nos interesara conocer la opinión de los vecinos de nuestro bloque acerca de una serie de
cuestiones que afectan a la convivencia, podemos pasarles una encuesta. (Est. Descriptiva)
Si, en cambio, queremos hacernos una idea de las opiniones de los habitantes de nuestra ciudad
sobre esas mismas cuestiones, no podemos preguntarles a todos. Probablemente seleccionaremos
a un grupo de vecinos y aplicaremos los resultados hipotéticamente a los habitantes de la ciudad.
(Est. Inferencial)
A los elementos que componen una población se les denomina entidades estadísticas o individuos
(Ejemplo: personas, animales, objetos, números, etc.).
Dependiendo del número que las compongan la población puede ser finita o infinita.
La muestra nos va a ofrecer una serie de datos que podemos ordenar, simplificar y escribir. Pero el
objetivo fundamental es poder describir la población de partida mediante lo que podamos
encontrar en la muestra.
Lo más importante es que las muestras de observaciones sean representativas. Este objetivo sólo
se alcanzara plenamente en la medida en que esa información se aproveche correctamente y en
todas sus posibilidades.
Las poblaciones suelen caracterizarse a partir de unas constantes denominadas parámetros. Como
normalmente los parámetros son desconocidos, una de las tareas de la estadística es la de hacer
conjeturas lo más acertadas posibles acerca de esas cantidades. Para ello se utilizan cantidades
análogas obtenidas en las muestras, denominadas estadísticos.
Los parámetros se suelen representar con letras griegas (u , o, r), y los estadísticos con letras
latinas (X, S, P, etc.)
En la primera fase de una investigación se obtienen los estadísticos, y en la segunda se utilizan los
valores obtenidos para hacer las inferencias acerca de los parámetros.
1.3. Medición
La asignación de números a las características se hace siguiendo unas reglas, para una correcta
atribución se utiliza la Teoría de la Medida.
Las características permiten clasificar a los individuos, algunos adoptan la misma modalidad, otras
diferentes.
30
Así pues, la medición estudia las condiciones de construcción de representaciones numéricas, y los
modelos desarrollados para la medición se llaman escalas. Las escalas se clasifican por el sistema
de Steven: escalas nominales, ordinales, cuantitativas de intervalo y cuantitativas de razón.
Las clases son mutuamente exclusivas y exhaustivas, es decir, cada observación es incluida en una
sola clase.
Un concepto ligado al concepto de escalas es el de transformación admisible que hace referencia
al problema de unicidad de la medida. Ejemplo: representar a las mujeres con un “1” y a los
varones con un “2”.
En el proceso de medición se asignan números a los objetos según unas reglas, y el conjunto de
valores numéricos atribuidos a las modalidades de una característica constituyen lo que llamamos
variable estadística.
b.1. Introducción
Simbólicamente representaremos a la variable con la que trabajaremos con X (Ejemplo: X 1, X2, X3);
pero cada uno de esos valores puede aparecer repetido más de una vez en los “n” elementos que
componen la muestra.
Hay cinco tipos de frecuencias, frecuencia absoluta, frecuencia relativa, frecuencia absoluta
acumulada, frecuencia relativa acumulada y frecuencia porcentual.
Se llama intervalo a cada uno de los grupos de valores que ocupan una fila en una
distribución de frecuencias. En algunos textos se llaman clases.
Se llaman límites aparentes o informados de un intervalo a los valores mayor y
menor que puede adoptar la variable dentro de ese intervalo, según el instrumento
de medida utilizado.
Se llaman limites exactos de un intervalo a los valores máximo y mínimo incluidos en
el intervalo y que podrían medirse si se contara con un instrumento de precisión
perfecta.
Se llama punto medio de un intervalo a la suma de sus límites exactos partido por
dos. En algunos libros se llama marca de clase.
Se llama amplitud de un intervalo a la diferencia entre su límite exacto superior y su
límite exacto inferior. Suele representarse por la letra 1.
Para hacer una distribución de frecuencias no hay unas normas muy rigurosas. Nosotros vamos a
plantear tres reglas y algunas directrices. Las tres normas son las siguientes:
Hay que tener presentes algunas directrices, basadas en dos guías principales:
a) dado que el objetivo de una distribución de frecuencias es conseguir una ordenación
manejable que ayude a comprender el significado de los datos, no es conveniente que el
número de intervalos sea demasiado grande, y
b) como consecuencia de lo anterior, podemos sentirnos inclinados a reducir al máximo el
número de intervalos, lo que traería una consecuencia negativa.
A la hora de hacer represen taciones gráficas y cálculos de estadísticos, nos veremos obligados a
tratar los valores de formas distorsionantes, cayendo en lo que se suele denominar error de
agrupamiento. El número apropiado de intervalos debe ser tal que, simultáneamente, con ella se
32
consiga una agrupación operativa y que cumpla los objetivos para los que ha sido diseñada la
distribución de frecuencias, pero sin distorsionar excesivamente los valores con el error de
agrupamiento.
Una vez confeccionada una distribución de frecuencias con datos agrupados en intervalos, ésta se
puede utilizar para hacer representaciones gráficas. Si queremos utilizar la distribución de
frecuencias para ello, hay que asumir ciertas interpretaciones de las distribuciones que suponen un
margen de error, pero que son imprescindibles. La situación seria una en la que en lugar de contar
con los datos directos, y de construir la distribución de frecuencias, ésta se nos da hecha.
Un procedimiento que a veces resultará útil consiste en asumir el supuesto de concentración en el
punto medio.
Sin embargo más adelante veremos algunos casos en los que el supuesto de concentración en el
punto medio no resulta apropiado, porque interesa la adopción de un criterio que asigne valores
distintos a los elementos de un mismo intervalo. Un criterio de este tipo se sigue cuando se asume
el supuesto de distribución homogénea, según el cual los valores incluidos en un intervalo se
reparten con absoluta uniformidad en su interior.
c) Pictograma: Son representaciones en forma de círculos en las que éstos son divididos en
secciones cuya superficie es proporcional a la frecuencia de la modalidad correspondiente.
i) Otros dibujos: Muchas veces se utilizan otras representaciones figurativas, en las que se
incluyen los objetos de los que se están haciendo recuentos de frecuencias, o algún
símbolo que los identifique de forma muy expresiva.
Las representaciones gráficas de los datos incluidos en una distribución de frecuencias pueden
realizarse de muy distintas formas, vamos a establecer algunas convenciones para unificar criterios:
b) La intersección de los dos ejes es el origen, de modo que en el eje de abscisas las
puntuaciones más bajas estarán a la izquierda, y las más altas a la derecha en el de
ordenadas los valores pequeños estarán abajo y los altos arriba
c) Si el valor mínimo del eje de abscisas fuera excesivamente grande, se debe cortar la línea.
d) Conviene incluir en cada gráfico toda la información posible para evitar ambigüedades
Las representaciones gráficas pueden utilizarse de manera tendenciosa para inducir impresiones
engañosas e interesadas.
Un primer método consiste en recortar el eje de ordenadas, el segundo produce una distorsión al
utilizar figuras representativas de aquello que se está midiendo.
Son cuatro las propiedades con las que describiremos las distribuciones de frecuencias
3. Asimetría o sesgo: Refiere al grado en que los datos tienden concentrarse en los valores
centrales, en los valores inferiores al promedio, o en los valores superiores a éste. Existe
simetría perfecta cuando en caso de doblar la representación gráfica por una vertical
trazada sobre la media, las dos mitades se superponen perfectamente.
Las distribuciones con asimetría negativa son propias de las pruebas, tareas o tests fáciles,
en las que la mayoría de los sujetos puntúan alto, en cambio, si puntúan bajo seria asimetría
positiva.
Las pruebas, tareas o tests de dificultad media suelen producir distribuciones más o menos
simétricas.
3.1. Introducción
Lo que nos interesa es poder hacer una valoración de las puntuaciones, y esto sólo puede hacerse
en términos relativos.
En general, para poder interpretar el significado de una puntuación es necesario hacerlo en
términos relativos, y con respecto a un grupo de referencia.
35
Para hacer estas valoraciones relativas se pueden utilizar las llamadas medidas de posición, que
son índices diseñados especialmente para revelar la situación de una puntuación con respecto a
un grupo, utilizando a este como marco de referencia. Un tipo concreto de medida de posición
son las llamadas medidas de tendencia central, pero primero vamos a describir unas medidas de
posición más generales, que reciben el nombre genérico de cuantiles.
Son 99 valores de la variable que dividen a la distribución en 100 secciones, cada una conteniendo
a la centésima parte de las observaciones. Se pueden representar por la inicial de cada uno de los
dos términos que los designan más el subíndice correspondiente, C K o Pk (k =n1, 2, 3,. . .99).
Aunque por definición son sólo 99 valores, por extensión a veces se utilizan posiciones
intermedias.
Los valores correspondientes a los centiles se determinan en función de los porcentajes de
observaciones, normalmente las distancias entre ellos, en términos de puntuación, no serán
constantes. Generalmente las distancias entre los centiles intermedios serán menores que las
distancias entre centiles extremos.
Los centiles no suelen calcularse con cantidades pequeñas de datos, y cuando es necesario hacerlo
se obtienen sencillamente ordenando las puntuaciones y calculan do la proporción de éstas que
superan al valor que se quiere comparar.
3.3.1. Deciles
Son nueve puntuaciones que dividen a la distribución en 10 partes, cada una conteniendo al 10
por 100 de las observaciones. Se representan por D k donde k indica el número del decil al que se
refiere.
Así, el decil cuarto, o D4 , es la puntuación que deja por debajo de sí al 40 por 100 de las
observaciones y por encima de sí al 60 por 100.
Existe una equivalencia directa entre los deciles y los centiles.
3.3.2 Cuartiles
Son tres puntuaciones que dividen a la distribución en cuatro partes, cada una conteniendo al 25
por 100 de las observaciones. Se representan por Q₁, donde k indica el número del cuartil al que se
refiere.
36
Así, el cuartil primero, o Q₁, es la puntuación que deja por debajo de si al 25 por 100 de las
observaciones y por encima de si al 75 por 100.
Existe una equivalencia directa entre los cuartiles y los centiles.
D1 C10
D2 C20
Q1 C25
D3 C30
D4 C40
Q2 D5 C50
D6 C60
D7 C70
Q3 C75
D8 C80
D9 C90
4.1. Introducción
Veremos los índices más utilizados para describir esa característica de las distribuciones de
frecuencias. Deben ser valores únicos que capten y comuniquen mejor la distribución como un
todo.
¿Cómo podríamos resumir en un solo indicador la magnitud general de lo observado, por ejemplo,
en diez valores numérico? Hay algunas opciones que intuimos apropia das para ese fin.
37
Una de ellas podría ser hallar el promedio de los valores, una segunda alternativa podría consistir
en tomar como indicador un valor que sea superado por la mitad de las observaciones, pero no
por la otra mitad; y por último, podríamos tomar el valor más frecuentemente observado.
Estas tres opciones son, de hecho, las soluciones más frecuentes, y están a la base,
respectivamente, de los tres índices de tendencia central más conocidos y utilizados, que son la
media aritmética, la mediana y la moda.
El índice de tendencia central más utilizado es la media. Se define como la suma de los valores
observados, dividida por el número de ellas. Se representa con la misma letra que representa a la
variable, en mayúsculas, con una barra horizontal encima.
Amón (1984) y Hays (1988) han propuesto la siguiente interpretación geométrica de la media
aritmética. Supongamos que tomamos una regla ideal (sin peso), en la que ponemos unas piezas,
todas de igual peso. Colocamos una pieza sobre el valor que ocuparía en ese eje cada una de las
observaciones hechas. En caso de repetirse algún valor, se ponen tantas piezas como veces se
repite el valor .Entonces, la media es un valor tal que, si apoyamos ese eje en un fulcro situado a la
altura del valor correspondiente a la media, el conjunto quedará en equilibrio. Es decir, la media se
comporta como si fuera el centro de gravedad de la distribución.
Aunque la forma más directa de hallar la media es aplicar la fórmula, esta no es siempre la más
práctica. Lo es cuando se trata de unos pocos valores, pero cuando se tiene un conjunto grande de
observaciones, éstas tradicionalmente se han agrupado en distribuciones de frecuencias, para
luego hacer los cálculos sobre la distribución.
Ejemplo:
Para hallar la media se asume el supuesto de concentración en el punto medio del intervalo. Por
tanto, se trata de sumar 5 valores iguales a 16 (punto medio del intervalo superior), 10 valores
iguales a 13, etc., y por último dividir por el número de observaciones, es decir, 70.
xi ni
15 – 17 5
12 – 14 10
9 – 11 25
6–8 20
3 -5 10
38
Necesitamos ciertas informaciones adicionales para poder hacernos una idea de si el grado de
extraversión de ese sujeto es alto, bajo o está entre los más habituales.
A las puntuaciones que hemos venido tratando hasta aquí, y que no son más que los valores
brutos, las denominaremos a partir de ahora puntuaciones directas y las representaremos por la
letra de la variable en mayúsculas. Por el contrario, a las diferencias de cada sujeto con respecto a
la media grupal las denominaremos puntuaciones diferenciales y las representaremos por la letra
minúscula.
Con las puntuaciones diferenciales podemos dar una información más precisa que con las directas.
Una primera propiedad es:
La razón por la que la suma de las diferenciales es igual a cero es que unas son positivas y otras
negativas (las que superan la media y las que quedan por debajo de ella, respectivamente), y se
compensan unas con otras.
Pues bien, se puede demostrar que esa suma es menor que si las diferencias son halladas con
respecto a cualquier otro valor diferente de la media.
La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es
menor que con respecto a cualquier otro valor.
Luego, conociendo la media de las puntuaciones originales podemos obtener muy fácilmente la
media de las puntuaciones tras la suma de la constante Podemos expresar esta tercera propiedad
de la siguiente forma:
Conociendo la media de las puntuaciones originales podemos obtener muy fácilmente la media de
las puntuaciones tras la multiplicación de la constante. Expresaremos esta cuarta propiedad de la
siguiente forma:
Sexta propiedad:
a) Comprobamos que las diferencias de las cuatro puntuaciones siguientes con respecto a su
media es igual a cero.
_
X1 = 4 X2 = 4 X3 = 6 X4 = 1 X = 16 / 4 = 4
x1 = 1 x2 = 0 x3 = 2 x4 = -3 Ʃ xi = 0
[(5 + 3) + (4 + 3) + (6 + 3) + (1 + 3)] / 4 = 28 / 4 = 7
Esta media podíamos haberla obtenido aplicando la tercera propiedad. Llamando Y a las
puntuaciones transformadas,
_ _
Y= X + 3 = 4 + 3 = 7
[(5 - 3) + (4 - 3) + (6 - 3) + (1 - 3)] / 4 = 48 / 4 = - 12
Esta media podíamos haberla obtenido aplicando la cuarta propiedad. Llamando Y, a las
puntuaciones transformadas,
40
_ _
Y = 3 * X = 3 - 4 = 12
(5 + 4 + 6 +1 + 6 + 8 + 1) / 7 = 4,43
Esta media podríamos haberla obtenido aplicando la fórmula de la media ponde rada de las
medias parciales:
_ _ _
Xt = (n1 * X1 + n2 * X2) = (4 * 4 + 3 * 5) = 4,43
(n1 + n2) (4 + 3)
f) Supongamos ahora que disponemos de los valores que los cuatro sujetos del ejemplo han
obtenido en las variables Y y Z. Los valores, con sus medias, son los siguientes
_
Y1 = 8 Y2 = 4 Y3 = 12 Y4 = 4 Y = 28 / 4 = 7
Z1 = 33 Z2 = 29 Z3 = 35 Z4 = 23 Z = 120 / 4 = 30
Ti = 3 * Xi - Yi / 2 +Z
T₁ = 3 * 5 – 8 / 2 +33 = 44
T₂ = 3 * 4 – 4 / 2 + 29 = 39
T3 = 3 * 6 – 12 / 2 + 35 = 47
T4 = 3 * 1 – 4 / 2 + 23 = 24
154 T = 154 / 4 = 38,5
Pero esta media podemos también obtenerla aplicando la sexta propiedad, sin tener que
recurrir al cálculo de las puntuaciones T
41
_ _
T = 3 * X – Y / 2 + Z = 3 * 4 – 7 / 2 + 30 = 38,5
4.3. La mediana
Otra opción para representar la tendencia central de un conjunto de valores, que consistía en
tomar aquella puntuación que fuera superada por la mitad de las observaciones, pero no por la
otra mitad se denomina mediana.
Para su cálculo podemos encontrarnos en dos casos generales, aquel en el que contamos con un
número impar de observaciones y aquel en que nos encontramos con un número par de ellas. En
el primero se toma como mediana el valor central, en el segundo se da la circunstancia de que
cualquier valor comprendido entre los dos centrales cumple con la definición de la mediana. Por
ello, Fechner propuso tomar la media aritmética de los dos valores centrales.
5, 6, 6, 7, 7, 8, 9, 9, 10, 11, 12
Como se trata de un número impar de valores, tomamos como mediana el valor central [el del
orden (n+1)/2= 6]
1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11°
5 6 6 7 7 8 9 9 10 11 12
Mdn = 8
Ordenados: 23, 29, 32, 33, 34, 35, 38, 38, 41, 43
Al tratarse de un número par de valores, tomamos como mediana la media aritmética de los
valores centrales (5° y 6°)
42
1° 2° 3° 4° 5° 6° 7° 8° 9° 10°
23 29 32 33 34 35 38 38 41 43
Xi ni na
18 – 20 20 200 K * n / 100 = 50 * 200 / 100 = 100
15 – 17 30 180
12 – 14 60 150 Intervalo crítico
9 – 11 40 90
6–8 30 50 Mdn = 11,5 + 3 * (100 - 90) = 12
3-5 20 20
60
200
4.4. La moda
Una tercera vía para representar la tendencia central de un conjunto de valores consiste en
informar del valor más frecuentemente observado.
La moda, que se representa por Mo, se define sencillamente como el valor de la variable con
mayor frecuencia absoluta. Como norma, para obtener la moda ordenaremos los valores de menor
a mayor para así facilitar la identificación del de mayor frecuencia.
a) 8, 8, 11, 11, 11, 15, 15, 15, 15, 15, 17, 17, 17, 19, 19.
Es el caso más directo y sencillo; el valor que más veces se repite es el 15 y. por tanto, Mo = 15
b) 8, 8, 8, 11, 11, 11, 15, 15, 15, 17, 17, 17, 19, 19, 19.
Todos los valores tienen la misma frecuencia; por tanto, es un caso en el que la moda no se puede
calcular. Se dice que es una distribución amodal.
c) 8, 9, 9, 10, 10, 10, 10, 11, 11, 13, 13, 13, 13, 15, 15.
43
Hay dos valores con la misma (y máxima) frecuencia, el 10 y el 13, en este caso se dice que la
distribución tiene dos modas, que es una distribución bimodal, donde Mo 1 = 10 y Mo₂ = 13
d) 8, 8, 9, 9, 9, 11, 11, 11, 11, 12, 12, 12, 12, 14, 15, 15.
Al igual que antes, hay dos valores que comparten la máxima frecuencia (11 y 12), pero en este
caso esos dos valores son adyacentes. Cuando se da esta circunstancia, se toma como moda la
media aritmética de esos dos valores:
Mo = 11 + 12 = 11.5
2
¿Con qué criterios elegimos un índice de tendencia central sobre los demás para representar la
magnitud general observada en unos valores o para comparar la de dos o más grupos de valores?
Vamos a exponer algunos criterios razonados para tomar ese tipo de decisiones.
Si no hay ningún argumento de peso en contra, se preferirá siempre la media Hay dos razones
para apoyar esta norma general. La primera es que en ella se basan otros estadísticos que
expondremos en capítulos posteriores, y la segunda es que es mejor estimador de su parámetro
que la mediana y la moda. Este segundo argumento significa que, en términos generales, las
medias halladas sobre muestras representativas se parecen más a la media poblacional que lo que
se parecen las medianas y modas muéstrales a la mediana y la moda poblacional.
Pero entonces, ¿qué razones pueden hacernos preferir otro índice, como la mediana?
Hay al menos tres situaciones en las que se preferirá la mediana a la media:
A veces se presentan casos en los que es más apropiado utilizar la moda. No obstante, podemos
de nuevo establecer una regla general en los siguientes términos la mediana será la segunda
candidata para representar la tendencia central y, por tanto, si no hay argumentos de peso en
contra, se preferirá la mediana a la moda.
Pero, ¿qué razones pueden hacernos preferir la moda sobre la mediana?
Hay al menos dos situaciones en las que se dará esta preferencia:
b) Cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos. La fórmula de los
centiles supone una distribución homogénea de los valores dentro del intervalo. Esto puede
hacerse sólo si el intervalo está cerrado.