Resumen Estadística Muñoz 1 Parcial

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 44

1

ESTADÍSTICA

UNIDAD 1

Estadística y Conceptos básicos

ESTADISTICA 

La Estadística tiene por objeto la recolección, presentación, análisis e interpretación de


observaciones o mediciones hechas sobre un conjunto de objetos, personas, procesos,
fenómenos, etc.

CONCEPTOS BASICOS

 Unidad de análisis: es el objeto del cual se desea obtener información


 Población o universo: es el conjunto de unidades de análisis que satisfacen una definición
común y en los que interesa analizar una o varias características. Está definida en el
tiempo y el espacio
 Muestra: es una parte o subconjunto de las unidades de análisis de una población dada,
destinado a suministrar información sobre la misma.

ESTADÍSTICA DESCRIPTIVA: dedicada a descubrir las


regularidades existentes en un conjunto de datos

Obtiene

Resume Los datos para poder interpretar la


información
Transforma

Es la parte de la Estadística que proporciona métodos para organizar, resumir y analizar la


información contenida en un conjunto de datos muestrales o poblacionales.

ESTADISTICA INFERENCIAL: busca generalizar los resultados de


una muestra representativa a la población de pertenencia

Es la parte de la Estadística que proporciona métodos para extraer conclusiones sobre las
poblaciones a partir de muestras representativas, controlando el margen de error que se puede
2

cometer en esa extrapolación de lo muestral a lo poblacional. Los métodos de inferencia


estadística se agrupan fundamentalmente en dos clases: Estimación de parámetros y Contraste
de hipótesis.

Parámetro, estadístico y estimador

Parámetro poblacional: Es una propiedad descriptiva de una población

Estadístico: Es una propiedad descriptiva de una muestra

Estimador: Es un estadístico que se utiliza para conocer, aproximadamente, el valor de un


parámetro desconocido.

Problema:

El Observatorio de Psicología Social Aplicada realizó el relevamiento de opinión entre 1729


individuos mayores 18 años, por medio de un muestreo representativo de los principales centros
urbanos del país como son la Ciudad Autónoma de Buenos Aires, el Gran Buenos Aires, el
interior de la provincia de Buenos Aires, Córdoba, Rosario, Mendoza y Tucumán.

Las dos epidemias que más les preocupan a los argentinos son el nuevo coronavirus, con el
74,1%, y el dengue en un 70,9%, según el relevamiento realizado por el Observatorio de
Psicología Social Aplicada de la Facultad de Psicología de la Universidad de Buenos Aires (UBA).
Sin embargo, la mayoría de los encuestados considera que el Covid-19 tiene una tasa de
mortalidad inferior mientras que en el caso de contraer dengue el riesgo de vida asciende entre c'
25%.

Muestra representativa
Personas mayores de 18 años que habitan en la Argentina

Población de referencia
Los 1729 individuos mayores de 18 años seleccionados en CABA, Gran Buenos Aires, Córdoba,
Rosario, Mendoza y Tucumán

Parámetro poblacional
Porcentaje de argentinos a los que les preocupa el coronavirus
Valor: desconocido

Estadístico
Porcentaje de argentinos en la muestra a los que les preocupa el coronavirus
Valor: 74.1%

Variable y clasificación de variables

Variable o Característica
3

Es una propiedad o cualidad de los individuos de una población.


 Presenta diferentes modalidades (dos o más) entre los individuos.
 Si presenta una única modalidad es una constante.

Modalidad: cada una de las maneras como se presenta una característica.

Ejemplo:

Población: Pacientes atendidos en el mes de junio de 2019 en un Centro de Salud Mental Infantil
del barrio de Flores.

Los elementos de esta población (pacientes) tienen diversas características.

Sexo Edad
Tipo de Trastorno Puntaje en un Test de Inteligencia
Nivel Atencional Tiempo invertido en realizar el Test de
Inteligencia

La mayoría de las características psicológicas...


 Son de naturaleza compleja es necesario explicitar qué se entiende por ellas mediante una
construcción teórica, hipotética. CONSTRUCTO.
 No son directamente observables.

Para poder obtener las modalidades o los valores de 1


estas variables a través de la medición es necesario
hacer un "recorte adecuado" del constructo; es decir,
considerar un solo aspecto del mismo y explicitar
cuáles son las manifestaciones observables que dan
cuenta de él.

Operacionalización: Definición operacional del constructo que permite asignar sin ambigüedad
un valor a la variable a través del proceso de medición.

Operacionalización de una variable: indicar detalladamente los procedimientos a usar para


obtener el valor de la variable que corresponde a cada individuo.

Ejemplo:

Memoria de Corto Plazo Cantidad de palabras recordadas a los


10 minutos de escuchar una lista de 5
palabras.
4

Variable Estadística: Es una representación, a través de números u otros símbolos, de una


variable.
 Esta representación se obtiene mediante alg6n procedimiento de medición.

VARIABLE 0 CARACTERISTICA Memoria de Corto Plazo

VARIABLE ESTADISTICA Cantidad de palabras recordadas a los


10 minutos de escuchar una lista de 5
palabras

MODALIDADES O VALORES DE LA 0, 1, 2, 3, 4 y 5 palabras recordadas


VARIABLE

Modalidad: Cada una de las maneras como se presenta una característica.


 Se utilizan símbolos o números para indicar las distintas modalidades de una variable
estadística.
 Los valores atribuidos a cada modalidad permiten diferenciar los casos que varían entre sí
en la característica evaluada.
 Una característica con una única modalidad se denomina constante.

Las modalidades surgen de aplicar un ESQUEMA DE CLASIFICACION

 Permite organizar las observaciones en clases de equivalencia.


 Observaciones incluidas en la misma clase son consideradas cualitativamente iguales.
 Observaciones en clases diferentes son consideradas cualitativamente diferentes.

 Las clases son mutuamente exclusivas y exhaustivas


 Se utiliza una clase por cada una de las modalidades que adopta la variable.
 Cada observación es incluida en una y solo una clase.

Ejemplo 1:

VARIABLE ESQUEMA DE ESQUEMA DE


CLASIFICACION CLASIFICACION
INCORRECTO CORRECTO

Cantidad de hijos 1 0
2 1
3 2
4 3
5 4
5 o más

Ejemplo 2:

VARIABLE Motivo de Abandono de los Principal Motivo de Abandono


Estudios de los Estudios
5

MODALIDADES •Dificultades Económicas •Dificultades Económicas


•Dificultades de Transporte •Dificultades de Transporte
•Dificultades de Accesibilidad •Dificultades de Accesibilidad
•Dificultades de Aprendizaje •Dificultades de Aprendizaje
•Otros •Otros

Clasificación de las variables estadísticas de acuerdo con el tipo de valores que pueden tomar:

 Variable cualitativa. Es aquella cuyos valores expresan atributos.


 Variable cuasi cuantitativa. Es aquella cuyos valores indican un orden o jerarquía.
 Variable cuantitativa. Es aquella cuyos valores expresan cantidades numéricas.
6

Concepto de Medición

Que es medir?

 Es relacionar un sistema relacional numérico/simbólico con un sistema relacional empírico


mediante determinadas reglas.

 En castellano... Asociar un número o símbolo a las cosas según ciertas reglas

CONCEPTO DE MEDICION

 Homomorfismo:

V 2
M 1
V 2
M 1

Niveles de Medición:

 Nominal: Designa atributos. La relación entre los valores es de igualdad o diferencia

 Ordinal: Establece un orden / jerarquía entre los valores. Permite saber que algo es mayor
o menor que otra cosa
7

 Intervalar: Incluye unidad de medida. Permite saber las distancias entre dos valores. El
cero es arbitrario. Por ejemplo: puntajes de los tests psicológicos

 De cocientes o razones: Incluye unidad de medida. Permite establecer proporciones. El


cero es absoluto e indica la ausencia de la característica.

UNIDAD 2

Distribuciones de frecuencias: Tablas

Matriz de datos

Al efectuar una recolección de datos estadísticos a través de algún instrumento como un


cuestionario, encuesta, inventario, etc., se obtiene información "en bruto" que es posible organizar
en una base de datos o matriz de datos.

• La matriz de datos es una disposición de números donde cada fila representa a un individuo
que posee la información de interés, y cada columna es un aspecto del individuo que se ha
seleccionado para estudiar (una variable) y cada celda es la modalidad que tiene el individuo de
la fila en el aspecto de la columna correspondiente (valor de la variable).

A través de la matriz de datos se dispone de un conjunto de valores de varias variables que


deben ser organizados para extraer más fácilmente información acerca de lo recolectado. Con
este fin se construye la distribución de frecuencias y a partir de ella se pueden realizar
representaciones gráficas.

Distribución de Frecuencias

• Cuando se trabaja con un conjunto grande de datos, es imprescindible organizarlos y resumirlos.


• Las distribuciones de frecuencias son agrupaciones de los datos en tablas o gráficos, para de
esta forma mostrarlos en forma resumida y organizada, obteniendo conclusiones acerca de ellos
más rápida y certeramente.
• Esto nos permitirá observar cómo se distribuyen los datos a lo largo del recorrido de la variable.
• Podremos observar donde están más concentrados, si hay datos extremos, la forma de la
distribución, etc.

Frecuencia Absoluta

• Frecuencia absoluta es la cantidad de veces que se repite una determinada modalidad o valor
de variable. La suma de todas las frecuencias absolutas de una determinada distribución de
frecuencias siempre debe ser igual al total de observaciones (n). La letra n simboliza el tamaño
total de la muestra de individuos.

Ejemplo: Si tenemos de una muestra de 20 personas 5 con 28 años, y nuestra variable es la


edad; ese 5 es la frecuencia absoluta de la edad 28.
8

Frecuencia Relativa

• Frecuencia relativa es la frecuencia absoluta dividida por el n. Es decir: frecuencia relativa =


frecuencia absoluta / n. Siempre es mayor o igual a O y menor o igual a 1. Informa el peso de
cada valor de la variable en el conjunto de observaciones. La suma de todas las frecuencias
relativas de una determinada distribución de frecuencias siempre es igual a 1.

Frecuencia Porcentual

Frecuencia porcentual es la frecuencia relativa multiplicada por 100. Al igual que la frecuencia
relativa, informa el peso de cada valor de la variable en el conjunto de observaciones. La suma de
todas las frecuencias porcentuales de una determinada distribución de frecuencias siempre es
igual a 100%.

Frecuencia Acumulada

• Frecuencia absoluta acumulada es la cantidad de observaciones acumuladas hasta determinada


modalidad de la variable. El mismo procedimiento se puede utilizar para obtener la frecuencia
relativa acumulada y la frecuencia porcentual acumulada.
• Las distribuciones de frecuencia acumulada se usan cuando queremos determinar cuantas
observaciones, o que porcentaje de observaciones son menores o iguales a cierto valor.
• La frecuencia acumulada sólo tiene sentido en los niveles de medición ordinal, intervalar y de
razón.

Comparación entre grupos

• Si se va a comparar en una determinada variable entre dos o más muestras de individuos de


tamaño muy similar, se lo puede hacer con la frecuencia absoluta. Sí, por el contrario, los
tamaños son distintos, se debe utilizar la frecuencia relativa o la frecuencia porcentual.

Ejemplo

La distribución de frecuencias se define para todo tipo de variables ya sean cuali o cuantitativas.
Para ilustrar cómo se construyen las tablas de distribución de frecuencias consideremos un
fragmento de una matriz de datos (datos ficticios) obtenida con un programa estadístico o bien
con una aplicación como la que utilizarán en los trabajos prácticos.

La primera columna indica el número de encuestado y en las columnas siguientes se identifican


variables de interés definidas sobre los encuestados tales como:

EDAD: cantidad de dios enteros cumplidos


SEXO: Codificada como 1=Mujer y 2=Varón
NIVEL SOCIOECONÓMICO: Codificado como
1=Bajo
2=Medio-Bajo
3=Medio
9

4=Medio-Alto
5=Alto
LUGAR de RESIDENCIA: Codificada
1=CABA 2=Gran Buenos Aires 3=Otro
TIEMPO EMPLEADO en responder un cuestionario, medido en minutos.
ANSIEDAD: puntaje obtenido en una Escala de Ansiedad Generalizada. Para ser graficada se
tratará como una variable discreta.

EDAD SEXO NIVEL SC. RESIDENCI TIEMPO ANSIEDAD


A
1 15 1 1 2 3 10
2 21 2 1 1 4.5 13
3 22 1 2 3 3.8 38
4 20 1 2 2 4.8 34
5 19 2 2 1 3.2 10
6 19 2 2 2 3.9 37
7 23 2 2 1 3.5 13
8 19 2 2 2 4.5 17
9 20 1 2 2 4 20
10 18 1 2 1 5 24
11 18 1 3 2 4 9
12 19 2 3 1 4.2 38
13 19 1 3 3 3.3 40
14 19 2 3 2 3.2 18
15 19 1 3 1 3 7
16 20 2 3 1 5 31
17 19 1 3 1 4.7 29
18 19 1 4 2 4 28
19 21 1 4 2 5.5 6
20 21 1 5 1 3 33
21 M M M M M M
10

A partir de la distribución de
frecuencias es posible construir
gráficos, que muestran la misma
información de las tablas con el
impacto de la visualización de los
resultados. Éstos difieren según sean
las variables cuali o cuantitativas.

Distribuciones de frecuencias: Gráficos

• Los GRÁFICOS son las posibilidades más elementales de presentar las distribuciones de
frecuencias de manera que puedan ser aprehendidas visualmente para un primer análisis de los
datos.
• La ventaja de los gráficos con respecto a las tablas de distribuciones de frecuencias estudiadas
en él es que permiten una fácil interpretación y análisis de los datos, al mostrar las frecuencias
mediante símbolos, barras, polígonos y sectores.

Utilidades de las Representaciones Gráficas

• Tener una primera impresión de los datos antes de comenzar el análisis (explorar).
• Elección de tests estadísticos a realizar.
• Mostrar los valores que asumen los datos.
• Detectar patrones.
• Comparar distintas muestras, o comparar en el tiempo.
• Evaluar la distribución de los datos.

• Diagrama Circular para LUGAR de RESIDENCIA

En este gráfico los sectores circulares son proporcionales a las frecuencias de los valores de la
variable, razón por la cual se pueden expresar las amplitudes angulares de los sectores medidas
en grados sexagesimales (llamémoslas ai); por ejemplo: en función de las frecuencias relativas,
como ai= pi*360°.

CABA
Reside nci a a1 = p1 * 360° = 0.45 * 360° =
CABA Gran Bs. As. Otros
Gran Bs As
a2 = p2 * 360° = 0.45 * 360° =

Otros
a3 = p3 * 360° = 0.10 * 360° =
11

Para variables cualitativas medidas a nivel nominal, suelen utilizarse el diagrama


circular o diagrama de sectores circulares y para nivel tanto nominal como ordinal
el gráfico de barras.

• Gráfico de Rectángulos o Barras

En este tipo de gráfico se dibujan dos ejes perpendiculares de los cuales el eje horizontal donde
se exhiben rectángulos generalmente del mismo ancho y equiespaciados que representan a los
valores de la variable en cuestión, no es numérico en sentido estricto, a lo sumo se le adjudica un
orden. El eje vertical en cambio sí es numérico y allí se representan algún tipo de frecuencias.

Ejemplo: Utilizaremos este tipo de gráfico para la Variable NIVEL SOCIOECONÓMICO, variable
cualitativa medida a nivel ordinal, por lo cual sus valores pueden ordenarse, por ejemplo, de
menor a mayor nivel socioeconómico (de izquierda a derecha en el gráfico).

Gráfico de Barras o Bastones (líneas)

Para las variables cuantitativas discretas se utiliza el llamado gráfico de barras o bastones o
también el polígono de frecuencias. Como es habitual en las representaciones gráficas
matemáticas, hay un sistema de ejes numéricos perpendiculares tales que en el eje horizontal o
de abscisas se muestran los valores de la variable y en el vertical o de ordenadas se grafica algún
tipo de frecuencia.

Distribución de Pontajes de Ansiedad


12

Estos gráficos deberían ser líneas que indican que toda la frecuencia se concentra en un punto y
no en un intervalo alrededor del mismo (como en las variables continuas).

Polígono de frecuencias

Se obtienen uniendo los extremos superiores de las barras o bastones con los que se grafican la
distribución de los valores de una variable discreta.

Polígono de frecuencias para la variable edad

Diagrama de tallo - hoja

Otro modo de mostrar las observaciones de una variable cuantitativa es utilizar un esquema de
presentación de los datos que es una combinación de tabla y gráfico como lo es el denominado
diagrama de tallo-hoja (Stem and Leaf plot). Esta presentación de los datos consiste en separar
cada dato en el último dígito, que se denomina hoja y las cifras delanteras restantes, que forman
el tallo.

El Diagrama de Tallo y Hojas es una forma de visualizar conjuntamente los datos (originales) junto con la
forma de la distribución.
Ejemplo:
Datos originales: 18—19—21—30—31—33 —33—39
13

• Para una variable cuantitativa continua se sabe que no puede hacerse un listado de sus valores
y adjudicarle una frecuencia absoluta a cada uno de ellos.
• Sabemos que los valores observados en realidad representan el centro de un intervalo de
números reales por lo tanto las frecuencias deberán ser asignadas a intervalos de valores de la
variable.
• Los extremos de los intervalos considerados suelen denominarse extremos exactos, para los
que el límite superior de uno de ellos coincide con el límite inferior del siguiente. A partir de
determinar la frecuencia absoluta de cada intervalo de clase pueden hallarse las frecuencias
relativas y porcentuales.
•Podemos construir la tabla de distribución de frecuencias para las observaciones de TIEMPO
EMPLEADO en contestar un cuestionario, agrupadas en intervalos de clase.

Histograma

Para visualizar el comportamiento de las distribuciones de frecuencia de datos agrupados en


intervalos, se confeccionan rectángulos verticales y contiguos, cuyas bases son los intervalos de
clase y sus alturas son proporcionales a las frecuencias (generalmente relativas)
correspondientes a cada clase. Este tipo de gráfico se denomina Histograma y es adecuado para
graficar variables cuantitativas continuas.

El polígono cuyos vértices son: el punto medio de un intervalo previo al primero de altura cero, los
puntos correspondientes a las marcas de clase y las alturas correspondientes a cada rectángulo y
que finaliza en el punto medio de un intervalo posterior al último de altura cero se denomina
polígono de frecuencias y se muestra a continuación para la variable considerada.

Ejemplo para la variable TIEMPO EMPLEADO para terminar el cuestionario.


14

Polígono de frecuencias a partir de un histograma

Aunque las frecuencias se grafican en las alturas de los rectángulos, siendo todos los intervalos
de igual longitud, el área resulta proporcional a la frecuencia, por lo que podemos interpretar las
áreas como frecuencias.

Si la variable es continua o está agrupada en intervalos, calculando las frecuencias acumuladas


se obtienen rectángulos ascendentes de modo que uniendo los extremos superiores de los
rectángulos quedan representada una línea quebrada ascendente, denominada Ojiva de Galton.
Esta línea permite interpolar valores no observados y que no aparecen en la tabla. Así se puede
ilustrar la frecuencia acumulada relativa para la variable TIEMPO EMPLEADO en responder al
cuestionario en el gráfico que sigue a continuación.

Ojiva de Galton para tiempo empleado

Tiempo empleado
en el cuestionario

Para comparar dos distribuciones de frecuencias usamos:


15

UNIDAD 3

Resúmenes Estadísticos

Resúmenes Estadísticos

 Resumen la información contenida en las observaciones.


 Da una idea del comportamiento de los datos.
 Características de las distribuciones de frecuencias.
 Sirven para describir / resumir lo que pasó en la muestra con respecto a la variable que
nos interesa estudiar
 La distribución de los casos de una muestra con respecto a los valores de una variable
Distribución de Frecuencias de una Variable tiene distintas propiedades o
características que vamos a querer describir.
 Los resúmenes estadísticos describen cada una de estas características de las
muestras.

Características o Propiedades de las Distribuciones de Frecuencias

1. La Tendencia Central de los datos

Refiere a la magnitud general de las observaciones hechas. Puede cuantificarse mediante unos
índices conocidos como índices de tendencia central o promedios, y pretender ser síntesis de los
valores de las variables.

 Resumen en un solo valor de la variable la Tendencia General que se observa en la


Distribución de Frecuencias de una Variable
 Son una síntesis de cómo se presentó una Variable en un conjunto de datos.
 Se cuantifican con las Medidas de Tendencia Central: Moda, Mediana y Media
16

2. La Variabilidad del conjunto de datos

Refiere al grado de concentración de las observaciones en torno al promedio. Una distribución de


frecuencias será homogénea o poco variable si los datos difieren poco entre sí, en cambio será
heterogénea o muy variable si los datos se dispersan mucho con respecto al promedio.
La Variabilidad es independiente a la Tendencia Central, es decir, dos grupos que tengan distinta
variabilidad pueden tener tendencias centrales muy distintas o similares.

 Indican cuánto difieren los valores entre sí.


 Refiere al grado de concentración de las observaciones.

Menos Variabilidad: Mayor concentración de los casos en uno o unos pocos valores de la
variable. Los casos son más homogéneos o parecidos entre sí con respecto a la variable
estudiada.

Más Variabilidad: Mayor dispersión de los casos en el recorrido de los valores de la variable. Los
casos son más heterogéneos diferentes entre sí con respecto a la variable estudiada.

La Variabilidad del conjunto de datos se cuantifica con las Medidas de Variabilidad.


17

 Algunas medidas se refieren al grado de concentración de las observaciones en torno a la


media.
 Varianza
 Desviación Típica
 Coeficiente de Variación

 Otras no toman como referencia a la media.


 Amplitud Total
 Amplitud Semi-intercuartil
 Entropía

Otras Medidas que se refieren a la forma de la distribución de frecuencias:

3. Asimetría

Refiere al grado en que los datos tienden a concentrarse en los valores centrales, en los valores
inferiores promedios, o en los valores superiores a éste. Existe simetría perfecta cuando en caso
de doblar la representación gráfica por una vertical trazada en la media, las dos mitades se
superponen perfectamente.
Las distribuciones con asimetría negativa son propias de pruebas o tests fáciles en las que la
mayoría de los sujetos puntúan alto; las de asimetría positiva son típicas donde la mayoría de los
sujetos puntúan bajo. Las pruebas/tareas/tests de dificultad media suelen producir distribuciones
más o menos asimétricas.

 Hace referencia al grado en que los datos se reparten equilibradamente por encima y por
debajo de la tendencia central.

4. Curtosis

Refiere al grado de apuntamiento de la distribución de frecuencia. Si es muy apuntada se llama


leptocúrtica, y si es muy aplastada, se llama platicúrtica. Generalmente el grado de curtosis de
una distribución se compara con un modelo de distribución llamado <distribución normal>, y que
respecto a la curtosis se llama distribución mesocúrtica.

 Expresa el grado de apuntamiento de la curva que representa a la distribución de


frecuencias.

Medidas de Posición

Son Índices diseñados para revelar la situación de una puntuación con respecto a su grupo de
referencia. Indican que porcentaje de casos de la muestra queda por debajo de un valor
determinado de la Variable.
También pueden ser utilizados para caracterizar a las distribuciones de Frecuencias.

Por ejemplo, indicando que valores de la variable son los que dividen a la distribución en cuatro
subconjuntos tales que la frecuencia de cada uno no supere a la cuarta parte del tamaño de
muestra.
18

Ejemplo de la Descripción de las Propiedades de una Muestra

Puntajes en un Test de creatividad


Muestra 1 32,34,34,36,36,36,38,38,40
Muestra 2 24,29,33,39,40,40,40,40

Característica Muestra 1 Muestra 2


Tendencia Central Media, Moda y Mediana Media: 36
coinciden en el mismo valor de Mediana: 39
la variable: 36 Moda: 40
Ambas distribuciones tienen el mismo puntaje promedio en el
Test de Creatividad

Variabilidad Menos variable Más variable


Desviación Típica: 2,3 Desviación Típica: 5,6

Asimetría Distribución Simétrica Distribución Asimétrica


Negativa

Medidas de Posición

Medidas de Posición o Cuantiles

Índices diseñados para revelar la situación de una puntuación con respecto a su grupo de
referencia.
Una puntuación por sí sola no nos da información si no se la pone en relación a otras
puntuaciones que son tomadas como grupo de referencia. Las valoraciones solo pueden hacerse
en términos relativos.

Indican que porcentaje de casos de la muestra queda por debajo de un valor determinado de la
Variable.

Ejemplo:
Una persona con 30 puntos en un Test de Creatividad ¿Es una persona muy creativa?

Si el 20% de las personas de su grupo de referencia han obtenido un puntaje menor o igual a 30
en este Test de Creatividad entonces esta persona tiene un nivel de creatividad bajo, ya que el
80% de las personas de su grupo de referencia han superado el puntaje 30, es decir, el 80% lo ha
superado en creatividad.

Los Cuantiles más usados son los Centiles o Percentiles

Centiles: son 99 valores de la variable que dividen a la distribución de frecuencias en 100


secciones, cada una conteniendo a la centésima parte de las observaciones (1%).
19

El centil 1 supera al 1% de las observaciones y es superado por el 99% de las mismas.

El centil 2 supera al 2% de las observaciones y es superado por el 98% de las mismas...

El centil 25 supera al 25% de las observaciones y es superado por el 75% de las mismas...

El centil 99 supera al 99% de las observaciones y es superado por el 1% de las mismas.

Se simboliza así:

Ck o Pk es la puntuación correspondiente al centil k

El valor k es el rango percentilar porcentaje de observaciones que es superado por un


valor de la variable.

Ejemplo:
A la persona con 30 puntos en un Test de Creatividad le corresponde el Centil 20.

C20 = 30
K es 20

Aunque por definición son 99 valores, por extensión a veces se utilizan posiciones intermedias.

Ejemplo:

C43,5 = 36

36 es el Valor de la Variable por debajo del cual se encuentra el 43,5% de las observaciones.

Centiles o Percentiles: ¿Qué buscamos?

En la práctica estadística los centiles nos ayudan a responder dos tipos de preguntas:

1) ¿Qué puntuación es la que deja por debajo de sí un determinado porcentaje de


observaciones?
 Conocemos el % y la incógnita es la puntuación o valor de la variable.

2) ¿Qué porcentaje de observaciones deja por debajo de sí una puntuación determinada?


 Conocemos la puntuación o valor de la variable y la incógnita es el %.

1) ¿Qué puntuación es la que deja por debajo de sí un determinado porcentaje de


observaciones?

 Conocemos el % y la incógnita es la puntuación de la variable.


= ¿Qué puntuación corresponde al Ck?
20

Ejemplo:

¿Qué puntuación en el Test de Creatividad es la que deja por debajo de sí al 20% de las
observaciones?
= ¿Qué puntuación en el Test de Creatividad le corresponde al C20?

C20 = 30

El centil 20 corresponde al puntaje 30 en el Test de Creatividad.


El 20% del grupo de referencia presenta un puntaje igual o menor a 30.

2) ¿Qué porcentaje de observaciones deja por debajo de sí una puntuación determinada?

 Conocemos la puntuación de la variable y la incógnita es el %.


= ¿Qué rango percentilar le corresponde a una puntuación determinada?

Ejemplo:

¿Qué porcentaje de observaciones deja por debajo de sí el puntaje 30 en el Test de Creatividad?


= ¿Qué rango percentilar le corresponde al puntaje 30 en el Test?

Ck = 30

El valor k es el rango percentilar: porcentaje de observaciones que es superado por un valor de


la variable

K=20 ====> C2 = 30

El porcentaje de observaciones que deja por debajo de sí el puntaje 30 en el Test de Creatividad


es 20%. El centil 20 corresponde al puntaje 30 en el Test.
El 20% del grupo de referencia presenta un puntaje igual o menor a 30.

Centiles o Percentiles

Sus valores se determinan en función de los porcentajes de observaciones que se pueden


obtener de la Distribución de Frecuencias de la Variable en el Grupo de Referencia.
Las medidas de posición se pueden calcular a partir del nivel ordinal.

Unos de los usos más frecuentes de los centiles consisten en la elaboración de Baremos de Test
Psicológicos (tabla que facilita la interpretación de los puntajes de un test).

Otros Cuantiles. . . . . . . otras particiones posibles de la Destribución

1. Deciles: son 9 valores de la variable que dividen a la distribución en 10 secciones, cada


una conteniendo a la décima parte de las observaciones (10%).
21

El D1 supera al 10% de las observaciones y es superado por el 90% de las mismas.


El D2 supera al 20% de las observaciones y es superado por el 80% de las mismas.

El D9 supera al 90% de las observaciones y es superado por el 10% de las mismas.

2. Cuartiles: dividen el recorrido de la variable en cuatro subconjuntos (intercuartiles) tales


que la frecuencia de cada uno no supera a la cuarta parte del tamaño de muestra.

El Q1 supera el 25% de las observaciones y es superado por el 75% de las mismas.


El Q2 supera el 50% de las observaciones y es superado por el 50% de las mismas.
El Q3 supera el 75% de las observaciones y es superado por el 25% de las mismas.

 Los cuartiles son tres: Q1, Q2 y Q3.


 El segundo cuartil coincide con el C50 y la mediana: Q2 = C50 = Mdn

Medidas de Posición

1. Pueden ser utilizadas para caracterizar a las distribuciones de Frecuencias.


Por ejemplo, indicando que valores de la variable son los que dividen a la distribución en
diez o en cuatro subconjuntos (Deciles o Cuartiles respectivamente).

Ejemplo:

A partir de la Distribución de Frecuencias de los Puntajes en el Test de Creatividad en el Grupo


de Referencia se obtuvieron con la App:

Q1 = 31 Q2 = 36 y Q3 = 42

El 25% de las personas evaluadas alcanzaron la puntuación 31, el 50% alcanzó el puntaje 36
(Mediana) y el 75% presentó una puntación igual o menor a 42.
Estas puntuaciones permiten dividir a los evaluados en 4 niveles de creatividad.

2. También pueden ser utilizadas para comparar la posición relativa de una puntuación en
dos conjuntos de datos diferentes.

Ejemplo:

La puntuación 36 tiene una posición relativa diferente según qué grupo de referencia se tome.

Puntajes en un Q1 Q2 Q3
Test de
creatividad
Muestra 1 Estudiantes de 36 42 47
Diseño Gráfico
22

Muestra 2 Estudiantes de 31 36 42
Kinesiología

Las definiciones de los términos tratados siguen la bibliografía de la Materia: Botella, J.; León, O.
y San Martín, R. (1993). Análisis de Datos en Psicología 1. Madrid: Ediciones Pirámide.

Medidas de Tendencia Central

MEDIDAS DE TENDENCIA CENTRAL

 Medidas de resumen
 Hacen referencia a la magnitud general de observaciones
 Síntesis de los valores de la variables

Media aritmética:

Suma de los valores observados, dividido por el número de ellos (promedio)

Mediana:

Representa a la puntuación que es superada por la mitad de las observaciones, pero no por la
otra mitad. Se calcula del mismo modo que el centil 50

Ordenamos de menor a mayor las puntuaciones de nuestra distribución.


Cuando hay muchos datos conviene simplemente calcular el centil 50.

Moda:

Representa al valor más frecuentemente observado


23

¿Cuándo usar cada una?

• Media aritmética
 Se trate de una variable con al menos nivel de medición intervalar. Su dificultad es que es muy
sensible a las puntuaciones extremas no compensadas (Ejemplo: si quiero hacer la media de edad de
un grupo donde todos son adolescentes y uno es un anciano, los resultados van a estar sesgados.

• Mediana
 Existan puntuaciones extremas no compensadas
 Se trate de una variable con nivel de medición ordinal

• Moda
 Se trate de una variable con nivel de medición nominal

Propiedades de la Media Aritmética

I. Primer Propiedad

• La suma de las diferencias de n puntuaciones con respecto a su media, o puntuaciones


diferenciales es igual a cero. La razón es que unas son positivas y otras negativas (las que
superan la media y las que quedan por debajo de ella) y se compensan unas con otras.
Existen dos tipos:

a) Puntuaciones directas o brutas: son cada uno de los valores observables de la variable.

Xi: X1, X2, …,Xn


Yi: Y1, Y2, . . . ,Yn

b) Puntuaciones diferenciales: es cuando a cada valor de la variable le restamos la media,


obteniendo así, el número de unidades que una puntuación directa se aleja de la media
_
xi = Xi - X
_
yi = Yi - Y

Formula y ejemplos:

_
Σ(x - x) = 0

Esta importante primera propiedad es la que permite interpretar a la media como el "centro de
equilibrio de la distribución".
24

En efecto si imaginamos los valores de la variable como los puntos de una barra rígida y sus
frecuencias como sus pesos, la media representa el punto sobre el que habría que apoyar tal
barra para mantenerla equilibrada; es decir, su centro de gravedad.

Veamos un ejemplo con sólo tres números: 2-7-9


El promedio de este conjunto de datos es (2+7+9)/3 = 6

Para obtener las puntuaciones diferenciales con respecto a la media, a cada puntación directa (o
puntuación bruta) le RESTAMOS la media.

Suma de ñas
2 – 6 = -4 Puntuaciones puntuaciones
7–6= 1 diferenciales con -4 + 1 +3 = 0 diferenciales con
9–6= 3 respecto a la media. respecto a la media

II. Segunda Propiedad

 La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su


media (puntuaciones diferenciales con respecto a la media) es menor que con respecto a
cualquier otro valor.
_ _
Σ(xi − X)² < Σ(xi — c) ² siendo c ≠ X

Ejemplo:
Veamos un ejemplo nuevamente con sólo tres números: 2-7-9
Para obtener la suma de los cuadrados de las puntuaciones diferenciales con respecto a la
media, elevamos en primer lugar cada puntuación diferencial al cuadrado y luego las sumamos.

2 – 6 = -4 Puntuaciones Suma de las


7–6= 1 diferenciales -4² + 1² +3² = 26 puntuaciones
9–6= 3 con respecto a diferenciales con
la media. respecto a la media
elevadas al cuadrado.

Ahora debemos realizar el procedimiento con puntuaciones diferenciales con respecto a cualquier
otro valor que no sea la media.
25

En este caso elegiremos el número 8

Para obtener la suma de cuadrados de las puntuaciones diferenciales con respecto 8, obtenemos
las puntuaciones diferenciales, luego elevamos cada puntuación diferencial al cuadrado y por
último, las sumamos.

2 – 8 = -6 Puntuaciones Suma de las puntuaciones


7 – 8 = -1 diferenciales -6² + -1² +1² = 38 diferenciales con respecto
9–8= 1 con respecto a 8 elevadas al cuadrado.
a 8.

Entonces, según la segunda propiedad verificamos los resultados:


_ _
Σ(xi − X) < Σ(xi – c) siendo c≠X

Σ [ (2+7+9) – (Media:6) ] < Σ [ (2+7+9) – (Valor elegido: 8) ] siendo c≠6

26 < 38

III. Tercer Propiedad

 Si sumamos una constante a un conjunto de puntuaciones, la media quedará aumentada


en esa misma constante. La constante la simbolizamos con la letra K.
_ _
Yi = xi + k → Y = X + k

Ejemplo:

De vuelta a nuestro ejemplo, el promedio de este conjunto de datos era (2+7+9)/3 = 6

Supongamos que aumento todos los datos en k (constante) = 3 y realizo el promedio nuevamente

2+3= 5
7 + 3 = 10 (5 + 10 + 12) / 3 = 9 = 6 + 3
9 + 3 = 12

Nueva media También podría haber sumado 3 a mi media

IV. Cuarta Propiedad

Si multiplicamos por una constante a un conjunto de puntuaciones, la media aritmética quedara


multiplicada por esa misma constante.
_ _
26

Yi = k × xi → Y = k × X

Observación:
Las propiedades 3 y 4 expresan que la media se transforma de igual manera que los valores de
las variables cuando la transformación es de tipo lineal, justamente la admisible en el nivel
intervalar.

Ejemplo:

El promedio de este conjunto de datos era (2+7+9)/3 = 6

Supongamos que multiplico todos los datos en k (constante) = 3 y realizo el promedio


nuevamente

2x3= 6
7 x 3 = 21 (6 + 21 + 27) / 3 = 18 = 6 x 3
9 x 3 = 27

Quinta Propiedad

Otro método, nos permite calcular la media del grupo total, a partir del conocimiento de las media
de cada uno de los grupos parciales y de sus tamaños.

Esta fórmula suele denominarse media ponderada: la media de un grupo de puntuaciones,


cuando se conocen los tamaños y medias de varios subgrupos hechos a partir del grupo total,
mutuamente exclusivos y exhaustivos, puede obtenerse ponderando las medias parciales a partir
de los tamaños de los subgrupos en que han sido calculadas. Es decir:
_ _ _ _
Xt = (n₁X₁ + n₂X₂+...+nk Xk) / (n₁ + n₂ +... + nk)

Ejemplo: Hay 3 grupos de estudiantes de diferentes tamaños (n) y media de calificaciones (x)

GRUPO 1 GRUPO 2 GRUPO 3


n₁ = 20 n₂ = 10 n3 = 5
x₁ = 7 x₂ = 6 X3 = 4

Sexta Propiedad

Una variable definida como la combinación lineal de otras variables, tiene como media la misma
combinación lineal de las medias de las variables intervenientes en su definición.
27

Si X = A1X1 + A2X2 +. . . +AkXk


_ _ _ _
Entonces X = A1X1 + A2X2 +. . . +AkXk

Precio de la harina Precio de la leche Precio de la carne


0.20 0.50 0.30
_ _ _
X Abril = $80 X Abril = $60 X Abril = $250

Índice J = 0.20, precio de la harina, + 0.50, precio de la leche, + 0.30, precio de la carne.

Índice J promedio abril: 0.20 x 80 + 0.50 x 60 + 0.30 x 250 = 121

Libro Botella
Capítulo 1 (Hasta punto 1.3)

1. Introducción

La estadística actual no sólo es un conjunto de técnicas para resumir y transmitir información


cuantitativa, sino que sirve también para hacer inferencias, generalizaciones y extrapolaciones de
un conjunto relativamente pequeño de datos a uno mayor.

Siempre en el desarrollo de un trabajo llega a un punto en el que es necesario trabajar con un


conjunto relativamente grande de números con los que describir aquello que estamos estudiando,
28

así surge la necesidad de extraer conclusiones a partir de observaciones hechas. La estadística


proporciona los medios técnicos para realizar estas tareas.

La estadística actualmente es el producto del encuentro y mutua fecundación de dos ramas


distintas del saber (Antigua estadística y Cálculo de probabilidades). Etimológicamente proviene
de la palabra “estado”.

La estadística se ha dividido en dos partes, la estadística descriptiva y la estadística inferencial;


para hacer un estudio inferencial primero hay que hacer un estudio descriptivo de los datos.
La estadística descriptiva puede abordarse sin conocimientos técnicos, mientras que en la
inferencial es imprescindible adquirir nociones básicas de probabilidad.

Estadística es la ciencia que se ocupa de la ordenación y análisis de datos


procedentes de muestras, y de la realización de inferencias acerca de las
poblaciones de las que éstas proceden.

Ejemplo:
Si nos interesara conocer la opinión de los vecinos de nuestro bloque acerca de una serie de
cuestiones que afectan a la convivencia, podemos pasarles una encuesta. (Est. Descriptiva)
Si, en cambio, queremos hacernos una idea de las opiniones de los habitantes de nuestra ciudad
sobre esas mismas cuestiones, no podemos preguntarles a todos. Probablemente seleccionaremos
a un grupo de vecinos y aplicaremos los resultados hipotéticamente a los habitantes de la ciudad.
(Est. Inferencial)

Estadística teórica y estadística aplicada (o análisis de datos)


La primera se dedica al estudio de los métodos formalmente válidos para la realización de
inferencias. La segunda se dedica a la aplicación de esos métodos y modelos de actuación a
campos reales.

1.2. Conceptos generales

Cualquier trabajo en el que se aplica la estadística se refiere a un conjunto de entidades, conocido


como población.

Se llama población estadística al conjunto de todos los elementos que


cumplen una o varias características o propiedades.

A los elementos que componen una población se les denomina entidades estadísticas o individuos
(Ejemplo: personas, animales, objetos, números, etc.).
Dependiendo del número que las compongan la población puede ser finita o infinita.

Una muestra es un subconjunto de los elementos de una población


29

La muestra nos va a ofrecer una serie de datos que podemos ordenar, simplificar y escribir. Pero el
objetivo fundamental es poder describir la población de partida mediante lo que podamos
encontrar en la muestra.
Lo más importante es que las muestras de observaciones sean representativas. Este objetivo sólo
se alcanzara plenamente en la medida en que esa información se aproveche correctamente y en
todas sus posibilidades.

Existe un campo llamado muestreo dedicado a estudiar procedimientos de extracción de muestras


encaminados a maximizar la representatividad de las mismas.

Las poblaciones suelen caracterizarse a partir de unas constantes denominadas parámetros. Como
normalmente los parámetros son desconocidos, una de las tareas de la estadística es la de hacer
conjeturas lo más acertadas posibles acerca de esas cantidades. Para ello se utilizan cantidades
análogas obtenidas en las muestras, denominadas estadísticos.

Un parámetro es una propiedad descriptiva de una población.


Un estadístico es una propiedad descriptiva de una muestra.

Los parámetros se suelen representar con letras griegas (u , o, r), y los estadísticos con letras
latinas (X, S, P, etc.)
En la primera fase de una investigación se obtienen los estadísticos, y en la segunda se utilizan los
valores obtenidos para hacer las inferencias acerca de los parámetros.

Una característica es una propiedad o cualidad de un individuo.


Una modalidad es cada una de las maneras en que se presenta una
característica.

1.3. Medición

Se llama medición al proceso de atribuir números a las características.

La asignación de números a las características se hace siguiendo unas reglas, para una correcta
atribución se utiliza la Teoría de la Medida.
Las características permiten clasificar a los individuos, algunos adoptan la misma modalidad, otras
diferentes.
30

El objetivo de la medición de una característica es conectar un sistema relacional empírico y un


sistema relacional numérico, de tal forma que las relaciones entre las entidades se reflejen entre las
relaciones entre los números que las simbolizan.

Así pues, la medición estudia las condiciones de construcción de representaciones numéricas, y los
modelos desarrollados para la medición se llaman escalas. Las escalas se clasifican por el sistema
de Steven: escalas nominales, ordinales, cuantitativas de intervalo y cuantitativas de razón.
Las clases son mutuamente exclusivas y exhaustivas, es decir, cada observación es incluida en una
sola clase.
Un concepto ligado al concepto de escalas es el de transformación admisible que hace referencia
al problema de unicidad de la medida. Ejemplo: representar a las mujeres con un “1” y a los
varones con un “2”.

1.4. Las variables: clasificación y notación

En el proceso de medición se asignan números a los objetos según unas reglas, y el conjunto de
valores numéricos atribuidos a las modalidades de una característica constituyen lo que llamamos
variable estadística.

Una variable es una representación numérica de una característica.

Se clasifica en cualitativas, cuasi cuantitativas, cuantitativas discretas y cuantitativas continuas.

Capítulo 2 (Hasta punto 2.3.4)

b.1. Introducción

Para organizar datos se utiliza la distribución de frecuencias, y a partir de esta es frecuente


construir representaciones gráficas.

b.2. Distribución de frecuencias

Es un instrumento diseñado para cumplir tres funciones:


1) Proporcionar una reorganización y ordenación racional de los datos recogidos
2) Ofrecer la información necesaria para hacer representaciones gráficas
3) Facilitar los cálculos necesarios para obtener los estadísticos muéstrales
31

Simbólicamente representaremos a la variable con la que trabajaremos con X (Ejemplo: X 1, X2, X3);
pero cada uno de esos valores puede aparecer repetido más de una vez en los “n” elementos que
componen la muestra.
Hay cinco tipos de frecuencias, frecuencia absoluta, frecuencia relativa, frecuencia absoluta
acumulada, frecuencia relativa acumulada y frecuencia porcentual.

La agrupación de intervalos consiste en formar grupos de valores consecutivos llamados


intervalos.

 Se llama intervalo a cada uno de los grupos de valores que ocupan una fila en una
distribución de frecuencias. En algunos textos se llaman clases.
 Se llaman límites aparentes o informados de un intervalo a los valores mayor y
menor que puede adoptar la variable dentro de ese intervalo, según el instrumento
de medida utilizado.
 Se llaman limites exactos de un intervalo a los valores máximo y mínimo incluidos en
el intervalo y que podrían medirse si se contara con un instrumento de precisión
perfecta.
 Se llama punto medio de un intervalo a la suma de sus límites exactos partido por
dos. En algunos libros se llama marca de clase.
 Se llama amplitud de un intervalo a la diferencia entre su límite exacto superior y su
límite exacto inferior. Suele representarse por la letra 1.

Para hacer una distribución de frecuencias no hay unas normas muy rigurosas. Nosotros vamos a
plantear tres reglas y algunas directrices. Las tres normas son las siguientes:

a) El intervalo superior debe incluir al mayor valor observado.


b) El intervalo inferior debe incluir al menor valor observado.
c) Cada intervalo debe incluir el mismo número de valores.

Hay que tener presentes algunas directrices, basadas en dos guías principales:
a) dado que el objetivo de una distribución de frecuencias es conseguir una ordenación
manejable que ayude a comprender el significado de los datos, no es conveniente que el
número de intervalos sea demasiado grande, y
b) como consecuencia de lo anterior, podemos sentirnos inclinados a reducir al máximo el
número de intervalos, lo que traería una consecuencia negativa.

A la hora de hacer represen taciones gráficas y cálculos de estadísticos, nos veremos obligados a
tratar los valores de formas distorsionantes, cayendo en lo que se suele denominar error de
agrupamiento. El número apropiado de intervalos debe ser tal que, simultáneamente, con ella se
32

consiga una agrupación operativa y que cumpla los objetivos para los que ha sido diseñada la
distribución de frecuencias, pero sin distorsionar excesivamente los valores con el error de
agrupamiento.

b.2.1. Supuestos de distribución intraintervalos

Una vez confeccionada una distribución de frecuencias con datos agrupados en intervalos, ésta se
puede utilizar para hacer representaciones gráficas. Si queremos utilizar la distribución de
frecuencias para ello, hay que asumir ciertas interpretaciones de las distribuciones que suponen un
margen de error, pero que son imprescindibles. La situación seria una en la que en lugar de contar
con los datos directos, y de construir la distribución de frecuencias, ésta se nos da hecha.
Un procedimiento que a veces resultará útil consiste en asumir el supuesto de concentración en el
punto medio.

Sin embargo más adelante veremos algunos casos en los que el supuesto de concentración en el
punto medio no resulta apropiado, porque interesa la adopción de un criterio que asigne valores
distintos a los elementos de un mismo intervalo. Un criterio de este tipo se sigue cuando se asume
el supuesto de distribución homogénea, según el cual los valores incluidos en un intervalo se
reparten con absoluta uniformidad en su interior.

b.3. Representaciones gráficas

A partir de las distribuciones de frecuencias se pueden construir representaciones gráficas. La


función estas es dar informaciones globales mediante un solo golpe de vista.

b.3.1. Representaciones gráficas de uso frecuente

a) Diagrama de rectángulos: Para hacer un diagrama de rectángulos se colocan en el eje de


abscisas las modalidades y en el eje de ordenadas las frecuencias.
Este tipo de representaciones se suele utilizar para variables nominales, pero también se
utiliza para variables ordinales.

b) Perfil ortogonal: Se utiliza mucho en informes psicopedagógicos o de rendimiento.

c) Pictograma: Son representaciones en forma de círculos en las que éstos son divididos en
secciones cuya superficie es proporcional a la frecuencia de la modalidad correspondiente.

d) Diagrama de barras: Se utiliza para variables cuantitativas discretas. En el je de abscisas se


colocan los distintos valores de la variable y en el eje de ordenadas las frecuencias Sobre
cada valor de la variable se traza una línea o barra perpendicular cuya altura debe ser igual
a la frecuencia.
33

e) Histograma: Se utiliza para variables cuantitativas continuas con datos agrupados en


intervalos. En el eje de abscisas se colocan los límites exactos de los intervalos, y en el eje de
ordenadas las frecuencias.

f) Polígono de frecuencias: Para variables discretas, el polígono de frecuencias es la figura que


resulta de unir los extremos superiores de las que hubieran sido las barras si se hubiera
hecho una gráfica como la descrita en el apartado d). Si se trata de una variable continua,
podemos decir lo mismo pero referido a los puntos medios de las bases superiores de los
rectángulos correspondientes a un hipotético histograma construido con esos mismos
datos.

g) Diagrama de barras acumulativo. Se utiliza en variables discretas. En el eje de abscisas se


colocan los valores de la variable, y en el de ordenadas las frecuencias acumuladas, ya sean
absolutas o relativas. Sobre cada valor se traza una perpendicular cuya longitud sea igual a
la frecuencia acumulada.

h) Polígono de frecuencias acumuladas: Se utiliza en variables continuas. El eje de abscisas se


construye igual que en los histogramas, pero en el de ordenadas se incluyen las frecuencias
acumuladas, ya sean absolutas o relativas. Sobre cada límite se levanta una perpendicular
cuya longitud sea idéntica a la frecuencia acumulada y se unen los extremos superiores de
dichas perpendiculares.

i) Otros dibujos: Muchas veces se utilizan otras representaciones figurativas, en las que se
incluyen los objetos de los que se están haciendo recuentos de frecuencias, o algún
símbolo que los identifique de forma muy expresiva.

b.3.2. Convenciones sobre las representaciones gráficas

Las representaciones gráficas de los datos incluidos en una distribución de frecuencias pueden
realizarse de muy distintas formas, vamos a establecer algunas convenciones para unificar criterios:

a) En el eje de abscisas colocamos los valores de la variable, y en el de ordenadas las


frecuencias (absolutas o relativas, simples o acumuladas)

b) La intersección de los dos ejes es el origen, de modo que en el eje de abscisas las
puntuaciones más bajas estarán a la izquierda, y las más altas a la derecha en el de
ordenadas los valores pequeños estarán abajo y los altos arriba
c) Si el valor mínimo del eje de abscisas fuera excesivamente grande, se debe cortar la línea.

d) Conviene incluir en cada gráfico toda la información posible para evitar ambigüedades

e) Cuando en un mismo gráfico se representan dos o más grupos simultáneamente mente, y


éstos son de tamaños considerablemente distintos, se deben utilizar frecuencias relativas.

b.3.3. Tendenciosidad en las representaciones gráficas


34

Las representaciones gráficas pueden utilizarse de manera tendenciosa para inducir impresiones
engañosas e interesadas.
Un primer método consiste en recortar el eje de ordenadas, el segundo produce una distorsión al
utilizar figuras representativas de aquello que se está midiendo.

b.3.4. Propiedades de las distribuciones de frecuencia

Son cuatro las propiedades con las que describiremos las distribuciones de frecuencias

1. Tendencia central: Refiere a la magnitud general de las observaciones hechas. Puede


cuantificare mediante unos índices conocidos como índices de tendencia central o
promedios, y que reciben ese nombre porque pretenden ser síntesis de los valores de la
variable.

2. Variabilidad: Refiere al grado de concentración de las observaciones en torno al promedio.


Una distribución de frecuencias será homogénea o poco variable si los datos difieren poco
entre sí y, será heterogénea o muy variable si los datos se dispersan mucho con respecto al
promedio. Esta propiedad es independiente de la anterior, es decir, dos grupos que tengan
distinta variabilidad pueden tener tendencias centrales muy distintas o similares.

3. Asimetría o sesgo: Refiere al grado en que los datos tienden concentrarse en los valores
centrales, en los valores inferiores al promedio, o en los valores superiores a éste. Existe
simetría perfecta cuando en caso de doblar la representación gráfica por una vertical
trazada sobre la media, las dos mitades se superponen perfectamente.

Las distribuciones con asimetría negativa son propias de las pruebas, tareas o tests fáciles,
en las que la mayoría de los sujetos puntúan alto, en cambio, si puntúan bajo seria asimetría
positiva.
Las pruebas, tareas o tests de dificultad media suelen producir distribuciones más o menos
simétricas.

4. Curtosis: Refiere al grado de apuntamiento de la distribución de frecuencias. Si es muy


apuntada, se llama leptocurtica, y si es muy aplastada, se llama platicurtica. Generalmente el
grado de curtosis de una distribución se compara con un modelo de distribución llamado
«distribución normal», que respecto a la curtosis se llama distribución mesocúrtica.

Capítulo 3 (Hasta punto 3.3.3)

3.1. Introducción

Lo que nos interesa es poder hacer una valoración de las puntuaciones, y esto sólo puede hacerse
en términos relativos.
En general, para poder interpretar el significado de una puntuación es necesario hacerlo en
términos relativos, y con respecto a un grupo de referencia.
35

Para hacer estas valoraciones relativas se pueden utilizar las llamadas medidas de posición, que
son índices diseñados especialmente para revelar la situación de una puntuación con respecto a
un grupo, utilizando a este como marco de referencia. Un tipo concreto de medida de posición
son las llamadas medidas de tendencia central, pero primero vamos a describir unas medidas de
posición más generales, que reciben el nombre genérico de cuantiles.

3.2. Centiles o percentiles

Son 99 valores de la variable que dividen a la distribución en 100 secciones, cada una conteniendo
a la centésima parte de las observaciones. Se pueden representar por la inicial de cada uno de los
dos términos que los designan más el subíndice correspondiente, C K o Pk (k =n1, 2, 3,. . .99).

Aunque por definición son sólo 99 valores, por extensión a veces se utilizan posiciones
intermedias.
Los valores correspondientes a los centiles se determinan en función de los porcentajes de
observaciones, normalmente las distancias entre ellos, en términos de puntuación, no serán
constantes. Generalmente las distancias entre los centiles intermedios serán menores que las
distancias entre centiles extremos.

Los centiles no suelen calcularse con cantidades pequeñas de datos, y cuando es necesario hacerlo
se obtienen sencillamente ordenando las puntuaciones y calculan do la proporción de éstas que
superan al valor que se quiere comparar.

3.3. Otros cuantiles

A veces se utilizan otras particiones de la distribuciones distintas a los centiles, aunque


conceptualmente son muy similares.

3.3.1. Deciles

Son nueve puntuaciones que dividen a la distribución en 10 partes, cada una conteniendo al 10
por 100 de las observaciones. Se representan por D k donde k indica el número del decil al que se
refiere.
Así, el decil cuarto, o D4 , es la puntuación que deja por debajo de sí al 40 por 100 de las
observaciones y por encima de sí al 60 por 100.
Existe una equivalencia directa entre los deciles y los centiles.

3.3.2 Cuartiles

Son tres puntuaciones que dividen a la distribución en cuatro partes, cada una conteniendo al 25
por 100 de las observaciones. Se representan por Q₁, donde k indica el número del cuartil al que se
refiere.
36

Así, el cuartil primero, o Q₁, es la puntuación que deja por debajo de si al 25 por 100 de las
observaciones y por encima de si al 75 por 100.
Existe una equivalencia directa entre los cuartiles y los centiles.

3.3.3. Equivalencia entre cuantiles

Existe una equivalencia directa entre los distintos cuantiles.

D1 C10

D2 C20

Q1 C25

D3 C30

D4 C40

Q2 D5 C50
D6 C60
D7 C70

Q3 C75

D8 C80

D9 C90

Capítulo 4 (Hasta punto 4.5.)

4.1. Introducción

Veremos los índices más utilizados para describir esa característica de las distribuciones de
frecuencias. Deben ser valores únicos que capten y comuniquen mejor la distribución como un
todo.
¿Cómo podríamos resumir en un solo indicador la magnitud general de lo observado, por ejemplo,
en diez valores numérico? Hay algunas opciones que intuimos apropia das para ese fin.
37

Una de ellas podría ser hallar el promedio de los valores, una segunda alternativa podría consistir
en tomar como indicador un valor que sea superado por la mitad de las observaciones, pero no
por la otra mitad; y por último, podríamos tomar el valor más frecuentemente observado.
Estas tres opciones son, de hecho, las soluciones más frecuentes, y están a la base,
respectivamente, de los tres índices de tendencia central más conocidos y utilizados, que son la
media aritmética, la mediana y la moda.

4.2. La media aritmética

El índice de tendencia central más utilizado es la media. Se define como la suma de los valores
observados, dividida por el número de ellas. Se representa con la misma letra que representa a la
variable, en mayúsculas, con una barra horizontal encima.

Amón (1984) y Hays (1988) han propuesto la siguiente interpretación geométrica de la media
aritmética. Supongamos que tomamos una regla ideal (sin peso), en la que ponemos unas piezas,
todas de igual peso. Colocamos una pieza sobre el valor que ocuparía en ese eje cada una de las
observaciones hechas. En caso de repetirse algún valor, se ponen tantas piezas como veces se
repite el valor .Entonces, la media es un valor tal que, si apoyamos ese eje en un fulcro situado a la
altura del valor correspondiente a la media, el conjunto quedará en equilibrio. Es decir, la media se
comporta como si fuera el centro de gravedad de la distribución.

4.2.1. Cálculo en una distribución de frecuencias

Aunque la forma más directa de hallar la media es aplicar la fórmula, esta no es siempre la más
práctica. Lo es cuando se trata de unos pocos valores, pero cuando se tiene un conjunto grande de
observaciones, éstas tradicionalmente se han agrupado en distribuciones de frecuencias, para
luego hacer los cálculos sobre la distribución.

Ejemplo:
Para hallar la media se asume el supuesto de concentración en el punto medio del intervalo. Por
tanto, se trata de sumar 5 valores iguales a 16 (punto medio del intervalo superior), 10 valores
iguales a 13, etc., y por último dividir por el número de observaciones, es decir, 70.

xi ni
15 – 17 5
12 – 14 10
9 – 11 25
6–8 20
3 -5 10
38

4.2.2. Propiedades de la media aritmética

Necesitamos ciertas informaciones adicionales para poder hacernos una idea de si el grado de
extraversión de ese sujeto es alto, bajo o está entre los más habituales.

A las puntuaciones que hemos venido tratando hasta aquí, y que no son más que los valores
brutos, las denominaremos a partir de ahora puntuaciones directas y las representaremos por la
letra de la variable en mayúsculas. Por el contrario, a las diferencias de cada sujeto con respecto a
la media grupal las denominaremos puntuaciones diferenciales y las representaremos por la letra
minúscula.

Con las puntuaciones diferenciales podemos dar una información más precisa que con las directas.
Una primera propiedad es:

La suma de las diferencias de a puntuaciones con respecto a su media, o puntuaciones diferenciales,


es igual a cero.

La razón por la que la suma de las diferenciales es igual a cero es que unas son positivas y otras
negativas (las que superan la media y las que quedan por debajo de ella, respectivamente), y se
compensan unas con otras.
Pues bien, se puede demostrar que esa suma es menor que si las diferencias son halladas con
respecto a cualquier otro valor diferente de la media.

Una segunda propiedad es:

La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es
menor que con respecto a cualquier otro valor.

Si sumamos una constante a un conjunto de puntuaciones, la media aritmética quedará


aumentada en esa misma constante.

Luego, conociendo la media de las puntuaciones originales podemos obtener muy fácilmente la
media de las puntuaciones tras la suma de la constante Podemos expresar esta tercera propiedad
de la siguiente forma:

Conociendo la media de las puntuaciones originales podemos obtener muy fácilmente la media de
las puntuaciones tras la multiplicación de la constante. Expresaremos esta cuarta propiedad de la
siguiente forma:

Si multiplicamos por una constante a un conjunto de puntuaciones, la media aritmética


quedará multiplicada por esa misma constante.
39

Media ponderada o quinta propiedad:

La media total de un grupo de puntuaciones, cuando se conocen los tamaños y medias de


varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos,
puede
Una obtenerse
variable ponderando
definida las medias parciales
como la combinación lincal dea otras
partirvariables
de los tamaños de los
tiene como subgrupos
media la
en quecombinación
misma han sido calculadas.
lineal de las medias de las variables intervinientes en su definición.

Sexta propiedad:

Ejemplos numéricos de las propiedades de la media

a) Comprobamos que las diferencias de las cuatro puntuaciones siguientes con respecto a su
media es igual a cero.
_
X1 = 4 X2 = 4 X3 = 6 X4 = 1 X = 16 / 4 = 4

x1 = 1 x2 = 0 x3 = 2 x4 = -3 Ʃ xi = 0

b) Comprobamos que la suma de las desviaciones de esas puntuaciones con respecto a su


media, elevadas al cuadrado, es menor que con respecto a otro valor elegido al azar, como,
por ejemplo, el 6.
_
Ʃ (Xi - X) = (5 - 4)² + (4 - 4)2 + (6 - 4)² + (1 - 4)² = 14

Ʃ(Xi - 6) = (5 - 6)2 + (4 - 6)2 + (6 - 6)² + (1 - 6) = 30

c) Si sumamos la constante 3 a los valores, su media será:

[(5 + 3) + (4 + 3) + (6 + 3) + (1 + 3)] / 4 = 28 / 4 = 7

Esta media podíamos haberla obtenido aplicando la tercera propiedad. Llamando Y a las
puntuaciones transformadas,
_ _
Y= X + 3 = 4 + 3 = 7

d) Si multiplicamos por 3 a los su media será:

[(5 - 3) + (4 - 3) + (6 - 3) + (1 - 3)] / 4 = 48 / 4 = - 12

Esta media podíamos haberla obtenido aplicando la cuarta propiedad. Llamando Y, a las
puntuaciones transformadas,
40

_ _
Y = 3 * X = 3 - 4 = 12

e) Si disponemos ahora de otro conjunto de 3 valores, 6, 8, y 1 (media = 5), la media de las


siete puntuaciones será:

(5 + 4 + 6 +1 + 6 + 8 + 1) / 7 = 4,43

Esta media podríamos haberla obtenido aplicando la fórmula de la media ponde rada de las
medias parciales:
_ _ _
Xt = (n1 * X1 + n2 * X2) = (4 * 4 + 3 * 5) = 4,43
(n1 + n2) (4 + 3)

f) Supongamos ahora que disponemos de los valores que los cuatro sujetos del ejemplo han
obtenido en las variables Y y Z. Los valores, con sus medias, son los siguientes
_
Y1 = 8 Y2 = 4 Y3 = 12 Y4 = 4 Y = 28 / 4 = 7

Z1 = 33 Z2 = 29 Z3 = 35 Z4 = 23 Z = 120 / 4 = 30

Si definimos la variable T como la siguiente combinación

Ti = 3 * Xi - Yi / 2 +Z

podríamos calcular la media de esta nueva variable obteniendo la puntuación 7 de cada


sujeto, sumándolas y dividiendo por 4.

T₁ = 3 * 5 – 8 / 2 +33 = 44

T₂ = 3 * 4 – 4 / 2 + 29 = 39

T3 = 3 * 6 – 12 / 2 + 35 = 47

T4 = 3 * 1 – 4 / 2 + 23 = 24
154 T = 154 / 4 = 38,5

Pero esta media podemos también obtenerla aplicando la sexta propiedad, sin tener que
recurrir al cálculo de las puntuaciones T
41

_ _
T = 3 * X – Y / 2 + Z = 3 * 4 – 7 / 2 + 30 = 38,5

4.3. La mediana

Otra opción para representar la tendencia central de un conjunto de valores, que consistía en
tomar aquella puntuación que fuera superada por la mitad de las observaciones, pero no por la
otra mitad se denomina mediana.
Para su cálculo podemos encontrarnos en dos casos generales, aquel en el que contamos con un
número impar de observaciones y aquel en que nos encontramos con un número par de ellas. En
el primero se toma como mediana el valor central, en el segundo se da la circunstancia de que
cualquier valor comprendido entre los dos centrales cumple con la definición de la mediana. Por
ello, Fechner propuso tomar la media aritmética de los dos valores centrales.

Ejemplos de cálculo de la mediana

a) Obtengamos la mediana del siguiente conjunto de valores:

7, 11, 6, 5, 7, 12, 9, 8, 10, 6, 9


Ordenamos estos 11 valores de menor a mayor:

5, 6, 6, 7, 7, 8, 9, 9, 10, 11, 12

Como se trata de un número impar de valores, tomamos como mediana el valor central [el del
orden (n+1)/2= 6]

1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11°
5 6 6 7 7 8 9 9 10 11 12

Mdn = 8

b) Ahora se trata de un número par de valores (n = 10):

23, 35, 43, 29, 34, 41, 33, 38, 38, 32

Ordenados: 23, 29, 32, 33, 34, 35, 38, 38, 41, 43

Al tratarse de un número par de valores, tomamos como mediana la media aritmética de los
valores centrales (5° y 6°)
42

1° 2° 3° 4° 5° 6° 7° 8° 9° 10°
23 29 32 33 34 35 38 38 41 43

Mdn = (34 + 35) / 2 = 34,5

c) El cálculo de la mediana en una distribución de frecuencias se obtiene aplicando la fórmula


del C50. Como ejemplo, calcularemos la mediana de la distribución de frecuencias.

Xi ni na
18 – 20 20 200 K * n / 100 = 50 * 200 / 100 = 100
15 – 17 30 180
12 – 14 60 150 Intervalo crítico
9 – 11 40 90
6–8 30 50 Mdn = 11,5 + 3 * (100 - 90) = 12
3-5 20 20
60
200

4.4. La moda

Una tercera vía para representar la tendencia central de un conjunto de valores consiste en
informar del valor más frecuentemente observado.
La moda, que se representa por Mo, se define sencillamente como el valor de la variable con
mayor frecuencia absoluta. Como norma, para obtener la moda ordenaremos los valores de menor
a mayor para así facilitar la identificación del de mayor frecuencia.

a) 8, 8, 11, 11, 11, 15, 15, 15, 15, 15, 17, 17, 17, 19, 19.

Es el caso más directo y sencillo; el valor que más veces se repite es el 15 y. por tanto, Mo = 15

b) 8, 8, 8, 11, 11, 11, 15, 15, 15, 17, 17, 17, 19, 19, 19.

Todos los valores tienen la misma frecuencia; por tanto, es un caso en el que la moda no se puede
calcular. Se dice que es una distribución amodal.

c) 8, 9, 9, 10, 10, 10, 10, 11, 11, 13, 13, 13, 13, 15, 15.
43

Hay dos valores con la misma (y máxima) frecuencia, el 10 y el 13, en este caso se dice que la
distribución tiene dos modas, que es una distribución bimodal, donde Mo 1 = 10 y Mo₂ = 13

d) 8, 8, 9, 9, 9, 11, 11, 11, 11, 12, 12, 12, 12, 14, 15, 15.

Al igual que antes, hay dos valores que comparten la máxima frecuencia (11 y 12), pero en este
caso esos dos valores son adyacentes. Cuando se da esta circunstancia, se toma como moda la
media aritmética de esos dos valores:

Mo = 11 + 12 = 11.5
2

e) Cuando disponemos de una distribución de frecuencias, se toma como moda el punto


medio del intervalo con mayor frecuencia.

4.5. Comparación entre medidas de tendencia central

¿Con qué criterios elegimos un índice de tendencia central sobre los demás para representar la
magnitud general observada en unos valores o para comparar la de dos o más grupos de valores?
Vamos a exponer algunos criterios razonados para tomar ese tipo de decisiones.

Si no hay ningún argumento de peso en contra, se preferirá siempre la media Hay dos razones
para apoyar esta norma general. La primera es que en ella se basan otros estadísticos que
expondremos en capítulos posteriores, y la segunda es que es mejor estimador de su parámetro
que la mediana y la moda. Este segundo argumento significa que, en términos generales, las
medias halladas sobre muestras representativas se parecen más a la media poblacional que lo que
se parecen las medianas y modas muéstrales a la mediana y la moda poblacional.

Pero entonces, ¿qué razones pueden hacernos preferir otro índice, como la mediana?
Hay al menos tres situaciones en las que se preferirá la mediana a la media:

a) Cuando la variable esté medida en una escala ordinal

b) Cuando haya valores extremos que distorsionen la interpretación de la media.


Ejemplo: en el siguiente conjunto de puntuaciones: 3, 4, 8, 5, 6, 124, la media de estos valores
es 25, pero no está claro que este valor sea una buena representación de su tendencia central,
puesto que se ve muy influida por un valor extremo: el 124. La media es extremadamente
sensible a las puntuaciones extremas.
44

c) Cuando haya intervalos abiertos.


Este tercer y último caso se refiere a situaciones en las que el intervalo superior carece de límite
superior, el intervalo inferior carece de límite inferior, o ambas cosas a la vez.

A veces se presentan casos en los que es más apropiado utilizar la moda. No obstante, podemos
de nuevo establecer una regla general en los siguientes términos la mediana será la segunda
candidata para representar la tendencia central y, por tanto, si no hay argumentos de peso en
contra, se preferirá la mediana a la moda.
Pero, ¿qué razones pueden hacernos preferir la moda sobre la mediana?
Hay al menos dos situaciones en las que se dará esta preferencia:

a) Cuando se trate de una variable medida en una escala nominal

b) Cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos. La fórmula de los
centiles supone una distribución homogénea de los valores dentro del intervalo. Esto puede
hacerse sólo si el intervalo está cerrado.

También podría gustarte