Estadistica Descriptiva

ESTADÍSTICA DESCRIPTIVA I
1.- DISTRIBUCIONES UNIDIMENSIONALES.

CONCEPTOS GENERALES.
La estadística se puede dividir en dos partes:
 Estadística descriptiva o deductiva.

 Estadística inferencial o inductiva.
La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos
obtenidos por las observaciones. Se construyen tablas y se representan gráficos que permiten
simplificar en gran medida, la complejidad de todos los datos que intervienen en la distribución.
Asimismo se calculan parámetros estadísticos que caracterizan la distribución. En esta parte de la
estadística no se hace uso del cálculo de probabilidades, y únicamente se limita a realizar deducciones
directamente a partir de los datos y parámetros obtenidos.
La estadística inferencial o inductiva plantea y resuelve el problema de establecer previsiones y

conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra.
Utiliza resultados obtenidos mediante la estadística descriptiva y se apoya fuertemente en el cálculo
de probabilidades.
La población es el conjunto de todos los elementos, que cumpliendo una condición, deseamos
estudiar (por ejemplo: los habitantes de una ciudad, los alumnos de un colegio, las gallinas de una
granja, etc.).
Un individuo es cada uno de los elementos de la población.
Una muestra es cualquier subconjunto de la población (por ejemplo: 100 alumnos del colegio, 1.000
habitantes de una ciudad, 300 gallinas de una granja, etc.). El saber seleccionar una muestra
suficientemente representativa de la población a estudiar es fundamental para que los resultados del
estudio sean fiables. Sobre cómo seleccionar una muestra existen todo un tratado llamado “Teoría de
las muestras”, al cual haremos una aproximación más adelante.
Cada una de las propiedades que se pueden estudiar se llama carácter estadístico (por ejemplo:
talla, peso, sexo, estado civil, etc).
Pueden ser cuantitativos si se pueden medir numéricamente (por ejemplo: la talla, el peso, etc) o
cualitativo si no se puede medir numéricamente (por ejemplo: sexo, estado civil, etc).
Al conjunto de valores que toma un carácter se le llama variable estadística que podrá ser cualitativa
o cuantitativa, dependiendo de si el carácter es cualitativo o cuantitativo, respectivamente.
Una variable será discreta si sólo puede tomar determinados valores (ej: número de hermanos,
número de aprobados, etc).
Una variable será continua si puede tomar todos los valores posibles de un intervalo (ej: altura de una
persona, peso, etc).
Tablas de frecuencias: Son tablas donde se reflejan los datos obtenidos y las diferentes frecuencias:
La frecuencia absoluta ( f i ) es el número de veces que se repite un valor (si están agrupados en
intervalos de clase, la frecuencia absoluta del intervalo será el número de veces que aparece un valor
cualquiera de ese intervalo).
Pg. nº 1/26
La frecuencia relativa ( hi ) de un valor es el cociente entre la frecuencia absoluta del valor y el número
fi
total de datos hi 
N
La frecuencia absoluta acumulada ( Fi ) de un valor es la suma de todas las frecuencias absolutas

de los valores menores o iguales al valor.
La frecuencia relativa acumulada ( H i ) de un valor es la suma de todas las frecuencias relativas de

los valores menores o iguales al valor.
Propiedades de la frecuencia relativa:
1.  0  hi  1
n
2.  h
i =1
i 1
A continuación vamos a estudiar el tratamiento de la información, es decir, cómo debemos proceder

para analizar ordenadamente una muestra.
Los pasos a seguir son:
1. Recogida de datos. Consiste en la toma de datos numéricos procedente de la muestra.
2. Ordenación de datos. Una vez recogidos los datos los colocaremos en orden creciente.
3. Agrupación de los datos en clase. En caso de que la variable sea continua o bien discreta pero
con número muy elevado de datos, es necesario agrupar los datos en intervalos, a los cuales
llamaremos intervalos de clases. Respecto a cómo agruparlos y qué número de intervalos
elegir, podemos decir que no existe una contestación tajante y hay varios criterios para dar
respuesta a esta cuestión. Una de las teorías establece que debemos hacer un número de
intervalos aproximadamente igual a la raíz cuadrada del número de datos, pero nosotros
vamos a seguir otros criterios. Intentaremos hacer un número de intervalos comprendido entre
8 y 12. Llamaremos marca de clase al punto medio del cada intervalo. Una vez elegido el
número, es aconsejable escoger los límites de los intervalos, de modo que sean múltiplos,
pares, divisibles, etc., para lograr que la marca de clase no nos dé un número fraccionario o
con muchos decimales. Esto nos facilitará luego el trabajo de cálculo. También tenemos que
lograr que los intervalos sean de la misma amplitud y que el límite superior de uno coincida
con el inferior del siguiente. Y por último adoptaremos el criterio de que los intervalos sean
cerrados por la izquierda y abiertos por la derecha, esto quiere decir que si un valor de la
variable queda justo en el límite de dos intervalos, siempre lo pondremos en el superior.
4. Recuento de frecuencia. Efectuaremos el recuento de los datos obtenidos.
5. Construcción de la tabla. Calcularemos las frecuencias absolutas, relativas, acumuladas,

porcentuales representaciones gráficas y todos aquellos datos que nos hagan falta para el
estudio estadístico.
Pg. nº 2/26
Veamos unos ejemplos de tabulación de datos.
Ejemplo 1: Un profesor tiene anotadas en su cuaderno las notas de 30 alumnos de una clase. Construir
la tabla sabiendo que son las siguientes:
5 3 4 1 2 8 9 8 7 6 6 7 9 8 7
7 1 0 1 5 9 9 8 0 8 8 8 9 5 7
Xi Recuento fi Fi hi Hi pi Pi
0 // 2 2 2/30 2/30 2/30*100 2/30*100

1 /// 3 5 3/30 5/30 3/30*100 5/30*100
2 / 1 6 1/30 6/30 1/30*100 6/30*100
3 / 1 7 1/30 7/30 1/30*100 7/30*100
4 / 1 8 1/30 8/30 1/30*100 8/30*100
5 /// 3 11 3/30 11/30 3/30*100 11/30*100
6 // 2 13 2/30 13/30 2/30*100 13/30*100
7 ///// 5 18 5/30 18/30 5/30*100 18/30*100
8 ///// // 7 25 7/30 25/30 7/30*100 25/30*100
9 ///// 5 30 5/30 30/30 5/30*100 30/30*100
∑ 30 1 100
Ejemplo 2: Construir la tabla estadística de las edades de las personas que acuden a un logopeda a
lo largo de un mes, sabiendo que son:
3 2 11 13 4 3 2 4 5 6 7 3 4 5 3 2 5 6 27
15 4 21 12 4 3 6 29 13 6 17 6 13 6 5 12 26
Marcas
de
Clases fi Fi hi Hi
clases
xi
[0 5) 2,5 13 13 13/36 13/36
[5 10) 7,5 11 24 11/36 24/36
[10 15) 12,5 6 30 6/36 30/36
[15 20) 17,5 2 32 2/36 32/36
[20 25) 22,5 1 33 1/36 33/36
[25 30) 27,5 3 36 3/36 36/36=1
∑ 36 1
Pg. nº 3/26
2.- DIAGRAMA DE TALLOS Y HOJAS
Una moderna técnica de recogida de datos es la que se conoce como diagrama de tallos y hojas
Veamos a continuación con un ejemplo en qué consiste.
Las puntuaciones obtenidas por 40 alumnos en un test han sido las siguientes:
41, 53, 72, 62, 81, 93, 81, 74, 56, 62, 45, 47, 62, 58, 88, 76, 77, 63, 43, 56,
76, 63, 78, 73, 65, 66, 91, 82, 61, 72, 36, 50, 91, 32, 60, 80, 51, 68, 61, 71.
Para construir el diagrama de tallos y hojas, procedemos del siguiente modo:
Paso 1º Paso 2º
Se observa entre qué valores están las Se va leyendo uno a uno cada dato,
cifras de las decenas de todos los anotando las cifras de las unidades en
datos, y se tiene que van de 3 a 9. la fila correspondientes.
Tallo Tallo
3 3 62
4 4 1573
5 5 368601
6 6 22233561081
7 7 246768321
8 8 11820
9 9 311
Así se obtiene una figura como esta.
Paso 3º
Por último se vuelve a escribir la tabla
ordenando de menor a mayor las
unidades dentro de cada fila.
Tallo
3 26
4 1357
5 013668
6 0112223356 8
7 122346678
8 01128
9 113
Al final obtenemos el diagrama.
Pg. nº 4/26
 Los diagramas de tallos y hojas son, en sí mismos, diagramas de frecuencias, pues basta con trazar
una línea poligonal que una los últimos números de cada fila.
 Podemos sacar muchas conclusiones a la vista del diagrama:
o Hay dos alumnos con puntuaciones entre 30 y 39, y así sucesivamente.

o Se puede observar que es una distribución ligeramente asimétrica a la derecha.
o La clase con mayor frecuencia es la de 60-69
o Etc.
3.- GRÁFICOS ESTADÍSTICOS
Aun cuando las tablas estadísticas contienen toda la información, es conveniente expresarla mediante
gráficos adecuados a la variable, con el fin de resaltar los aspectos más significativos y hacer la
distribución más clara y evidente.
Diagramas de barras
Los diagramas de barras o bastones son especialmente útiles cuando se desea comparar datos
cualitativos o cuantitativos de tipo discreto, no agrupados en intervalos.
Para trazarlos se representan sobre el eje de abscisas los valores de la variable, y sobre el eje de
ordenadas la frecuencia que se vaya a representar; o viceversa. A continuación, se levantan trazos
gruesos de longitud igual a la frecuencia correspondiente a cada valor de la variable.
Ejemplo.
Xi fi Fi
0 2 2
1 3 5
2 1 6
3 1 7
4 1 8
5 3 11
6 2 13
7 5 18
8 7 25
9 5 30
Pg. nº 5/26
Polígonos de frecuencias
Los polígonos de frecuencia son especialmente útiles cuando se desea comparar datos cualitativos o
cuantitativos de tipo discreto, no agrupados en intervalos.
Se forman siguiendo el mismo procedimiento que para los diagramas de barras, pero no se trazan las
barras, sino que se unen los puntos de las frecuencias mediante una línea. Se puede representar
sobre el mismo diagrama de barras o incluso sobre un histograma (como veremos más adelante.
Ejemplo.
Diagrama de Sectores
Los diagramas de sectores representan las distintas modalidades de un carácter mediante sectores
circulares. Cada valor viene representado por un sector circular de amplitud proporcional a su
frecuencia. Normalmente se utilizan tantos por ciento para reflejar las frecuencias y la amplitud se
calcula mediante una simple regla de tres.
Ejemplo.
Pg. nº 6/26
Pictogramas
Los pictogramas son dibujos alusivos a las distribuciones que se pretenden estudiar y que mediante
su forma, tamaño, etc., ofrecen una descripción lo más expresiva posible de la distribución. Son
gráficos poco precisos pero fáciles de interpretar a simple vista.
Ejemplo.
Cartogramas
Se llama cartogramas a los gráficos que se realizan sobre un mapa, señalando sobre determinadas
zonas, con distintos colores o rayados lo que se trate de poner de manifiesto. Se suelen utilizar para
representar renta per cápita, densidad de población, horas de sol, recursos hídricos, etc.
Ejemplo.
Pg. nº 7/26
Histogramas
Los histogramas se utilizan para distribuciones de variables agrupadas en intervalos. Se construyen

representado en el eje de abscisa los límites de cada clase y en el eje de ordenadas la frecuencia que
queramos representar. Luego se levantan los rectángulos correspondientes, con una base igual a las
amplitudes de los intervalos y una altura igual a la frecuencia.
Ejemplo.
Marcas
de
Clases fi
clases
xi
[0 5) 2,5 13
[5 10) 7,5 11
[10 15) 12,5 6
[15 20) 17,5 2
[20 25) 22,5 1
[25 30) 27,5 3
∑ 36
Como se observa, también se puede construir el polígono de frecuencia.
Diagramas lineales o series temporales
Los diagramas lineales son muy utilizados para mostrar las fluctuaciones de un determinado carácter
estadístico con el paso del tiempo.
Lo que interesa en el gráfico es la altura de la línea referida a la base del diagrama. Con frecuencia se
aprovecha para representar sobre la misma escala varios diagramas lineales. Como por ejemplo ingresos
y gastos; nacimientos y defunciones; etc.
Pg. nº 8/26
Pirámides de población
Las pirámides de población se utilizan para estudiar conjuntamente la variable edad y el atributo sexo.
El gráfico se obtiene representando en la ordenada el grupo de edad, y en la abscisa el sexo. Para la

modalidad mujer se toma el semieje positivo, y para la modalidad hombre el semieje negativo.
El estudio detallado de las pirámides de población aporta datos sobre aspectos sociológicos ligados a
dicha población, cómo por ejemplo, catástrofes, guerras, control de natalidad, desarrollo de la
población. Asimismo se pueden realizar previsiones para el futuro, como es el caso del estudio de las
necesidades de las futuras pensiones.
Ejemplos de distintos tipos de gráficos.
Pg. nº 9/26
Resumen:
Estadística: Estadística descriptiva. Estadística inferencial.

Población. Muestra. Individuo.
Variables o carácter estadístico.

Variables cualitativas.
Variables cuantitativas.
V. cuantitativas discretas.
V. cuantitativas continuas.
Tablas estadísticas.
Intervalos o clases.
Marcas de clase.
Frecuencias absolutas, fi.
Frecuencia absoluta acumulada, Fi.
Frecuencia relativa, hi.
Frecuencia relativa acumulada, Hi.
Diagrama de tallos y hojas
Gráficos
Para variables cualitativas o cuantitativas discretas.
Diagramas de barras.
Polígonos de frecuencias.
Diagramas de sectores.
Pictogramas.
Para variables cuantitativas continuas.

Histogramas.
Polígonos de frecuencias (sobre el histograma).
Diagramas de sectores.
Pictogramas.
Otros
Cartogramas.
Diagramas lineales.
Pirámides de población.
Pg. nº 10/26
Ejercicio.
Se ha pasado un test de 80 preguntas a 600 personas. El de respuestas correctas se refleja en la siguiente

tabla.
Se pide:
1. Elaborar la tabla con todas las frecuencias.
2. Representar de todas las formas posibles.
Respuestas
[0 10) [10 20) [20 30) [30 40) [40 50) [50 60) [60 70) [70 80)
correctas
Numero de
40 60 75 90 105 85 80 65
personas
Respuestas Marca de
correctas clase xi fi Fi hi Hi pi Pi
[0 10) 5 40 40 0,06667 0,06667 6,6667 6,6667
[10 20) 15 60 100 0,10000 0,16667 10,0000 16,6667
[20 30) 25 75 175 0,12500 0,29167 12,5000 29,1667
[30 40) 35 90 265 0,15000 0,44167 15,0000 44,1667
[40 50) 45 105 370 0,17500 0,61667 17,5000 61,6667
[50 60) 55 85 455 0,14167 0,75833 14,1667 75,8333
[60 70) 65 80 535 0,13333 0,89167 13,3333 89,1667
[70 80) 75 65 600 0,10833 1,00000 10,8333 100,0000
∑ 600 1,00000 100
Pg. nº 11/26
ESTADÍSTICA DESCRIPTIVA II
1.- DISTRIBUCIONES UNIDIMENSIONALES.
CÁLCULO DE PARÁMETROS
PARÁMETROS DE CENTRALIZACIÓN
En la búsqueda de la concreción y la simplificación, la información recogida en una tabla o gráfica

estadística suele resumirse en unos pocos valores que nos informan del comportamiento de
todos los individuos del colectivo estudiado. Estos valores, representativos de todos los datos de
una distribución, se llaman parámetros o medidas de centralización.
MEDIA ARITMÉTICA
Media aritmética de una variable estadística es el cociente que resulta de dividir la suma de todos los
valores por el número total de éstos. Se representa por x .
Su cálculo se realiza, según las expresiones que siguen, atendiendo a la presentación de los datos.
Para datos sin frecuencias
Si la variable toma los N valores x1, x2,...,xn la media aritmética adopta la expresión:
x1  x2  ...  xn  xi
x 
N N
Para datos con frecuencias
Si la variable toma los valores o marcas de clase x1, x2, xn, siendo f1, f2,.... fn las frecuencias absolutas
correspondientes de la distribución, la media aritmética se calcula con la expresión:
x1 f1  x2 f 2  ...  xn f n  xi f i  xi f i
x  
f1  f 2  ...  f n i N
f
Pg. nº 12/26
Para datos ponderados
La media ponderada se calcula cuando todos los valores de la variable no tienen el mismo “peso”.
Su fórmula es análoga a la vista con anterioridad, cambiando las frecuencias f i, por los pesos pi,
y, en el denominador, N por la suma de todos los pesos pi, por lo que resulta:
x1 p1  x2 p2  ...  xn pn  xi pi
x 
p1  p2  ...  p n  pi
Consideraciones sobre la media aritmética.
 La media aritmética es el parámetro de centralización más utilizado.

 Presenta la ventaja de tener en cuenta todos los datos de la distribución, además de resultar muy
sencillo su cálculo.
 Tiene el inconveniente de que si la distribución posee valores extremos, excepcionalmente raros
y pocos significativos, éstos producen una distorsión sobre el valor de la media.
 No siempre es posible calcular la media aritmética y, a veces, aunque sea posible calcularla,
carece de significado como sucede en las variables cualitativas o se trata de intervalos abiertos.
En estos casos deben utilizarse otras medidas de centralización.
 Si se suma una constante a todos los valores de la variable, la media aritmética aumenta en el
mismo valor.
 Si se multiplican todos los valores de la variable por un mismo número, la media queda
multiplicada por el mismo número.
MODA
Se denomina moda de una variable estadística al valor de la variable que tiene mayor frecuencia
absoluta. Se representa por Mo.
La moda de una variable discreta es fácil de calcular, basta buscar el valor de la variable que
presenta mayor frecuencia. Puede ocurrir que la moda no sea única, es decir, la distribución
puede tener 2, 3 o más modas, recibiendo el nombre de bimodal, trimodal, etc.
En el caso de que los datos se encuentren agrupados en intervalos, la clase con mayor frecuencia
se denomina clase modal. Puede tomarse como moda la marca de clase de la clase modal.
Si se desea mayor precisión en el cálculo de la moda, ésta puede obtenerse mediante la

expresión:
D
M o  Li  c
D  D
Li= Límite inferior del intervalo.

C= Amplitud del intervalo.
D=Diferencia entre la frecuencia absoluta del intervalo modal y los vecinos.
Pg. nº 13/26
Cálculo de la moda por el método gráfico.
Para las distribuciones que se encuentran agrupadas en intervalos existe un método gráfico muy
sencillo que permite obtener la moda con bastante aproximación. Para ello se representa el
histograma de frecuencias absolutas, al ser posible en papel milimetrado, con el fin de poder
obtener mayor precisión. Seguidamente se unen, con líneas los extremos de la clase modal con
las contiguas. La moda viene dada por la abscisa del punto de corte.
Consideraciones sobre la moda.
 Puede ocurrir que existan distribuciones que no tengan moda; eso ocurre cuando las frecuencias
de todos los datos, o casi todos, son iguales.
 Puede ser muy útil cuando se trata de variables cualitativas.
 En su cálculo no intervienen todos los datos de la distribución.
 Aun cuando es una medida de centralización, es relativamente frecuente encontrar modas
situadas en los extremos de la distribución.
MEDIANA
La mediana de una distribución estadística es el valor de la variable, tal que el número de datos
menores que él es igual al número de datos mayores que él. Se representa por Me.
Si la distribución es de una variable discreta y el número de datos es impar, la mediana es el
valor central, y si el número de datos es par, la mediana es la media de los valores centrales.
Si la distribución es de una variable continua, el intervalo que contiene a la mediana se denomina
clase mediana o intervalo mediano. Puede tomarse como mediana, en una primera
aproximación, la marca del intervalo mediano.
Si se desea mayor precisión en el cálculo de la mediana, ésta se obtiene, dentro del intervalo
mediano, mediante la expresión:
N
 Fi 1 Variable discreta:
M e  Li  c 2
N impar  Me  X( n 1)/ 2
fi
N par  Me   Xn / 2  Xn / 2 1  / 2
Li= Límite inferior del intervalo.
C= Amplitud del intervalo.
N= Número total de datos
Fi-1= Frecuencia absoluta acumulada de la clase anterior a la clase mediana.
Pg. nº 14/26
fi= Frecuencia absoluta de la clase mediana.
Consideraciones sobre la mediana.
 La mediana es particularmente útil en los siguientes casos:

 Cuando entre los datos existen valores ostensiblemente extremos.
 Cuando los datos están agrupados en intervalos y alguno es abierto.
 La mediana depende del orden de los datos y no de su valor.
 Cuando en su cálculo, el valor N/2 cae justo en el límite de un intervalo, se hace la media
entre la frecuencia de este y del posterior.
PARÁMETROS DE POSICIÓN
CUANTILES
La mediana de los valores de una variable estadística divide a la distribución en dos partes
iguales. Es decir, la mediana parte la distribución en dos mitades, cada una corresponde al 50%
de los datos. Generalizando la idea anterior, se puede pensar en obtener valores que dividan a
distribución en diversas partes iguales, dando lugar a los cuantiles. Los más importantes y
usados, sobretodos en las ciencias sociales y médicas, son:
CUARTILES
Se llaman cuartiles a tres valores que dividen la distribución en cuatro partes iguales. Se
representan y designan como cuartil primero (Q1), segundo (Q2) y tercero (Q3). Cada parte
agrupa, por tanto, al 25%, al 50% y al 75% de los datos de la distribución.
Es obvio que el segundo cuartil, por definición, coincide con la mediana. El cálculo de los otros
cuartiles sigue las pautas de la mediana y se obtienen a través de las expresiones:
N 3N
 Fi 1  Fi 1
Q1  Li  c 4
Q3  Li  c 4
fi fi
DECILES
Análogamente, se llaman deciles a nueve valores de la variable que dividen a la distribución en

diez partes iguales. Es decir, los deciles agrupan a los datos en diez partes correspondientes
cada una con el 10% de la distribución. Se representan por D 1, D2, ..., D9 y la expresión que
permite calcularlos es:
kN
 Fi 1 K=1, 2, 3,...,9
Dk  Li  c 10
fi
Pg. nº 15/26
PERCENTILES
De la misma manera, decimos que se llaman percentiles a 99 valores que divide la distribución
en 100 partes iguales Se representa por P1, P2, ..., P99 y se calculan a través de la expresión
xN
 Fi 1 X=1, 2, 3,...,99
Px  Li  c 100
fi
Cálculo gráfico de los cuantiles
Para calcular gráficamente los cuantiles de una distribución existe un método muy sencillo que
consiste en representar el polígono de frecuencias porcentuales acumuladas (Pi), situando
en el eje abscisa la variable discreta o los intervalos, y en el eje de ordenadas los porcentajes
correspondientes. Convine realizar la representación en papel milimetrado para mayor
precisión.
Ejemplo.
Pg. nº 16/26
PARÁMETROS DE DISPERSIÓN
Las medidas de centralización vistas con anterioridad necesitan de otras que las complementen
en el estudio de las distribuciones de frecuencias de las variables estadísticas. Estas nuevas
medidas, que denominamos parámetros de dispersión, informan de las desviaciones que
sufren los datos respecto de los valores centrales, en especial con relación a la media aritmética.
Los parámetros de dispersión más usuales son:
RECORRIDO
Recorrido o rango de una variable estadística es la diferencia entre el mayor y el menor valor de
los datos observados. Se representa por R. Así, se tiene: R = Xmax - Xmin
VARIANZA
Varianza de una variable estadística es la media aritmética de los cuadrados de las desviaciones
de todos los datos o marcas de clase respecto de la media. Se representa por σ2 ó S2
Las expresiones equivalentes que permiten calcular la varianza son:
 2

 f (x
i i  x )2
2  fx 2
i i
 x2
N N
Es importante conocer que la varianza es siempre positiva, o nula en caso de que todos los
valores de la variable sean iguales.
DESVIACION TIPICA
Se denomina desviación típica de una variable estadística a la raíz cuadrada positiva de la

varianza.
Se representa por σ ó S.

 f (x i i  x )2
fx 2
N  i i
 x2
N
Consideraciones sobre la desviación típica
 La desviación típica es el parámetro de dispersión más utilizado.

 Si se suma una constante a todos los valores de la variable, la desviación típica no varía.
 Si se multiplican todos los valores de la variable por un mismo número, la desviación típica
queda multiplicada por el mismo número.
 No se puede calcular, es obvio, en el
caso de que no se pueda calcular la
media.
Pg. nº 17/26
ESTUDIO CONJUNTO DE x y σ
La media aritmética, x , y la desviación típica, σ , son los parámetros estadísticos por antonomasia.
La media es la medida central más utilizada y la desviación típica es la medida de dispersión o
variabilidad por excelencia.
En toda distribución estadística, el estudio del comportamiento conjunto de la media aritmética y

la desviación típica nos aporta numerosa información sobre la distribución de frecuencias
estudiada.
En casi todas las distribuciones estadísticas de comportamiento normal se verifican de forma

aproximada los porcentajes descritos a continuación que, referidos a la media y la desviación
típica, expresan la distribución de datos.
Para una distribución estadística de comportamiento normal, se cumple:
En ( x -σ x +σ) está el 68% del total de individuos.

En ( x -2σ x +2σ) está el 95% del total de individuos.
En ( x -3σ x +3σ) está el 99% del total de individuos.
Coeficiente de variación de Pearson

Para comparar el grado de dispersión de dos o más distribuciones no podemos confrontar
simplemente las desviaciones típicas, puesto que esas medidas de dispersión vienen afectadas
por la escala de la medida representativa de la variable. Es necesario por lo tanto eliminar esa
influencia convirtiendo dichas medidas en números abstractos.
Para ello utilizaremos el coeficiente de variación de Pearson:

cv   100
x
Como sabemos que las medidas de centralización son más representativas cuanto más
concentrada estén, vamos a establecer las siguientes condiciones:
 Menos de 30% ALTA concentración, y por lo tanto la media es altamente representativa.
 Entre 30% y 45% MEDIA concentración, y por lo tanto la media es medianamente

representativa.
 Mayor de un 45% BAJA concentración, y por lo tanto la media es poco o muy poco
representativa.
El inconveniente que tiene C.V. es que deja de ser útil cuando la media es igual a 0.
Pg. nº 18/26
EJERCICIOS RESUELTOS
1. La estación meteorológica del Roque de los Muchachos registró 88 días de lluvia el pasado año, según
muestra la tabla siguiente:
Litros/m2 [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35)
Nº de días 3 7 19 23 18 12 6
Calcula la precipitación media durante los días de lluvia.
Litros/m2
Xi fi Fi
Xifi x
x f i i
; x
1630
 18,523
[0, 5) 2,5 3 3 7,5 N 88
[5, 10) 7,5 7 10 52,5
[10, 15) 12,5 19 29 237,5
[15, 20) 17,5 23 52 402,5 Por tanto, el año pasado la precipitación media
durante los días de lluvia fue de 18,523 l/m 2.
[20, 25) 22,5 18 70 405
[25, 30) 27,5 12 82 330
[30, 35) 32,5 6 88 195
Σ 88 1630
2. La calificación media que han obtenido los alumnos de Ingeniería Técnica Agrícola de cierta Universidad, en
la asignatura de Estadística durante los cuatro últimos cursos han sido: 5,8; 6,3; 6,7 y 7,2, respectivamente.
En el primero de estos cursos se examinaron 180 alumnos, en el segundo 200, en el tercero 275 y en el cuarto
220. ¿Cuál es la calificación media de estos cursos en dicha asignatura?
Nota media N" de alumnos xifi

Xi fi
5,8 180 1 044
6,3 200 1 260
6,7 275 1 842,5
7,2 220 1 584
Σ 875 5 730,5
Calcularemos la media aritmética ponderada, en la que el número de alumnos son los pesos
correspondientes a las calificaciones medias de cada año.
x
xfi i 5730,5
x  6,55
f i
;
875
3. Calcula la moda y la mediana correspondiente a la variable litros/m 2 durante los días de lluvia en la estación
meteorológica del Roque de los Muchachos, según la distribución citada en el ejercicio 1.
La moda
El mayor valor de la frecuencia, 23, corresponde al intervalo [15, 20) que recibe el nombre de intervalo modal.
En una primera aproximación se puede tomar la moda como la marca de clase, es decir, Mo=17,5.
Para obtener una mayor precisión utilizamos la fórmula:

D 23  19
M o  Li  c ; M o  15  5  17,22
D  D (23  19)  (23  18)
El dato que más se repite es de 17,22 litros/m 2
La mediana
El intervalo mediano es [15, 20), ya que contiene el dato 88/2=44.
Pg. nº 19/26
N 88
 Fi 1  29
M e  Li  c 2 ; M e  15  5 2  18,26
fi 23
El 50% de los días de lluvia se recogieron más de 18,26 Litros/m 2 y el otro 50% de los días por debajo.
4. Dadas las siguientes distribuciones:

x1  510 kg y una  1  25 kg
Los pesos de los toros de lidia de una ganadería se distribuyen con una
Los pesos de los perros de una exposición canina se distribuyen con una x 2  19 kg y una  2  10 kg.
Determinar cuál de las dos distribuciones está más dispersa.
La desviación típica de los pesos de la manada de los toros bravos es superior que la de los perros. Sin embargo, esos 25 kg son poca cosa para
el enorme peso de los toros (es decir, los toros de esa manada son muy parecidos en peso), mientras que 10 kg en relación con el peso del perro
es mucho (imaginamos que en la exposición canina habrá perros muy dispares: caniches, "salchichas", dogos, mastines...
Comparando los coeficientes de variación:
CVtoros=(25/510)100=4,9% CVperros=(10/19)100=52,6%.
Con estos parámetros se ve claramente que el peso de los perros de la exposición canina es mucho más disperso
que el de los toros de la manada.
5. Una empresa debe cubrir un cierto número de puestos de trabajo de dos tipos A, y B. Se somete a los
aspirantes a dos pruebas, ambas puntuables de 0 a 50, diseñadas para valorar sus aptitudes en uno y otro
tipo de trabajo. En la Prueba A, la media de calificaciones ha sido x A  28 , y la desviación típica  A  3,4 .
En la B han sido, respectivamente, x B  24 y  B  2,1 . Dígase: ¿Qué tipo de puesto de trabajo asignaríamos
a un aspirante que hubiera obtenido 33 puntos en la prueba A y 28 en la B?
En ambos casos se halla por encima de la media. Su puntuación es más alta en la prueba A (33 frente a 28), así
como su desviación respecto de la media (+5 frente a +4). No obstante, valorar igual los puntos obtenidos en ambas
pruebas puede ser un error de apreciación".
En efecto: Las desviaciones típicas indican que los resultados de la prueba B se hallan más agrupados que los de la
A. En esas condiciones, "cuatro puntos sobre la media" en la prueba B puede indicar mayor aptitud para el trabajo B,
frente a los demás aspirantes, de lo que indican "cinco puntos sobre la media" en la prueba para el trabajo A.
Saldremos de dudas calculando e interpretando las puntuaciones típicas del aspirante en ambas pruebas. Son
33  28 28  24
ZA   1,471 ZB   1,905
3,4 2,1
Esto significa que su calificación en la prueba A se halla "1,471 desviaciones" sobre la medía y, en la prueba B,
"1,905 desviaciones” sobre la media.
Por tanto, está más cualificado para ocupar un puesto de trabajo tipo B que un puesto tipo A, si lo comparamos
con el resto de los aspirantes.
Pg. nº 20/26
ESTADÍSTICA DESCRIPTIVA III
Distribuciones Bidimensionales.
1.- Variables Estadísticas Bidimensionales.
Las variables estadísticas bidimensionales se representan por el par (X, Y) donde, X es
una variable unidimensional, e Y es otra variable unidimensional. Y por lo tanto la variable
estadística bidimensional (X, Y) toma los valores (X1,Y1), (X2, Y2), …. (Xn, Yn).
Si representamos estos pares de valores en un sistema de ejes cartesianos, se obtiene un

conjunto de puntos sobre un plano al que se llama diagrama de dispersión o nube de puntos.
Ejemplo.
Tablas bidimensionales de frecuencias.

Existen dos tipos de tablas:
Tablas simples conjunta en la que cada una de las variables y su correspondiente

frecuencia, se disponen en columnas del siguiente modo:
X Y fi
(matemáticas) (física) (nº de alumnos)
3 2 4
4 5 6
5 5 12
6 6 4
6 7 5
7 6 4
7 7 2
8 9 1
10 10 2
Pg. nº 21/26
Tablas de doble entrada en las que se dispone la variable X en fila, en la parte superior, y la
variable Y en columna a la izquierda. Posterior mente se añaden las frecuencias en el cuerpo de
la tabla. Todo ello de la siguiente forma:
X
Y 3 4 5 6 7 8 10
2 4
5 6 12
6 4 4
7 5 2
9 1
10 2
Como se puede observar, las tablas simples se pueden transformar en tablas de doble entrada, y
viceversa. Esto es importante saberlo hacer, porque en los cálculos posteriores necesitaremos
ambas formas de tablas.
Antes de continuar aprenderemos a sacar lo que se denomina “distribuciones marginales” de

X e Y. Su cálculo es muy sencillo, partiendo de la tabla de doble entrada se añade una fila y una
columna y se va sumando el cuerpo principal de la tabla por filas y columnas. La nueva columna
es la distribución marginal de Y, y la nueva fila es la distribución marginal de X.
X
Y 3 4 5 6 7 8 10 ∑ fy
2 4 4
5 6 12 18
6 4 4 8
7 5 2 7
9 1 1
10 2 2
∑ fx 4 6 12 9 6 1 2 40
Distribución marginal de X Distribución marginal de Y
X fi Y fi
3 4 2 4
4 6 5 18
5 12 6 8
6 9 7 7
7 6 9 1
8 1 10 2
10 2 40
40
Pg. nº 22/26
Cálculo de parámetros
Tanto con la variable X, como con la variable Y, se pueden realizar todos los cálculos, las
representaciones gráficas y sacar las conclusiones que hemos visto en los dos temas anteriores.
Hay que tener en cuenta, que muchas veces es importante estudiar cada una de las variables de
forma independiente, para conocer su comportamiento individual y luego poder interpretar mejor
el comportamiento conjunto.
El primer parámetro conjunto que vamos a ver es la covarianza, que viene a ser la varianza
conjunta de las variables X e Y. La vamos a definir como la media aritmética de los productos de
las desviaciones de cada una de las variables respecto a sus medias respectivas.
La covarianza viene representada por σxy ó Sxy, y su cálculo lo realizaremos mediante la formula:
 xy 
 xy f i i i
xy 
N
Más adelante veremos el significado de la varianza, así como su interpretación según su signo.
Para su cálculo matemático es preciso partir de la tabla simple conjunta, confeccionando todas las
columnas necesarias, como a continuación se muestra:
Sí en el estudio estadístico no se nos exige el cálculo de modas, medianas, percentíles, etc., todos
los datos y los parámetros que necesitamos (medias, varianzas y desviaciones típicas) lo podemos
obtener de la tabla anterior. Pero si no es el caso, debemos calcular las distribuciones marginales
y operar con ellas.
Concepto de correlación
Se llama correlación a la teoría que trata de estudiar “la relación o dependencia” que existe entre
las dos variables que intervienen en una distribución bidimensional.
Pg. nº 23/26
La correlación es lineal o curvilínea según el diagrama de dispersión se concentre en torno a
una línea recta o curva.
La correlación es positiva o directa cuando a medida que crece una variable la otra también
crece, o viceversa.
La correlación es negativa o inversa cuando a medida que crece una variable la otra decrece,
o viceversa.
La correlación es nula cuando no existe ninguna relación entre ambas variables, y se dice que
están incorrelacionadas.
La correlación es de tipo funcional si existe una función que satisface todos los valores de la
distribución.
A continuación representamos todas las posibilidades:
Pg. nº 24/26
Coeficiente de correlación lineal
Una vez observado, mediante un diagrama de dispersión, que existe una correlación entre las
variables hay que demostrarlo de forma más precisa y objetiva.
Nosotros sólo vamos a estudiar la correlación de tipo lineal. Y el procedimiento más frecuente es
el coeficiente de correlación de Pearson, que se define mediante la siguiente expresión:
 xy
r
 x · y
El signo de r viene dado por el signo de la covarianza, ya que las desviaciones típicas son siempre
positivas. Así pues, el signo de la covarianza nos indica el comportamiento de la correlación:
Si la covarianza es positiva la correlación es directa.
Si la covarianza es negativa la correlación es inversa.
Si la covarianza es nula existe incorrelación.
Está demostrado que el coeficiente de correlación lineal de Pearson es un número real

comprendido entre -1 y + 1. Veamos a continuación el tipo de dependencia entre las variables X
e Y según el valor de r:
Si r = +1 o r = - 1, todos los valores están sobre la recta y en consecuencia se dice que

existe una dependencia funcional directa o inversa, respectivamente.
Si -1 < r < 0, la correlación es negativa y será tanto más fuerte cuanto más se aproxime
a -1. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos a
considerar que las variables están altamente relacionadas a partir del -0,80.
Si r = 0 las variables están incorrelacionadas y por lo son aleatoriamente independientes.
Si 0 < r < +1, la correlación es positiva y será tanto más fuerte cuanto más se aproxime
a +1. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos
a considerar que las variables están altamente relacionadas a partir del +0,80.
Pg. nº 25/26
Estudio analítico de la regresión lineal
Si entre dos variables existe una fuerte correlación, el diagrama de dispersión se concentrará en
torno a una recta. Entonces el problema consiste en encontrar la ecuación de la recta que mejor
se ajuste a la nube de puntos.
Existen varios métodos, siendo el más utilizado el denominado mínimos cuadrados. Consiste en
hacer mínima la suma de los cuadrados de la diferencia entre los valores observados
experimentalmente y los teóricos que se obtengan de la recta.
De la aplicación de este método se deduce que:
 La recta de regresión de y sobre x es
 xy
y y  (x  x )
 x2
 La recta de regresión de x sobre y es
 xy
xx  (y  y)
 y2
Una vez obtenidas las rectas de regresión, o solo una de ellas según haga falta para el estudio,
seguiremos operando hasta lograr una expresión del tipo:
y  ax  b
O
x  ay  b
Estas rectas nos permiten predecir el comportamiento de las variables y con ello podemos sacar
conclusiones respecto al futuro. Es conveniente representarlas sobre el diagrama de dispersión
para comprobar la bondad del ajuste y que no hemos cometido algún error.
No hay que olvidar dos cosas:
Sólo realizaremos el estudio de regresión si existe una alta relación entre las variables, que
nosotros hemos establecido en a partir del + 0’80.
No se puede extrapolar a lo loco y fuera de los límites estudiados, pues nada nos garantiza que la
serie estadística se siga comportando igual más allá del campo estudiado.
Pg. nº 26/26

Estadistica Descriptiva

Cargado por

Copyright:

Formatos disponibles

Estadistica Descriptiva

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Descriptiva

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA DESCRIPTIVA I

1.- DISTRIBUCIONES UNIDIMENSIONALES.

La estadística se puede dividir en dos partes:

 Estadística descriptiva o deductiva.

La estadística inferencial o inductiva plantea y resuelve el problema de establecer previsiones y

Un individuo es cada uno de los elementos de la población.

La frecuencia absoluta acumulada ( Fi ) de un valor es la suma de todas las frecuencias absolutas

La frecuencia relativa acumulada ( H i ) de un valor es la suma de todas las frecuencias relativas de

Propiedades de la frecuencia relativa:

A continuación vamos a estudiar el tratamiento de la información, es decir, cómo debemos proceder

Los pasos a seguir son:

1. Recogida de datos. Consiste en la toma de datos numéricos procedente de la muestra.

4. Recuento de frecuencia. Efectuaremos el recuento de los datos obtenidos.

5. Construcción de la tabla. Calcularemos las frecuencias absolutas, relativas, acumuladas,

0 // 2 2 2/30 2/30 2/30*100 2/30*100

Veamos a continuación con un ejemplo en qué consiste.

Para construir el diagrama de tallos y hojas, procedemos del siguiente modo:

Así se obtiene una figura como esta.

Al final obtenemos el diagrama.

 Podemos sacar muchas conclusiones a la vista del diagrama:

o Hay dos alumnos con puntuaciones entre 30 y 39, y así sucesivamente.

3.- GRÁFICOS ESTADÍSTICOS

Los histogramas se utilizan para distribuciones de variables agrupadas en intervalos. Se construyen

Como se observa, también se puede construir el polígono de frecuencia.

Diagramas lineales o series temporales

El gráfico se obtiene representando en la ordenada el grupo de edad, y en la abscisa el sexo. Para la

Ejemplos de distintos tipos de gráficos.

Estadística: Estadística descriptiva. Estadística inferencial.

Variables o carácter estadístico.

Diagrama de tallos y hojas

Para variables cuantitativas continuas.

Se ha pasado un test de 80 preguntas a 600 personas. El de respuestas correctas se refleja en la siguiente

En la búsqueda de la concreción y la simplificación, la información recogida en una tabla o gráfica

Para datos sin frecuencias

Para datos con frecuencias

Consideraciones sobre la media aritmética.

 La media aritmética es el parámetro de centralización más utilizado.

Si se desea mayor precisión en el cálculo de la moda, ésta puede obtenerse mediante la

Li= Límite inferior del intervalo.

Consideraciones sobre la moda.

Consideraciones sobre la mediana.

 La mediana es particularmente útil en los siguientes casos:

Análogamente, se llaman deciles a nueve valores de la variable que dividen a la distribución en

Cálculo gráfico de los cuantiles

Los parámetros de dispersión más usuales son:

Las expresiones equivalentes que permiten calcular la varianza son:

Se denomina desviación típica de una variable estadística a la raíz cuadrada positiva de la

Consideraciones sobre la desviación típica

 La desviación típica es el parámetro de dispersión más utilizado.

En toda distribución estadística, el estudio del comportamiento conjunto de la media aritmética y

En casi todas las distribuciones estadísticas de comportamiento normal se verifican de forma

Para una distribución estadística de comportamiento normal, se cumple:

En ( x -σ x +σ) está el 68% del total de individuos.

Coeficiente de variación de Pearson

Para ello utilizaremos el coeficiente de variación de Pearson:

 Menos de 30% ALTA concentración, y por lo tanto la media es altamente representativa.

 Entre 30% y 45% MEDIA concentración, y por lo tanto la media es medianamente

Nota media N" de alumnos xifi

Para obtener una mayor precisión utilizamos la fórmula:

0 // 2 2 2/30 2/30 2/30100 2/30100