Unidad 2 Estadistica Udima
Unidad 2 Estadistica Udima
Unidad 2 Estadistica Udima
UNIDAD
DIDCTICA
MEDIDAS CARACTERSTICAS
DE UNA DISTRIBUCIN DE
FRECUENCIAS
OBJETIVOS DE LA UNIDAD
1. Introduccin
2. Medidas de posicin
2.1. Media aritmtica
2.1.1. Propiedades de la media
2.2. Mediana
2.2.1. Mediana para variables discretas
2.2.2. Mediana para variables continuas
2.2.3. Propiedad importante de la mediana
2.3. Comparacin entre media y mediana
2.4. Moda
3. Medidas de dispersin
3.1. Varianza y desviacin tpica
3.1.1. Propiedades de la varianza
3.2. Cuantiles
3.2.1. Cuartiles
3.2.2. Percentiles
3.3. Relacin entre caractersticas de tendencia central y de dispersin. Valores atpicos
4. Medidas de forma
4.1. Momentos
4.1.1. Momento de orden r centrado en el origen
4.1.2. Momento de orden r centrado en la media
4.2. Medidas de asimetra
4.3. Medidas de apuntamiento o curtosis
www.udima.es
2 1
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
5. Medidas de relacin
5.1. Momentos de una variable estadstica bidimensional
5.1.1. Momento de orden (r, h) centrado en el origen
5.1.2. Momento de orden (r, h) centrado en la media
5.2. Covarianza y coeficiente de correlacin lineal
6. Representaciones grficas. Diagrama de caja
7. Transformaciones de datos
7.1. Transformaciones de datos con asimetra positiva
7.2. Transformaciones de datos con asimetra negativa
CONCEPTOS BSICOS A RETENER
ACTIVIDADES DE REPASO
EJERCICIOS VOLUNTARIOS
REFERENCIAS BIBLIOGRFICAS
2 2
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
OBJETIVOS DE LA UNIDAD
En esta Unidad didctica se contina con el propsito general de extraer y sintetizar toda la informacin contenida en un conjunto de datos con el fin de describir sus caractersticas ms relevantes.
Ahora se buscan cantidades que resuman alguna caracterstica de los datos en un solo nmero, por eso
se llaman medidas caractersticas. Los objetivos de esta Unidad didctica son:
Describir una distribucin mediante sus medidas numricas sintetizadoras e interpretarlas.
Saber construir e interpretar un diagrama de caja, detectando datos atpicos.
Regularizar una distribucin mediante transformaciones.
www.udima.es
2 3
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
1. INTRODUCCIN
Cuando se tiene un conjunto de datos homogneo de una variable cuantitativa es conveniente
completar la informacin proporcionada por las tablas de frecuencias y los grficos con ciertas medidas resumen. Ya en las representaciones grficas pueden verse cules son los valores que concentran
mayor frecuencia y cmo se dispersan o colocan el resto de valores respecto de ellos. Esto origina un
tipo de informacin especfica recogida en estas medidas resumen. Estas medidas caractersticas pueden ser:
Medidas de posicin o tendencia central.
Medidas de dispersin.
Medidas o caractersticas de forma.
Medidas de relacin.
2. MEDIDAS DE POSICIN
Tambin se denominan medidas de tendencia central y tienen como objetivo indicar el valor alrededor del cual tienden a concentrarse los datos. Alrededor del valor indicado por la medida de centralizacin, los datos pueden disponerse de mltiples formas.
x=
i =1
En el caso de que la variable sea discreta y existan valores repetidos, la media puede calcularse sumando cada valor observado por su frecuencia relativa de aparicin. Si se denota por x1, x2,..., xk cada
uno de los valores distintos de la variable X , n1, n2,..., nk el nmero de veces que se ha observado cada
uno de estos valores y f1,, fk la frecuencia relativa de aparicin, la media se puede calcular como:
k
x=
i =1
x n
i i
xi f i =
i =1
Si los datos estn agrupados en clases, la media se calcula suponiendo que todos los datos que
aparecen en una clase son idnticos al centro de la clase, es decir, a la marca de clase xi. Si la frecuencia relativa de esa clase es fi, la media se define como:
2 4
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
xn
i =1
x = xi f i =
i =1
EJEMPLO 1
Se da la siguiente tabla de frecuencias para una variable X continua agrupada en cinco intervalos o clases.
Tabla 1
Clase
Marca
de clase
Frecuencia
absoluta ni
[20, 25)
22,5
39
0,3
0,3
[25, 30)
27,5
52
0,4
0,7
[30, 35)
32,5
26
0,2
0,9
[35, 40)
37,5
0,046
0,946
[40, 45)
42,5
0,054
Total
130
Frecuencia
relativa fi
Fi
22 ,5 39 + 27 ,5 52 + 32 ,5 26 + 37 ,5 6 + 42 ,5 7
= 28 ,27
130
La media puede interpretarse como el centro de gravedad de los datos. Supngase que un histograma fuese un objeto con masa. Entonces, la media aritmtica estar localizada en aquel punto del eje X que deja al
histograma en equilibrio (figura 1).
Figura 1. La media como centro de gravedad de los datos
Distribucin simtrica
Media
www.udima.es
2 5
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
(x
i =1
x)
f (x x) = 0
=0 y
i =1
Por tanto, la media acta como centro de gravedad de los datos, como ya se ha dicho.
La media es el mnimo de la funcin:
g (a) =
f ( x a)
i
i =1
aX + b = aX + b
2.2. MEDIANA
La mediana de un conjunto de observaciones es el valor tal que, cuando las observaciones estn
ordenadas de menor a mayor, deja a ambos lados el mismo nmero de datos. Es aquel valor que divide
en dos partes iguales la distribucin de frecuencias.
Para datos sin agrupar, una vez que estn ordenados, la mediana es el dato central si el nmero de
datos es impar. Es el dato que ocupa la posicin:
n +1
2
Si el nmero de datos es par, la mediana es la media de los dos valores que ocupan la posicin
central, es decir, la media de los valores que ocupan las posiciones:
n
n
y
+1
2
2
EJEMPLO 2
Se tienen los datos ordenados x1 , x2 , x3 , x4 , x5 . La mediana es el dato x 3 que ocupa la posicin central. Si se
tienen los datos x1 , x2 , x3 , x4 , la mediana ser:
x2 + x3
2
2 6
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
/
De forma ms general se puede decir que, en funcin del polgono de frecuencias relativas acumuladas, la
mediana es la solucin de la ecuacin:
F ( x) =
1
2
EJEMPLO 3
Sea X = Nmero de piezas defectuosas en un circuito. La tabla 2 recoge el nmero de circuitos con un determinado nmero de piezas defectuosas para un total de 100 circuitos.
Tabla 2
X
ni
Ni
0,02
11
0,11
14
25
0,25
20
45
0,45
18
63
0,63
15
78
0,78
87
0,87
93
0,93
97
0,97
10
99
0,99
11
100
Total
Fi
100
Se toma como mediana aquel xi cuya frecuencia absoluta acumulada sea igual o inmediatamente superior
a
n
. En este caso, M e = 5 .
2
www.udima.es
2 7
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
F ( x) =
1
2
tiene una nica solucin que, en general, aparece entre dos extremos de clase. La clase i, con extremos
Li y Li +1 , se llama clase mediana (o intervalo mediano) si:
F ( Li ) <
1
< F ( Li +1 )
2
Para determinar la mediana hay que interpolar linealmente en el polgono de frecuencias relativas
acumuladas en la clase o intervalo mediano. Por tanto, la clase mediana ser aqulla con frecuencia
acumulada igual o inmediatamente superior a:
n
2
Siendo:
N i = La frecuencia absoluta acumulada del intervalo anterior al mediano.
Se tiene:
n
Ni
M e = Li + 2
Ci +1
ni +1
EJEMPLO 4
Se supone la distribucin de salarios en euros del personal de una determinada factora dada en la tabla 3.
Tabla 3
Clase
ni
Ni
[0, 750)
6000
6000
0,48
[750, 1000)
3500
9500
0,76
[1000, 1250)
2800
12300
Total
12300
Fi
2 8
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
/
Como el tamao de la muestra es:
n
= 6150
2
n = 12300 ,
Por lo que el intervalo mediano es [750, 1000). Interpolando en el polgono de frecuencias relativas acumuladas o, de forma equivalente, usando la frmula anterior, se obtiene M e = 760 ,71.
La mediana es una medida robusta frente a valores atpicos y es idnea para tratar la informacin de un
conjunto de datos ordinales.
g (a) =
| xi a |
i =1
2.4. MODA
La moda ( ) es el valor que tiene frecuencia mxima en el conjunto de datos (es el ms repetido, el ms frecuente). Este concepto de valor ms repetido slo tendr sentido en un contexto discreto.
En un contexto continuo, con datos agrupados en intervalos o clases, se hablar de intervalo o clase
modal y de marca modal.
www.udima.es
2 9
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
EJEMPLO 5
La moda de los datos 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 es 9.
La moda del conjunto de datos 2, 5, 7, 9, 10, 11, 12 no existe.
Las modas de los datos 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 son 4 y 7.
Si se representa la distribucin de frecuencias mediante un diagrama de barras o un histograma, la moda
se identifica con el mximo de una funcin. La figura 2 muestra el histograma para la variable X = Peso
de una muestra de 93 coches. La clase modal es la de altura mxima, la [2500, 3000). En la tabla de frecuencias del ejemplo 1, el intervalo o clase modal es [25, 30), con una frecuencia absoluta mxima de 52. En la
tabla del ejemplo 3, el valor ms repetido o moda es el 4, con una frecuencia absoluta mxima de 20. A veces la moda no se identifica con un mximo global sino con uno local. De este modo se habla de distribuciones multimodales. Por ejemplo, en el histograma de la figura 2 tambin puede hablarse de dos concentraciones, la ya mencionada y la del intervalo [3500, 4000). En este caso se hablar de distribucin bimodal.
La multimodalidad puede deberse a la composicin de poblaciones o a valores atpicos. De ahora en adelante se considerarn solamente distribuciones o poblaciones unimodales.
Figura 2. Histograma bimodal
3. MEDIDAS DE DISPERSIN
La dispersin media de los datos respecto de una medida de tendencia central define las caractersticas de dispersin. Esta clase de caractersticas est relacionada con el concepto de distancia, que
ha aparecido en las propiedades de media y mediana. Dependiendo de la distancia que se utilice, se
tienen diferentes medidas de dispersin.
Las medidas de tendencia central ya vistas no proporcionan ninguna idea de la variabilidad de las
observaciones en el conjunto. Por ejemplo, si se tienen los siguientes conjuntos de cuatro datos:
0, 25, 75, 100
En ambos casos, x = M e = 50 y, sin embargo, los dos conjuntos de datos son muy distintos, pues
en el primer caso, las observaciones estn mucho ms dispersas (espaciadas) que en el segundo. Las
medidas de dispersin van a mostrar cmo se separan, en promedio, los datos respecto de sus valores
centrales.
2 10
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
(x x)
2 =
i =1
Para datos distintos x1,..., xk con frecuencias relativas f1,..., fk, se tiene:
k
2 = f i ( xi x ) 2
i =1
2 = f i ( xi x ) 2
i =1
La unidad de medida de la varianza es la de la media al cuadrado. Por ello, suele utilizarse la raz
cuadrada positiva de la varianza que se conoce con el nombre de desviacin tpica:
n
(x
x)2
i =1
La desviacin tpica sigue siendo una medida con dimensin que, por tanto, no servir cuando se
quiera comparar distribuciones o conjuntos de datos en funcin de su dispersin. Para ello se define el
coeficiente de variacin:
CV =
EJEMPLO 6
Se recoge la variable X = Precio en una muestra de zumos en un supermercado. Se obtiene un precio medio
de 0,25 euros, con una desviacin tpica de 0,01 euros. Por otro lado, en una muestra de pisos en venta, el
precio medio resulta ser 300.000 euros, con una desviacin tpica de 6.000 euros. Cul de las dos variables
est ms dispersa, el precio de los zumos o el de los pisos?
El coeficiente de variacin para el precio de los zumos es 0,04 y para el precio de los pisos 0,02. Por lo tanto, el precio de los pisos est menos disperso.
www.udima.es
2 11
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
3.2. CUANTILES
Son medidas de dispersin basadas en el orden. Los cuantiles dividen la serie ordenada de datos
en partes iguales: la mediana en dos partes iguales, los cuartiles en cuatro partes iguales, los deciles en
diez partes iguales y los percentiles en cien partes iguales. El percentil es el concepto ms amplio,
pues ofrece la particin ms fina de la serie ordenada.
3.2.1. Cuartiles
Son tres valores Q1, Q2 y Q3, que dividen la serie ordenada de datos en cuatro partes iguales. A la
izquierda de Q1 queda el 25% de las observaciones, a la izquierda de Q2 el 50%, por tanto Q2 = M e , y
a la izquierda de Q3 queda el 75% de las observaciones.
Si se tienen datos explcitos x1 , x2 ,, xn y x(1) x( 2) x( n ) representa la serie ordenada de menor a mayor, el cuartil de orden i, i = 1, 2, 3 se representa por Qi y es el valor:
x( j )
Qi =
x( j ) + x( j +1)
si
si
i (n + 1)
4
i (n + 1)
j<
< j +1
4
j=
i
F ( x) = , i = 1, 2, 3
4
A la diferencia Q3 Q1 se la denomina rango intercuartlico. Constituye una medida de dispersin parecida a la desviacin tpica pero en el contexto de la serie de datos ordenada.
3.2.2. Percentiles
Son 99 valores que dividen la serie ordenada de datos en 100 partes iguales.
Si se tienen datos explcitos x1 , x2 ,, xn y x(1) x( 2) x( n ) representa la serie ordenada de menor a mayor, el percentil de orden i, i = 1,, 99 se representa por Pi y es el valor:
2 12
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
x( j )
Pi =
x( j ) + x( j +1)
si
si
i (n + 1)
100
i (n + 1)
< j +1
j<
100
j=
F ( x) =
i
, i = 1,, 99
100
Cuando se tienen datos implcitos, agrupados en intervalos, se debe utilizar el polgono de frecuencias acumuladas para encontrar el cuantil deseado, interpolando en el intervalo correspondiente
[ Li , Li +1 ). Esto es equivalente a usar la siguiente frmula:
n
Ni
C r = Li + k
Ci +1
n
i
+
1
k
r
Siendo r el orden del cuantil y k las partes distintas en que dicho cuantil divide la distribucin.
As, en los cuartiles, k = 4 y r = 1, 2, 3. En los deciles, k = 10 y r = 1,, 9. En los percentiles, k = 100
y r = 1,99. Si [ Li , Li +1 ) es el intervalo en el que la frecuencia acumulada contiene el valor:
n
k
C 1 = M e = Q2 = D5 = P50
2
C 1 = Q1 = P25
4
C 3 = Q3 = P75
4
EJEMPLO 7
Se tiene la siguiente tabla de distribucin de salarios (en miles de euros) para los empleados de una empresa. Se pide calcular el salario medio, mediana, moda, Q1 , Q3 , D4 y P88 .
/
www.udima.es
2 13
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
/
Se tienen datos implcitos agrupados en intervalos. La media se calcula como:
x=
Clase
Marca
ni
Ni
Fi
[20, 25)
22,5
100
100
0,149
[25, 30)
27,5
150
250
0,373
[30, 35)
32,5
200
450
0,671
[35, 40)
37,5
180
630
0,939
[40, 45)
42,5
41
671
Total
671
El salario medio es 31.844,26 euros. El intervalo mediano es [30, 35), ya que es el que tiene frecuencia relativa
acumulada inmediatamente superior a 0,5. Para calcular la mediana exactamente se interpola en el polgono
de frecuencias acumuladas que se muestra en la figura 3. Se obtiene M e = 32 ,13 , es decir, 32.130 euros.
Para calcular Q1 , se interpola en el intervalo o clase que contiene la frecuencia acumulada:
n 671
=
= 167 ,75
4
4
que es el [25, 30). Se obtiene Q1 = 27 ,25. Se puede usar tambin la frmula general de cuantiles, con r = 1 ,
n
671
=3
= 503 ,25
k
4
Se obtiene Q3 = 36 ,479 .
Figura 3. Polgono de frecuencias relativas acumuladas
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
20
25
30
35
40
45
/
2 14
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
/
Para calcular D4 , como:
n
671
=4
= 268 ,4
k
10
n
671
= 88
= 590 ,48
k
100
A partir de estas relaciones se establecen criterios para definir datos atpicos basados en la media
y en la desviacin tpica. Un valor atpico es una observacin que es numricamente distante del resto
de los datos. Los valores atpicos pueden ser indicativos de datos que pertenecen a una poblacin diferente del resto de la muestra:
Criterio relajado (basado en media y desviacin tpica). Se dir que un valor x de un
conjunto de datos es:
Un valor atpico por defecto si x < x 2 .
Un valor atpico por exceso si x > x + 2 .
Criterio fuerte (basado en media y desviacin tpica). Se dir que un valor x de un
conjunto de datos es:
www.udima.es
2 15
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
4. MEDIDAS DE FORMA
Estas medidas valoran de forma cuantitativa ciertos aspectos en la forma o perfil de la distribucin de frecuencias.
4.1. MOMENTOS
Los momentos son una generalizacin de la media
(momentos centrados respecto del origen) y de la varianza
(momentos centrados respecto de la media).
r
i
ar =
i =1
ar =
f
i =1
xir =
xir
i =1
Por ejemplo, a1 = x.
2 16
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
(x
x )r
mr =
i =1
m r = f i ( xi x ) r =
n (x
i =1
x)r
i =1
Se verifica que m1 = 0 y m2 = 2 . Adems, m2 = a2 a12 . Se llega as a una frmula ms cmoda para calcular la varianza cuando se tienen todos los datos:
n
2 =
x
i =1
2
i
nx 2
n
0,4
0,3
0,2
0,1
0
5
1 =
www.udima.es
m3
=
3
(x
i =1
x)3
n 3
2 17
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
m
2 = 44 3 =
(x
i =1
x)4
n 4
Leptocrtica
2 18
Mesocrtica
Platicrtica
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
5. MEDIDAS DE RELACIN
5.1. MOMENTOS DE UNA VARIABLE ESTADSTICA BIDIMENSIONAL
Se definen dos tipos de momentos asociados a la distribucin conjunta de dos variables estadsticas.
r h
i yi
arh =
i =1
Para datos tabulados, con modalidades o clases {x1 ,..., xk }, y1 ,..., y p y distribucin de
frecuencias relativas conjunta f ij i =1,...,k ; j =1,... p :
{ }
a rh = xir y hj f ij
i =1 j =1
mrh =
(x
i =1
x ) r ( yi y ) h
Para datos tabulados, con modalidades o clases {x1 ,..., xk }, y1 ,..., y p y distribucin de
frecuencias relativas conjunta f ij i =1,..., k ; j = 1,... p :
{ }
mrh =
( x
x ) r ( y j y ) h f ij
i =1 j =1
www.udima.es
2 19
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
Se verifica que m10 = m01 = 0. Se tiene la siguiente relacin entre momentos conjuntos y momentos marginales:
m20 = X2 = Varianza de X
m02 = Y2 = Varianza de Y
Cov( X , Y ) =
( xi x ) ( yi y )
i =1
x y
i i
i =1
Cov( X , Y )
X Y
2 20
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
www.udima.es
2 21
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
3 RI
3 RI
RI
1,5 RI
1,5 RI
Barrera interna
Q1 Q2
Barrera externa
X
Q3
En el diagrama de caja hay que fijarse en el rango intercuartlico, en el rango de los datos sin contar los datos atpicos, en la asimetra y en los datos atpicos.
Figura 7. Diagrama de caja
20
40
60
80
7. TRANSFORMACIONES DE DATOS
Muchas de la tcnicas estadsticas que se aplican en conjuntos de datos requieren que su distribucin sea unimodal y simtrica. Aunque esta restriccin pueda parecer muy severa, este tipo de distribuciones es frecuente con datos reales. En este epgrafe se vern algunos ejemplos de transformaciones sobre los datos originales que producen simetra.
2 22
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
400
300
200
100
0
0
10
12
150
120
90
60
30
0
1
0,5
0,5
1,5
x aplicada a la figura 8
300
250
200
150
100
50
0
0,1
www.udima.es
0,9
1,9
2,9
3,9
2 23
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
25
20
15
10
5
0
0,38
0,48
0,58
0,68
x2
0,78
0,88
0,98
30
25
20
15
10
5
0
0
2 24
0,3
0,6
0,9
1,2
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
ACTIVIDADES DE REPASO
Enunciado 1
Se recuerda la siguiente informacin del importe en euros de las ltimas 200 facturas emitidas por
una empresa, agrupadas en seis intervalos o clases de la misma longitud.
El primer intervalo tiene 75 como extremo superior, frecuencia relativa de 0,075 y una
amplitud de seis unidades.
Hasta el segundo intervalo se acumulan 41 facturas.
El tercer intervalo tiene frecuencia absoluta de 42 facturas, el cuarto, de 69, y el quinto, de 36.
Construir la tabla de distribucin de frecuencias y calcular la media, mediana, moda, coeficiente
de variacin y el percentil 74.
Enunciado 2
Se estudia la variable X = Desgaste (en milmetros) que sufren los neumticos en los coches de
Frmula 1 tras 10 sesiones de entrenamiento. Se obtienen los resultados de la siguiente tabla:
Tabla 5
Clase
ni
[0,5; 1,5)
[1,5; 2,5)
25
[2,5; 3,5)
13
[3,5; 4,5)
Total
51
2 25
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
Enunciado 3
Se ha medido el tiempo de procesamiento, en minutos, de un conjunto de 12 tareas similares, obtenindose:
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89; 2,41; 1,50
Obtener el tiempo medio de procesamiento, el coeficiente de asimetra y el de curtosis y comentarlos.
Enunciado 4
Comentar el siguiente diagrama de caja. Se representan las unidades vendidas mensualmente por
una factora en los ltimos 12 aos y medio. La media se representa por el signo +.
Figura 13. Diagrama de caja
190
210
230
250
270
Enunciado 5
En un curso para aumentar la rapidez de lectura se tiene informacin de la variable X = Nmero
de semanas en el curso e Y = Ganancia en rapidez de lectura medida en palabras por minuto. Calcular
el coeficiente de correlacin y comentarlo.
Tabla 6
2 26
86
118
49
193
164
232
73
109
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
EJERCICIOS VOLUNTARIOS
Tras el estudio de esta Unidad didctica, el estudiante puede hacer, por su cuenta, una serie de
ejercicios voluntarios, como los siguientes:
1. Buscad en la bibliografa informacin sobre el significado y la importancia de la propiedad de la mediana mencionada en el texto.
2. En 87 familias se tiene informacin sobre las variables X = Ingresos mensuales e Y = Gasto
mensual en ocio, en euros.
Tabla 7
X|Y
[0, 150)
[150, 300)
[300, 450]
[600, 1000)
[1000, 1500)
[1500, 2000)
25
[2000, 2500)
[2500, 3000]
20
www.udima.es
2 27
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
ESTADSTICA
37
60
57
33
54
29
51
48
25
45
42
21
14
17
20
23
26
29
32
42
45
48
51
54
47
60
REFERENCIAS BIBLIOGRFICAS
Bsica
2 28
www.udima.es
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".
A. Moreno-Daz
En la red
Avanzada
MONTGOMERY, D.C. y RUNGER, G.C.: Applied Statistics and Probability for Engineers, 3. ed.. New York: John Wiley
and Sons, 2003.
TUKEY, J.W.: Exploratory Data Analysis, Addisson Wesley, 1977.
www.udima.es
2 29
"Todos los derechos reservados. Cualquier forma de reproduccin, distribucin, comunicacin pblica o transformacin de esta Unidad slo puede ser realizada con la autorizacin de la Universidad a Distancia
de Madrid, UDIMA, salvo excepcin prevista por la ley. Dirjase a CEDRO (Centro Espaol de Derechos Reprogrficos, www.cedro.org) si necesita fotocopiar o escanear algn fragmento de esta Unidad".