Qué Es La Varianza
Qué Es La Varianza
Se conoce como varianza a la raíz cuadrada que se desprende de una desviación estándar, la cual
permite que las industrias de manufactura puedan trabajar con precisión en su producción y
reduzcan su índice de errores.
La varianza toma los datos dispersos de la media y, luego de medirlos, le da valor a las variaciones
y desviaciones. Además, permite contabilizar y prevenir posibles errores.
De esta manera, se identifica el valor por medio de una raíz cuadrada que permite saber cuán
dificultoso es el margen de errores y, asimismo, realizar un plan específico y exitoso.
Ejemplo de varianza
Para entender mejor este concepto, proponemos el ejemplo de una empresa que quiere calcular
la varianza de las toneladas de alimento que ha vendido en los últimos 6 meses:
Mes Cantidad vendida
Enero 18
Febrero 20
Marzo 20
Abril 22
Mayo 20
Junio 20
El primer paso para calcular la varianza consiste en calcular la media aritmética (el promedio). Esta
se obtiene teniendo en cuenta que la cantidad de valores a analizar son 6 (los últimos 6 meses):
Una vez obtenida la media aritmética, en este caso 20, procedemos a calcular la varianza,
utilizando la fórmula antes mencionada:
https://www.ina-pidte.ac.cr/mod/book/view.php?id=13057&chapterid=563#:~:text=La
%20varianza%20y%20la%20desviaci%C3%B3n,a%20las%20medidas%20de%20posici
%C3%B3n.&text=La%20desviaci%C3%B3n%20est%C3%A1ndar%20es%20simplemente%20la%20ra
%C3%ADz%20cuadrada%20positiva%20de%20la%20varianza.
Varianza
La varianza mide qué tan dispersos están los datos alrededor de su media. La varianza es igual a la
desviación estándar elevada al cuadrado.
Interpretación
Puesto que la varianza (σ2) es una cantidad elevada al cuadrado, sus unidades también están
elevadas al cuadrado, lo que puede dificultar el uso de la varianza en la práctica. La desviación
estándar generalmente es más fácil de interpretar porque utiliza las mismas unidades que los
datos. Por ejemplo, una muestra del tiempo de espera en una parada de autobuses puede tener
una media de 15 minutos y una varianza de 9 minutos 2. Debido a que la varianza no está en las
mismas unidades que los datos, la varianza suele mostrarse con su raíz cuadrada, la desviación
estándar. Una varianza de 9 minutos2 es equivalente a una desviación estándar de 3 minutos.
CoefVar
El coeficiente de variación (denotado como COV) es una medida de dispersión que describe la
variación en los datos en relación con la media. El coeficiente de variación se ajusta de manera que
los valores estén en una escala sin unidades. Gracias a este ajuste, usted puede utilizar el
coeficiente de variación en lugar de la desviación estándar para comparar la variación de los datos
que tienen unidades diferentes o medias muy diferentes.
Interpretación
Mientras mayor sea el coeficiente de variación, mayor será la dispersión en los datos.
Por ejemplo, usted es el inspector de control de calidad de una planta embotelladora de leche que
embotella el producto en recipientes pequeños y grandes. Usted toma una muestra de cada
producto y observa que el volumen medio de los recipientes pequeños es de una 1 taza, con una
desviación estándar de 0.08 tazas, y el volumen medio de los recipientes grandes es de 1 galón (16
tazas) con una desviación estándar de 0.4 tazas. Aunque la desviación estándar del recipiente de
un galón es cinco veces mayor que la desviación estándar del recipiente pequeño, los coeficientes
de variación apoyan una conclusión diferente.
Recipiente grande Recipiente pequeño
COV = 100 * 0.4 tazas / 16 tazas = 2.5 COV = 100 * 0.08 tazas / 1 taza = 8
El coeficiente de variación del recipiente pequeño es más de tres veces mayor que el coeficiente
de variación del recipiente grande. En otras palabras, aunque el recipiente grande tiene una mayor
desviación estándar, el recipiente pequeño presenta una variabilidad mucho mayor con respecto a
su media.
Q1
Los cuartiles son los tres valores –el primer cuartil en 25% (Q1), el segundo cuartil en 50% (Q2 o
mediana) y el tercer cuartil en 75% (Q3)– que dividen una muestra de datos ordenados en cuatro
partes iguales.
El primer cuartil es el percentil 25 e indica que 25% de los datos es menor que o igual a este valor.
Para estos datos ordenados, el primer cuartil (Q1) es 9.5. Es decir, 25% de los datos es menor que
o igual a 9.5.
Mediana
La mediana es el punto medio del conjunto de datos. El valor de este punto medio es el punto en
el cual la mitad de las observaciones está por encima del valor y la otra mitad está por debajo del
valor. La mediana se determina jerarquizando las observaciones y hallando la observación que
ocupe el número [N + 1] / 2 en el orden jerarquizado. Si el número de observaciones es par,
entonces la mediana es el valor promedio de las observaciones jerarquizadas en los números N / 2
y [N / 2] + 1.
Para estos datos ordenados, la mediana es 13. Es decir, la mitad de los valores es menor que o
igual a 13 y la otra mitad de los valores es mayor que o igual a 13. Si usted agrega otra observación
igual a 20, la mediana es 13.5, que es el promedio entre la 5 ta observación (13) y la 6ta observación
(14).
Interpretación
Tanto la mediana como la media miden la tendencia central. Sin embargo, valores poco comunes,
llamados valores atípicos, pueden afectar a la mediana menos de lo que afectan a la media. Si los
datos son simétricos, la media y la mediana son similares.
Simétrica
No simétrica
En la distribución simétrica, la media (línea azul) y la mediana (línea naranja) son tan similares que
no es fácil distinguir las dos líneas. En cambio, la distribución no simétrica es asimétrica hacia la
derecha.
Q3
Los cuartiles son los tres valores –el primer cuartil en 25% (Q1), el segundo cuartil en 50% (Q2 o
mediana) y el tercer cuartil en 75% (Q3)– que dividen una muestra de datos ordenados en cuatro
partes iguales.
El tercer cuartil es el percentil 75 e indica que 75% de los datos es menor que o igual a este valor.
Para estos datos ordenados, el tercer cuartil (Q3) es 17.5. Es decir, 75% de los datos es menor que
o igual a 17.5.
IQR
El rango intercuartil (IQR) es la distancia entre el primer cuartil (Q1) y el tercer cuartil (Q3). El 50%
de los datos está dentro de este rango.
Para estos datos ordenados, el rango intercuartil es 8 (17.5–9.5 = 8). Es decir, el 50% intermedio
de los datos está entre 9.5 and 17.5.
Interpretación
Utilice el rango intercuartil para describir la dispersión de los datos. A medida que aumenta la
dispersión de los datos, el IQR se hace más grande.
MediaRec
Utilice la media recortada para eliminar el impacto de los valores muy grandes o muy pequeños
sobre la media. Cuando los datos contienen valores atípicos, la media recortada puede ser una
mejor medida de la tendencia central que la media.
Suma
La suma es el total de todos los valores de los datos. La suma también se utiliza en cálculos
estadísticos, como por ejemplo la media y la desviación estándar.
Mínimo
13 17 18 19 12 10 7 9 14
Interpretación
Utilice el mínimo para identificar un posible valor atípico o un error de entrada de datos. Una de
las maneras más sencillas de evaluar la dispersión de los datos consiste en comparar el mínimo y el
máximo. Si el valor mínimo es muy bajo, incluso cuando considere el centro, la dispersión y la
forma de los datos, investigue la causa del valor extremo.
Máximo
13 17 18 19 12 10 7 9 14
Interpretación
Utilice el máximo para identificar un posible valor atípico o error de entrada de datos. Una de las
maneras más sencillas de evaluar la dispersión de los datos consiste en comparar el mínimo y el
máximo. Si el valor máximo es muy alto, incluso cuando considere el centro, la dispersión y la
forma de los datos, investigue la causa del valor extremo.
Rango
El rango es la diferencia entre los valores más grande y más pequeño de los datos. El rango
representa el intervalo que contiene todos los valores de los datos.
Interpretación
Utilice el rango para entender la cantidad de dispersión en los datos. Un valor de rango grande
indica mayor dispesión en los datos. Un valor de rango pequeño indica que hay menos dispersión
en los datos. Puesto que el rango se calcula usando solo dos valores de los datos, es más útil con
conjuntos de datos pequeños.
SSQ
La suma de los cuadrados no corregida es la suma de los cuadrados de cada valor de la columna.
Por ejemplo, si la columna contiene x1, x2, ... , xn, entonces la suma de los cuadrados calcula (x 12 +
x22 + ... + xn2). A diferencia de la suma de los cuadrados corregida, la suma de los cuadrados no
corregida incluye el error. Los valores de datos se elevan al cuadrado sin antes restar la media.
Asimetría
Interpretación
Utilice la asimetría como ayuda para lograr entender inicialmente los datos.
Figura A
Figura B
Los datos con asimetría positiva o asimétricos hacia la derecha se llaman así porque la "cola" de la
distribución apunta hacia la derecha y porque el valor de asimetría es mayor que 0 (es decir,
positivo). Los datos sobre salarios suelen ser asimétricos de esta manera: muchos empleados de
una empresa ganan relativamente poco, mientras que cada vez menos personas ganan salarios
muy elevados.
Los datos asimétricos hacia la izquierda o con asimetría negativa se llaman así porque la "cola" de
la distribución apunta hacia la izquierda y porque producen un valor de asimetría negativo. Los
datos de tasas de fallas suelen ser asimétricos a la izquierda. Consideremos el caso de las
bombillas: muy pocas se quemarán inmediatamente, la gran mayoría dura un tiempo
considerablemente largo.
Curtosis
La curtosis indica la manera en que las colas de una distribución difieren de la distribución normal.
Interpretación
Utilice la curtosis para lograr entender inicialmente las características generales de la distribución
de los datos.
Los datos normalmente distribuidos establecen la línea de base para la curtosis. Un valor de
curtosis de 0 indica que los datos siguen perfectamente la distribución normal. Un valor de
curtosis que se desvía significativamente de 0 puede indicar que los datos no están distribuidos
normalmente.
Curtosis positiva
Una distribución que tiene un valor positivo de curtosis indica que la distribución tiene colas más
pesadas que la distribución normal. Por ejemplo, los datos que siguen una distribución t tienen un
valor positivo de curtosis. La línea continua indica la distribución normal y la línea de puntos indica
una distribución que tiene un valor positivo de curtosis.
Curtosis negativa
Una distribución con un valor negativo de curtosis indica que la distribución tiene colas más
livianas que la distribución normal. Por ejemplo, los datos que siguen una distribución beta con el
primer y el segundo parámetro de forma iguales a 2 tienen un valor negativo de curtosis. La línea
continua indica la distribución normal y la línea de puntos indica una distribución que tiene un
valor negativo de curtosis.
MSSD
Conteo total N N*
149 141 8
N valores faltantes
El número de valores faltantes en la muestra. El número de valores faltantes se refiere a las celdas
que contienen el símbolo de valor faltante *.
Conteo
total N N valores faltantes
149 141 8
Conteo
En este ejemplo, hay 141 observaciones válidas y 8 valores faltantes. El conteo es 149.
149 14 8
Conteo N N valores faltantes
NAcum
Conte
Nivel de grado o NAcum Cálculo
1 49 49 49
2 58 107 49 + 58
3 52 159 49 + 58 + 52
4 60 219 49 + 58 + 52 + 60
5 48 267 49 + 58 + 52 + 60 + 48
6 55 322 49 + 58 + 52 + 60 + 48 + 55
Porcentaje
Línea 1 16
Línea 2 20
Línea 3 36
Línea 4 28
PAcum
El porcentaje acumulado es la suma acumulada de los porcentajes para cada grupo de la Por
variable. En el siguiente ejemplo, la Por variable tiene 4 grupos: Línea 1, Línea 2, Línea 3 y Línea 4.
Línea 1 16 16
Línea 2 20 36
Línea 3 36 72
Línea 4 28 100
Dispersión