CursoRstudio 2 UPCH DJBV MANUAL

ESCUELA DE POSGRADO VICTOR ALZAMORA
CASTRO
DIRECCIÓN UNIVERSITARIA DE PERSONAL DOCENTE
UNIDAD DE GESTIÓN ACADÉMICA
EDUCACIÓN CONTÍNUA
Programación Estadística con
DOCENTE:
MG. ESP.DANIEL JOSÉ BLANCO VICTORIO
2021
Medidas de Dispersión para datos no agrupados
Las medidas de tendencia central, como la media, la mediana y la moda, solo describen el centro
de los datos, pero no nos dicen nada acerca de la dispersión (separación) o la variabilidad de
los datos respecto a esas medidas. Esta característica es muy importante conocer. Cuanto más
separados estén unos datos del valor central, más dispersión o variabilidad van a mostrar. Las
medidas de dispersión son medidas estadísticas que muestran la variabilidad en la distribución
de los datos respecto a las medidas de tendencia central.
Rango
El rango o recorrido muestral de una variable se define como la diferencia entre el máximo y el
mínimo de los valores en la muestra. El rango es una medida de dispersión importante, aunque
insuficiente para valorar convenientemente la variabilidad de los datos
Rango = valor máximo – valor mínimo
Características del rango
1. Tiene la misma unidad de medida que las observaciones.
2. Se utiliza para tener una idea rápida del grado de dispersión de un conjunto de datos.
3. Es poco confiable.
4. El rango muestral es muy inestable.
5. El valor del rango no varía cuando se suma una constante K a cada observación de un
conjunto de datos.
6. El valor del rango si varía cuando se multiplica por constante K a cada observación de un
conjunto de datos.
Varianza
La varianza es una medida de dispersión que representa la variabilidad de una serie de
datos respecto a su media. Formalmente se calcula como la suma de los residuos al
cuadrado divididos entre el total de observaciones.
Para la población
Para la muestra
***El uso de n-1 en el denominador en lugar de n, se denomina corrección de Bessel

2
Daniel José Blanco Victorio
Se notará que el divisor para el estadístico es n-1, mientras que para el parámetro es N. Esto se
deriva del hecho de que 𝑆 2 se utiliza comúnmente como un estimador de 𝜎 2 en escenarios
inferenciales, como se verá más adelante.
Se puede ver que si el divisor de 𝑆 2 fuera n, la estimación resultante estaría sesgada. Esto es, el
valor de 𝑆 2 sería más pequeño que 𝜎 2 .
Dividiendo entre n-1 se elimina este sesgo, haciendo que 𝑆 2 sea un mejor estimador de 𝜎 2 . Esto
es más bien teórico.
La varianza no es muy adecuada para describir directamente cuál es la variabilidad de unos datos,
ya que se encuentra expresada en otras unidades que los datos originales; la varianza está en
unidades al cuadrado, y esto dificulta su interpretación directa. De esta manera, si las mediciones
están en gramos, la varianza se expresa en gramos al cuadrado.
Por este motivo, se debe buscar otro índice estadístico de dispersión que esté en las mismas
unidades que la media: ese índice es la desviación estándar.
Desviación estándar
Es una medida de dispersión de las observaciones alrededor de su valor medio. La desviación
estándar se define como la raíz cuadrada positiva de la varianza. Tiene el mismo cometido que
ésta y además la ventaja de que las unidades en las que se mide son las mismas que las de los
datos de la distribución.
Fórmulas
Población Muestra
La varianza no es muy adecuada para describir directamente cuál es la variabilidad de unos datos,
ya que se encuentra expresada en otras unidades que los datos originales; la varianza está en
unidades al cuadrado, y esto dificulta su interpretación directa. De esta manera, si las mediciones
están en gramos, la varianza se expresa en gramos al cuadrado.
Por este motivo, se debe buscar otro medida estadística de dispersión que esté en las mismas
unidades que la media: ese medida es la desviación estándar.
El rango intercuartílico (RIC)

El rango intercuartílico IQR (o rango intercuartil) es una estimación estadística de la dispersión de
una distribución de datos. Consiste en la diferencia entre el tercer y el primer cuartil. Mediante esta
medida se eliminan los valores extremadamente alejados. El rango intercuartílico es altamente
recomendable cuando la medida de tendencia central utilizada es la mediana (ya que este
estadístico es insensible a posibles irregularidades en los extremos).
3
Las medidas de posición o cuantiles
dividen la distribución en partes iguales. Los más utilizados son:
Cuartiles: Dividen la distribución en 4 partes iguales. Hay 3 cuartiles: (25% acumulado), (50%
acumulado), (75% acumulado).
Deciles: Dividen la distribución en 10 partes iguales. Hay 9 deciles: (10% acumulado),…, (90%
acumulado).
Percentiles: Dividen la distribución en 100 partes iguales. Hay 99 percentiles: (1% acumulado),…,
(99% acumulado).
Coeficiente de variación
Se define como el cociente entre la desviación estándar y la media de una población. Es un
coeficiente carente de unidades y sirve para comparar la dispersión de dos poblaciones distintas,
correspondiendo a la población más homogénea un coeficiente de variación menor y a la menos
homogénea un coeficiente de variación mayor.
4
El coeficiente de variación (y no la desviación estándar) es la medida de dispersión indicada para
comparar la variabilidad de distintos parámetros cuando están medidos en unidades
diferentes. La desviación estándar depende de las unidades de medida de la variable. El
coeficiente de variación, en cambio, no se ve afectado por las unidades de medida.
Asimetría
El coeficiente de asimetría cuantifica en qué medida las observaciones de un conjunto de datos
se distribuyen simétricamente alrededor de la media. Cuando es positivo es inclinado a la
izquierda, cuando es negativo es inclinado a la derecha
El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x.

Cuanto mayor sea la suma ∑(xi–x)3, mayor será el coeficiente. Sea el conjunto X=(x1, x2,…, xN),
entonces la fórmula de la asimetría de Fisher es:
Lo ideal para muchos procedimientos estadísticos es que la asimetría no sea grande y el

coeficiente de asimetría esté lo más próximo posible a 0
Curtosis
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del
conjunto y la media, dividido entre la desviación estándar elevado también a la cuarta potencia.
Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será:
En casi todos los programas de estadística, el valor nulo de la curtosis es 0.
5
Practica con RStudio
RStudio solo admite una forma de introducir los datos: Tidy data (Datos ordenados). Los
datos deben presentarse de la siguiente manera para que puedan ser analizados por
Rstudio
• Cada variable forma una columna
• Cada observación forma una fila
• Cada tipo de unidad de observación forma una tabla
6
Importar datos de Excel a Rstudio
Desde Rstudio
7
Antes de importar Rstudio anuncia la incorporación del paquete readxl(formato Excel) que
permite y lo convierta en un dataframe y se pude realizar el análisis.
En consola
library(readxl)
base_R <- read_excel("~/CURSO_RSTUDIO2021_UPCH/SESIÓN_2_2021/base_R.xls")
Resumir una base de datos
Tenemos un objeto base_R que contiene como su valor la tabla entera.
base_R es un tipo nuevo de objeto: un dataframe.
Un dataframe es un objeto de dos dimensiones:
1) Columnas: cada columna contiene solo un tipo de datos. Columnas tiene nombres.
2) Filas: una fila para cada punto (paciente, prueba, lectura etc.). Las filas no suelen tener
nombres.
Las funciones siguientes nos permiten obtener los nombres de las variables, los identificadores
de las filas y las dimensiones de una data frame:
• dim() Devuelve el número de filas y columnas

• names() Devuelve los nombres de las columnas
• str() Devuelve información sobre los datos contenidos en cada columna
• summary() Resume las columnas uno por uno.
8
> dim(base_R)
[1] 2100 16
> names(base_R)
[1] "id" "sexo" "raza" "edad" "talla" "peso"
[7] "pas" "pad" "hgb" "hct" "est_salud" "diabetes"
[13] "imc" "imc2" "edad2" "pas2"
> str(base_R)
> summary(base_R)
9
Resumir variables cualitativas
El proceso de sacar valores de un objeto se llama subsetting. Es uno de los procesos más
importantes en R. Existen varios operadores de subsetting:
$ : Se ingresa entre el nombre del dataframe y el nombre de la columna deseada

base_R$sexo ## Devuelve un vector
[n] Se usa después del nombre del dataframe. Entre los corchetes se ingresa el número de
la columna deseada:
base_R[2] ## Devuelve un dataframe
[,n]Entre los corchetes se ingresa el número de la columna deseada después de una coma.
Antes de la coma se ingresa el número de las filas deseadas, o se deja blanco para devolver
todas las filas.
base_R [,2] ## Devuelve un vector
> table(base_R$sexo)
Femenino Masculino
1101 999
> table(base_R[2])
Femenino Masculino
1101 999
> table(base_R[3])
Blanco Negro Otro
1834 227 39
Proporciones
El conteo en realidad no resume los datos hasta que lo usemos para calcular una
proporción. En R la función prop.table() toma lo devuelto de table() como su argumento
para calcular proporciones. Muchas veces vale la pena en almacenar una tabla compleja en
una objeto para luego pasarlo a una función.
p<-table(base_R$est_salud)
>prop.table(p)
Bueno Excelente Malo Muy bien Regular

0.27229375 0.07105389 0.23557463 0.16404387 0.25703386
10
Tablas de contingencia
table(base_R$sexo,base_R$raza)
Blanco Negro Otro
Femenino 960 122 19
Masculino 874 105 20
> t1<-table(base_R$sexo,base_R$raza)
> prop.table(t1)
Blanco Negro Otro
Femenino 0.457142857 0.058095238 0.009047619
Masculino 0.416190476 0.050000000 0.009523810
Resumir variables cuantitativas

> summary(base_R$edad)
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.00 31.00 49.00 47.41 64.00 74.00
> summary(base_R$peso)
34.93 60.90 70.65 72.04 81.25 149.69
Resumir datos cuantitativos en grupos

Empezamos con resumir los datos en grupos. Una función muy útil en esto es by().
by() requiere 3 argumentos:
1. La variable cuantitativa
2. Una variable que la divide en grupos
3. El nombre de otra función que resume los datos
by(base_R$peso,base_R$sexo,summary)
base_R$sexo: Femenino
34.93 56.47 63.84 66.69 74.84 129.05
--------------------------------------------------------------------------------
base_R$sexo: Masculino
11
44.11 68.27 76.66 77.93 85.33 149.69
Resumir datos cuantitativos: medidas de tendencia central ,
dispersión y forma
Se requiere el paquete("psych")
install.packages("psych")
library(psych)
> describeBy(base_R$hgb,base_R$sexo)
Descriptive statistics by group
group: Femenino
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1101 13.53 1.12 13.5 13.54 1.04 8.4 16.7 8.3 -0.14 0.31 0.03
------------------------------------------------------------
group: Masculino
X1 1 999 15.1 1.12 15.2 15.11 1.04 11 18.5 7.5 -0.15 0.17 0.04
>describeBy(base_R$pas,base_R$sexo)
Descriptive statistics by group

group: Femenino
X1 1 1101 129.23 24.75 124 127.02 23.72 65 230 165 0.85 0.76 0.75
----------------------------------------------------------------------------
group: Masculino
X1 1 999 133.64 21.76 130 131.69 14.83 86 230 144 1.08 1.97 0.69
***Todos los derechos reservados, la base de datos fue adaptado y preparado por el autor.
12

CursoRstudio 2 UPCH DJBV MANUAL

Cargado por

Copyright:

Formatos disponibles

CursoRstudio 2 UPCH DJBV MANUAL

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

CursoRstudio 2 UPCH DJBV MANUAL

Cargado por

Copyright:

Formatos disponibles

ESCUELA DE POSGRADO VICTOR ALZAMORA

Programación Estadística con

Rango = valor máximo – valor mínimo

Características del rango

1. Tiene la misma unidad de medida que las observaciones.

4. El rango muestral es muy inestable.

***El uso de n-1 en el denominador en lugar de n, se denomina corrección de Bessel

El rango intercuartílico (RIC)

El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x.

Lo ideal para muchos procedimientos estadísticos es que la asimetría no sea grande y el

En casi todos los programas de estadística, el valor nulo de la curtosis es 0.

base_R <- read_excel("~/CURSO_RSTUDIO2021_UPCH/SESIÓN_2_2021/base_R.xls")

Resumir una base de datos

Tenemos un objeto base_R que contiene como su valor la tabla entera.

base_R es un tipo nuevo de objeto: un dataframe.

Un dataframe es un objeto de dos dimensiones:

• dim() Devuelve el número de filas y columnas

$ : Se ingresa entre el nombre del dataframe y el nombre de la columna deseada

Bueno Excelente Malo Muy bien Regular

Resumir variables cuantitativas

Resumir datos cuantitativos en grupos

Descriptive statistics by group

También podría gustarte