CursoRstudio 2 UPCH DJBV MANUAL
CursoRstudio 2 UPCH DJBV MANUAL
CursoRstudio 2 UPCH DJBV MANUAL
CASTRO
DIRECCIÓN UNIVERSITARIA DE PERSONAL DOCENTE
UNIDAD DE GESTIÓN ACADÉMICA
EDUCACIÓN CONTÍNUA
DOCENTE:
MG. ESP.DANIEL JOSÉ BLANCO VICTORIO
2021
Medidas de Dispersión para datos no agrupados
Las medidas de tendencia central, como la media, la mediana y la moda, solo describen el centro
de los datos, pero no nos dicen nada acerca de la dispersión (separación) o la variabilidad de
los datos respecto a esas medidas. Esta característica es muy importante conocer. Cuanto más
separados estén unos datos del valor central, más dispersión o variabilidad van a mostrar. Las
medidas de dispersión son medidas estadísticas que muestran la variabilidad en la distribución
de los datos respecto a las medidas de tendencia central.
Rango
El rango o recorrido muestral de una variable se define como la diferencia entre el máximo y el
mínimo de los valores en la muestra. El rango es una medida de dispersión importante, aunque
insuficiente para valorar convenientemente la variabilidad de los datos
2. Se utiliza para tener una idea rápida del grado de dispersión de un conjunto de datos.
3. Es poco confiable.
5. El valor del rango no varía cuando se suma una constante K a cada observación de un
conjunto de datos.
6. El valor del rango si varía cuando se multiplica por constante K a cada observación de un
conjunto de datos.
Varianza
La varianza es una medida de dispersión que representa la variabilidad de una serie de
datos respecto a su media. Formalmente se calcula como la suma de los residuos al
cuadrado divididos entre el total de observaciones.
Para la población
Para la muestra
Desviación estándar
Es una medida de dispersión de las observaciones alrededor de su valor medio. La desviación
estándar se define como la raíz cuadrada positiva de la varianza. Tiene el mismo cometido que
ésta y además la ventaja de que las unidades en las que se mide son las mismas que las de los
datos de la distribución.
Fórmulas
Población Muestra
La varianza no es muy adecuada para describir directamente cuál es la variabilidad de unos datos,
ya que se encuentra expresada en otras unidades que los datos originales; la varianza está en
unidades al cuadrado, y esto dificulta su interpretación directa. De esta manera, si las mediciones
están en gramos, la varianza se expresa en gramos al cuadrado.
Por este motivo, se debe buscar otro medida estadística de dispersión que esté en las mismas
unidades que la media: ese medida es la desviación estándar.
3
Daniel José Blanco Victorio
Las medidas de posición o cuantiles
dividen la distribución en partes iguales. Los más utilizados son:
Cuartiles: Dividen la distribución en 4 partes iguales. Hay 3 cuartiles: (25% acumulado), (50%
acumulado), (75% acumulado).
Deciles: Dividen la distribución en 10 partes iguales. Hay 9 deciles: (10% acumulado),…, (90%
acumulado).
Percentiles: Dividen la distribución en 100 partes iguales. Hay 99 percentiles: (1% acumulado),…,
(99% acumulado).
Coeficiente de variación
Se define como el cociente entre la desviación estándar y la media de una población. Es un
coeficiente carente de unidades y sirve para comparar la dispersión de dos poblaciones distintas,
correspondiendo a la población más homogénea un coeficiente de variación menor y a la menos
homogénea un coeficiente de variación mayor.
4
Daniel José Blanco Victorio
El coeficiente de variación (y no la desviación estándar) es la medida de dispersión indicada para
comparar la variabilidad de distintos parámetros cuando están medidos en unidades
diferentes. La desviación estándar depende de las unidades de medida de la variable. El
coeficiente de variación, en cambio, no se ve afectado por las unidades de medida.
Asimetría
El coeficiente de asimetría cuantifica en qué medida las observaciones de un conjunto de datos
se distribuyen simétricamente alrededor de la media. Cuando es positivo es inclinado a la
izquierda, cuando es negativo es inclinado a la derecha
Curtosis
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del
conjunto y la media, dividido entre la desviación estándar elevado también a la cuarta potencia.
Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será:
5
Daniel José Blanco Victorio
Practica con RStudio
RStudio solo admite una forma de introducir los datos: Tidy data (Datos ordenados). Los
datos deben presentarse de la siguiente manera para que puedan ser analizados por
Rstudio
• Cada variable forma una columna
• Cada observación forma una fila
• Cada tipo de unidad de observación forma una tabla
6
Daniel José Blanco Victorio
Importar datos de Excel a Rstudio
Desde Rstudio
7
Daniel José Blanco Victorio
Antes de importar Rstudio anuncia la incorporación del paquete readxl(formato Excel) que
permite y lo convierta en un dataframe y se pude realizar el análisis.
En consola
library(readxl)
1) Columnas: cada columna contiene solo un tipo de datos. Columnas tiene nombres.
2) Filas: una fila para cada punto (paciente, prueba, lectura etc.). Las filas no suelen tener
nombres.
Las funciones siguientes nos permiten obtener los nombres de las variables, los identificadores
de las filas y las dimensiones de una data frame:
8
Daniel José Blanco Victorio
> dim(base_R)
[1] 2100 16
> names(base_R)
[1] "id" "sexo" "raza" "edad" "talla" "peso"
[7] "pas" "pad" "hgb" "hct" "est_salud" "diabetes"
[13] "imc" "imc2" "edad2" "pas2"
> str(base_R)
> summary(base_R)
9
Daniel José Blanco Victorio
Resumir variables cualitativas
El proceso de sacar valores de un objeto se llama subsetting. Es uno de los procesos más
importantes en R. Existen varios operadores de subsetting:
[n] Se usa después del nombre del dataframe. Entre los corchetes se ingresa el número de
la columna deseada:
base_R[2] ## Devuelve un dataframe
[,n]Entre los corchetes se ingresa el número de la columna deseada después de una coma.
Antes de la coma se ingresa el número de las filas deseadas, o se deja blanco para devolver
todas las filas.
base_R [,2] ## Devuelve un vector
> table(base_R$sexo)
Femenino Masculino
1101 999
> table(base_R[2])
Femenino Masculino
1101 999
> table(base_R[3])
Blanco Negro Otro
1834 227 39
Proporciones
El conteo en realidad no resume los datos hasta que lo usemos para calcular una
proporción. En R la función prop.table() toma lo devuelto de table() como su argumento
para calcular proporciones. Muchas veces vale la pena en almacenar una tabla compleja en
una objeto para luego pasarlo a una función.
p<-table(base_R$est_salud)
>prop.table(p)
10
Daniel José Blanco Victorio
Tablas de contingencia
table(base_R$sexo,base_R$raza)
Blanco Negro Otro
Femenino 960 122 19
Masculino 874 105 20
> t1<-table(base_R$sexo,base_R$raza)
> prop.table(t1)
Blanco Negro Otro
Femenino 0.457142857 0.058095238 0.009047619
Masculino 0.416190476 0.050000000 0.009523810
11
Daniel José Blanco Victorio
Min. 1st Qu. Median Mean 3rd Qu. Max.
44.11 68.27 76.66 77.93 85.33 149.69
Resumir datos cuantitativos: medidas de tendencia central ,
dispersión y forma
Se requiere el paquete("psych")
install.packages("psych")
library(psych)
> describeBy(base_R$hgb,base_R$sexo)
Descriptive statistics by group
group: Femenino
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1101 13.53 1.12 13.5 13.54 1.04 8.4 16.7 8.3 -0.14 0.31 0.03
------------------------------------------------------------
group: Masculino
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 999 15.1 1.12 15.2 15.11 1.04 11 18.5 7.5 -0.15 0.17 0.04
>describeBy(base_R$pas,base_R$sexo)
***Todos los derechos reservados, la base de datos fue adaptado y preparado por el autor.
12
Daniel José Blanco Victorio