CursoRstudio 2 UPCH DJBV MANUAL

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

ESCUELA DE POSGRADO VICTOR ALZAMORA

CASTRO
DIRECCIÓN UNIVERSITARIA DE PERSONAL DOCENTE
UNIDAD DE GESTIÓN ACADÉMICA
EDUCACIÓN CONTÍNUA

Programación Estadística con

DOCENTE:
MG. ESP.DANIEL JOSÉ BLANCO VICTORIO

2021
Medidas de Dispersión para datos no agrupados

Las medidas de tendencia central, como la media, la mediana y la moda, solo describen el centro
de los datos, pero no nos dicen nada acerca de la dispersión (separación) o la variabilidad de
los datos respecto a esas medidas. Esta característica es muy importante conocer. Cuanto más
separados estén unos datos del valor central, más dispersión o variabilidad van a mostrar. Las
medidas de dispersión son medidas estadísticas que muestran la variabilidad en la distribución
de los datos respecto a las medidas de tendencia central.

Rango
El rango o recorrido muestral de una variable se define como la diferencia entre el máximo y el
mínimo de los valores en la muestra. El rango es una medida de dispersión importante, aunque
insuficiente para valorar convenientemente la variabilidad de los datos

Rango = valor máximo – valor mínimo

Características del rango

1. Tiene la misma unidad de medida que las observaciones.

2. Se utiliza para tener una idea rápida del grado de dispersión de un conjunto de datos.

3. Es poco confiable.

4. El rango muestral es muy inestable.

5. El valor del rango no varía cuando se suma una constante K a cada observación de un
conjunto de datos.

6. El valor del rango si varía cuando se multiplica por constante K a cada observación de un
conjunto de datos.

Varianza
La varianza es una medida de dispersión que representa la variabilidad de una serie de
datos respecto a su media. Formalmente se calcula como la suma de los residuos al
cuadrado divididos entre el total de observaciones.
Para la población

Para la muestra

***El uso de n-1 en el denominador en lugar de n, se denomina corrección de Bessel


2
Daniel José Blanco Victorio
Se notará que el divisor para el estadístico es n-1, mientras que para el parámetro es N. Esto se
deriva del hecho de que 𝑆 2 se utiliza comúnmente como un estimador de 𝜎 2 en escenarios
inferenciales, como se verá más adelante.
Se puede ver que si el divisor de 𝑆 2 fuera n, la estimación resultante estaría sesgada. Esto es, el
valor de 𝑆 2 sería más pequeño que 𝜎 2 .
Dividiendo entre n-1 se elimina este sesgo, haciendo que 𝑆 2 sea un mejor estimador de 𝜎 2 . Esto
es más bien teórico.
La varianza no es muy adecuada para describir directamente cuál es la variabilidad de unos datos,
ya que se encuentra expresada en otras unidades que los datos originales; la varianza está en
unidades al cuadrado, y esto dificulta su interpretación directa. De esta manera, si las mediciones
están en gramos, la varianza se expresa en gramos al cuadrado.
Por este motivo, se debe buscar otro índice estadístico de dispersión que esté en las mismas
unidades que la media: ese índice es la desviación estándar.

Desviación estándar
Es una medida de dispersión de las observaciones alrededor de su valor medio. La desviación
estándar se define como la raíz cuadrada positiva de la varianza. Tiene el mismo cometido que
ésta y además la ventaja de que las unidades en las que se mide son las mismas que las de los
datos de la distribución.
Fórmulas
Población Muestra

La varianza no es muy adecuada para describir directamente cuál es la variabilidad de unos datos,
ya que se encuentra expresada en otras unidades que los datos originales; la varianza está en
unidades al cuadrado, y esto dificulta su interpretación directa. De esta manera, si las mediciones
están en gramos, la varianza se expresa en gramos al cuadrado.
Por este motivo, se debe buscar otro medida estadística de dispersión que esté en las mismas
unidades que la media: ese medida es la desviación estándar.

El rango intercuartílico (RIC)


El rango intercuartílico IQR (o rango intercuartil) es una estimación estadística de la dispersión de
una distribución de datos. Consiste en la diferencia entre el tercer y el primer cuartil. Mediante esta
medida se eliminan los valores extremadamente alejados. El rango intercuartílico es altamente
recomendable cuando la medida de tendencia central utilizada es la mediana (ya que este
estadístico es insensible a posibles irregularidades en los extremos).

3
Daniel José Blanco Victorio
Las medidas de posición o cuantiles
dividen la distribución en partes iguales. Los más utilizados son:
Cuartiles: Dividen la distribución en 4 partes iguales. Hay 3 cuartiles: (25% acumulado), (50%
acumulado), (75% acumulado).
Deciles: Dividen la distribución en 10 partes iguales. Hay 9 deciles: (10% acumulado),…, (90%
acumulado).
Percentiles: Dividen la distribución en 100 partes iguales. Hay 99 percentiles: (1% acumulado),…,
(99% acumulado).

Coeficiente de variación
Se define como el cociente entre la desviación estándar y la media de una población. Es un
coeficiente carente de unidades y sirve para comparar la dispersión de dos poblaciones distintas,
correspondiendo a la población más homogénea un coeficiente de variación menor y a la menos
homogénea un coeficiente de variación mayor.

4
Daniel José Blanco Victorio
El coeficiente de variación (y no la desviación estándar) es la medida de dispersión indicada para
comparar la variabilidad de distintos parámetros cuando están medidos en unidades
diferentes. La desviación estándar depende de las unidades de medida de la variable. El
coeficiente de variación, en cambio, no se ve afectado por las unidades de medida.

Asimetría
El coeficiente de asimetría cuantifica en qué medida las observaciones de un conjunto de datos
se distribuyen simétricamente alrededor de la media. Cuando es positivo es inclinado a la
izquierda, cuando es negativo es inclinado a la derecha

El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x.


Cuanto mayor sea la suma ∑(xi–x)3, mayor será el coeficiente. Sea el conjunto X=(x1, x2,…, xN),
entonces la fórmula de la asimetría de Fisher es:

Lo ideal para muchos procedimientos estadísticos es que la asimetría no sea grande y el


coeficiente de asimetría esté lo más próximo posible a 0

Curtosis
La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del
conjunto y la media, dividido entre la desviación estándar elevado también a la cuarta potencia.
Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será:

En casi todos los programas de estadística, el valor nulo de la curtosis es 0.

5
Daniel José Blanco Victorio
Practica con RStudio

RStudio solo admite una forma de introducir los datos: Tidy data (Datos ordenados). Los
datos deben presentarse de la siguiente manera para que puedan ser analizados por
Rstudio
• Cada variable forma una columna
• Cada observación forma una fila
• Cada tipo de unidad de observación forma una tabla

6
Daniel José Blanco Victorio
Importar datos de Excel a Rstudio

Desde Rstudio

7
Daniel José Blanco Victorio
Antes de importar Rstudio anuncia la incorporación del paquete readxl(formato Excel) que
permite y lo convierta en un dataframe y se pude realizar el análisis.

En consola

library(readxl)

base_R <- read_excel("~/CURSO_RSTUDIO2021_UPCH/SESIÓN_2_2021/base_R.xls")

Resumir una base de datos

Tenemos un objeto base_R que contiene como su valor la tabla entera.

base_R es un tipo nuevo de objeto: un dataframe.

Un dataframe es un objeto de dos dimensiones:

1) Columnas: cada columna contiene solo un tipo de datos. Columnas tiene nombres.

2) Filas: una fila para cada punto (paciente, prueba, lectura etc.). Las filas no suelen tener
nombres.

Las funciones siguientes nos permiten obtener los nombres de las variables, los identificadores
de las filas y las dimensiones de una data frame:

• dim() Devuelve el número de filas y columnas


• names() Devuelve los nombres de las columnas
• str() Devuelve información sobre los datos contenidos en cada columna
• summary() Resume las columnas uno por uno.

8
Daniel José Blanco Victorio
> dim(base_R)
[1] 2100 16
> names(base_R)
[1] "id" "sexo" "raza" "edad" "talla" "peso"
[7] "pas" "pad" "hgb" "hct" "est_salud" "diabetes"
[13] "imc" "imc2" "edad2" "pas2"
> str(base_R)

> summary(base_R)

9
Daniel José Blanco Victorio
Resumir variables cualitativas
El proceso de sacar valores de un objeto se llama subsetting. Es uno de los procesos más
importantes en R. Existen varios operadores de subsetting:

$ : Se ingresa entre el nombre del dataframe y el nombre de la columna deseada


base_R$sexo ## Devuelve un vector

[n] Se usa después del nombre del dataframe. Entre los corchetes se ingresa el número de
la columna deseada:
base_R[2] ## Devuelve un dataframe

[,n]Entre los corchetes se ingresa el número de la columna deseada después de una coma.
Antes de la coma se ingresa el número de las filas deseadas, o se deja blanco para devolver
todas las filas.
base_R [,2] ## Devuelve un vector
> table(base_R$sexo)
Femenino Masculino
1101 999
> table(base_R[2])
Femenino Masculino

1101 999

> table(base_R[3])
Blanco Negro Otro

1834 227 39

Proporciones
El conteo en realidad no resume los datos hasta que lo usemos para calcular una
proporción. En R la función prop.table() toma lo devuelto de table() como su argumento
para calcular proporciones. Muchas veces vale la pena en almacenar una tabla compleja en
una objeto para luego pasarlo a una función.
p<-table(base_R$est_salud)
>prop.table(p)

Bueno Excelente Malo Muy bien Regular


0.27229375 0.07105389 0.23557463 0.16404387 0.25703386

10
Daniel José Blanco Victorio
Tablas de contingencia
table(base_R$sexo,base_R$raza)
Blanco Negro Otro
Femenino 960 122 19
Masculino 874 105 20
> t1<-table(base_R$sexo,base_R$raza)
> prop.table(t1)
Blanco Negro Otro
Femenino 0.457142857 0.058095238 0.009047619
Masculino 0.416190476 0.050000000 0.009523810

Resumir variables cuantitativas


> summary(base_R$edad)
Min. 1st Qu. Median Mean 3rd Qu. Max.
20.00 31.00 49.00 47.41 64.00 74.00
> summary(base_R$peso)
Min. 1st Qu. Median Mean 3rd Qu. Max.
34.93 60.90 70.65 72.04 81.25 149.69

Resumir datos cuantitativos en grupos


Empezamos con resumir los datos en grupos. Una función muy útil en esto es by().
by() requiere 3 argumentos:
1. La variable cuantitativa
2. Una variable que la divide en grupos
3. El nombre de otra función que resume los datos
by(base_R$peso,base_R$sexo,summary)
base_R$sexo: Femenino
Min. 1st Qu. Median Mean 3rd Qu. Max.
34.93 56.47 63.84 66.69 74.84 129.05
--------------------------------------------------------------------------------
base_R$sexo: Masculino

11
Daniel José Blanco Victorio
Min. 1st Qu. Median Mean 3rd Qu. Max.
44.11 68.27 76.66 77.93 85.33 149.69
Resumir datos cuantitativos: medidas de tendencia central ,
dispersión y forma
Se requiere el paquete("psych")
install.packages("psych")
library(psych)
> describeBy(base_R$hgb,base_R$sexo)
Descriptive statistics by group
group: Femenino
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1101 13.53 1.12 13.5 13.54 1.04 8.4 16.7 8.3 -0.14 0.31 0.03
------------------------------------------------------------
group: Masculino
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 999 15.1 1.12 15.2 15.11 1.04 11 18.5 7.5 -0.15 0.17 0.04

>describeBy(base_R$pas,base_R$sexo)

Descriptive statistics by group


group: Femenino
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1101 129.23 24.75 124 127.02 23.72 65 230 165 0.85 0.76 0.75
----------------------------------------------------------------------------
group: Masculino
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 999 133.64 21.76 130 131.69 14.83 86 230 144 1.08 1.97 0.69

***Todos los derechos reservados, la base de datos fue adaptado y preparado por el autor.

12
Daniel José Blanco Victorio

También podría gustarte