Descriptive Statistics: Estadística Descriptiva
Descriptive Statistics: Estadística Descriptiva
Descriptive Statistics: Estadística Descriptiva
ISSN: 0002-5151
revista.alergia@gmail.com
Colegio Mexicano de
Inmunología Clínica y Alergia,
A.C. México
Metodología de la investigación
Descriptive statistics
Estadística descriptiva
Abstract
Descriptive statistics is the branch of statistics that gives recommendations on how to summarize
clearly and simply research data in tables, figures, charts, or graphs. Before performing a
descriptive analysis it is paramount to summarize its goal or goals, and to identify the
measurement scales of the different variables recorded in the study. Tables or charts aim to
provide timely information on the results of an investigation. The graphs show trends and can be
histograms, pie charts, “box and whiskers” plots, line graphs, or scatter plots. Images serve as
examples to reinforce concepts or facts. The choice of a chart, graph, or image must be based
on the study objectives. Usually it is not recommended to use more than seven in an article, also
depending on its length.
Este artículo debe citarse como: Rendón-Macías ME, Villasís-Keever MÁ, Miranda-Novales MG. Estadística
descriptiva. Rev Alerg Mex. 2016;63(4):397-407
Correspondencia: Mario Enrique Rendón-Macías.
drmariorendon@gmail.com
Recibido: 2016-09-29
Aceptado: 2016-10-02
1 Instituto Mexicano del Seguro Social, Hospital de Pediatría, Centro Médico Nacional Siglo XXI, Unidad de Investigación en
Epidemiología Clínica. Ciudad de México, México 2Instituto Mexicano del Seguro Social, Hospital de Pediatría, Centro Médico
Nacional Siglo XXI, Unidad de Investigación en Epidemiología Hospitalaria. Ciudad de México, México
Resumen Rendón-Macías ME
Frecuencia
tendencias más que datos puntuales. También son
s
muy útiles para comparar visualmente los 40
resultados de los grupos; sobre todo se emplean
30
para resaltar hallazgos o resultados importantes.
Aunque en la actualidad existen programas para 20
realizar imágenes complejas, es preferible emplear
10
gráficos de relación entre dos o tres variables. Una
gráfica para la distribución de una sola variable solo 0
es útil cuando esta es la respuesta principal de una 4
-4
25 4
30 9
35 4
9
50 9
55 4
60 9
65 4
0
-2
-2
-3
-4
-5
-6
-3
-5
-7
40
20
45
investigación, de lo contrario resulta superflua y la
información bien puede ser expresada textualmente Edad actual en años cumplidos
en los resultados de un artículo.
Cuando se construye una gráfica hay tres Figura 2. Ejemplo de un histograma. La línea representa la
aspectos fundamentales por considerar: probabilidad de mostrar una distribución normal o en
forma de campana.
• La identificación clara de las variables.
• La descripción de la o las escalas utilizadas. En los resultados obtenidos de la práctica clínica se
• El uso de la menor cantidad posible de palabras, utilizan poco estas gráficas.4,6,7
pero suficientes para facilitar la compresión.1,3-6 En la investigación clínica es más común
resumir una sola variable cualitativa en una gráfica
Con excepción de las gráficas de “pastel”, las de “pastel” (Figura 3). En esta modalidad cada
restantes suelen tener al menos dos ejes de porción se interpreta como “la proporción que
construcción: el eje de la ordenada o X, que suele ocupa por su frecuencia dentro de un todo”. Si
ser la variable independiente o predictora y el eje de todos los pacientes la tienen, entonces equivale a
la abscisa o Y, que corresponde a la dependiente o toda el área del pastel, pero cuando hay más de un
el resultado. La decisión de cuál elegir dependerá atributo, la proporción se representa como el
del número de variables por mostrar y de la escala tamaño de una “rebanada” de este. Aunque hay
de medición de cada una. fórmulas para calcular los grados equivalentes para
cada proporción,2 con diversos programas de
Gráficas para una sola variable computadora (por ejemplo, Excel) se obtienen en
Cuando se desea señalar un resultado importante en forma automática. En estas gráficas de “pastel” se
la distribución de una sola variable existen al menos recomienda que existan más de dos categorías y no
dos opciones muy útiles. Si la variable es medida en incorporar porciones menores a 1% o en su defecto
una escala cuantitativa es común usar los agruparlas con otras también pequeñas. Por otro
histogramas (Figura 2). Esta gráfica puede ser lado, es conveniente ordenar las rebanadas de
construida a partir de una variable con escala de mayor a menor en el sentido de las manecillas de un
medición discreta o continua. Se caracteriza por la reloj, a menos que exista un orden preestablecido
unión entre las barras asumiendo que existe un por gravedad o por cuestiones clínicas.
cambio en las frecuencias al pasar un umbral, el
cual es claramente definido en medidas de conteo, Gráficas para dos o más variables no
pero es arbitrario (por lo general al valor 0.5) en las relacionadas
escalas continuas. En ocasiones se pueden unir los
3%
5%
5% Grupos etarios
6% Lactantes
Preescolares
Escolares
Adolescentes
Adultos
5%
2% Adultos mayores Figura 3. Ejemplo de gráfica tipo
9
2 “pastel”. Distribución por grupos
etarios de alergia a la proteína de la
leche (N= 2245).
recomienda usar gráficas de barras (Figura 4), en primer factor se refiere a la distribución normal o
las cuales es aconsejable colocar las variables diferente que tienen los datos desde el punto de
cualitativas en el eje de las X y la frecuencia de vista estadístico; como se comentó, una distribución
presentación de cada categoría en el eje de las Y, ya normal se presenta en media y desviación estándar,
sea en su valor real o relativo (proporción o mientras que la segunda se debe indicar en mediana
porcentaje). Es importante resaltar que se debe y rangos cuartílicos.1,6
graficar los valores de frecuencias reales solo En la Figura 5 se muestran tres gráficas de un
cuando los grupos de comparación tienen el mismo mismo resultado. Si la distribución es normal puede
número de pacientes, de lo contrario se deben usarse cualquiera (como en el caso que se muestra).
representar las proporciones o los porcentajes.1,6,7 La Figura 5a solo señala una columna que termina
Como se muestra en las Figuras 4a y 4b, la en la media de cada grupo y la barra con la línea
comparación de frecuencias simples en grupos de horizontal equivale a la distancia de una desviación
tamaño diferente puede distorsionar la realidad. estándar. Esta solo indica una desviación estándar
Cuando una variable es cualitativa (por por arriba del promedio, pero se espera que sea la
ejemplo, un grupo con rinitis alérgica contra un misma hacia abajo. La Figura 5b muestra el valor
grupo control) y la variable de desenlace es de cada paciente según su tratamiento y el valor
cuantitativa (por ejemplo, el número de eosinófilos promedio con una línea horizontal negra; con barras
por mm3 de suero), los resultados pueden horizontales más pequeñas se marca una desviación
representarse con distintos gráficos (Figuras 5 y 6). estándar arriba y debajo de la media. Como se
a b
1000 1000
Eosinófilos en suero/mm
Eosinófilos en suero/mm
800 800
3
600 600
400 400
200 200
http://www.revistaalergia.mx Rev Alerg Mex. 2016;63(4):397-407 403
0 0
Rinitis alergica Controles Rinitis alérgica Controles
Sujetos de estudio Sujetos de estudio
c
1000
800
Eosinófilos en suero
(número de eosinófilos en sangre), con número adecuado
de pacientes (>20) y con una distribución normal.
600
400
200
Rendón-Macías ME et al. Estadística descriptiva
observa, esta gráfica se ve saturada y no aporta nada de datos o pacientes es pequeño (<20). En estas
distinto a la anterior. La Figura 5c es una gráfica de condiciones
0 es común que la distribución de los
Rinitis alergica
cajas, la cual muestra una raya interior horizontal datos sea diferente a la curva de Controles
Gauss, es decir,
que corresponde al valor de la mediana, el borde existe la posibilidad de observar datos o individuos
inferior de la caja es el percentil 25 o cuartil 1 (Q1) con valores muy alejados del resto, lo cual afecta el
y el borde superior equivale al percentil 75 o cuartil promedio de una muestra. Por ello, como se observa
3 (Q3). Los bigotes o líneas horizontales superior e en la Figura 6a, la línea horizontal (media) de
inferior equivalen a los percentiles 10 y 90. Esta ambos grupos pudiera no reflejar hacia dónde se
figura se ve muy simétrica a partir de la mediana, lo acumula la mayoría de las mediciones y la
cual traduce una distribución muy cercana a la diferencia entre ellas se hace más pequeña.
normal, por ello no aporta nada nuevo a la Figura Cuando hay pocas cifras, la opción pudiera ser
5a. Esta gráfica es muy útil para la comparación de graficar la mediana y los rangos cuartilares (Figura
grupos cuando la distribución no es normal, es 6b), con lo que se aprecia más claramente el
decir, cuando no hay simetría de las cajas respecto a comportamiento de los datos. Sin embargo, estas
la mediana. figuras (cajas y bigotes) resumen mejor la
Como señalamos, el segundo factor que influye información cuando se trata de numerosos datos.
para decidir qué gráfica debe elaborarse es el Con pocos datos es más informativo presentar una
número de pacientes estudiados. En el ejemplo gráfica como la Figura 6c; en ella solo se marca la
anterior, este número era suficiente para que los mediana como el estimado promedio de un
datos alcanzaran una distribución normal. En la resultado, pero se puede ver con claridad el
Figura 6 mostramos qué sucede cuando el número comportamiento de cada paciente o dato.
a b
1000 1000
Eosinófilos en suero/mm
Eosinófilos en suero/mm
800 800
3
600 600
400 400
200 200
0 0
Rinitis alergica Controles Rinitis alérgica Controles
Sujetos de estudio Sujetos de estudio
c
1000
Figura 6. Ejemplo de gráficas para dos variables, una cua-
Eosinófilos en suero/mm
400
200
Figura 7. Ejemplo de gráfica de secuencia en el tiempo de una medición repetida. Las líneas en la figura b une las
medias (bolos) y las líneas verticales la distancia de una desviación estándar por arriba y debajo de esta.
gura 8). Esta gráfica permite establecer el Para facilitar la interpretación de esta gráfica
comportamiento individualizado para muestras por parte de los lectores se recomienda dibujar la
pequeñas. línea de mejor ajuste de los puntos. Para encontrar
esta línea existen diferentes métodos descritos en
Gráficas entre dos variables cuantitativas diversos libros especializados, aunque también
están disponibles en distintos programas
estadísticos.2
600
3
60
400
40
200
20
0
Preestímulo Posestímulo
Sujetos de estudio 0
25 50 75 100 125 150 175
Figura 8. Ejemplo de una gráfica de comparación antes y Días después del inicio del tratamiento
después de un momento. Cada línea une un valor previo y Grupo budensonida Grupo placebo
posterior al mismo de un paciente individual.
Figura 10. Ejemplo de curva de Kaplan y Meier o gráfica
de supervivencia.
50