Final T4
Final T4
Final T4
1. RESUMEN
Este estudio aborda la problemática de las infecciones nosocomiales a través de la
aplicación de técnicas de ciencia de datos. Al examinar la prevalencia e implicaciones
de las infecciones nosocomiales, se destaca la imperiosa necesidad de intervención. El
equipo de investigación utilizó la base de datos SENIC y técnicas de selección de
características y aprendizaje automático para desarrollar modelos predictivos que
anticipan la aparición de infecciones nosocomiales. Los modelos desarrollados, que se
basan en regresión lineal, regresión de Ridge, regresión Elastic Net, regresión Lasso,
bosque aleatorio y árbol de decisión, proporcionan un enfoque innovador para el manejo
y prevención de las infecciones nosocomiales. Finalmente, este estudio tiene el
potencial de contribuir significativamente a la mejora de la calidad de la atención
médica y a la minimización de las complicaciones asociadas con las infecciones
nosocomiales.
2. INTRODUCCIÓN
Las infecciones nosocomiales, también conocidas como infecciones hospitalarias, son
infecciones que los pacientes adquieren mientras están recibiendo tratamiento por
condiciones médicas o quirúrgicas en un centro de atención médica. Se definen
específicamente como infecciones que no estaban presentes ni en periodo de incubación
al momento del ingreso del paciente al hospital [1]. Estas infecciones suelen
manifestarse por primera vez 48 horas o más después de la admisión al hospital o dentro
de los 30 días posteriores al alta.
En la Unión Europea, las cifras son igualmente alarmantes. Según el Centro Europeo
para la Prevención y el Control de Enfermedades, más de 3,2 millones de personas se
ven afectadas cada año por infecciones asociadas a la atención sanitaria, resultando en al
menos 37.000 muertes. Estas estadísticas subrayan la gravedad del problema y la
necesidad urgente de tomar medidas para reducir la incidencia de estas infecciones. Al
hacerlo, se puede disminuir el número de muertes, los costos hospitalarios y otras
complicaciones asociadas.
En este contexto, surge la presente investigación, que busca emplear técnicas de ciencia
de datos para desarrollar modelos predictivos. El objetivo de estos modelos es predecir
la aparición de infecciones nosocomiales, lo cual puede ser un recurso valioso para
prevenir y controlar estas infecciones. En última instancia, esto también podría
contribuir a mejorar la calidad de la atención médica brindada a los pacientes.
Uno de estos estudios notables fue realizado por Álvaro Rocha en 2015. En este estudio,
presentó los resultados de la aplicación de modelos predictivos a datos clínicos reales.
Los modelos obtenidos con sensibilidades superiores al 91,90% mediante la aplicación
de Máquinas de Vectores de Soporte y técnicas Bayes. Este estudio demostró que al
analizar la información presente en las bases de datos de las instituciones de salud, es
posible prevenir infecciones hospitalarias y obtener conocimientos que ayuden a
predecir posibles ocurrencias [8]. En otro estudio, realizado por Daniel Silva en 2019,
se utilizaron métodos de minería de textos y aprendizaje automático para predecir y
detectar infecciones nosocomiales en el sitio quirúrgico. Para ello, se utilizaron métodos
como descripciones textuales de cirugías y registros de pacientes postoperatorios. En
este estudio se probaron varios algoritmos y estrategias de procesamiento con objetivos
de predicción y detección, a saber, regresión logística, bayesiano ingenuo, centroide
más cercano, bosque aleatorio, descenso de gradiente estocástico y clasificación de
vectores de soporte. En términos de predicción, el mejor resultado lo obtuvo el método
de Descenso de gradiente estocástico con 79,7% ROC-AUC. En términos de detección,
el mejor resultado se obtuvo mediante Regresión Logística con 80,6% ROC-AUC [9].
A continuación, se presenta una tabla de las variables a usar usando la base del proyecto
SENIC para una comprensión más detallada:
Identificador Descripción
Probabilidad media estimada de adquirir una infección en el
F(x)
hospital (en porcentaje)
Duración media de la estancia de todos los pacientes en el hospital
X1
(en días)
X2 Edad media de los pacientes (en años)
Proporción del número de cultivos realizados al número de
X3 pacientes sin signos o síntomas de infección adquirida en el
hospital, veces 100
Proporción del número de radiografías realizadas al número de
X4
pacientes sin signos o síntomas de neumonía, veces 100
Número medio de camas en el hospital durante el periodo de
X5
estudio
X6 Afiliación a la escuela de medicina 1 = Sí, 2 = No
X7 Región geográfica, donde: 1 = NE, 2 = NC, 3 = S, 4 = W
Número medio de pacientes en el hospital por día durante el
X8
periodo de estudio
Número medio de enfermeras registradas y licenciadas a tiempo
X9 completo durante el periodo de estudio (número a tiempo completo
más la mitad del número a tiempo parcial)
Porcentaje de 35 posibles instalaciones y servicios que son
X10
proporcionados por el hospital
Posteriormente, se abordó el problema de los valores nulos. Los valores nulos pueden
ser problemáticos, ya que pueden distorsionar los resultados del análisis y reducir la
potencia estadística de los modelos. En este estudio, se optó por eliminar los registros
que contenían valores nulos. Esto es una estrategia válida, siempre y cuando el número
de registros eliminados no sea demasiado grande y no introduzca sesgos en los datos.
En lo que respecta a los registros duplicados y atípicos, también fueron eliminados. Los
registros duplicados pueden inflar la representación de ciertos patrones en los datos,
mientras que los valores atípicos pueden distorsionar los resultados del análisis. Por lo
tanto, su eliminación es un paso importante en la preparación de los datos.
Tras estos pasos de limpieza, se procedió a crear columnas con información relevante
para el problema de investigación. Este es un paso crucial, ya que permite incorporar
conocimiento experto en los datos y facilitar la identificación de patrones relevantes.
Con el fin de explorar diferentes maneras de modelar el fenómeno de interés, se crearon
tres escenarios diferentes:
Cada uno de estos enfoques representa una manera diferente de abordar el problema de
investigación y puede proporcionar perspectivas distintas sobre el fenómeno de interés.
Para cada enfoque, se utilizó un conjunto de datos final que consistía en 107 registros,
sin columnas irrelevantes, valores nulos, registros duplicados o datos atípicos.
3.5. Modelado
Para cada escenario y enfoque, es esencial invocar técnicas de estandarización para
equilibrar el número de registros. En este estudio, se empleó la técnica de
normalización. La normalización, es un proceso para cambiar la escala de los datos a un
rango de 0 a 1 [15].
La Regresión Lineal [17]es un método que intenta modelar la relación entre dos o más
características y una respuesta mediante el ajuste de una ecuación lineal a los datos
observados, expresada en la forma:
y=β 0+ β 1 x 1+ …+ βnxn+ ε
La Regresión Elastic Net [18]es una técnica que combina la Regresión de Ridge y la
Regresión Lasso para obtener lo mejor de ambos mundos, expresada como:
Los Árboles de Decisión [19] , por otro lado, son una técnica de aprendizaje
supervisado no paramétrica que se utiliza para la clasificación y la regresión. El objetivo
es crear un modelo que prediga el valor de una variable objetivo mediante el aprendizaje
de reglas de decisión simples inferidas de las características de los datos.
Para la evaluación de cada modelo, se optó por utilizar dos métricas distintas: el Error
Cuadrático Medio (RMSE) y el Error Absoluto Medio (MAE) [20]. El RMSE es una
medida de la cantidad que las predicciones del modelo difieren, en promedio, de los
valores verdaderos en términos de las unidades de la variable objetivo, expresado como:
√
n
1
RMSE= ∑ ( y i− ^
2
yi )
n i=1
El MAE es una medida de la cantidad que las predicciones del modelo difieren, en
promedio, de los valores verdaderos en términos absolutos. Ambas métricas son
comunes en el campo de la ciencia de datos y ofrecen una visión eficiente y clara del
rendimiento predictivo del modelo, expresado como:
n
1
MAE= ∑ | y i −^
y i|
n i=1
Métod
Algoritmo Escenario MAE RMSE
o
1 0.4713 0.6572
Regresión Lineal glm 2 0.4354 0.6060
3 0.0941 0.1181
glmnet 1 0.9095 1.1725
Regresión de Ridge 2 0.9115 1.1852
( α =0 ) 3 0.1158 0.1474
glmnet 1 0.6105 0.8295
Regresión Elastic net 2 0.6104 0.8235
( α =0.5 ) 3 0.1009 0.1254
glmnet 1 0.6059 0.8220
Regresión Lasso 2 0.6034 0.8133
( α =1 ) 3 0.1002 0.1247
1 0.3472 0.5101
Bosque Aleatorio rf 2 0.3943 0.5655
3 0.0959 0.1075
1 0.5174 0.6264
Árbol de Decisión dtr 2 0.5172 0.6062
3 0.1215 0.1513
4. RESULTADOS
En base a los hallazgos presentados en la Tabla 3, se puede afirmar con confianza que
los resultados de precisión obtenidos en el escenario 3 destacan notablemente. Este
resultado positivo no es sorprendente, considerando la meticulosa aplicación de
ingeniería de características mediante el criterio de Análisis de Componentes
Principales (PCA), una técnica conocida por su eficacia en este tipo de análisis. La
exploración de múltiples escenarios y algoritmos ha permitido resaltar la crucial
importancia de seleccionar las características más adecuadas para garantizar una
predicción precisa. Esto subraya la necesidad de hacer un uso óptimo de los datos
disponibles y no confiar exclusivamente en un solo método o enfoque.
A pesar de las sutiles diferencias entre los resultados del escenario 3, el enfoque basado
en el algoritmo de bosque aleatorio se destacó como el más prometedor y eficaz, con un
error cuadrático medio (RMSE) de 0.1075 y un error absoluto medio (MAE) de 0.050.
Estos resultados no solo enfatizan la capacidad y consistencia del modelo propuesto,
sino que también demuestran su potencial para respaldar la toma de decisiones médicas
en el ámbito de las infecciones nosocomiales, un área de gran importancia para la salud
pública. Este estudio demuestra la importancia de un análisis cuidadoso y riguroso en la
etapa de selección de características, y subraya la necesidad de considerar múltiples
enfoques y criterios. Aunque los criterios "Cp" y "BIC" son ampliamente reconocidos y
utilizados, no deben ser la única base para la selección de características. Es esencial
llevar a cabo un análisis exploratorio exhaustivo y considerar múltiples factores y
enfoques para garantizar la precisión y la solidez de los resultados.
Los presentes resultados no son una solución definitiva, sino un paso importante en la
dirección correcta. A medida que se recopilan más datos y se desarrollan nuevas
técnicas, es esencial que sigamos explorando y refinando estos modelos. Mientras
seguimos avanzando en este camino, es crucial que continuemos colaborando con
profesionales del sector sanitario. La Ciencia de Datos, después de todo, es solo una
herramienta. La verdadera solución vendrá de la sinergia entre estas herramientas y el
conocimiento y experiencia de los profesionales sanitarios.
6. REFERENCIAS
[1] A. Inglis, A. Parnell, and C. B. Hurley, “Visualizing Variable Importance and Variable
Interaction Effects in Machine Learning Models,” Journal of Computational and
Graphical Statistics, vol. 31, no. 3, pp. 766–778, 2022, doi:
10.1080/10618600.2021.2007935.
[2] Y. Wang, L. Wang, W. Ma, H. Zhao, X. Han, and X. Zhao, “Development of a novel
dynamic nosocomial infection risk management method for COVID-19 in outpatient
settings,” BMC Infect Dis, vol. 24, no. 1, Dec. 2024, doi: 10.1186/s12879-024-09058-w.
[4] G. Lu et al., “ Development and application of a nomogram model for the prediction of
carbapenem-resistant Klebsiella pneumoniae infection in neuro-ICU patients ,”
Microbiol Spectr, vol. 12, no. 1, Jan. 2024, doi: 10.1128/spectrum.03096-23.
[5] S. Mornese Pinna et al., “Epidemiology and Risk Factors for Nosocomial Infections in
Left Ventricular Assist Device Recipients,” Life, vol. 14, no. 2, p. 270, Feb. 2024, doi:
10.3390/life14020270.
[6] R. H. Keogh and I. R. White, “Allowing for never and episodic consumers when
correcting for error in food record measurements of dietary intake,” Biostatistics, vol.
12, no. 4, pp. 624–636, Oct. 2011, doi: 10.1093/biostatistics/kxq085.
[10] S. Publication Bhuvana, “Blockchain based Service: A Case Study on IBM Blockchain
Services & Hyperledger Fabric,” International Journal of Case Studies in Business, IT
and Education (IJCSBE) A Refereed International Journal of Srinivas University, India.
Blockchain Services & Hyperledger Fabric. International Journal of Case Studies in
Business, vol. 4, no. 1, pp. 2581–6942, 2020, doi: 10.5281/zenodo.3822411.
[18] D. Rossell, P. Müller, and G. L. Rosner, “Screening designs for drug development,”
Biostatistics, vol. 8, no. 3, pp. 595–608, Jul. 2007, doi: 10.1093/biostatistics/kxl031.
[19] A. J. Grant and S. Burgess, “An efficient and robust approach to Mendelian
randomization with measured pleiotropic effects in a high-dimensional setting,”
Biostatistics, vol. 23, no. 2, pp. 609–625, Apr. 2022, doi: 10.1093/biostatistics/kxaa045.
https://drive.google.com/drive/folders/1kmR7GCc5M0JbUxWeFjfw-g1jZHCd_w-V?
usp=sharing