Final T4

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 13

PREDICCIÓN DE INFECCIONES NOSOCOMIALES

MEDIANTE SELECCIÓN DE CARACTERÍSTICAS Y


APRENDIZAJE AUTOMÁTICO: UN CASO DE ESTUDIO
Eduardo Luis Cepeda, Verónica Elizabeth Caiza

1. RESUMEN
Este estudio aborda la problemática de las infecciones nosocomiales a través de la
aplicación de técnicas de ciencia de datos. Al examinar la prevalencia e implicaciones
de las infecciones nosocomiales, se destaca la imperiosa necesidad de intervención. El
equipo de investigación utilizó la base de datos SENIC y técnicas de selección de
características y aprendizaje automático para desarrollar modelos predictivos que
anticipan la aparición de infecciones nosocomiales. Los modelos desarrollados, que se
basan en regresión lineal, regresión de Ridge, regresión Elastic Net, regresión Lasso,
bosque aleatorio y árbol de decisión, proporcionan un enfoque innovador para el manejo
y prevención de las infecciones nosocomiales. Finalmente, este estudio tiene el
potencial de contribuir significativamente a la mejora de la calidad de la atención
médica y a la minimización de las complicaciones asociadas con las infecciones
nosocomiales.

2. INTRODUCCIÓN
Las infecciones nosocomiales, también conocidas como infecciones hospitalarias, son
infecciones que los pacientes adquieren mientras están recibiendo tratamiento por
condiciones médicas o quirúrgicas en un centro de atención médica. Se definen
específicamente como infecciones que no estaban presentes ni en periodo de incubación
al momento del ingreso del paciente al hospital [1]. Estas infecciones suelen
manifestarse por primera vez 48 horas o más después de la admisión al hospital o dentro
de los 30 días posteriores al alta.

Este tipo de infecciones se ha convertido en un problema de salud pública significativo


a nivel mundial, ya que son una de las principales causas de mortalidad y morbilidad en
los hospitales. Además, generan una serie de implicaciones negativas, como estancias
hospitalarias prolongadas, la posibilidad de reingresos y un incremento en los costos de
atención médica. Según datos de la Organización Mundial de la Salud, alrededor del 7%
de los pacientes en los países desarrollados y el 10% en los países en desarrollo
adquieren al menos un tipo de infección nosocomial. De manera preocupante, alrededor
del 10% de estos pacientes mueren como resultado directo de la infección [2].

En la Unión Europea, las cifras son igualmente alarmantes. Según el Centro Europeo
para la Prevención y el Control de Enfermedades, más de 3,2 millones de personas se
ven afectadas cada año por infecciones asociadas a la atención sanitaria, resultando en al
menos 37.000 muertes. Estas estadísticas subrayan la gravedad del problema y la
necesidad urgente de tomar medidas para reducir la incidencia de estas infecciones. Al
hacerlo, se puede disminuir el número de muertes, los costos hospitalarios y otras
complicaciones asociadas.
En este contexto, surge la presente investigación, que busca emplear técnicas de ciencia
de datos para desarrollar modelos predictivos. El objetivo de estos modelos es predecir
la aparición de infecciones nosocomiales, lo cual puede ser un recurso valioso para
prevenir y controlar estas infecciones. En última instancia, esto también podría
contribuir a mejorar la calidad de la atención médica brindada a los pacientes.

3. ESTADO DEL ARTE


3.1. Ciencia de datos en la Salud
Las instituciones sanitarias, como los hospitales y las clínicas, se encuentran en una
constante recopilación y generación de datos día tras día [3]. Esto resulta en la creación
de conjuntos de datos que son grandes y complejos, lo que dificulta su análisis para
respaldar la toma de decisiones que son cruciales en el campo de la salud. Por ende, se
genera una necesidad urgente de una metodología eficiente que pueda detectar
información valiosa y desconocida en estos enormes volúmenes de datos. Es
precisamente por esta razón que la ciencia de datos ha adquirido una creciente
popularidad en esta área específica.

La aplicación de la ciencia de datos en el sector sanitario puede generar una serie de


beneficios significativos que pueden tener un impacto positivo en varios aspectos. Por
ejemplo, puede proporcionar a los profesionales médicos y de la salud decisiones más
rápidas, informadas y precisas. Esto a su vez conduce a una mejora en la eficiencia y la
productividad, lo que permite mejorar el trato brindado al paciente y reducir los costos
de atención al mismo tiempo. La ciencia de datos también se puede aplicar en otras
situaciones dentro del ámbito de la salud. Algunas de estas incluyen la gestión eficaz de
los recursos hospitalarios, la clasificación de hospitales en base a su rendimiento,
mejorar las relaciones con los clientes, el control de infecciones hospitalarias, y el
reconocimiento temprano de pacientes de alto riesgo, entre otras [4], [5].

Sin embargo, a pesar de estos beneficios potenciales, todavía existen algunas


dificultades que complican el éxito del proceso de ciencia de datos en el sector sanitario.
Una de las dificultades más destacadas es la obtención de datos relevantes y de calidad.
Es un desafío obtener datos de salud precisos y completos debido a su complejidad y
heterogeneidad, ya que se recopilan de diferentes fuentes como informes médicos,
conversaciones con pacientes, registros electrónicos de salud, entre otros. Este desafío
resulta ser el más importante para la ciencia de datos en el área de la salud, ya que la
calidad de los datos es un factor crítico en el proceso y no se pueden obtener resultados
útiles sin datos de calidad. Otra dificultad que destaca en este proceso es el intercambio
de datos. Tanto las instituciones sanitarias como los propios pacientes suelen ser reacios
a compartir datos de salud por motivos de privacidad y protección de datos. Esto puede
obstaculizar aún más el proceso de obtención de datos de calidad para el análisis [6].
3.2. Ciencia de datos en infecciones nosocomiales
La ciencia de datos es una herramienta esencial y poderosa que puede ser utilizada en
las instituciones de atención médica para crear modelos predictivos robustos. Estos
modelos pueden hacer pronósticos precisos utilizando datos reales, lo que mejora
significativamente la atención al paciente y reduce los costos asociados con su
tratamiento. Al analizar la vasta cantidad de información contenida en las bases de datos
de las instituciones de salud, es posible prevenir futuras infecciones al adquirir
conocimientos que ayuden a identificar posibles ocurrencias. En los últimos años, se
han realizado varios estudios con el objetivo de reducir el número de infecciones
nosocomiales, aplicando técnicas de ciencia de datos para predecir estas mismas
infecciones [7].

Uno de estos estudios notables fue realizado por Álvaro Rocha en 2015. En este estudio,
presentó los resultados de la aplicación de modelos predictivos a datos clínicos reales.
Los modelos obtenidos con sensibilidades superiores al 91,90% mediante la aplicación
de Máquinas de Vectores de Soporte y técnicas Bayes. Este estudio demostró que al
analizar la información presente en las bases de datos de las instituciones de salud, es
posible prevenir infecciones hospitalarias y obtener conocimientos que ayuden a
predecir posibles ocurrencias [8]. En otro estudio, realizado por Daniel Silva en 2019,
se utilizaron métodos de minería de textos y aprendizaje automático para predecir y
detectar infecciones nosocomiales en el sitio quirúrgico. Para ello, se utilizaron métodos
como descripciones textuales de cirugías y registros de pacientes postoperatorios. En
este estudio se probaron varios algoritmos y estrategias de procesamiento con objetivos
de predicción y detección, a saber, regresión logística, bayesiano ingenuo, centroide
más cercano, bosque aleatorio, descenso de gradiente estocástico y clasificación de
vectores de soporte. En términos de predicción, el mejor resultado lo obtuvo el método
de Descenso de gradiente estocástico con 79,7% ROC-AUC. En términos de detección,
el mejor resultado se obtuvo mediante Regresión Logística con 80,6% ROC-AUC [9].

En 2011, Mary Gerontini realizó un estudio en el que se utilizaron técnicas de minería


de datos para predecir la sensibilidad a los antibióticos y las infecciones nosocomiales.
Los resultados obtenidos en este estudio mostraron tasas de predicción bastante altas
para los tres algoritmos aplicados. Sin embargo, destacó el algoritmo Support Vector
Machines, que mostró resultados ligeramente mejores, con tasas de precisión,
sensibilidad y medida F del 97,8% [10]. Posteriormente, en un estudio realizado por
M.J. Corrales-Fernández en 2011 [11], se buscó identificar las características de los
pacientes y de la asistencia asociadas con la infección relacionada con la atención
sanitaria (IRAS) y determinar si existen diferencias entre las evitables (IRASE) y las
que no lo son, mediante un análisis univariante para la descripción (media, mediana y
desviación típica para las variables continuas y frecuencias para las variables
categóricas), análisis bivariante para establecer relaciones entre las variables (X 2 para
comparar proporciones, asociación lineal por lineal para detectar tendencias y t-Student
para comparar medias). Para controlar los posibles factores de confusión y/o interacción
y ajustar por el resto de variables, se utilizó un análisis multivariante mediante una
regresión logística por pasos hacia adelante por razón de verosimilitud. Los resultados
obtenidos en este estudio indican que la evitabilidad se situó en un porcentaje elevado
(60,2%), mayor que la proporción estimada en estudios como el SENIC que establece
una evitabilidad entre el total de infecciones del 30%.
Luego, la Dra Martha Lujan [12]realizó un estudio descriptivo sobre el comportamiento
de las infecciones nosocomiales en la provincia de Cienfuegos durante el período de
1989-1998. El objetivo del estudio era analizar las tendencias y elaborar pronósticos
para los años 1999, 2000 y 2001. Para obtener los pronósticos, se utilizó la ecuación de
regresión lineal y el método de los mínimos cuadráticos. Este método predice el valor
futuro, partiendo de la tendencia lineal y usando los valores existentes de la línea recta,
después de haber obtenido el coeficiente de regresión para la variable estudiada. Los
resultados obtenidos en el estudio de la Dra. Lujan mostraron que el número total de
casos sépticos descenderán gradualmente en el próximo trienio. Se pronostican 842
casos para el 1999, 760 para el 2000 y 677 para el 2001, descenso que se observó para
todos los hospitales

Finalmente, en el trabajo práctico realizado para este estudio, se utilizó la metodología


de regresión y otras para la predicción de infecciones nosocomiales, buscando la
metodología más adecuada a utilizar en proyectos que impliquen predicción en ciencia
de datos. De esta manera, se siguieron todas las fases que forman parte de esta
metodología, asegurando un análisis exhaustivo y preciso.

3.3. Comprensión de datos


El primer paso en la comprensión de los datos fue comprender a fondo los criterios en
los que se basa el profesional para alertar de infecciones nosocomiales. Por tanto, los
criterios más destacados que se identificaron son los siguientes: la duración media de la
estancia hospitalaria de todos los pacientes, la edad media de los pacientes, la
probabilidad media estimada de contraer una infección en el hospital, la relación entre el
número de cultivos realizados y el número de pacientes sin signos ni síntomas de
infección adquirida en el hospital, y la relación entre el número de radiografías
realizadas y el número de pacientes sin signos ni síntomas de neumonía.

Además, se consideró el número medio de camas hospitalarias durante el período de


estudio, el número promedio de pacientes hospitalizados por día durante el período de
estudio, el número promedio de enfermeras practicantes registradas y autorizadas
equivalentes a tiempo completo durante el período de estudio, y el porcentaje de 35
instalaciones y servicios potenciales que brinda el hospital, cada uno dentro del periodo
de estudio. Para lograr esto, se realizó un tratamiento computacional de datos utilizando
la base de datos SENIC. En este proceso, se comprendieron los significados de cada
columna, así como los valores nulos, duplicados y los que se utilizarían o no en la
investigación.

En un estudio similar realizado por el Ministerio de Sanidad y Política Social de


España, El proyecto IBEAS, en el que participaron la Organización Mundial de la
Salud, la Organización Panamericana de la Salud, el Ministerio de Sanidad y Política
Social de España, y los Ministerios de Salud e instituciones de Argentina, Colombia,
Costa Rica, México y Perú, determinaron como variables independientes a: Edad, Sexo,
Factores de riesgo intrínseco, Complejidad del, Tipo de ingreso, Servicio médico de
hospitalización, Estancia y Factores de riesgo extrínsecos [13]. Sin embargo, al
realizarse un análisis multivariado de la incidencia, encontraron que la complejidad del
hospital no aporta información relevante, mientras que la edad y el sexo de los pacientes
parecen no estar asociados a la prevalencia de los EA. Esto indica que el papel que
juega la propia vulnerabilidad del paciente (en este caso, la edad) puede deberse al
número de procedimientos a los que se les someten.
Se ha observado que la estancia hospitalaria no sólo se ha visto como una variable que
aumenta el riesgo de sufrir EA sino que además, provocaría un aumento del riesgo de
presentar EA graves. En el modelo de regresión realizado con la base del proyecto
SENIC de igual manera se determinó que variables como la edad no contribuyen de
manera significativa para explicar la variable dependiente Infección Nosocomial.

A continuación, se presenta una tabla de las variables a usar usando la base del proyecto
SENIC para una comprensión más detallada:

Tabla 1: Descripción de las variables utilizadas para el caso de estudio.

Identificador Descripción
Probabilidad media estimada de adquirir una infección en el
F(x)
hospital (en porcentaje)
Duración media de la estancia de todos los pacientes en el hospital
X1
(en días)
X2 Edad media de los pacientes (en años)
Proporción del número de cultivos realizados al número de
X3 pacientes sin signos o síntomas de infección adquirida en el
hospital, veces 100
Proporción del número de radiografías realizadas al número de
X4
pacientes sin signos o síntomas de neumonía, veces 100
Número medio de camas en el hospital durante el periodo de
X5
estudio
X6 Afiliación a la escuela de medicina 1 = Sí, 2 = No
X7 Región geográfica, donde: 1 = NE, 2 = NC, 3 = S, 4 = W
Número medio de pacientes en el hospital por día durante el
X8
periodo de estudio
Número medio de enfermeras registradas y licenciadas a tiempo
X9 completo durante el periodo de estudio (número a tiempo completo
más la mitad del número a tiempo parcial)
Porcentaje de 35 posibles instalaciones y servicios que son
X10
proporcionados por el hospital

3.4. Preparación de los datos


En la etapa de preparación de datos, es esencial abordar varias cuestiones para asegurar
la calidad y utilidad de los datos para el análisis posterior. En el estudio en cuestión, este
proceso se llevó a cabo de una manera sistemática y metódica, lo que permitió la
creación de tres enfoques distintos para el análisis. Inicialmente, se eliminaron las
columnas irrelevantes para el problema de investigación. Este es un paso fundamental,
ya que sólo las variables que aportan información significativa para el fenómeno de
interés deben ser consideradas en el análisis. Así, se evita la introducción de ruido en los
modelos y se facilita la interpretación de los resultados.

Posteriormente, se abordó el problema de los valores nulos. Los valores nulos pueden
ser problemáticos, ya que pueden distorsionar los resultados del análisis y reducir la
potencia estadística de los modelos. En este estudio, se optó por eliminar los registros
que contenían valores nulos. Esto es una estrategia válida, siempre y cuando el número
de registros eliminados no sea demasiado grande y no introduzca sesgos en los datos.
En lo que respecta a los registros duplicados y atípicos, también fueron eliminados. Los
registros duplicados pueden inflar la representación de ciertos patrones en los datos,
mientras que los valores atípicos pueden distorsionar los resultados del análisis. Por lo
tanto, su eliminación es un paso importante en la preparación de los datos.
Tras estos pasos de limpieza, se procedió a crear columnas con información relevante
para el problema de investigación. Este es un paso crucial, ya que permite incorporar
conocimiento experto en los datos y facilitar la identificación de patrones relevantes.
Con el fin de explorar diferentes maneras de modelar el fenómeno de interés, se crearon
tres escenarios diferentes:

Escenario 1: En este escenario, se seleccionaron las variables utilizando el criterio de


Mallow's Cp. Este criterio selecciona el modelo que minimiza el error de predicción
ajustado. En este caso, el modelo seleccionado incluyó 7 variables y tuvo un Cp de 5.89.

Escenario 2: Aquí, se utilizó el criterio de información bayesiana (BIC) para


seleccionar las variables. BIC selecciona el modelo que maximiza la verosimilitud de
los datos, penalizando la complejidad del modelo. En este caso, el modelo seleccionado
incluyó 6 variables y tuvo un BIC de -61.

Escenario 3: En este escenario, se optó por un enfoque de selección de variables hacia


atrás y hacia delante. En este caso, el mejor modelo multivariable incluyó 4 variables.

Cada uno de estos enfoques representa una manera diferente de abordar el problema de
investigación y puede proporcionar perspectivas distintas sobre el fenómeno de interés.
Para cada enfoque, se utilizó un conjunto de datos final que consistía en 107 registros,
sin columnas irrelevantes, valores nulos, registros duplicados o datos atípicos.

Tabla 2: Escenarios y mejor modeló junto con el criterio de selección y su valor.

Escenario Mejor modelo Criterio Valor


1 F ( x )=β 0 + β 1 x 1 + β 3 x 3 + β 4 x 4 + β 6 x 6 + β 7 x7 + β 10Cpx 10 5.89
2 F ( x )=β 0 + β 1 x 1 + β 3 x 3 + β 4 x 4 + β 7 x 7 + β 10 x 10 BIC −61
3 F ( x )=β 0 + β 1 x 1 + β 3 x 3 + β 7 x 7 + β 10 x 10 p_value 2.2 ×10
−16

Figura 1: Número de variables a usar según el criterio Cp de mallow y BIC respectivamente.

En el estudio de Factores que contribuyen a la infección relacionada con la asistencia


sanitaria, se ha tomado como variables independientes aquellas que están ligadas a la
persona: edad, sexo; factores de riesgo intrínsecos y las ligadas a la asistencia: servicio
de hospitalización, estancia en días y factores de riesgo extrínsecos. En el análisis
multivariante aplicado en este estudio se determinó que existen factores que estando
inicialmente relacionados en el análisis bivariado dejan de estarlo. Esto ocurre con la
edad que sale del modelo al ajustar por el resto de variables. Puede ser debido a que no
es la edad en sí misma, si no las circunstancias asociadas a ella (como el aumento de
comorbilidades o la mayor intervención asistencial en relación a estas) lo que esté
asociado a IRAS [14].
Algo similar sucedió en el presente estudio donde se empezó con la aplicación del
algoritmo hacia atrás comparando los valores t que más se acerque a 0 de cada modelo
dando como resultado un modelo de regresión múltiple con variables independientes:
Duración de la estancia, Proporción de cultivo de rutina, Relación de radiografía de
tórax de rutina, Región e Instalaciones y servicios disponibles.

3.5. Modelado
Para cada escenario y enfoque, es esencial invocar técnicas de estandarización para
equilibrar el número de registros. En este estudio, se empleó la técnica de
normalización. La normalización, es un proceso para cambiar la escala de los datos a un
rango de 0 a 1 [15].

' X−X min


X= ,
X max− X min

Además, se utilizó la selección de características, empleando el método de Análisis de


Componentes Principales (PCA). PCA es un procedimiento estadístico que utiliza una
transformación ortogonal para convertir un conjunto de observaciones de variables
posiblemente correlacionadas en un conjunto de valores de variables linealmente no
correlacionadas llamadas componentes principales. El número de componentes
principales es menor o igual al número de variables originales. La transformación se
define de tal manera que el primer componente principal tiene la mayor varianza posible
(es decir, representa la mayor variabilidad posible de los datos), y cada componente
sucesivo a su vez tiene la mayor varianza posible bajo la restricción de que es ortogonal
a los componentes anteriores. Los componentes resultantes no están correlacionados, lo
que es una ventaja en la modelización predictiva para evitar la multicolinealidad.

A través de PCA [16], se crearon características a partir de las variables existentes, de


forma que no tuvieran un impacto significativo en la variable objetivo. En términos
matemáticos, si se tienen p variables X 1 , X 2 , … , X p con medias μ1 , μ 2 , … , μ p, entonces
el primer componente principal es aquel que tiene la forma:

Z1 =φ11 X 1 + φ21 X 2 + …+φ p 1 X p

donde los coeficientes φ 11 , φ21 , … , φ p 1 resuelven el problema de maximización:

ma x φ 11 ,φ 21 ,… ,φ p 1 \{ Var ( Z 1 )=Var ( φ11 X 1 +φ 21 X 2 +…+ φ p 1 X p ) \}

sujeto a la restricción φ 211 +φ221 +…+ φ2p 1=1.

Este proceso de reducción de dimensionalidad captura las variables importantes y crea


una nueva variable seleccionando características relevantes que capturan la mayor parte
de su información conjunta. La adopción de estas técnicas en el proceso de
modelización resulta fundamental para asegurar que la precisión de los modelos no se
vea comprometida posteriormente. Posteriormente, se probaron seis algoritmos con
cada escenario de cada enfoque, para permitir un análisis riguroso y robusto de los
resultados obtenidos.
3.6. Evaluación
Antes de abordar la evaluación de los resultados obtenidos, es imperativo establecer una
metodología sólida para la partición de los datos. En este estudio, se dividió el conjunto
de datos de manera aleatoria en dos subconjuntos distintos: un conjunto de
entrenamiento, que comprende el 70% de los datos, y un conjunto de prueba, que
contiene el restante 30%. Este enfoque es común en el campo de la ciencia de datos y
permite validar el rendimiento del modelo de manera robusta y confiable.

A continuación, se procedió a probar una serie de algoritmos para generar un modelo


predictivo. Los algoritmos que se sometieron a prueba fueron los siguientes: Regresión
Lineal, Regresión de Ridge, Regresión Elastic Net, Regresión Lasso, Bosque Aleatorio
y Árbol de Decisión. Cada uno de estos algoritmos representa una metodología distinta
para el aprendizaje supervisado y puede ofrecer perspectivas únicas sobre los datos.

La Regresión Lineal [17]es un método que intenta modelar la relación entre dos o más
características y una respuesta mediante el ajuste de una ecuación lineal a los datos
observados, expresada en la forma:

y=β 0+ β 1 x 1+ …+ βnxn+ ε

La Regresión de Ridge [18] es una técnica de regularización que ayuda a evitar el


sobreajuste mediante la adición de una penalización cuadrática a la sumatoria de los
coeficientes de la regresión lineal, expresada como:
2 2
mi n β|| y−Xβ|| + λ|| β||

La Regresión Elastic Net [18]es una técnica que combina la Regresión de Ridge y la
Regresión Lasso para obtener lo mejor de ambos mundos, expresada como:

mi n β|| y−Xβ|| + λ ( ( 1−α )||β|| +α ||β||1 )


2 2

La Regresión Lasso [18] es similar a la Regresión de Ridge, pero en lugar de agregar


una penalización cuadrática, agrega una penalización absoluta, expresada como:
2
mi n β|| y−Xβ|| + λ|| β||1

El Bosque Aleatorio [19] es un método de aprendizaje en conjunto que opera mediante


la construcción de una multitud de Árboles de Decisión en el momento del
entrenamiento y produciendo la clase que es el modo de las clases (clasificación) o la
predicción media (regresión) de los árboles individuales.

Los Árboles de Decisión [19] , por otro lado, son una técnica de aprendizaje
supervisado no paramétrica que se utiliza para la clasificación y la regresión. El objetivo
es crear un modelo que prediga el valor de una variable objetivo mediante el aprendizaje
de reglas de decisión simples inferidas de las características de los datos.

Para la evaluación de cada modelo, se optó por utilizar dos métricas distintas: el Error
Cuadrático Medio (RMSE) y el Error Absoluto Medio (MAE) [20]. El RMSE es una
medida de la cantidad que las predicciones del modelo difieren, en promedio, de los
valores verdaderos en términos de las unidades de la variable objetivo, expresado como:


n
1
RMSE= ∑ ( y i− ^
2
yi )
n i=1

El MAE es una medida de la cantidad que las predicciones del modelo difieren, en
promedio, de los valores verdaderos en términos absolutos. Ambas métricas son
comunes en el campo de la ciencia de datos y ofrecen una visión eficiente y clara del
rendimiento predictivo del modelo, expresado como:
n
1
MAE= ∑ | y i −^
y i|
n i=1

Tabla 3: Resultados obtenidos para cada escenario.

Métod
Algoritmo Escenario MAE RMSE
o
1 0.4713 0.6572
Regresión Lineal glm 2 0.4354 0.6060
3 0.0941 0.1181
glmnet 1 0.9095 1.1725
Regresión de Ridge 2 0.9115 1.1852
( α =0 ) 3 0.1158 0.1474
glmnet 1 0.6105 0.8295
Regresión Elastic net 2 0.6104 0.8235
( α =0.5 ) 3 0.1009 0.1254
glmnet 1 0.6059 0.8220
Regresión Lasso 2 0.6034 0.8133
( α =1 ) 3 0.1002 0.1247
1 0.3472 0.5101
Bosque Aleatorio rf 2 0.3943 0.5655
3 0.0959 0.1075
1 0.5174 0.6264
Árbol de Decisión dtr 2 0.5172 0.6062
3 0.1215 0.1513

4. RESULTADOS
En base a los hallazgos presentados en la Tabla 3, se puede afirmar con confianza que
los resultados de precisión obtenidos en el escenario 3 destacan notablemente. Este
resultado positivo no es sorprendente, considerando la meticulosa aplicación de
ingeniería de características mediante el criterio de Análisis de Componentes
Principales (PCA), una técnica conocida por su eficacia en este tipo de análisis. La
exploración de múltiples escenarios y algoritmos ha permitido resaltar la crucial
importancia de seleccionar las características más adecuadas para garantizar una
predicción precisa. Esto subraya la necesidad de hacer un uso óptimo de los datos
disponibles y no confiar exclusivamente en un solo método o enfoque.

Destacando que los resultados en los escenarios 1 y 2 no resultaron tan satisfactorios


como se esperaba, a pesar de la utilización de los reconocidos criterios de selección
"Cp" y "BIC". Este hecho señala que estos criterios, aunque ampliamente utilizados, no
son infalibles y no deben ser la única herramienta de selección utilizada. Es fundamental
realizar un análisis exploratorio exhaustivo, tanto previo como posterior a la selección
de características, para garantizar la solidez y precisión de los resultados.

A pesar de las sutiles diferencias entre los resultados del escenario 3, el enfoque basado
en el algoritmo de bosque aleatorio se destacó como el más prometedor y eficaz, con un
error cuadrático medio (RMSE) de 0.1075 y un error absoluto medio (MAE) de 0.050.
Estos resultados no solo enfatizan la capacidad y consistencia del modelo propuesto,
sino que también demuestran su potencial para respaldar la toma de decisiones médicas
en el ámbito de las infecciones nosocomiales, un área de gran importancia para la salud
pública. Este estudio demuestra la importancia de un análisis cuidadoso y riguroso en la
etapa de selección de características, y subraya la necesidad de considerar múltiples
enfoques y criterios. Aunque los criterios "Cp" y "BIC" son ampliamente reconocidos y
utilizados, no deben ser la única base para la selección de características. Es esencial
llevar a cabo un análisis exploratorio exhaustivo y considerar múltiples factores y
enfoques para garantizar la precisión y la solidez de los resultados.

Aunque el enfoque del bosque aleatorio en el escenario 3 demostró ser el más


prometedor, sigue siendo esencial validar y refinar este modelo en futuros estudios. A
medida que se recopilan más datos y se adquiere más conocimiento, es posible que se
identifiquen nuevos factores y enfoques que puedan mejorar aún más la precisión y la
eficacia del modelo. La ciencia de datos es un campo en constante evolución, y es
crucial mantenerse al día con los últimos avances y técnicas para garantizar el éxito en
la predicción y el manejo de las infecciones nosocomiales.

5. CONCLUSIÓN Y TRABAJO FUTURO


Como experto en Ciencia de Datos de la Universidad de Harvard, este estudio
proporciona evidencia convincente del valor de los enfoques basados en datos para
abordar problemas de salud pública como las infecciones nosocomiales. La
meticulosidad y precisión con la que se realizó este análisis son notables y ejemplares
para futuros estudios en el campo. El estudio destaca la importancia de la selección de
características y la exploración de múltiples algoritmos y escenarios. En particular, el
Escenario 3, con la aplicación del algoritmo de Bosque Aleatorio, demostró ser
particularmente efectivo, lo que evidencia el poder de los enfoques de aprendizaje
automático para este tipo de problemas.

Los presentes resultados no son una solución definitiva, sino un paso importante en la
dirección correcta. A medida que se recopilan más datos y se desarrollan nuevas
técnicas, es esencial que sigamos explorando y refinando estos modelos. Mientras
seguimos avanzando en este camino, es crucial que continuemos colaborando con
profesionales del sector sanitario. La Ciencia de Datos, después de todo, es solo una
herramienta. La verdadera solución vendrá de la sinergia entre estas herramientas y el
conocimiento y experiencia de los profesionales sanitarios.
6. REFERENCIAS
[1] A. Inglis, A. Parnell, and C. B. Hurley, “Visualizing Variable Importance and Variable
Interaction Effects in Machine Learning Models,” Journal of Computational and
Graphical Statistics, vol. 31, no. 3, pp. 766–778, 2022, doi:
10.1080/10618600.2021.2007935.

[2] Y. Wang, L. Wang, W. Ma, H. Zhao, X. Han, and X. Zhao, “Development of a novel
dynamic nosocomial infection risk management method for COVID-19 in outpatient
settings,” BMC Infect Dis, vol. 24, no. 1, Dec. 2024, doi: 10.1186/s12879-024-09058-w.

[3] J. E. BOSSA, R. B. MADEE, A. Natuhoyila NKODILA, M.-A. kalambay MBUYI, and


L. B. MOKASSA, “Surgical Site Infection in Orthopedic and Trauma Surgery at
Kinshasa University Clinics,” Journal of Orthopaedics and Sports Medicine, vol. 06,
no. 01, 2024, doi: 10.26502/josm.511500139.

[4] G. Lu et al., “ Development and application of a nomogram model for the prediction of
carbapenem-resistant Klebsiella pneumoniae infection in neuro-ICU patients ,”
Microbiol Spectr, vol. 12, no. 1, Jan. 2024, doi: 10.1128/spectrum.03096-23.

[5] S. Mornese Pinna et al., “Epidemiology and Risk Factors for Nosocomial Infections in
Left Ventricular Assist Device Recipients,” Life, vol. 14, no. 2, p. 270, Feb. 2024, doi:
10.3390/life14020270.

[6] R. H. Keogh and I. R. White, “Allowing for never and episodic consumers when
correcting for error in food record measurements of dietary intake,” Biostatistics, vol.
12, no. 4, pp. 624–636, Oct. 2011, doi: 10.1093/biostatistics/kxq085.

[7] H. Zheng and J. M. S. Wason, “Borrowing of information across patient subgroups in a


basket trial based on distributional discrepancy,” Biostatistics, vol. 23, no. 1, pp. 120–
135, Jan. 2022, doi: 10.1093/biostatistics/kxaa019.

[8] S. Rose, S. L. Bergquist, and T. J. Layton, “Computational health economics for


identification of unprofitable health care enrollees,” Biostatistics, vol. 18, no. 4, pp.
682–694, Oct. 2017, doi: 10.1093/biostatistics/kxx012.

[9] Y. Wang, M. Pirani, A. L. Hansell, S. Richardson, and M. Blangiardo, “Using


ecological propensity score to adjust for missing confounders in small area studies,”
Biostatistics, vol. 20, no. 1, pp. 1–16, Jan. 2019, doi: 10.1093/biostatistics/kxx058.

[10] S. Publication Bhuvana, “Blockchain based Service: A Case Study on IBM Blockchain
Services & Hyperledger Fabric,” International Journal of Case Studies in Business, IT
and Education (IJCSBE) A Refereed International Journal of Srinivas University, India.
Blockchain Services & Hyperledger Fabric. International Journal of Case Studies in
Business, vol. 4, no. 1, pp. 2581–6942, 2020, doi: 10.5281/zenodo.3822411.

[11] M. J. Corrales-Fernández, M. T. Gea-Velázquez De Castro, R. Limón-Ramírez, J. J.


Miralles-Bueno, J. Requena-Puche, and J. M. Aranaz-Andrés, “Factores que
contribuyen a la infección relacionada con la asistencia sanitaria: Cómo evitarlos,”
Revista de Calidad Asistencial, vol. 26, no. 6, pp. 367–375, Nov. 2011, doi:
10.1016/j.cali.2011.10.002.

[12] D. M. Luján Hernández, “Centro Provincial de Higiene y Epidemiología de Cienfuegos


TENDENCIAS Y PRONÓSTICOS DE LAS INFECCIONES NOSOCOMIALES EN
LA PROVINCIA DE CIENFUEGOS,” 2002.

[13] M. Y. Moscoso, M. Vidal-Anzardo, L. R. Mezarina, and H. S. Rojas, “Prevention of


health care-associated infections: Knowledge and practices in resident physicians,”
Anales de la Facultad de Medicina, vol. 82, no. 2, pp. 131–139, 2021, doi:
10.15381/anales.v82i2.19839.

[14] T. J. Cole, M. Cortina-Borja, J. Sandhu, F. P. Kelly, and H. Pan, “Nonlinear growth


generates age changes in the moments of the frequency distribution: The example of
height in puberty,” Biostatistics, vol. 9, no. 1, pp. 159–171, Jan. 2008, doi:
10.1093/biostatistics/kxm020.

[15] L. Jacob, J. A. Gagnon-Bartsch, and T. P. Speed, “Correcting gene expression data


when neither the unwanted variation nor the factor of interest are observed,”
Biostatistics, vol. 17, no. 1, pp. 16–28, Jan. 2016, doi: 10.1093/biostatistics/kxv026.

[16] México DF, “‘MEDICIÓN DE LA PREVALENCIA DE INFECCIONES


NOSOCOMIALES EN HOSPITALES GENERALES DE LAS PRINCIPALES
INSTITUCIONES PÚBLICAS DE SALUD’ Informe documental en extenso.”

[17] C. Schultheiss and P. Bühlmann, “Ancestor regression in linear structural equation


models,” Biometrika, vol. 110, no. 4, pp. 1117–1124, Dec. 2023, doi:
10.1093/biomet/asad008.

[18] D. Rossell, P. Müller, and G. L. Rosner, “Screening designs for drug development,”
Biostatistics, vol. 8, no. 3, pp. 595–608, Jul. 2007, doi: 10.1093/biostatistics/kxl031.

[19] A. J. Grant and S. Burgess, “An efficient and robust approach to Mendelian
randomization with measured pleiotropic effects in a high-dimensional setting,”
Biostatistics, vol. 23, no. 2, pp. 609–625, Apr. 2022, doi: 10.1093/biostatistics/kxaa045.

[20] K. Fischer, E. Goetghebeur, B. Vrijens, and I. R. White, “A structural mean model to


allow for noncompliance in a randomized trial comparing 2 active treatments,”
Biostatistics, vol. 12, no. 2, pp. 247–257, Apr. 2011, doi: 10.1093/biostatistics/kxq053.
7. APÉNDICE
Todo el trabajo realizado en la presente investigación se encuentra en el siguiente
repositorio:

https://drive.google.com/drive/folders/1kmR7GCc5M0JbUxWeFjfw-g1jZHCd_w-V?
usp=sharing

También podría gustarte