Documento
Documento
Documento
Director
Bogotá DC
2023
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 2
Dedicatoria
Para mis padres, Jesús y Sayde, quienes a través de su apoyo y esfuerzo incondicional me
George E. P. Box
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 3
Agradecimientos
una vez más y brindarme las herramientas adecuadas para hacer de este programa una experiencia
de alta calidad.
el proceso.
Tabla de Contenido
Pag
Introducción .............................................................................................................................. 10
1. Objetivos ............................................................................................................................... 13
1.1 Objetivo General ................................................................................................................. 13
1.2 Objetivos Específicos .......................................................................................................... 13
2. Marco de Referencia ............................................................................................................. 14
2.1 Antecedentes Investigativos ................................................................................................ 14
2.2 Marco Teórico Conceptual .................................................................................................. 19
2.2.1 Sistema Petrolífero Cuenca Recóncavo ............................................................................. 19
2.2.2 Machine Learning............................................................................................................. 27
2.2.3 Unidades de Flujo ............................................................................................................. 30
3. Análisis Exploratorio de Datos .............................................................................................. 33
3.1 Data disponible ................................................................................................................... 34
3.2 Fm Pojuca ........................................................................................................................... 40
3.3 Fm Agua Grande ................................................................................................................. 43
3.4 Fm Sergi ............................................................................................................................. 55
4. Modelo de Porosidad y Permeabilidad ................................................................................... 63
4.1 Caso Agua Grande-Jandaia .................................................................................................. 64
4.2 Caso Sergi-Remanso ........................................................................................................... 73
5. Predicción de unidades de flujo usando Machine Learning .................................................... 79
5.1 Caso Agua Grande-Jandaia .................................................................................................. 83
5.2 Caso Sergi-Remanso ........................................................................................................... 92
6. Análisis de Resultados........................................................................................................... 97
Conclusiones ........................................................................................................................... 107
Recomendaciones ................................................................................................................... 109
Anexos .................................................................................................................................... 110
Referencias Bibliográficas....................................................................................................... 111
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 5
Lista de Tablas
Pag
Lista de Figuras
Pag
Resumen
Palabras Clave: Unidades de Flujo Hidráulicas, Machine Learning, Indicador de Zona de Flujo,
Aprendizaje Supervisado, Aprendizaje No Supervisado.
Descripción: A partir de sitios web brasileros de acceso gratuito, se elaboró una base de datos de
registros y análisis de núcleos disponibles, a los que se les realizó un análisis exploratorio de datos
encontrando múltiples unidades de flujo bajo la metodología de Amaefule en las formaciones Agua
Grande y Sergi. Se aplica el algoritmo no supervisado de mezclas gaussianas para identificar las
unidades de flujo a partir de la data de núcleo y determinar sus modelos de permeabilidad al aire
a partir de correlaciones con la porosidad efectiva del núcleo y modelos calibrados de porosidad a
partir de registros. Finalmente, se aplican algoritmos supervisados y no supervisados en ambos
casos de estudio para modelar las unidades de flujo a partir de los registros. Para la formación
Agua Grande, se obtienen mejores resultados en algoritmos supervisados, acercándose a 80% de
exactitud con el estimador Gradient Boost Classifier, mientras que los estimadores no
supervisados logran en promedio 60% de exactitud siendo el mejor K-Means. Para la formación
Sergi, el algoritmo K-Means es usado en la identificación de electrofacies, facilitando la
interpretación de intervalos gasíferos y arcillosos, demostrando versatilidad sobre los algoritmos
de aprendizaje supervisado en ambientes de alta heterogeneidad vertical. Por último, se crearon
las plantillas de resultados, incluyendo para Agua Grande el modelo final de las unidades de flujo
predichas con sus respectivos modelos de permeabilidad al aire, y para Sergi las electrofacies
modeladas en el intervalo de estudio.
* Degree Project
** Faculty of Physicochemical Engineering. School of Petroleum Engineering. Director: Dr. Maika Gambús-Ordaz
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 9
Abstract
Title: Comparative analysis between Machine Learning techniques for the determination of
hydraulic flow units*
Key Words: Hydraulic Flow Units, Machine Learning, Flow Zone Indicator, Supervised
Learning, Unsupervised Learning.
Description: From Brazilian websites of free access, a database of logs and analysis of available
cores was developed, to which an exploratory analysis of data was carried out finding multiple
flow units under the methodology of Amaefule in the Agua Grande and Sergi formations. The
unsupervised Gaussian mixture algorithm is applied to identify flow units from core data and
determine their air permeability models from correlations with effective core porosity and
calibrated models of porosity from logs. Finally, supervised and unsupervised algorithms are
applied in both case studies to model the flow units from logs. For the Agua Grande formation,
better results are obtained in supervised algorithms, approaching 80% accuracy with the Gradient
Boost Classifier estimator, while unsupervised estimators achieve on average 60% accuracy being
the best K-Means. For Sergi formation, the K-Means algorithm is used in the identification of
electrofacies, facilitating the interpretation of gas and clay intervals, demonstrating versatility over
supervised learning algorithms in environments of high vertical heterogeneity. Finally, the result
templates were created, including for Agua Grande the final model of the predicted flow units with
their respective air permeability models, and for Sergi the electrofacies modeled in the study
interval.
* Degree Project
** Faculty of Physicochemical Engineering. School of Petroleum Engineering. Director: Dr. Maika Gambús-Ordaz
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 10
Introducción
explotación, ya que permite un correcto entendimiento del potencial petrolífero y productivo del
las variables geológicas mencionadas sobre las variables que controlan el flujo y almacenamiento
las metodologías más populares para la caracterización de yacimientos según su condición de flujo
llamadas unidades de flujo hidráulicas como intervalos dentro de los cuales las propiedades
geológicas y petrofísicas que afectan el flujo son consistentes y predeciblemente diferentes de las
efectiva y la permeabilidad al aire y absoluta de la roca, y dado que el costo y tiempo que representa
llevar a cabo dicho análisis es alto, en ocasiones no es posible realizar esta caracterización lo
suficiente como para comprender correctamente la distribución espacial de las condiciones de flujo
y almacenamiento del yacimiento. Ante estas circunstancias, las nuevas tecnologías surgen como
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 11
una alternativa de solución para correlacionar los análisis de núcleos con conjuntos de datos
Learning o aprendizaje automático, la cual es una rama de la inteligencia artificial que se divide
supervisado se requiere de las etiquetas o resultados de manera previa, siendo estos usados en los
marco teórico conceptual donde se contextualiza el área de estudio y se definen los principales
presentes, tipo y recuento de datos y análisis estadístico de estos, para posteriormente seleccionar
el conjunto de datos a entrenar en el modelo y plantear los casos de estudio respectivos según las
porosidad efectiva y permeabilidad al aire para cada unidad según la data disponible reportada.
con el conjunto de datos establecido para los casos de estudio planteados, reportando sus métricas
escalan los modelos obtenidos del capítulo anterior sobre la totalidad del intervalo de interés de
cada caso de estudio y se comparan sus resultados, creando por último un template con los registros
de pozo, los análisis de núcleos, modelos de porosidad efectiva y permeabilidad al aire, y las
1. Objetivos
Comparar los resultados de las unidades de flujo identificadas a partir de las diferentes
2. Marco de Referencia
años se han estado presentando propuestas en el área con el fin de solucionar inconvenientes
atributos similares en la clasificación de facies, cuando en aquel entonces se solían usar métodos
con enfoque estadístico multivariado para dichos análisis. Por ejemplo, Delfiner et al. (1987) y
Busch et al. (1987) aplicaron una función de análisis discriminante para estimar facies. Gill et al.
(1993) usó un clustering multivariado y correlación de zonas entre pozos para determinar facies.
Debido al continuo avance en el desarrollo del Machine Learning, los esfuerzos investigativos
eran cada vez mayores en su aplicación para la clasificación de facies. Baldwin et al. (1990) aplicó
redes neuronales para identificar minerales en registros de pozos. Rogers et al (1992) y Kapur et
al. (1998) usaron redes neuronales para predecir facies de núcleos y registros de pozos.
notablemente en aumento en toda la cadena de valor de la industria del petróleo. Por ejemplo,
electrofacies y su relación con litofacies y unidades de flujo previamente identificadas. Para esta
integración, usaron los registros eléctricos junto con datos de permeabilidad y porosidad en dos
petrofísico, las electrofacies fueron identificadas de acuerdo con las propiedades petrofísicas. De
forma adicional, para encontrar una buena conexión entre las electrofacies y zonas productoras, se
el enfoque petrofísico, se les dio más peso a los registros de porosidad y densidad. De esta forma,
identificaron 4 electrofacies petrofísicas (EF) y 5 unidades de flujo (HFU). Una de las notas
relevantes del estudio es la presencia de más de una HFU por cada EF y la variedad de las
propiedades sedimentarias dentro de una misma EF. Por ejemplo, la EF1 está compuesta
principalmente por areniscas de grano medio a grueso y muy grueso relacionadas a las HFU E y
D, sin embargo, en esta EF se tiene una pequeña presencia de areniscas finas relacionadas a las
HFU C y D. Una primera conclusión de este trabajo investigativo fue la flexibilidad que demostró
como HFU y EF como distribuciones de probabilidad, evidenciando que las unidades de flujo
hidráulicas y las electrofacies identificadas no coinciden necesariamente con el tipo de roca del
unidades de flujo y su relación con los registros eléctricos. Así mismo, Shi et al. (2019)
describieron un flujo de trabajo novedoso que predice de forma continua la permeabilidad a partir
Graph based Clustering (MRGC) usada para clasificar electrofacies de las curvas de registros en
las secciones corazonadas. Luego, usaron el algoritmo KNN para entrenar los resultados de la
Tabla 1
objetivo de predecir las facies presentes en intervalos donde no se han realizado operaciones de
corazonamiento y así poder realizar una mejor estimación de las propiedades de capacidad de flujo
de clasificación de facies como el indicador de zona de flujo y unidades de flujo hidráulico, con
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 17
means e Hierarchical Clustering. Los resultados obtenidos mostraron al modelo K-means como el
más preciso en comparación con los datos reales de pozo y cumplió con gran acierto en sus
Fadokun et al. (2020) plantearon dos enfoques de aprendizaje automático para la predicción
la técnica support vector machine en donde se establece una data objetivo (data de núcleo). Para
visualización de datos. Determinaron que el primer paso y más importante al crear un modelo
el estudio realizado por Fadokun et al. (2020), usaron el enfoque de estandarización para esta tarea,
el cual es un proceso de re-escalamiento de uno o más atributos para que tengan una media de cero
(0) y una desviación estándar de uno (1). Para el enfoque de aprendizaje no supervisado, usaron
previo al modelo la técnica Principal Component Analysis para reducir la dimensionalidad de los
datos con el fin de convertir un set de variables posiblemente relacionadas en un set de variables
aprendizaje supervisado support vector machine (SVM) es un modelo que analiza la clasificación
con el margen más largo de cada punto de observación graficado para discriminar y clasificar estos
basado en redes neuronales. Para el algoritmo, se aplicaron clusters no supervisados según las
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 18
similitudes en las respuestas de las rocas a los distintos registros geofísicos. De las tantas técnicas
comparación de su modelo con las técnicas populares de K-means clustering, Spectral Clustering,
entre otras.
Recientemente, Robail et al. (2023) usaron un enfoque de machine learning para soportar
yacimiento, el cual había adquirido datos de núcleos adicionales para varios pozos recientemente
perforados, siendo descritos por sedimentólogos definiendo las facies depositacionales del
yacimiento y las litofacies. Esta descripción fue usada por un algoritmo de machine learning para
entrenar los registros convencionales triple combo con el fin de reconocer las facies del
yacimiento. Luego, estas facies geológicas fueron propagadas usando registros en más de 80 pozos
sin corazonar, realizando predicción de las facies presentes en un contexto geológico. Robail et al.
(2023) obtuvieron una replicación excelente en los pozos corazonados, así como resultados
robustos en pozos no corazonados del campo. Pudieron verificar la robustez del modelo también
núcleos. Las facies geológicas predichas en pozos corazonados y no corazonados fueron usadas
junto con las tendencias de inversión sísmica para condicionar la distribución 3D de las facies en
el modelo del yacimiento. El uso de machine learning para la predicción de facies les ayudó
calidad en ciertas áreas del campo, las cuales no fueron correctamente muestreadas con los núcleos
existentes. Por último, establecieron recomendaciones futuras para usar modelos de yacimiento
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 19
basados en machine learning en la identificación de nuevas ubicaciones infill donde las mejores
este del Estado de Bahía, región nordeste de Brasil. Cubre un área de aproximadamente 11000 km2
y presenta una orientación general que sigue la tendencia NE-SW. Se limita al norte y al noroeste
con la Cuenca del Tucano, por el alto de Aporá; al sur con la Cuenca de Camamu, a través del
sistema de fallas de Barra; al este, por el sistema de fallas de Salvador; y al oeste por la falla de
Maragogipe.
apertura del Océano Atlántico sobre el cratón de San Francisco. La cuenca compone el conjunto
de depósitos cretácicos a lo largo de la costa este de Brasil. Constituye el segmento de una grieta
donde la falla del borde este presenta relieves eventualmente mayores a 6 km. El basamento
precámbrico de la cuenca está formado por rocas arcaicas del Paleoproterozoico, perteneciente al
conservada en la Cuenca del Recóncavo tiene un espesor del orden de 6900 metros (Prates, 2017).
Figura 1
Nota. La figura muestra la ubicación del límite y marco estructural de la Cuenca del Recóncavo.
relacionados con la etapa inicial de la flexión de la corteza terrestre y se extienden desde el Neo-
Jurásico al cretácico inferior. Esta secuencia está compuesta por shales rojos y areniscas de la
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 21
Formación Alianca superpuesta por ciclos fluvio-eólicos representados las formaciones Sergi y
Agua Grande. Estos ciclos son separados por transgresiones lacustres representadas por
Itaparica. La supersecuencia que corresponde a la fase de rift comenzó con el aumento de la tasa
lacustre, anóxico e inicialmente somero, se depositaron los sedimentos del Miembro Tauá de la
Formación Candeias, cuyo límite marca el comienzo de una intensa tafrogenia. La depositación de
ocurrió debido a la formación de lagos profundos del proceso de tafrogénesis. Entre estos y la
Formación Sergi, los shales lacustres de la formación Itaparica, dividida por diques de arena, y las
areniscas fluviales a eólicas de Agua Grande proveen una transición entre las secuencias prerift y
Durante las etapas tardías de la evolución del rift, estos shales fueron fuertemente
deformados por el peso de los sedimentos superpuestos, formando diapiros de shale que penetraron
la secuencia del rift. Las formaciones Candeias y Maracangalha juntas forman el grupo Santo
Después de la depositación de los shales y turbiditas del grupo Santo Amaro, el flujo de
sedimentos a la cuenca incrementó mientras que la subsidencia disminuyó, lo que inició el llenado
de la cuenca. Dos grandes cuerpos sedimentarios se formaron: los conglomerados del Salvador,
sedimentos del grupo Ilhas, en donde dominan areniscas delticas (formaciones Marfim y Pojuca).
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 22
Figura 2
Nota. Carta estratigráfica de la Cuenca del Recóncavo. Las flechas curvas identificadas como (a),
(b), (c), (d), (e) y (f) representan rutas probables para la migración de hidrocarburos desde la roca
Tabla 2
cuenca Recóncavo: (1) trampas estructurales formados por horsts inclinados o no, donde los
depósitos prerift se alimentan lateralmente desde la generación de lutitas ubicada en los bajos de
formaciones Candeias y Marfim, conectadas directamente a las lutitas generadoras con distancias
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 24
synrift, a nivel de los embalses deltaicos de las formaciones Pojuca y Marfim con migración
Esta descripción concuerda con la expuesta por Mello et al. (1994), donde ejemplifica el
tipo de trampas petroleras con dos de los campos petroleros más grandes de la cuenca que juntos
contienen 1152 millones de barriles: Agua Grande que representa trampas prerift y synrift
Figura 3
Figura 4
inversiones masivas en las décadas siguientes se han logrado descubrir 85 campos de petróleo y
gas.
en orden de importancia: (1) el sistema prerift Candeias-Sergi/Agua Grande, (2) el sistema synrift
De esta forma, la principal roca generadora en la cuenca se establece como shale lacustre
en los miembros Tauá y Gomo de la Formación Candeias, con valores de TOC que pueden llegar
ventana de petróleo coincide con las principales estructuras bajas, y análisis geoquímicos muestran
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 26
que más del 80% del petróleo fue expulsado (Magnavita et al., 2012). A su vez, la formación
Pojuca tiene un potencial moderado generador, pero ocurre por encima de la ventana de generación
Figura 5
Nota. En la imagen se puede apreciar la presencia de los diferentes tipos de trampas mencionadas
de las formaciones Sergi, Itaparica y Agua Grande, turbiditas de las formaciones Candeias y
roca sello son sedimentos finos (arcillosos): lutitas de miembros Tauá y Gomo de la Formación
Pojuca y las lutitas de la Formación Taquipe. Para el principal sistema petrolífero de la cuenca, las
rocas sello son las lutitas de las formaciones Itaparica y Candeias (Prates, 2017).
Según Narayan et al. (2020), el Machine Learning es el campo de estudio en el cual los
para mejorar en una tarea de evaluación de procesos usando métricas. La etapa de emplea grandes
algoritmo de Machine Learning provee un esquema general entre los datos de entrada y las
variables de salida. Las dos subcategorías principales del aprendizaje supervisado son la
continua con la evaluación del error y haciendo mejoras hasta que el nivel deseado de
precisión es alcanzado.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 28
al algoritmo. Algunos de los algoritmos que pertenecen a esta categoría pueden revelar
Según los autores, (Nayara et al. 2020), existen una gran variedad de lenguajes de
por ejemplo, Python, R, Java, C/C++, Julia, Scala, Go y Lua, son de los más populares. En el caso
Learning desde 2019, y a pesar de que cada lenguaje tiene ventajas y desventajas, Python se
posiciona en el mercado como un ecosistema rico en herramientas para la aplicación del Machine
Learning. Algunas de las librerías más populares de Python para aplicaciones de Machine
Learning son por ejemplo Scikit-Learn, la cual es una construcción de otras librerías como NumPy,
según el algoritmo seleccionado. Luego de esto, se realiza la división de datos, que incluye el
variable de salida, sino que el algoritmo trabaja para identificar patrones y relaciones escondidas
bien sobre la muestra, donde grupos distintivos de la muestra están presentes. Una vez que el
modelos de predicción de unidades de flujo y ser usados en pozos sin núcleo, de manera que con
El tipo de algoritmos supervisado por lo general suelen dar los mejores resultados de
precisión con respecto a los valores originales. De manera alterna, se desarrollará un algoritmo de
flujo previamente identificadas, y se espera que únicamente del comportamiento de los registros
se puedan identificar. Este tipo de algoritmos suelen tener menos precisión, y recientemente se han
llegado a resultados del 60% de precisión (Hong et al, 2020). Además, se ha evidenciado que no
siempre se tiene una buena correlación entre los indicadores de zona de flujo propuestos por
Amaefule et al. (1993) y los registros eléctricos, ya que por ejemplo, en el registro neutrón se
pueden tener arenas limpias de grano grueso de buena selección y alta porosidad, teniendo un
indicador de zona de flujo alto al igual que la respuesta del registro, sin embargo, se puede tener
así mismo respuestas altas del registro en litologías de grano fino donde el indicador de zona de
flujo es pequeño, siendo la porosidad efectiva casi nula para zonas arcillosas. En el caso del registro
de densidad, en un intervalo de arena limpia con muy alta permeabilidad donde el indicador de
zona de flujo es alto se leen bajas densidades, y también se podrán leer bajas densidades para
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 30
intervalos con bajos indicadores de zona de flujo donde la roca está compuesta por granos muy
finos y presenta alta porosidad, presencia de minerales livianos o espacio poroso saturado de gas
(Fazel, 2014). Sin embargo, estos algoritmos han demostrado ser de gran utilidad en la
posible.
no corazonados a partir de modelos de regresión entre los registros eléctricos y los indicadores de
zona de flujo (FZI). Define así, una unidad de flujo como un intervalo o subdivisión de roca con
capacidades de flujo y almacenamiento similares, distintas a los demás intervalos. De esta forma,
y diagenéticas) que controlan el flujo, Amaefule et al. (1993) propusieron una variable denominada
indicador de zona de flujo (FZI), la cual está en función del índice de calidad de roca (RQI) y la
porosidad efectiva normalizada (Øz), que están así mismo en función de la permeabilidad al aire
(𝑘) y la porosidad efectiva (∅𝑒 ) de la roca. Así mismo, establecen una relación entre el indicador
de zona de flujo y el área superficial por unidad de volumen de sólido (Sgv), la tortuosidad de la
de la siguiente forma:
𝑘
𝑅𝑄𝐼 = 0.0314√ (1)
∅𝑒
∅𝑒 (2)
∅𝑧 =
1 − ∅𝑒
1 𝑅𝑄𝐼
𝐹𝑍𝐼 = = (3)
√𝐹𝑠 𝜏𝑆𝑔𝑣 ∅𝑧
De manera que en un gráfico log-log de RQI vs ∅𝑧 , todas las muestras con valores similares
de FZI caerán en una recta con igual pendiente. Muestras con valores diferentes de FZI caerán
sobre rectas paralelas entre sí. Y cada valor de FZI para cada grupo de muestras se puede obtener
del intercepto de la recta de igual pendiente unitaria cuando ∅𝑧 = 1. Siguiendo con la analogía
planteada anteriormente, las muestras que caigan sobre la mima recta de pendiente unitaria tendrán
atributos similares de sus gargantas de poro, y por ende constituyen una unidad de flujo. El
indicador de zona de flujo se establece como un parámetro único que incorpora atributos
unidades hidráulicas. En general, arenas con granos finos pobremente seleccionados y asociados
a la presencia de minerales arcillosos tienden a exhibir una alta área superficial y alta tortuosidad,
por ende, un bajo FZI. En contraste, arenas limpias de grano grueso y bien seleccionadas exhiben
áreas superficiales menores, factores de forma menores, menor tortuosidad y por ende mayores
unidimensional del FZI acoplado con una prueba de normalidad convencional es usada para
distinguir las familias de las unidades hidráulicas. Tal como es documentado por Amaefule et al.
unimodal y normalmente distribuida a menudo resulta en una línea recta. En contraste, la existencia
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 33
identificación de las unidades hidráulicas fue llevada a cabo con el uso de la técnica de la media
como los análisis petrográficos (XRD, SEM, mineralogía FTIR) para determinar las características
del número de unidades de flujo hidráulicas se encontrará siempre determinado por los parámetros
entendimiento básico de los datos y de las relaciones existentes entre las variables analizadas. Para
esto, el análisis exploratorio de datos proporciona métodos sistemáticos sencillos para organizar y
preparar los datos, detectar fallos en el diseño y adquisición de estos, tratar y evaluar los datos
ausentes, identificar casos atípicos y comprobar los supuestos subyacentes en la mayoría de las
técnicas multivariables. De esta forma, se combinan técnicas analíticas, estadísticas y gráficas para
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 34
proceder a realizar el preprocesamiento de los datos, el cual es el primer paso de cualquier modelo
de Machine Learning. En el presente capítulo se expone el desarrollo del análisis de los datos,
núcleos disponibles, y culminando con el respectivo análisis por formación geológica. Dado que
no existe un flujo de trabajo estándar y generalizado para llevar a cabo el análisis exploratorio de
datos, sino que depende del tipo de datos y situación a estudiar, se busca para el presente caso de
estudio analizar las variables petrofísicas a modelar bajo un carácter interpretativo para garantizar
para acceso gratuito*, en patrocinio por la Agencia Nacional del Petróleo, Servicio Geológico de
Brasil y el Ministerio de Minas y Energía de Brasil. Sin embargo, se evidenció que muchas zonas
prospectivas de la cuenca no cuentan con un set de data completo o adecuado para su estudio, de
manera que el número de análisis de núcleos y registros de los pozos es limitado. Además, no se
permeabilidades al aire obtenidas de análisis de núcleos, este fue el primer conjunto de datos a
recopilar, para luego verificar la presencia de registros de pozo en dichos pozos y asegurar la data
* https://reate.cprm.gov.br/anp/TERRESTRE
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 35
La tabla 3 muestra los pozos que tienen análisis de núcleos rutinarios con su respectiva
formación. Según los reportes encontrados en la página web consultada, la porosidad del núcleo
fue obtenida mediante el método del porosímetro de Helio y la permeabilidad reportada consiste
por el deslizamiento del gas en la medición de la permeabilidad al aire, no fue reportada en la data
disponible para acceso gratuito en la página web, ni tampoco los parámetros de medición usados
en laboratorio, por lo que en la presente investigación solo será posible trabajar con esta propiedad
horizontal dado que el grado de inclinación de los pozos no supera los 10° y se considera esta
dirección como la predominante al flujo. Se identificó así mismo que estos pozos poseen set de
registros básicos. Todos los datos de profundidad reportados en el presente trabajo están en
Tabla 3
Nota. De la tabla se puede observar que sólo el pozo 7-RO-14-BA tiene núcleos en más de una
formación, en este caso, Agua Grande y Sergi, y que los pozos 7-JND-13D-BA y 7-JND-3D-BA
cuenta con 3 formaciones popularmente conocidas por ser buenas rocas reservorio en la cuenca:
Agua Grande, Sergi y Pojuca, siendo las dos primeras areniscas eólicas/fluviales y la última una
arenisca deltaica. Sin embargo, dado que Candeias representa la roca generadora por excelencia
planteada en la presente investigación, por lo que la data de esta formación no será tenida en cuenta
para los pozos de las formaciones geológicas seleccionadas. En la tabla 4 se exponen los registros
por formación encontrados, en donde se observa que se cuenta con un total de 139 registros, los
cuales provienen de 76 pozos, lo que significa que se tienen varios pozos con registros en más de
similitud, en donde se puede observar la cantidad de pozos que tienen registros en una única
Tabla 4
Pojuca 43
Agua Grande 51
Sergi 45
Nota. De la tabla se puede apreciar que la formación Agua Grande representa la formación con
mayor cantidad de pozos con registros. Así mismo, se identificó que todos los pozos con núcleos
corazonadas.
Figura 6
13 15 5
19
4 6
14
Pojuca
14
Nota. Elaboración propia
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 38
registros de pozo mediante machine learning, los pozos seleccionados deben tener ambos
conjuntos de datos disponibles. De la página web consultada se comprueba que todos los pozos
con análisis de núcleos de la tabla 3 poseen registros. La tabla 5 resume el recuento de los registros
Tabla 5
7-MGP-40D-BA X X X X X X X X
7-RO-14-BA X X X X X
7-JND-3D-BA X X X X X X X X
7-JND-13D-BA X X X X X X X X
7-BA-405D-BA X X X X X X
3-BRSA-1177D-B X X X X X X X X
6-BRSA-1225D-BA X X X X X X X X
Nota. En la tabla se resumen las curvas presentes en los pozos escogidos para realizar el análisis.
Elaboración propia
De la tabla 5, se puede observar que los pozos seleccionados no tienen las mismas curvas
entre sí. En la preparación del conjunto de datos que será usado en los modelos de entrenamiento,
se considera un primer factor de selección que consiste en la calidad de los registros disponibles
de los pozos. Este se compone de la evaluación cualitativa de las curvas, es decir, comportamientos
procesamiento, y del número de curvas disponible. En primera instancia, se observa que los pozos
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 39
7-RO-14-BA y 7-BA-405D-BA son los que menos curvas tienen, pudiendo afectar el desarrollo de
los modelos. Estos pozos podrían ser representativos según la cantidad de datos de análisis de
para el análisis.
Figura 7
Nota. En el mapa se muestran los pozos seleccionados para el análisis de datos y la técnica
propuesta. De color azul los pertenecientes a la formación Pojuca, de color negro a la formación
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 40
Sergi, de color rojo a la formación Agua Grande y en color rojo con borde negro a estas dos últimas.
Elaboración propia.
3.2 Fm Pojuca
Como se mostró en la sección anterior, para la formación Pojuca solo se tiene un pozo con
los más importantes de la cuenca Recóncavo. De manera inicial, se procede a correlacionar los
datos de núcleos con el registro coregamma para colocar la data a profundidad, realizando un
desplazamiento de +8 metros de profundidad para dicho propósito. El pozo cuenta con 194 datos
corazonado de 113 metros para este pozo. Este comportamiento característico refleja la presencia
presencia de distintas condiciones de flujo y la influencia de más de una propiedad sobre el valor
se observa el resultado del método para la porosidad del núcleo y el logaritmo de la permeabilidad
al aire.
Figura 8
Figura 9
Figura 10
Gráfico Q-Q para la porosidad del núcleo y log. permeabilidad al aire en el pozo 7-MGP-40D-BA
de las figuras 8 y 9, en donde tanto los datos de porosidad del núcleo y el logaritmo de la
distribución normal teórica (línea roja). De esta forma, se confirma la presencia de distintas
aire, se puede observar que, si bien los valores de porosidad se concentran alrededor de una
mediana regular de 13%, los valores de permeabilidad tienen una mediana de 1.7 mD, cuyas
condiciones de flujo no representan interés para ser caracterizadas como unidades de flujo
Tabla 6
Para el caso de la formación Agua Grande, se cuenta con los pozos 7-RO-14-BA, 7-JND-
7-RO-14-BA no contaba con suficiente data de análisis de núcleos para realizar el análisis
aire y tener un conjunto de datos robusto para modelar el indicador de zona de flujo y obtener
permeabilidad al aire para el primer pozo de Agua Grande en estudio, el 7-JND-3D-BA. El pozo
cuenta con 77 datos de porosidad de Helio y 77 datos de permeabilidad. Para este pozo se observa
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 44
distribuciones de tamaños de poro que generan estos subgrupos o modas en los gráficos. Esta
el gráfico Q-Q para la porosidad del núcleo y el logaritmo de la permeabilidad al aire. Para este
aire, se evidencian muy buenos valores para ambas propiedades, teniendo la permeabilidad una
mediana mayor a 1000 mD, alcanzando máximos de 3770 mD sin valores atípicos. Esta condición
hace atractivo el análisis de unidades de flujo para el pozo bajo la metodología planteada.
Figura 11
Figura 12
Figura 13
Gráfico Q-Q para la porosidad del núcleo y log. permeabilidad al aire en el pozo 7-JND-3D-BA
Tabla 7
calcula el RQI y porosidad normalizada a partir de los datos de porosidad medida y permeabilidad
al aire y con estos el FZI. En la figura 14 se muestra la relación entre el RQI y la porosidad
porosidad normalizada de 0.3 a 0.43. La segunda tendencia se muestra como una alta dispersión
en los datos por debajo de la primera tendencia. De acuerdo con lo planteado por Amaefule, esta
analizado.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 47
Figura 14
Dado que el pozo no tiene registro de coregamma disponible para colocar los datos de
núcleo a profundidad, se realizó la correlación con la data de porosidad del núcleo y los registros
BA.
comportamiento del GR (curva verde pista uno) a partir de 934 m hasta 964 m, con presencia de
minerales radioactivos hacia la base del intervalo. Según la información disponible del campo
Jandaia, este intervalo corresponde a la formación Agua Grande del presente pozo. Así mismo, se
Figura 15
puede apreciar la poca separación de las curvas en una gran parte de la formación, indicando la
presencia de una arenisca limpia con porosidades superiores al 30%. Hacia la base del intervalo,
se comienza a apreciar la separación de las curvas junto con un aumento del GR, indicando el
aumento de la presencia de minerales arcillosos. El factor fotoeléctrico por otro lado muestra
valores altos de 5 b/e, lo cual no corresponde con los valores reportados para las areniscas. En este
medición del registro. Dado el ambiente sedimentario fluvial de la formación Agua Grande, es
posible que durante el proceso de transporte o limpieza realizado por las corrientes de agua es
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 49
posible que parte del material presente no haya sido completamente lavado, teniendo posibles
herramienta. Sin embargo, la determinación de modelos mineralógicos está fuera del alcance de la
Por último, en la figura 15 se aprecian dos tendencias sobre los registros en la formación.
La primera cubre la zona superior y media de la formación, dominada por poca arcillosidad, y la
segunda la zona inferior de la formación, en donde se observa una reducción en los registros de
porosidad y una mayor arcillosidad. Estas dos tendencias se relacionan con el comportamiento
permeabilidad al aire para el siguiente pozo de Agua Grande en estudio, el 7-JND-13D-BA. Para
este pozo se cuenta con 38 datos de porosidad de Helio y 38 datos de permeabilidad al aire. Como
se pueden observar de las figuras, las propiedades petrofísicas del pozo presentan un
comportamiento bimodal al igual que el pozo anterior, los cuales como se estableció en la tabla 3
distribución normal en la porosidad en comparación con el pozo anterior de Agua Grande, sin
dispersión observada. En el caso del logaritmo de la permeabilidad al aire, las dos modas del
histograma de la figura 17 se observan como tendencias planas en el gráfico, una con mayor
concentración de datos que otra. Estas condiciones representan la existencia de más de una
Figura 16
Figura 17
Figura 18
Gráfico Q-Q para la porosidad del núcleo y log. permeabilidad al aire en el pozo 7-JND-13D-BA
aire, se evidencian evidencia buenos valores para ambas propiedades, teniendo la permeabilidad
una mediana de 70.5 mD y alcanzando máximos de 848 mD, con dos valores atípicos. Esta
condición hace atractivo el análisis de unidades de flujo para el pozo bajo la metodología
planteada.
siguiendo los cálculos propuestos por Amaefule. De forma evidente, se observa una tendencia
lineal importante en el gráfico, cubriendo una gran cantidad de datos. Además, una pequeña
concentración de datos dispersos se observa en la parte inferior del gráfico. Para este caso, se
podría tener la presencia dos o más unidades de flujo, según las consideraciones respectivas del
Tabla 8
25% 0.126 24
Figura 19
calibración de las profundidades con los datos de porosidad del núcleo y registros de porosidad
del pozo, obteniendo un desplazamiento de +2.5 m para los datos menores a 995.2 m y +4 m para
pozo 7-JND-13D-BA. Se puede observar en la parte superior del registro una afectación en las
mediciones de las curvas de densidad y registro fotoeléctrico por mala condición del hoyo según
lo evidenciado por el caliper, el cual muestra lecturas mayores a 9 pulgadas entre 982 metros y
983 metros. Estas circunstancias serán tenidas en cuenta en el desarrollo del algoritmo de
aprendizaje filtrando los datos cuyas lecturas de caliper evidencien mala calidad del hoyo.
entre 967 m y 1006 m. De acuerdo con la información disponible del campo Jandaia este intervalo
representa la formación Agua Grande, teniendo al igual que el pozo 7-JND-3D-BA, una zona de
alta radioactividad hacia su base. Según el conjunto de datos disponible para ambos pozos, se
evidencian dos diferencias principales. Primero, la resolución de los registros para el primer pozo
7-JND-3D-BA (figura 15) es mayor que para el segundo pozo 7-JND-13D-BA (figura 20).
Segundo, los análisis de núcleos disponibles para el segundo pozo no abarcan el intervalo de la
formación en su totalidad. Esta segunda diferencia genera que en el gráfico logarítmico del RQI
apreciar la alta concentración de datos con mayores valores para estas propiedades que se observa
para el primer pozo (figura 14). Los registros densidad y neutrón para este pozo se presentan por
disponibilidad en matriz caliza, por lo que el crossover en la zona superior representa la presencia
Figura 20
En la figura 21 se observa la relación entre RQI y la porosidad normalizada para los dos
pozos analizados del campo Jandaia. El gráfico permite evidenciar la consistencia en el conjunto
de datos para ambos pozos, mostrando tendencias similares para las propiedades calculadas. Esta
situación representa la oportunidad de analizar la formación Agua Grande como un caso de estudio
para los dos pozos del campo Jandaia con núcleo y registros. En donde se pueda evaluar el modelo
validación del modelo en los pozos no corazonados del campo con análisis petrográficos y datos
Figura 21
Relación entre RQI y Porosidad normalizada para el campo Jandaia Fm Agua Grande
3.4 Fm Sergi
Para el caso de la formación Sergi, se cuenta con cuatro pozos para el análisis: 7-RO-14-
data disponible para estos pozos, se observó la poca data para los pozos 7-BA-405D-BA, 3-BRSA-
efectiva y la permeabilidad.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 56
El pozo cuenta con 264 datos de porosidad de Helio y 264 datos de permeabilidad al aire.
En las figuras 22 y 23 se muestra el análisis estadístico de los datos de núcleo para el pozo 7-RO-
normal para la porosidad del núcleo y el logaritmo de la permeabilidad al aire. Sin embargo, se
alcanza a apreciar una desviación estándar considerable afectando la forma del gráfico, sobre todo
para el caso del logaritmo de la permeabilidad al aire en la figura 23. Este pozo, al igual que el
pozo 7-MGP-40D-BA analizado en la formación Pojuca, son los pozos con mayor análisis de
núcleos disponibles, encontrando en ambos una alta desviación de los datos. Sin embargo, en el
caso del presente pozo no se encuentran múltiples modas para la distribución de las variables. La
alta desviación puede estar asociada al ambiente sedimentario fluvial/eólico de la formación Sergi,
que al igual que el ambiente sedimentario deltaico de la formación Pojuca, se caracteriza por tener
numerosos canales de arenas con diferentes capacidades de flujo y alta heterogeneidad vertical.
Figura 22
Figura 23
Figura 24
Gráfico Q-Q para la porosidad del núcleo y log. permeabilidad al aire en el pozo 7-RO-14-BA
En la figura 24 se observa la prueba gráfica Q-Q para la porosidad del núcleo y el logaritmo
de la permeabilidad al aire del pozo 7-RO-14-BA. Se puede considerar que la porosidad del núcleo
cuenta con una distribución normal unimodal aceptable, sin embargo, el logaritmo de la
permeabilidad al aire presenta una desviación de la distribución normal en la parte alta del gráfico.
Este tipo de desviación es conocida como left skew o negative skew (sesgo a la izquierda o
distribución de probabilidad una cola larga en su lado izquierdo, tal como se observa en la figura
(Modelos mixtos de Gauss) usado en el capítulo 4 para la determinación de las unidades de flujo
aire, se pueden observar valores regulares para ambas propiedades, sobretodo en el caso de la
permeabilidad al aire en donde la mediana es de 27.9 mD. Sin embargo, dada la alta cantidad de
logarítmico entre el RQI y porosidad normalizada calculados con la data del núcleo, figura 25, se
encuentra una dispersión importante de los datos y la posible presencia de múltples tendencias, lo
que llevaría a la presencia de más de una unidad de flujo hidráulica. Esta condición resulta
favorable para la aplicación de la técnica planteada ya que se podrán correlacionar las múltiples
Tabla 9
Figura 25
intervalos, además, los cuerpos de baja radioactividad presentes no son aparentemente tan limpios
Adicionalmente, los valores del registro neutrón no son significativamente altos (mayor a 0.4) en
los intervalos con alto valor de GR, pudiéndose tratar de minerales siliciclásticos con alta respuesta
en radioactividad como feldespatos potásicos, sin embargo, debe validarse con más información
mineralógica y petrofísica del campo y formación en estudio. Por último, se observan pequeños
figura 26 en el gran rango de valores que tiene la permeabilidad al aire a lo largo del intervalo
corazonado.
se tienen únicamente 45 pozos de la cuenca con registros disponibles para esta formación. Sin
embargo, el campo Remanso, al cual pertenece el pozo 7-RO-14-BA, a pesar de tener reportados
122 pozos, solo uno tiene registros disponibles, siendo este el pozo analizado, estando los 121
Figura 26
Los pozos con registros disponibles en la formación Sergi más cercanos son los pozos 3-
estos pozos cercanos, se encuentra primeramente que la formación Sergi en estos pozos se
encuentra a una profundidad de por lo menos el doble de lo reportada para el pozo en estudio, y,
en segundo lugar, se observa de igual manera la alta heterogeneidad vertical demarcada por el GR.
Según lo referenciado en la sección 2.1.1, la cuenca Recóncavo cuenta con múltiples sistemas de
trampas y sistemas petrolíferas que comparten las formaciones generadoras y almacén, variando
la profundidad de estas en cada sistema. Esta condición hace difícil mantener la consistencia de
los modelos obtenidos bajo la aplicación de la técnica sobre otros pozos disponibles de la
formación Sergi, dado la variación que pueden tener los factores que afectan las propiedades que
geológicos. Por esta razón, se determina el caso de estudio de la formación Sergi en el presente
trabajo como el desarrollo de la metodología para la data del pozo en estudio 7-RO-14-BA, del
campo Remanso.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 63
Amaefule, cada unidad de flujo hidráulica identificada tendrá su relación íntegra de porosidad
efectiva y permeabilidad, por lo que la identificación de las unidades de flujo es el paso inicial
para establecer dichos modelos. Para ello, se llevan a cabo análisis de clusters y usos de
histogramas como plantea Amaefule, con el fin de realizar el mejor agrupamiento posible de la
efectiva de los registros, los cuales deben correlacionarse con los datos de porosidad del núcleo y
evaluar su error. En cuanto a la porosidad del núcleo, se tiene reportado que las pruebas en
laboratorio fueron llevadas a cabo con el método del porosímetro de Helio. El gas inyectado ocupa
sólo los poros conectados, y se considera una medición de la porosidad efectiva, sin embargo, el
resultado dependerá del proceso de limpieza y secado de la muestra, por lo que en la práctica la
medición varía de la porosidad total a porosidad efectiva, según la extracción del agua asociada a
permeabilidad al aire y porosidad efectiva del núcleo para cada unidad de flujo de manera
independiente. Una vez la porosidad total o efectiva del registro esté validada con el núcleo, las
unidades estarán caracterizadas con sus modelos respectivos junto con sus valores medios de
Para el caso de estudio determinado para la formación Agua Grande en el campo Jandaia,
Se escoge la librería Scikit-Learn de Python como la herramienta para llevar a cabo los
análisis de clusters requeridos. Esta es una librería de aprendizaje automático de software libre que
cuenta con varios algoritmos de clasificación, regresión y agrupamiento que está diseñada para
interactuar con las librerías numéricas y científicas de Python NumPy y SciPy. Se escogen los
modelos de mezcla gaussiana para hallar las unidades a partir de la distribución del indicador de
zona de flujo calculado de los análisis de núcleos, teniendo 115 datos. Un modelo de mezcla
gaussiana es un modelo probabilístico que supone que todos los puntos de datos se generan a partir
esta forma, se podría considerar a los modelos mixtos como una generalización del agrupamiento
mediante K-Means, para incorporar información sobre la estructura de covarianza de los datos, así
como los centros de las gaussianas latentes. Particularmente, se usa el objeto GaussianMixture de
mezcla gaussiana a partir de los datos del tren. Dados los datos de prueba, puede asignar a cada
las referencias de la librería Scikit-Learn existen métodos gráficos para seleccionar el número de
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 65
clusters óptimo, como por ejemplo el método del codo o elbow method, determinación de
(BIC). Sin embargo, la respuesta de estos algoritmos no es del todo concreta y siempre está
muestran los resultados del método del codo y el análisis de silueta aplicados al conjunto de datos
coeficiente de silueta cercano al codo del método gráfico. Finalmente, en la figura 29 se muestra
Figura 27
Figura 28
Método del codo y análisis de silueta sobre la data del FZI a agrupar
Figura 29
Figura 30
Relación entre RQI y Porosidad normalizada para el campo Jandaia Fm Agua Grande
permeabilidad al aire y FZI en las 3 unidades identificadas. Primeramente, se aprecia que la unidad
1 representa la mejor unidad de flujo en base a sus propiedades, teniendo la mejor calidad de roca
con una mediana de porosidad de 27% , permeabilidad al aire de 1794 mD y FZI de 6.82. Segundo,
la unidad de flujo 2 se ubica como la unidad intermedia en cuanto a calidad de roca con una
unidad de flujo 3 representa la peor calidad de roca con una mediana de porosidad de 12.4%,
Figura 31
núcleo con las correlaciones desarrolladas para las unidades de flujo identificadas.
El último paso para el presente caso de estudio consiste en determinar los modelos de
porosidad total y efectiva de los intervalos analizados a partir de los registros disponibles. La
determinación de estos modelos está influenciada por el tipo de arcilla presente, ya que se establece
que la diferencia entre estos modelos consiste en la consideración del agua adherida a los minerales
de arcilla. Por ende, la cuantificación de arcilla (Vcl) y la determinación de los end points (lectura
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 69
procedimiento, se usa el software especializado Interactive Petrophysics (IP) para el cálculo del
Vcl y establecer los end ponits respectivos de manera gráfica. El Vcl es calculado como el valor
mínimo entre el Vcl del GR y de la combinación densidad-neutrón. De esta forma, se pueden evitar
errores al considerar zonas de alta radioactividad como arcillosas cuando está la posibilidad de que
Figura 32
Crossplot de permeabilidad al aire y porosidad efectiva con los modelos de las unidades de flujo
arcilla de 173 gAPI. Así mismo, se fija el wet clay point como densidad de 2.658 g/cc y porosidad
gAPI y de arcilla de 121 gAPI. Así mismo, se fija el wet clay point como densidad de 2.624 g/cc
corazonado, la respuesta relativamente baja del neutrón al wet clay puede indicar que la arcilla
presente en el intervalo no posee un alto valor de porosidad asociada a su agua adherida, y dado
Las figuras 33 y 34 muestran los modelos de porosdiad efectiva y total obtenidos para los
dos pozos de Agua Grande. Se puede considerar una correlación aceptable entre la porosidad del
núcleo y las calculadas. Además, como se comentó, se observa una muy pequeña diferencia entre
la porosidad efectiva y total de los registros. La porosidad total del registro tiene un mejor ajuste
lineal a la porosidad de Helio, sin embargo, dado que la diferencia con la porosidad efectiva
calculada no es significativa y no se tienen los parámetros de laboratorio con los que fue medida
la porosidad, el valor reportado del núcleo será considerado como porosidad efectiva.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 71
Figura 33
Registros del pozo 7-JND-3D-BA con los modelos de porosidad total y efectiva
Figura 34
Registros del pozo 7-JND-13D-BA con los modelos de porosidad total y efectiva
Para el caso de estudio determinado para la formación Sergi del campo Remanso, se toma
El algoritmo propuesto para realizar el clustering sobre el indicador de zona de flujo del pozo 7-
vertical encontrada en el análisis exploratorio de datos junto con la alta dispersión de los datos de
principalmente debido a la data disponible para modelar las unidades presentes, y esto hace que
permeabilidad absoluta, no puedan ser tenidos en cuenta en los modelos predictivos del siguiente
método del codo y el análisis de silueta en el conjunto de datos de la figura 35 se obtienen 4 grupos
Figura 35
Figura 36
Método del codo y análisis de silueta sobre la data del FZI a agrupar
Aplicando el algoritmo de agrupación del caso anterior (Gaussian Mixture) con 4 clusters,
se obtienen los resultados de la figura 37. En la figura 38 se muestra la relación entre el RQI y la
Figura 37
Figura 38
Figura 39
permeabilidad al aire y FZI en las 4 unidades identificadas. Primeramente, se aprecia que la unidad
1 representa la mejor unidad de flujo en base a sus propiedades, teniendo la mejor calidad de roca
con una mediana de porosidad de 14.7% , permeabilidad al aire de 289 mD y FZI de 7.59. Segundo,
la unidad de flujo 2 se ubica como la unidad intermedia en cuanto a calidad de roca con una
mediana de porosidad de 17%, permeabilidad al aire de 151 mD y FZI de 4.85. Tercero, la unidad
de flujo 3 representa la unidad regular en cuanto a calidad de roca con una mediana de porosidad
de 15.1%, permeabilidad al aire de 26 mD y FZI de 2.42. Por último, la unidad de flujo 4 representa
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 77
la peor calidad de roca con una mediana de porosidad de 14%, permeabilidad al aire de 2.1 mD y
del núcleo con las correlaciones desarrolladas para las unidades de flujo identificadas.
Figura 40
Crossplot de permeabilidad al aire y porosidad con los modelos de las unidades de flujo
La determinación de los modelos de porosidad total y efectiva del pozo, al igual que en el
caso anterior, está dominado por los aspectos mineralógicos presentes en el intervalo analizado.
Sin embargo, dada la alta heterogeneidad vertical del intervalo y la poca data disponible asociada
a la mineralogía, los end points fueron ajustados para obtener el mejor match con los datos de
núcleos, siendo el valor de densidad wet clay 2.750 g/cc y porosidad neutrón de 0.3 v/v. La figura
41 muestra los modelos obtenidos. Al igual que el caso anterior, la porosidad del núcleo se
Figura 41
Registros del pozo 7-RO-14-BA con los modelos de porosidad total y efectiva
cuales se busca modelar el indicador de zona de flujo en base al comportamiento de los registros
flujo a partir de los registros. Para el aprendizaje no supervisado, se realizan técnicas de clustering
los modelos supervisados (estimadores), así como optimizar los parámetros de entrada de cada
de entrenamiento. Sin esto, los modelos podrían llegar a obtener un puntaje perfecto, pero fallarían
train_test_split de Scikit-Learn es usada para este propósito. Sin embargo, al evaluar diferentes
conjunto de prueba porque los parámetros se pueden modificar hasta que el estimador funcione de
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 80
manera óptima. De esta manera, el conocimiento sobre el conjunto de prueba puede filtrarse en el
Para resolver este problema, se puede presentar otra parte del conjunto de datos como el
parece tener éxito, la evaluación final se puede hacer en el conjunto de prueba. Sin embargo, al
dividir los datos disponibles en tres conjuntos, se reduce drásticamente la cantidad de muestras
que se pueden usar para aprender el modelo, y los resultados pueden depender de una elección
aleatoria particular para el par de conjuntos (entrenamiento, validación). Una solución a este
problema es un procedimiento llamado validación cruzada (CV para abreviar). Todavía se debe
necesario al hacer CV. En el enfoque básico, llamado k -fold CV, el conjunto de entrenamiento se
promedio de los valores calculados en el ciclo. Este enfoque puede ser computacionalmente
costoso, pero no desperdicia demasiados datos (como es el caso cuando se arregla un conjunto de
validación arbitrario), lo cual es una gran ventaja en problemas como la inferencia inversa donde
Figura 42
Figura 43
múltiple (siendo las variables independientes los registros disponibles), minimizando la suma
residual de cuadrados entre las observaciones en el conjunto de datos (FZI) y los objetivos
predichos. Otras regresiones lineales como la regresión de cresta o la regresión de Lasso no serán
tenidas en cuenta dado que cuentan con grandes similitudes de cálculo con la regresión lineal
clásica. El siguiente estimador en esta categoría son las máquinas de vectores de soporte (SVM)
en sus categorías de regresión y clasificación. Una SVM es un modelo que representa a los puntos
de muestra en el espacio, separando las clases a dos espacios lo más amplios posibles mediante un
hiperplano de separación definido como el vector entre los 2 puntos, de las 2 clases, más cercanos
al que se llama vector soporte. Cuando las nuevas muestras se ponen en correspondencia con dicho
modelo, en función de los espacios a los que pertenezcan, pueden ser clasificadas a una o la otra
clase. Finalmente, se usarán parte de los estimadores más poderosos dentro del Machine Learning
que están agrupados en una categoría llamada métodos de aprendizaje en conjunto: Random
predicciones. En general, el estimador combinado suele ser mejor que cualquiera de los
estimadores de base única porque se reduce su varianza. Por otro lado, el estimador GradientBoost
cual agrupa los datos tratando de separar muestras en n grupos de igual varianza, minimizando un
criterio conocido como inercia o suma de cuadrados dentro del grupo. Este algoritmo requiere que
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 83
Clustering, el cual es una familia de algoritmos de agrupamiento que crean clusters anidados
como un árbol (o dendrograma). La raíz del árbol es el único racimo que reúne todas las muestras,
A continuación, se describen los detalles de la aplicación de cada estimador para los dos
escalamiento de los modelos desarrollados usando los registros disponibles se lleva a cabo en el
siguiente capítulo.
Para este primer caso de estudio se declaran inicialmente las variables de entrada como la
data de los registros disponibles puestos a profundidad con los cálculos del indicador de zona de
flujo y la clasificación de las unidades de flujo. Los registros usados fueron el GR, Densidad, y
Neutrón de las figuras 15 y 20. En primera instancia, se combina la data de ambos pozos para
construir el dataset más robusto posible y compensar la poca cantidad de datos disponibles.
Segundo, como se observa en la figura 20, los datos de núcleos del segundo pozo no cubren la
totalidad del intervalo, por lo que si se usan de forma individual no reflejará el comportamiento
íntegro de la formación.
El primer estimador a usar es la regresión lineal múltiple. Para este caso, no se requiere de
modelar el indicador de zona de flujo con los registros mencionados, se obtiene un coeficiente de
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 84
determinación de 0.62 y un error cuadrado medio de 2.455 (sensible a la magnitud del indicador
de zona de flujo). Según las métricas de medición del modelo, existe una desviación importante
entre el FZI original y el predicho, por lo que en la identificación de las unidades de flujo bajo este
algoritmo y los siguientes, se usa el método de estandarización para escalar los datos. Si una
característica tiene una varianza de órdenes de magnitud mayor que otras, podría dominar la
función objetivo y hacer que el estimador no pueda aprender de otras características correctamente
como se esperaba. Por lo tanto, al aplicar la estandarización los datos de entrada son escalados
para tener media cero y varianza unitaria. En este caso, se procede a utilizar el set de entrenamiento
para realizar el aprendizaje, con un 70% de los datos, y el restante como set de prueba en el cual
0.48 y una desviación estándar del 29%. Esto indica que el modelo no está haciendo sobreajuste a
los datos de entrenamiento, aunque obtiene pobres resultados. Al modelar el indicador de zona de
flujo se obtiene un coeficiente de determinación de 0.59 y un error cuadrado medio de 2.69. Por
de estandarización para escalar los datos. Al comprobar la técnica de validación cruzada con 5
0.43 y una desviación estándar de 19%, por lo que el estimador a pesar de no entregar resultados
aceptables no realiza sobreajuste a los datos, lo cual es muy importante para este tipo de estimador.
0.617 y un error cuadrado medio de 2.511. En la tabla 10 se tabulan los resultados del coeficiente
de determinación (r2) y el error cuadrado medio (MSE) para los estimadores de regresión usados,
caso del Random Forest Regressor, solo se reportan los resultados del set de prueba, ya que en
este tipo de estimadores si se evalúan los resultados sobre los datos que se usaron en el
entrenamiento se obtendrá un sobreajuste, de manera que se consideran los resultados del set de
Tabla 10
RFR r2 0.617
Según lo obtenido por los tres estimadores distintos usados en la regresión, se puede
confirmar que este tipo de aprendizaje no es adecuado para modelar e identificar las unidades de
flujo a partir del indicador de zona de flujo, tal como se preveía de los estudios previos comentados
en los antecedentes investigativos. Esto principalmente se debe a alguna de las suposiciones de las
las variables de entrada o también llamados regresores. Sin embargo, el algoritmo Random Forest
Regressor representa la mejor aproximación para este caso, dado que, a pesar de tener un
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 86
coeficiente de determinación menor a la regresión lineal, la evaluación del modelo se realiza sobre
datos nuevos no usados para el entrenamiento. En la figura 44 se resumen los resultados de los
Figura 44
variables de entrada son los mismos registros que el caso anterior pero las etiquetas serán las
unidades de flujo identificadas en el capítulo anterior. En este caso, los modelos se evaluarán con
el test de evaluación, teniendo este un 30% de manera que los modelos sean entrenados con el 70%
restante. Así mismo, se usará el reporte de clasificación suministrado por la librería Scikit-Learn
en donde se entregan las métricas más comunes en la evaluación del desempeño de los modelos
(verdaderos positivos sobre la suma de verdaderos positivos y falsos positivos), recall (verdaderos
positivos sobre la suma de verdaderos positivos y falsos negativos), y F1 score (promedio entre
precisión y recall).
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 87
estandarización para escalar los datos. Se crea una malla de hiperparámetros para realizar la
búsqueda mediante validación cruzada la mejor combinación de estos, teniendo en cuenta pesos
balanceados para las clases presentes dado que la unidad de flujo 3 tiene menos datos para entrenar
(los pesos balanceados por clase son calculados como el número de muestras sobre el número de
regularización de 10 y un kernel lineal (forma de vectores de soporte) con una exactitud o accuracy
de 75%. Al probar el set de evaluación escalado en el modelo, se obtienen los resultados de la tabla
11. En esta, se destacan las 3 clases o unidades de flujo clasificadas, con sus respectivas métricas
correcta, en donde todas sus instancias fueron correctamente clasificadas y dentro de su clase no
fue incluida ninguna otra. Panorama totalmente distinto a la clase 3, en donde si bien cuenta con
un recall aceptable, la poca precisión indica que las instancias de esta clase fueron en su mayoría
identificadas correctamente, pero otras clases fueron agregadas a esta erróneamente, siendo esta la
unidad 2. Mediante la ejecución de una matriz de confusión multiclase, se observa que la poca
unidad 3 por el modelo cuando en realidad no lo eran. Mientras que solo 1 instancia fue clasificada
como unidad 2 por el modelo cuando en realidad no lo era, por ello su mayor precisión. Por lo
tanto, se puede establecer que en futuras predicciones el modelo tenderá a clasificar erróneamente
instancias de clase 2 como clase 3. Sin embargo, empieza a notarse la mejoría en resultados con
Tabla 11
1 1 1 1 13
Accuracy 0.74 34
para escalar los datos. La búsqueda de hiperparámetros con el set de entrenamiento y el método de
validación cruzada, teniendo en cuenta el peso balanceado de las clases, entrega un número de
división de los nodos de los árboles y 5 muestras mínimas requeridas para estar en un nodo de
hoja, con un 78% de exactitud. Al probar el set de evaluación en el modelo, se obtienen los
resultados de la tabla 12. En términos generales, los resultados son muy parecidos a los reportados
unidad 3, sin embargo, una instancia es incorrectamente predicha como clase 1, disminuyendo su
Tabla 12
1 1 0.92 0.96 13
Accuracy 0.74 34
para escalar los datos. Los pesos de las clases presentes son calculados intrínsecamente por el
(número de etapas de refuerzo a realizar), con una exactitud de 70%. Al probar el set de evaluación
en el modelo, se obtienen los resultados de la tabla 13. De manera inicial, se aprecian las mejores
métricas de evaluación en este modelo. Sin embargo, la clase 3 mantiene una métrica F1-score
investigación, el número limitado de muestras influye sobre el aprendizaje de los modelos, por lo
que con mayores muestras de la clase 3 se podrían obtener mejores métricas en su identificación.
Sin embargo, se puede concluir que se observan resultados consistentes a pesar de esta limitante
Tabla 13
1 1 0.92 0.96 13
Accuracy 0.82 34
registros estandarizado (GR, NPHI, RHOB) puestos a profundidad con las unidades identificadas
tal como para el aprendizaje supervisado. El primer algoritmo implementado es K-Means¸ sin
embargo, dado que de manera previa se conocen los clusters por las unidades identificadas, se
Tabla 14
Como se puede observar de la tabla 14, con una exactitud o accuracy del 66%, el algoritmo
tiene resultados menos favorables que cualquier otro de clasificación en aprendizaje supervisado,
tal como lo revisado en los antecedentes investigativos. Esto se debe principalmente a dos motivos.
El primero consiste en las variables de entrada, ya que al ser estos registros estandarizados con
correcciones ambientales básicas, el algoritmo realiza el clustering bajo las respuestas de estos,
expuesto por estudios anteriores en la sección 2.1, es posible tener más de una unidad de flujo en
una electrofacie, por lo que su lectura no asegura mismas condiciones de capacidad de flujo y/o
tamaños y formas uniformes de los clusters, por lo que cuando esta condición es violada, el
Finalmente, el modelo Hierarchical Clustering es usado con los mismos parámetros que
Tabla 15
Como se puede observar de la tabla 15, el modelo presenta los peores valores de exactitud
con 54%. Adicionalmente, se comprobó que el modelo falla en el escalamiento de los resultados
dado que no cuenta con una función de predicción a partir de una predicción inicial, sino que se
adapta siempre a los nuevos datos de entrada, lo cual no genera consistencia en nuevas
El flujo de trabajo para el caso de estudio Sergi-Remanso es el mismo que para el caso
dos algoritmos de clustering propuestos para el aprendizaje no supervisado. Tal como se revisó en
determinados, se evaluará la respuesta de los modelos ante la alta heterogeneidad vertical que se
Grande-Jandaia producto de la alta respuesta en radioactividad del intervalo mientras los registros
regresión: regresión lineal múltiple, Support Vector Regressor y Random Forest Regressor. A
pesar de realizar la búsqueda de los hiperparámetros para los dos últimos estimadores, ambos
reportan coeficientes de determinación de 0, al igual que la regresión lineal múltiple, por lo que
ninguno de los tres modelos puede ser usado para modelar el FZI en el presente caso de estudio.
de regularización de 1 y un kernel rbf, con una exactitud con validación cruzada del 43%. En la
figura 53 se observan las métricas de la evaluación del modelo con el set de prueba. Como se puede
observar la tabla 16, el estimador SVM no modela adecuadamente las 4 clases o unidades de flujo
Figura 45
estandarización para escalar los datos. La búsqueda de hiperparámetros con el set de entrenamiento
y el método de validación cruzada, teniendo en cuenta el peso balanceado de las clases, entrega un
para la división de los nodos de los árboles y 5 muestras mínimas requeridas para estar en un nodo
de hoja, con un 43% de exactitud. Al probar el set de evaluación en el modelo, se obtienen los
resultados de la tabla 17. Los resultados entregados por el modelo son pobres en comparación con
Tabla 16
Accuracy 0.43 53
Tabla 17
Accuracy 0.43 53
para escalar los datos. Los pesos de las clases presentes son calculados intrínsecamente por el
(número de etapas de refuerzo a realizar), con una exactitud de 53% (tabla 18).
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 95
Tabla 18
Accuracy 0.53 53
Por los resultados observados en las tablas 16, 17 y 18, se consideran que los modelos de
comparación con el caso de estudio anterior. Tal como se comentó previamente, la alta
rendimiento de los modelos. Dado que las unidades de flujo identificadas se obtuvieron de los
análisis de núcleos y estos poseen un muestreo mucho más pequeño que las variables de entrada
del modelo (registros estandarizados), se concluye que, para obtener unidades de flujo consistentes
requieren de variables de entrada con mayor resolución vertical, tales como registros de imágenes
de pozo (BHI), por ejemplo. Para el aprendizaje no supervisado, se declaran las variables de
entrada como el set de registros estandarizado (GR, CNSS, RHOB) puestos a profundidad con las
Means¸ sin embargo, dado que de manera previa se conocen los clusters por las unidades
Tabla 19
identificadas según los resultados de la tabla 19. Sin embargo, en el escalamiento de los resultados
en el siguiente capítulo se analizará la posible utilidad de este tipo de algoritmos sobre los
6. Análisis de Resultados
(Support Vector Classifier, Random Forest Classifier, Gradient Boost Classifier) en el caso de
estudio Agua Grande-Jandaia sobre cada uno de los pozos. En la figura 46 se observan para el
Figura 46
Figura 47
Nota. Elaboración propia en el lenguaje Python. Profundidades en measured depth [m]. Unidad 1
representada por el color azul, unidad 2 por rojo y unidad 3 por verde.
Dado que los modelos fueron entrenados con los registros en profundidad con los núcleos,
el escalamiento de cada modelo sobre el intervalo de interés se considera como una predicción
parte del modelo Random Forest Classifier (RFC) en la identificación de la clase o unidad 1. Ya
que al extender el intervalo un par de metros arriba y debajo de la formación Agua Grande,
identifica intervalos arcillosos como parte de la unidad 1 (color azul), lo cual no es cierto.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 99
Seguidamente, tal como se encontró en el capítulo anterior, el modelo Support Vector Classifier
(SVC), tiende a clasificar intervalos en unidad 3 (color verde) donde no corresponde. Finalmente,
el modelo Gradiente Boost Classifier (XGB) representa el mejor ajuste tal como se reportó en los
resultados del capítulo anterior. En la figura 46, se observa en la última pista cómo este modelo
detalla de forma más precisa la transición entre la unidad 1 y unidad 2 (color naranja), evidenciada
en los datos de núcleos. Así mismo, tal como se puede observar de la figura 47, el tope de la
formación Agua Grande para el pozo 7-JND-13D-BA no tiene data de núcleo disponible, por lo
que la predicción de unidad 1 sobre los registros de este pozo tiene un poco más de incertidumbre,
supervisado (Gradient Boost Classifier) y no supervisado (K-Means) para los dos pozos del caso
En el primer pozo (figura 48), se observa una buena consistencia de las unidades de flujo
identificadas en los datos de núcleos con las modeladas con los algoritmos presentados. Sin
embargo, se puede observar que el algoritmo supervisado Gradient Boost Classifier muestra con
más detalle la transición entre la unidad 1 y 2 que el algoritmo K-Means, el cual responde
principalmente a las electrofacies del intervalo bajo el entrenamiento de exactamente los mismos
datos que el algoritmo supervisado, teniendo en cuenta que para K-Means no se usa la etiqueta de
de la unidad 3 en la sección 4.1, genera una diferencia menos significativa para el modelo con
respecto a la unidad 2, lo que hace que los mayores valores de permeabilidad al aire de la unidad
3 estén asociados por el modelo a la unidad 2, sin embargo, según las propiedades promedio de
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 100
cada unidad en la figura 31, la poca calidad de roca contemplada en la unidad 3 no representa
motivo para considerar una división con sus valores más cercanos a la unidad 2. Así mismo, la
Figura 48
Nota. Elaboración propia en el lenguaje Python. Unidad 1 representada por el color azul, unidad 2
En el caso del segundo pozo (figura 49), se observa de igual forma consistencia en las
algoritmo K-Means presenta diferencias grandes hacia la base del intervalo, identificando unidad
2 cuando incluso en los datos de núcleo predomina la unidad 3. Así mismo, hacia el tope del
mejor forma ambos resultados, se realizan crossplots de densidad-neutrón con las unidades
Figura 49
Nota. Elaboración propia en el lenguaje Python. Unidad 1 representada por el color azul, unidad 2
Figura 50
Crossplots densidad-neutrón para Agua Grande según unidad de flujo modelada por XGB
flujo modeladas por el algoritmo Gradient Boost Classifier, en donde la unidad 1 representa la
unidad de mejor calidad de roca y mayores valores de porosidad, seguida de la unidad 2 y por
último la unidad 3.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 103
el resultado final de las unidades de flujo modeladas con sus respectivos modelos de porosidad
efectiva y permeabilidad.
Figura 51
Nota. Elaboración propia en el lenguaje Python. Unidad 1 representada por el color azul, unidad 2
Figura 52
Nota. Elaboración propia en el lenguaje Python. Unidad 1 representada por el color azul, unidad 2
por rojo y unidad 3 por verde. Se observa influencia de zona lavada con baja calidad de hoyo en
Para el caso de estudio Sergi-Remanso, tal como se concluyó del capítulo anterior, los
predominantemente en los crossovers entre los registros densidad y neutrón (matriz arena),
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 105
indicando intervalos gasíferos posiblemente. Así mismo, la electrofacie 1 (color negro) se observa
predominantemente en las zonas de mayor separación en los registros densidad y neutrón y altos
densidad-neutrón las electrofacies modeladas a partir de los registros y su comparación con las
Figura 53
Nota. Elaboración propia en el lenguaje Python. Electrofacie 1 color negro, electrofacie 2 color
correlacionan con las electrofacies modeladas. Sin embargo, como se puede concluir del crossplot
heterogeneidad vertical donde los registros no alcanzan el muestreo suficiente para ser usados en
algoritmos de aprendizaje supervisado con etiquetas de alta resolución como data de núcleos.
Figura 54
Conclusiones
con acceso gratuito de la Agencia Nacional de Petróleo de Brasil, se recopiló la data de análisis
rutinario de núcleos en las formaciones Pojuca, Agua Grande y Sergi de la cuenca del Recóncavo,
plantearon dos casos de estudio según la data disponible y la calidad de la porosidad del núcleo y
permeabilidad al aire reportada como un primer caso en Agua Grande y un segundo caso en Sergi.
Aplicando el algoritmo de mezclas gaussianas y los métodos del codo y análisis de silueta sobre
el conjunto de datos del indicador de zona de flujo propuesto por Amaefule, se identificaron 3 y 4
unidades de flujo en Agua Grande y Sergi, respectivamente. Usando métodos gráficos a partir de
los registros GR, Neutrón y Densidad, se establecen end points para determinar los modelos de
porosidad total y efectiva de cada pozo, aproximando así la porosidad del núcleo medida como la
de flujo, tomando como datos de entrada al modelo los registros GR, Neutrón y Densidad, y el
indicador de zona de flujo o la unidad de flujo según el modelo, se pudo obtener para un primer
caso de estudio con dos pozos de la formación Agua Grande una exactitud de 70% a 80% usando
promedio. Para el segundo caso de estudio con un pozo en la formación Sergi, los algoritmos de
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 108
aprendizaje supervisado presentaron menor exactitud que el caso anterior. Esto puede ser
ocasionado por la alta heterogeneidad vertical evidenciada en el intervalo, donde los registros de
pozo no son capaces de tomar medidas comparables con el muestreo y la resolución de los análisis
de núcleos, de los cuales provienen las unidades de flujo verdaderas. Sin embargo, ante estas
Recomendaciones
presente investigación pueden mejorar con la disponibilidad de mayor cantidad de datos, haciendo
una base de datos mucho más robusta y permitiendo a los modelos un aprendizaje más consistente.
Con el fin de correlacionar las unidades de flujo hidráulicas modeladas usando registros
eléctricos con las propiedades texturales de la roca, se recomienda la validación con análisis
Por último, debe tenerse en cuenta que la comparación de múltiples de registros de pozo
requiere de un procesamiento adecuado dado que las herramientas realizan corridas con diferentes
configuraciones de diseño y calibración. Por ende, la normalización de los registros por intervalo
multipozo.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 110
Anexos
https://github.com/jeasierraan13/ML-HFU.git
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 111
Referencias Bibliográficas
Abbas, Mohammed A, and Erfan M Al Lawe. "Clustering Analysis and Flow Zone Indicator for
Electrofacies Characterization in the Upper Shale Member in Luhais Oil Field, Southern
Iraq." Paper presented at the Abu Dhabi International Petroleum Exhibition & Conference,
Abu Dhabi, UAE, November 2019. doi: https://doi-
org.bibliotecavirtual.uis.edu.co/10.2118/197906-MS
Amaefule, Jude O., Altunbay, Mehmet, Tiab, Djebbar, Kersey, David G., and Dare K. Keelan.
"Enhanced Reservoir Description: Using Core and Log Data to Identify Hydraulic (Flow)
Units and Predict Permeability in Uncored Intervals/Wells." Paper presented at the SPE
Annual Technical Conference and Exhibition, Houston, Texas, October 1993.
doi: https://doi.org/10.2118/26436-MS
Baldwin, J. L., Bateman, R. M., & Wheatley, C. L. (1990). Application of a neural network to the
problem of mineral identification from well logs. The Log Analyst, 31(05), 279–293.
Busch, J., Fortney, W., & Berry, L. J. S. (1987). Determination of lithology from well logs by
statistical analysis. SPE Formation Evaluation, 2(04), 412–418
Daya Sagar, Cheng, Q., & Agterberg, F. (2018). Handbook of Mathematical Geosciences.
Springer International Publishing AG.
Delfiner, P., Peyret, O., & Serra, O. J. S. (1987). Automatic determination of lithology from well
logs. SPE Formation Evaluation, 2(03), 303–310.
Fadokun, Daniel Oluwadara, Oshilike, Ishioma Bridget, and Mike Obi Onyekonwu. (2020)
Supervised and Unsupervised Machine Learning Approach in Facies Prediction. Paper
presented at the SPE Nigeria Annual International Conference and Exhibition, Virtual. doi:
https://doi.org/10.2118/203726-MS
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 112
Gill, D., Shomrony, A., & Fligelman, H. J. A. B. (1993). Numerical zonation of log suites and
logfacies recognition by multivariate clustering. AAPG Bulletin, 77(10), 1781–1791.
Hong, Youngjun, Wang, Shinjo, Bae, Jeehoon, Yoo, Jaeyoon, and Sungroh Yoon. "Automated
Facies Identification Using Unsupervised Clustering." Paper presented at the Offshore
Technology Conference, Houston, Texas, USA, May 2020. doi: https://doi-
org.bibliotecavirtual.uis.edu.co/10.4043/30773-MS
Kapur, L., Lake, L. W., Sepehrnoori, K., Herrick, D. C., & Kalkomey, C. T. (1998) Facies
prediction from core and log data using artificial neural network technology. In SPWLA
39th annual logging symposium, 1998. Society of Petrophysicists and Well-Log Analysts.
Khalid, M., Desouky, SD., Rashed, M. et al. (2020). Application of hydraulic flow units’ approach
for improving reservoir characterization and predicting permeability. J Petrol Explor Prod
Technol 10, 467–479. https://doi.org/10.1007/s13202-019-00758-7
Mello, M. R., Koutsoukos, E. A. M., Mohriak, W. U., Bacoccoli, G. (1994). Selected Petroleum
Systems in Brazil. AAPG.
MACHINE LEARNING PARA DETERMINAR UNIDADES DE FLUJO 113
Robail, Frederic, Sanyal, Satyashis, B M Noor Azudin, Ahmad Nazmi, Koh, Kwi Yen, Bt Hairon
Nizar, Farahani, and Ummi Farah Mohamad Rosli. (2023). Machine Learning for Facies
Distribution of Large Carbonate Reservoir Models- A Case Study. Paper presented at the
International Petroleum Technology Conference, Bangkok, Thailand, March 2023. doi:
https://doi.org/10.2523/IPTC-22876-MS
Rogers, S. J., Fang, J., Karr, C., & Stanley, D. J. A. (1992). Determination of lithology from well
logs using a neural network. AAPG Bulletin, 76(5), 731–739
Shi, Xinlei, Chen, Hongbing, Li, Ruijuan, Yang, Xiaoyan, Liu, Huan, and Ting Li. (2019)
Improving Permeability and Productivity Estimation with Electrofacies Classification and
Core Data Collected in Multiple Oilfields. Paper presented at the Offshore Technology
Conference, Houston, Texas. doi: https://doi.org/10.4043/29214-MS