Tesis MarlonNuño
Tesis MarlonNuño
Tesis MarlonNuño
Opción
Tesis
PRESENTA
Marlon Israel Nuño Rodríguez
Quiero agradecer al Dr. Héctor Montoya Fuentes del Centro de Investigación Biomédica de
Occidente (CIBO) y jefe del Laboratorio de Apoyo a la Vigilancia Epidemiológica del I.M.S.S., por
su tiempo y asesoría.
A la Dra. Sulema Torres Ramos y al Dr. Israel Román Godínez les agradezco por su tiempo,
paciencia y la dirección durante el desarrollo de este trabajo.
Dedicatoria.
Quiero dedicar el presente trabajo al Dr. Luis Casillas Santillán quien fue la primera persona que
me introdujo a la ciencia computacional, por toda su dedicación, paciencia, amistad dentro y
fuera del salón de clases. Que la fuerza esté siempre con usted. En Memoria
Tabla de contenido
1. Introducción ....................................................................................................................................1
2. Antecedentes ...................................................................................................................................3
3. Justificación.....................................................................................................................................5
4. Objetivo General .............................................................................................................................7
4.1. Objetivos específicos ...............................................................................................................7
5. Hipótesis..........................................................................................................................................8
6. Marco Teórico .................................................................................................................................9
6.1. ADN (Ácido Desoxirribonucleico) .........................................................................................9
6.1.1. Secuencia de ADN ..................................................................................................... 10
6.1.2. Genes y cromosomas.................................................................................................. 10
6.1.3. Genoma ...................................................................................................................... 10
6.2. Filogenia ............................................................................................................................... 11
6.2.1. Árbol filogenético ...................................................................................................... 11
6.2.2. Construcción del árbol filogenético ........................................................................... 12
6.2.3. Métodos de matrices de distancia............................................................................... 12
6.2.4. Anatomía de un árbol filogenético ............................................................................. 13
6.3. Bioinformática ...................................................................................................................... 14
6.3.1. Análisis de secuencias genómicas .............................................................................. 14
6.3.2. Representación digital del ADN ................................................................................ 14
6.3.2.1. Archivo FASTA ............................................................................................ 15
6.3.3. Señal genómica .......................................................................................................... 15
6.3.3.1. Procesamiento de señales genómicas (GSP) ................................................. 16
6.3.4. Métodos de representación numérica ......................................................................... 16
6.3.4.1. Mapeos basados en propiedades fisicoquímicas ........................................... 17
6.3.4.2. Mapeos fijos .................................................................................................. 17
6.3.5. Aprendizaje automático ............................................................................................. 18
6.3.5.1. Caracterización .............................................................................................. 19
6.3.5.1.1. Transformada rápida de Fourier ..................................................... 19
6.3.6. Agrupamiento............................................................................................................. 20
6.3.6.1. Métodos de agrupamiento jerárquico ............................................................ 21
6.3.6.1.1. Algoritmo BIRCH .......................................................................... 21
ii
7. Metodología ................................................................................................................................. 25
7.1. Entendimiento del problema................................................................................................. 25
7.2. Definición de algoritmos y herramientas.............................................................................. 26
7.2.1. Adquisición de datos .................................................................................................. 26
7.2.2. Transformación .......................................................................................................... 26
7.2.3. Caracterización........................................................................................................... 27
7.2.4. Clustering ................................................................................................................... 27
7.3. Implementación .................................................................................................................... 28
8. Resultados .................................................................................................................................... 35
8.1. Datos de experimentación y validación ................................................................................ 35
8.2. Diseño de experimentos y resultados obtenidos ................................................................... 36
9. Conclusiones ................................................................................................................................ 47
Bibliografía........................................................................................................................................ 49
iii
Índice de figuras
Figura 1. Estructura del ADN ............................................................................................................ 9
Figura 2. Representación gráfica del gen ......................................................................................... 10
Figura 3. Cromosomas del genoma humano ..................................................................................... 11
Figura 4. Ejemplo de árbol filogenético ........................................................................................... 12
Figura 5. Matriz de distancias para construcción de árbol filogenético ............................................ 13
Figura 6. Estructura del árbol filogenético ....................................................................................... 14
Figura 7. Formato de archivo FASTA............................................................................................... 15
Figura 8. Mapeo de secuencia de ADN a señal Genómica ............................................................... 16
Figura 9. Funciones de mapeo fisicoquímicas de ADN .................................................................. 17
Figura 10. Funciones de mapeo fijo de ADN ................................................................................... 18
Figura 11. Representación gráfica de la transformada rápida de Fourier.......................................... 20
Figura 12. Ejemplo de agrupamiento ................................................................................................ 20
Figura 13. Ejemplo de agrupamiento jerárquico ............................................................................... 21
Figura 14. Creación de clúster con BIRCH ...................................................................................... 23
Figura 15. Ejemplo de Cluster Feature Tree .................................................................................... 24
Figura 16. Etapas de la metodología ................................................................................................. 25
Figura 17. Ejemplo de transformación de secuencia de ADN a señal genómica usando Voss ......... 27
Figura 18. Arquitectura del sistema implementado para el agrupamiento de señales genómicas ..... 29
Figura 19. Flujo del programa ........................................................................................................... 29
Figura 20. Archivo de configuración del programa .......................................................................... 31
Figura 21. Objeto Entrez ................................................................................................................... 31
Figura 22. Implementación de la transformada rápida de Fourier .................................................... 33
Figura 23. Implementación de la función Birch ................................................................................ 33
Figura 24. Resultados de salida de la función Birch ......................................................................... 34
Figura 25. Árbol filogenético del Papiloma Humano (HPV) ........................................................... 35
Figura 26. Ploteo del experimento I – variantes de HPV de diferentes grupos ................................. 38
Figura 27. Ploteo del experimento II – variantes de HPV del grupo A7........................................... 40
Figura 28. Ploteo del experimento III - Variantes de HPV del grupo A9 ......................................... 41
Figura 29. Ploteo del experimento IV – variantes de HPV del grupo A5-A6 ................................... 43
Figura 30. Ploteo del experimento V – agrupamiento de HPV de distintos grupos .......................... 45
iv
Índice de tablas
Tabla 1. Resultados de agrupamiento del experimento I:variantes de HPV de diferentes grupos .... 34
Tabla 2. Resultados de agrupamiento del experimento II: variantes de HPV del grupo A7 ............. 35
Tabla 3. Resultados de agrupamiento del experimento III: variantes de HPV del grupo A9............ 37
Tabla 4. Resultados de agrupamiento del experimento IV: variantes de HPV del grupo A5-A6 ..... 38
Tabla 5. Resultados de agrupamiento del experimento V: HPV de distintos grupos ........................ 40
v
1. Introducción
Estamos entrando en la era del Big Data, donde miles de datos son generados día a día,
ejemplo de esto son los genomas de miles de organismos que han sido secuenciados por
automático o aprendizaje máquina, el cual puede verse como un conjunto de métodos que
pueden detectar automáticamente patrones, y luego usar estos patrones para llevar a cabo
[2]. Para adentrarnos más en el área de aplicación del aprendizaje máquina dentro de esta
Bioinformática cuyo término fue acuñado por Thomas Roderick en 1986, definiéndose como
diferencias de éstos, brindando información de la biología del organismo [4]. Para llevar a
cabo esta tarea comparativa, una de las actividades básicas del análisis computacional en la
meta principal es alinear dos secuencias de tal forma que la relación evolutiva de ellos sea
simple de notar, basándose este método en principios de Homología que nos dicen que las
secuencias tienen una historia evolutiva compartida, y por ende se da por hecho que poseen
1
una secuencia ancestral en común [5]. Para realizar estas tareas del descubrimiento de las
oculta en los datos sin contar con información previa al respecto. Una tarea de agrupación
consiste en dividir un conjunto de datos en grupos (es decir, agrupaciones) que comparten
propiedades comunes o que están relacionadas de alguna manera, de acuerdo con criterios
agrupamiento en secuencias biológicas son CD-HIT [8] y UCLUS [9], sin embargo, el
número de secuencias que pueden agrupar dichas herramientas puede ser limitado ya que, a
medida que aumenta el número de secuencias, incrementa el tiempo computacional [10]. Por
ello recientemente los investigadores han puesto su atención en un nuevo enfoque para llevar
por sus siglas en inglés) [11], que está basado en el uso de técnicas de procesamiento digital
de señales (DSP, por sus siglas en inglés) [12]. Una de las principales ventajas de los métodos
de GSP es que el análisis de datos genómicos puede realizarse muy rápidamente debido a la
codificación de las secuencias y a los procesos que han sido diseñados específicamente para
esas tareas [13]. Dentro de esta área, primero se busca mapear secuencias de ADN a señales
genómicas, es decir, transformar las secuencias representadas como una cadena de caracteres
2
2. Antecedentes
Existen trabajos en el estado del arte que utilizan procesamiento de señales genómicas y
clustering con el fin de encontrar similitudes en organismos. Como es el caso del trabajo
Genomic signal processing for DNA sequence clustering [14], en donde se utiliza el
algortimo K-means y la función de mapeo Voss para encontrar semejanzas en 141 secuencias
de ADN pertenecientes a 131 especies distintas; en dicho trabajo se demostró que con el
enfoque GSP es posible agrupar organismos vivos sin necesidad de utilizar un alineamiento
Cytochrome C Oxidase Subunit I (COXI) para validar los resultados del trabajo, ya que este
usando K-means [15] se trabajó en experimentar los resultados obtenidos al utilizar diferentes
naturaleza: reino animal, reino vegetal o plantas, reino de los hongos, reino monera (también
llamado bacterias) y reino protista. Dicho trabajo obtuvo como resultado que la función de
Por otra parte, el trabajo Clustering by phenotype and genome-wide association study in
autism [16] utiliza el algoritmo K-means bajo un enfoque distinto al de GSP para encontrar
relaciones genéticas entre los diferentes casos del Trastorno del Espectro Autista (ASD),
debido a que a un nivel genético sus características son muy heterogéneas por lo que
encontrar la relación común es una tarea difícil. Este trabajo se basa en un estudio de
simulación que validó que se pudiera encontrar la herencia oculta en este trastorno, al agrupar
3
a distintos pacientes en pequeños subgrupos homogéneos basados en que tan complejo fuera
su trastorno. Este trabajo demostró que si el conjunto de datos consta de múltiples subgrupos
Por otro lado, en el trabajo Clustering of Mitochondrial D-loop Sequences Using Similarity
Matrix, PCA and K-means Algorithm [17] se realizó una aproximación distinta al
distancias de los pares genéticos de éstos con el fin de generar un árbol filogénico con estas
como la técnica estadística del Análisis de Componentes Principales (PCA, por sus siglas en
tres herramientas.
Finalmente, a pesar de que existen otros trabajos en el estado del arte que llevan a cabo el
agrupamiento de organismos, con o sin el enfoque GSP, se puede observar que dichos
4
3. Justificación
llegando a ser muy popular su uso, debido a que este algoritmo realiza particiones rápidas en
los grupos de forma iterativa debido a su complejidad lineal, sin embargo su forma de crear
los grupos al posicionar los centroides de forma aleatoria y utilizar algún tipo de distancia
geométrica (como la distancia euclideana) nos deja todo un campo abierto para explorar
nuevos algoritmos de agrupamiento que toman como base otros factores para crear los
grupos.
Debido a lo anterior, el algoritmo jerárquico BIRCH podría ser una buena opción para
probar con el enfoque GSP por las siguientes razones: complejidad computacional y relación
con la filogenia.
construye una estructura de datos llamada Cluster Feature Tree (CFT), la cual es un árbol de
compresión de los datos de entrada que toma como base la media y varianza estadística del
conjunto de entrada, que permite reducir los tiempos del agrupamiento al generar una imagen
estadística de todo el conjunto de entrada, recordando que las secuencias genómicas son de
gran tamaño por lo cual representan una gran complejidad computacional al ser procesadas
5
Por otro lado, BIRCH utiliza un algoritmo basado en jerarquías ya que crea grupos con
individuales, para después ir uniendo de dos en dos cada grupo hasta formar un sólo clúster.
Cabe hacer notar que dichas jerarquías creadas se asemejan a lo observado en la filogenética,
en donde se busca agrupar, en una figura llamada dendograma, las familias de organismos
tomando como base las distancias genéticas entre éstos con respecto sus características.
6
4. Objetivo General
1. Estudio del estado del arte sobre los algoritmos de agrupamiento que se utilizan para
formar grupos mediante secuencias genómicas.
2. Estudio del estado del arte sobre los algoritmos de clustering jerárquico.
3. Elegir las representaciones numéricas que se utilizarán en este análisis para mapear
las secuencias de ADN a señales genómicas.
4. Implementar las representaciones numéricas en un lenguaje de programación.
5. Implementar la transformada rápida de Fourier como caracterización de señales
genómicas.
6. Implementar el algoritmo de BIRCH para llevar a cabo el agrupamiento de señales
genómicas.
7. Definir los organismos a ser utilizados para el análisis y obtener su secuencia de
ADN.
8. Transformar las secuencias de ADN de los organismos elegidos utilizando las
representaciones numéricas implementadas en el punto 4.
9. Obtener las características de las señales genómicas de los organismos utilizando la
implementación del punto 5
10. Con base en las características obtenidas del punto anterior, llevar a cabo el
agrupamiento de los organismos utilizando la implementación del punto 6.
11. Comparar los grupos obtenidos contra el gold standar de los organismos
seleccionados del punto 7 y analizar los resultados.
7
5. Hipótesis
partir de señales genómicas de seres vivos, que se acoplen a la clasificación brindada por la
filogenética, ya que esta clasificación simula una estructura jerárquica basada en las
8
6. Marco Teórico
todos los organismos vivos (como virus, bacterias, agentes patógenos). El ADN tiene una
forma de doble hélice compuesta por dos cadenas, formadas por azúcares y grupos fosfatos,
que se enrollan entre sí, gracias a la unión de sus cuatro bases nitrogenadas llamadas
nucleótidos: Adenina (A), Citosina (C), Guanina (G) y Timina (T). La doble hélice se
mantiene unida por los enlaces químicos entre las bases de nucleótidos; la adenina se une con
9
6.1.1. Secuencia de ADN
Conocer el orden de los nucleótidos tiene múltiples aplicaciones como en la detección de las
información necesaria para preservar sus rasgos en las próximas generaciones, esto se da al
momento en que los padres transmiten el material genético a sus descendientes. Los genes
paquete de ADN ordenado que se ubica en el núcleo de la célula, conteniendo una única
6.1.3. Genoma
10
dentro de una célula. Ejemplificando, en los seres humanos el genoma consiste en 23 pares
6.2. Filogenia
a través de la historia. Los resultados son mostrados en un árbol filogenético, cuyo análisis
conectados por un ancestro en común, el ancestro puede ser una especie o un grupo
11
a utilizar el ADN, porque provee más información debido a que las cadenas de ADN son más
Los métodos para generar árboles filogenéticos se llegan a dividir en dos tipos: los
métodos basados en matrices de distancia y los basados en datos de caracteres discretos (las
De los métodos que utilizan las matrices de distancia, el método de unión de vecinos
(Neighbor-Joining, NJ) es uno de los más populares. Este método (al igual que todos los
cuando se trabaja con secuencias de ADN, se genera al contar las diferencias de nucleótidos
de todos los pares de secuencias. Y finalmente, el árbol se crea al unir las secuencias que
12
posean la menor cantidad de diferencias, es decir la menor distancia genética [29] (Ver Figura
5).
Figura 5. Matriz de distancias para construcción de árbol filogenético (Imagen tomada de [30])
siguiente figura se encuentran los nodos terminales o puntas (A, B, C, D, E), que representan
a los taxones. Estos pueden ser elementos de una especie o grupos taxonómicos mayores.
Cada uno de estos nodos terminales se encuentran unidos mediante ramas a un nodo interno,
el cual representa al ancestro común entre los dos elementos. De tal forma que los nodos
terminales representan el presente, mientras que los nodos internos representan el pasado [29]
13
Figura 6. Estructura del árbol filogenético (Imagen tomada de [29])
6.3. Bioinformática
diferencias, tanto funcionales como estructurales, entre muchas secuencias biológicas. Esto
Una representación digital del ADN consiste en una sucesión de las letras A, T, G y
C las cuales representan las bases nucleótidos que componen el ADN y cuyo orden es
14
determinado a partir de la secuenciación. Existen bases de datos biológicas enfocadas a
secuencias de ADN como la NCBI, que trabaja con distintos formatos de secuencia como
FASTA, el formato que se eligió para los archivos de entrada de este sistema [33].
El formato FASTA consiste en una secuencia de ADN que empieza con una descripción de
una sola línea, seguida de líneas de datos (es decir, caracteres) de la secuencia de ADN. La
línea de descripción (defline) se diferencia de los datos de secuencia por el símbolo mayor
Una señal genómica es el resultado final de convertir, o dicho de otra manera, mapear
cada carácter o letra que conforma una secuencia de ADN a una representación numérica. En
15
la Figura 8 se puede ver un ejemplo de fragmento de secuencia mapeado a señal genómica
es unir la teoría y los métodos de procesamiento digital de señales con la comprensión global
genes [36][37].
pueden clasificarse en dos grupos principales, mapeos fijos y mapeos basados en las
16
6.3.4.1. Mapeos basados en propiedades fisicoquímicas
de ADN se usan para el mapeo de las secuencias. Las representaciones numéricas de este tipo
de mapeos son Electron-ion Interaction Potential (EIIP), Atomic Number, Paired Numeric,
17
Figura 10. Funciones de mapeo fijo de ADN (Imagen tomada de [38])
computacionales que están diseñados para emular la inteligencia humana aprendiendo del
entorno que los rodea, sin estar esto último explícitamente programado. Las técnicas basadas
18
en el aprendizaje máquina se aplican con éxito en diversos campos que van desde el
6.3.5.1. Caracterización
de datos o características relevantes que componen a un elemento, las cuales sirven para
describir o generalizar a éste, en nuestro caso de estudio, a una señal genómica. Existen
la transformada discreta de Fourier [40] y la transformada rápida de Fourier [39], siendo esta
La transformada rápida de Fourier (FFT, por sus siglas en inglés) es un método utilizado para
calcular la transformada discreta de Fourier (DFT, por sus siglas en inglés), que produce el
mismo resultado que otros métodos, pero es más eficiente, ya que a menudo reduce el tiempo
del cálculo.
descomposición en el dominio del tiempo tuvo lugar de manera exacta [41] (Ver Figura 11).
19
Figura 11. Representación gráfica de la transformada rápida de Fourier (Imagen tomada de [42])
6.3.6. Agrupamiento
que son similares entre sí y diferentes a los registros de otros clústeres. El agrupamiento en
clústeres se diferencia de la clasificación en que no hay una variable objetivo para agrupar.
lugar de eso, los algoritmos de agrupamiento buscan segmentar todo el conjunto de datos en
registros dentro del grupo y se minimiza la similitud con los registros fuera de este grupo
20
6.3.6.1. Métodos de agrupamiento jerárquico
inicializan cada observación para crear un pequeño grupo propio. Luego, en los pasos
siguientes, los dos grupos más cercanos se agregan en un nuevo grupo combinado. De esta
Eventualmente, todos los registros se combinan en un solo grupo enorme [43] (ver Figura
13).
El algoritmo Balanced Iterative Reducing and Clustering using Hierarchies o BIRCH por
sus siglas en inglés, fue desarrollado en 1996. BIRCH es eficiente para trabajar con conjuntos
21
de datos muy grandes debido a su capacidad para encontrar una buena solución de
agrupamiento con un solo escaneo de los datos. BIRCH maneja grandes conjuntos de datos
con una complejidad temporal y una eficiencia espacial superior a otros algoritmos, según
1. Construcción del árbol CF (Cluster Feature): Cargue los datos en la memoria construyendo un
2. Agrupación global: Aplicar un algoritmo de agrupamiento existente en las hojas del árbol CF.
Cluster feature
El algoritmo de BIRCH logra su alta eficiencia gracias a que solo requiere una única pasada
a través del conjunto de datos para realizar la agrupación, para ello utiliza cluster features
• Suma lineal: Sume las coordenadas individuales (X,Y). Esta es una medida de la
• Suma de cuadrados: Suma las coordenadas elevadas al cuadrado (X,Y). Esta es una
Recalcando que, juntas, la suma lineal y la suma al cuadrado son equivalentes a la media y
22
Figura 14. Creación de clúster con BIRCH (Imagen tomada de [43])
Un árbol CF es una estructura de árbol compuesta por CFS (ver Figura 15). Un árbol CF
un nodo no hoja.
23
Figura 15. Ejemplo de Cluster Feature Tree (Imagen tomada de [43])
24
7. Metodología
Para alcanzar los objetivos específicos de esta tesis, dividimos la metodología en cuatro
genómicas. Por lo que para empezar a comprender este tópico se recurrió a documentación
vez comprendidos tópicos como los principios de la biología molecular, la estructura genética
1. Estado del arte sobre los algoritmos de agrupamiento que se utilizan para formar
Una vez leídos ambos tópicos se decidió abordar el problema del agrupamiento utilizando
25
técnicas de clustering jerárquico. Los motivos para elegir esta aproximación fueron que, con
base en el estado del arte, se demostró que se pueden obtener buenos resultados al utilizar
como proveedor de datos al Centro Nacional para la Información Biotecnológica o por sus
siglas en inglés NCBI, una división de la Biblioteca Nacional de Medicina de Estados Unidos
[45]. Se seleccionó la base de datos de Nucleotide que contiene las secuencias genómicas de
7.2.2. Transformación
Con las secuencias de ADN extraídas desde NCBI se llevó a cabo la conversión de
esta conversión, se decidió por utilizar la representación Voss, una de las funciones de mapeo
más populares. Voss emplea cuatro vectores indicadores binarios, cada uno destinado a
y su conversión a señal genómica utilizando Voss. En dicha figura podemos observar que
tenemos una lista de entrada llamada “Secuencia” cuyos elementos (T, G, A, C) representan
la secuencia de ADN a convertir, y como salida contamos con la lista de listas llamada
“Señal” donde sus elementos son listas nombradas como Gn, An, Cn, Tn, haciendo referencia
26
a las bases que forman el ADN. Dentro de cada una de estas listas se guardan dos elementos
se almacena con el elemento 0. Al final las listas se emparejan al ser almacenadas dentro de
la variable “Señal” formando así un vector que mapea nuestra secuencia de ADN.
Figura 17. Ejemplo de transformación de secuencia de ADN a señal genómica usando Voss
7.2.3. Caracterización
Fourier, tomando como base el enfoque del procesamiento de señales genómicas. Esta forma
de caracterizar fue seleccionada porque nos genera un patrón común de la señal genómica en
principal motivo de utilizar este enfoque, el gran tamaño del vector obtenido durante nuestra
etapa de mapeo ya que éste al ser representado por una lista de listas podría llegar a dificultar
7.2.4. Clustering
que pudieran aplicarse a organismos vivos, encontrando entre ellos K-Means [48]. Sin
embargo, dado el objetivo de la tesis, se optó por utilizar BIRCH [49], ya que éste está
diseñado para agrupar grandes cantidades de datos con una alta escalabilidad al integrar
27
obtenido en los pasos anteriormente realizados [50].
7.3. Implementación
Para realizar nuestros experimentos se optó por desarrollar una herramienta de software,
cumplieran con las características deseadas. Entre los objetivos planteados se destacan los
siguientes:
NCBI.
obtenida de NCBI.
Python, ya que éste cuenta con herramientas prácticas y una amplia variedad de librerías que
permiten hacer el trabajo de desarrollo de forma más rápida, a la vez que nos permite
aprovechar las ventajas del paradigma orientado a objetos y la programación funcional. Entre
las librerías que se utilizan está Scikit Learn, que nos permite acceder a una amplia variedad
28
muestra en la Figura 18.
Figura 18. Arquitectura del sistema implementado para el agrupamiento de señales genómicas
7.2.
29
La lógica del programa comienza con el archivo de configuración, en éste se configura
fecha para realizar las búsquedas, la opción de extraer secuencias genómicas por región o
completas, el número de secuencias de un mismo tipo de virus a ser recuperadas, entre otras.
En el archivo de configuración (ver Figura 20) contamos con dos secciones Default y Query.
• mail: Cuenta de correo con la cual nos registramos en NCBI (este paso es necesario
para poder realizar más transacciones en caso de ser necesario, ya que se maneja un
• combinations: Arreglo con las regiones genómicas que serán extraídas de nuestro
atributo ‘DEFAULT’
30
Figura 20. Archivo de configuración del programa
La primera parte del programa consiste en hacer una petición al endpoint de NCBI a
través de Biopython, que cuenta con una implementación de Entrez (navegador de NCBI).
mediante una petición Http, obteniendo como resultado un objeto que usa setters y getters
que nos permiten la manipulación de los atributos biológicos que nos conciernen. En la Figura
31
Del objeto Entrez extraemos los Ids de los organismos provistos por NCBI, acorde a
nuestra búsqueda, para con estos Ids realizar otra petición con el fin de obtener como
resultado las descripciones completas de cada organismo, siendo esta descripción una
estructura de datos brindada por Biopython. Después, con base en el criterio de la selección
de zonas, se eliminan aquellos resultados que no cumplan con las regiones elegidas, mismas
Como segunda parte las secuencias se guardan en una lista, para posteriormente ser
enviadas a la función de transformación para que sean mapeadas con el fin de representar
numéricamente las secuencias del ADN. Dentro de esta función se entra a un switch case
Numeric, entre otras. Para el caso de esta tesis se decidió utilizar Voss por su buen
En la tercera parte se obtiene un vector resultante por cada una de las secuencias
genómicas, siendo éstas representadas numéricamente, pero al ser muy extensas se necesita
ya que ésta nos permite sacar el patrón de la señal genómica reduciendo de esta forma los
32
Figura 22. Implementación de la transformada rápida de Fourier
cuenta que en la filogenética se obtiene algo parecido a los árboles jerárquicos para
determinar la similitud entre organismos, se optó por utilizar el algoritmo de BIRCH. Para la
mediante la función fit proporcionada por la clase Birch ingresamos nuestras secuencias
33
Finalmente, como salida obtenemos los resultados del agrupamiento del algoritmo,
mismos que son guardados en la variable labels y son desplegados como se aprecia en la
Figura 24.
34
8. Resultados
Para evaluar el desempeño de BIRCH sobre señales genómicas, se decidió trabajar con
el Virus del Papiloma Humano (HPV, por sus siglas en inglés). Este organismo cuenta con
más de 200 tipos diferentes de virus [51]. Para elegir los tipos de HPV a ser procesados y
validar los grupos generados por el algoritmo de clustering tomamos como base o gold
Grupos de colores
A5-A6: HPV alto riesgo A7: HPV alto riesgo A9: HPV alto riesgo
Tipos: 51, 56, 66 Tipos: 18, 39, 45, 59, 68 Tipos: 16, 31, 33, 35, 52, 58
Figura 25. Árbol filogenético del Papiloma Humano (HPV) (Imagen tomada de [52])
35
La Figura 25 muestra un árbol filogenético para HPV. En las “ramas” se pueden observar
distintos tipos de este virus, y a su vez éstos están divididos en grupos, mismos que fueron
Para nuestros experimentos elegimos trabajar únicamente con los grupos marcados en
verde, azul y naranja, A7, A5-A6 y A9 respectivamente, debido a que éstos presentan los
tipos de alto riesgo de HPV [52], mismos que se encuentran marcados en rojo en la Figura
25.
Para nuestros experimentos tomamos todos los tipos de HPV de los 3 grupos (A7, A9,
alimentar el algoritmo. Los parámetros con los que ejecutamos BIRCH son los siguientes:
• n_clusters : 3 (Dado que este número representa los grupos del gold standar)
• Algoritmo Jerárquico: Aglomerative
• Threshold: 0.5
número de clúster que le fue asignado y finalmente se muestran los resultados de forma
Para lograr los objetivos de esta tesis se decidieron realizar diferentes experimentos y a
continuación se describen cada uno de ellos, así como los resultados obtenidos.
36
• Experimento I- Variantes de HPV de diferentes grupos: Para este experimento,
se decidió tomar un tipo de virus por cada grupo, seleccionando el HPV 16 del grupo A9, el
HPV 18 del grupo A7 y el HPV 51 del grupo A5-A6. Después de seleccionar dichas
muestras, se descargaron del NCBI ocho variantes del tipo de virus elegido por grupo,
En este experimento se buscó experimentar con 8 variantes del mismo virus, ya que cada
virus tenía al menos 8 variantes y con esa cantidad se decidió por hacer un agrupamiento
Como podemos observar en la Tabla 1 todas las variantes del HPV 18 fueron agrupadas
en el mismo clúster (1), las del HPV 16 se agruparon juntas en el clúster (0) mientras que las
del tipo 51 se agruparon en el clúster (2). Esto demuestra que podemos agrupar de manera
correcta, de acuerdo con el gold standar, las diferentes variantes de los tipos de virus.
37
Figura 26. Ploteo del experimento I – variantes de HPV de diferentes grupos
38
• Experimento II – Variantes de HPV del grupo A7: Para este experimento, se
decidió tomar tres tipos de virus del grupo A7, seleccionando como muestras el HPV 18, 39
y 45. Después de seleccionar las muestras, se descargaron del NCBI ocho variantes de los
Como podemos observar en la Tabla 2 todas las variantes del HPV 18 fueron agrupadas
en el mismo clúster (2), las del HPV 39 se agruparon juntas en el clúster 0 mientras que las
del tipo 45 se agruparon en el clúster (1). Esto demuestra que a pesar de ser del mismo grupo
(A7) los virus muestran diferencias entre ellos y es posible agruparlos con nuestra
encuentra un cúmulo de puntos morados, uno de puntos rojos y uno de puntos azules-cyan;
39
Figura 27. Ploteo del experimento II – variantes de HPV del grupo A7
40
• Experimento III – Variantes de HPV del grupo A9: Para este experimento, se
decidió tomar tres tipos de virus del grupo A9, seleccionando como muestras el HPV 58, 33
y 31. Después de seleccionar las muestras, se descargaron del NCBI ocho variantes de los
Como podemos observar en la Tabla 3 todas las variantes del HPV 58 fueron agrupadas en
el mismo clúster (2), las del HPV 33 se agruparon juntas en el clúster (1) mientras que las del
pesar de ser del mismo grupo (A9) los virus muestran diferencias entre ellos.
Figura 28. Ploteo del experimento III - Variantes de HPV del grupo A9
41
Tabla 3. Resultados de agrupamiento del experimento III - variantes de HPV del grupo A9
42
• Experimento IV – Variantes de HPV del grupo A5-A6: Para este experimento,
se decidió tomar tres tipos de virus del grupo A5-A6, seleccionando como muestras el HPV
30, 53 y 56. Después de seleccionar las muestras, se descargaron del NCBI ocho variantes de
los tipos de virus elegidos, haciendo un total de 24 elementos utilizando como atributo de
Figura 29. Ploteo del experimento IV – variantes de HPV del grupo A5-A6
Como podemos observar en la Tabla 4 todas las variantes del HPV 53 fueron agrupadas
en el mismo clúster (2), las del HPV 30 se agruparon juntas en el clúster (1) mientras que las
del tipo 56 se agruparon en el clúster (0) al igual que los dos experimentos anteriores, se
demuestra que a pesar de ser del mismo grupo (A5 – A6) es posible agruparlos o
43
Tabla 4. Resultados de agrupamiento del experimento IV – variantes de HPV del grupo A5-A6
44
• Experimento V – Agrupamiento de HPV de diferentes grupos: Para este
experimento, se decidió tomar todas los tipos de virus de todos los grupos (A7, A9 y A5-A6),
seleccionando como muestras el HPV 51, 67, 70, 33, 16, 59, 69, 52, 58, 35, 31, 68, 18, 66,
53, 56, 26, 30, 39 y 45. Después de seleccionar las muestras, se descargó del NCBI una sola
secuencia por cada tipo de virus elegido, haciendo un total de 20 secuencias utilizando como
el eje de la X se tomó como parámetro de mapeo estadístico la norma del vector y en el eje
Y la media estadística. Los puntos dentro del ploteo representan las diversas variedades del
HPV que se tomaron, cada una está pintada de un color acorde al resultado obtenido del
parecieran formarse cúmulos cercanos de los virus, ya que a pesar de ser de un mismo grupo,
los puntos se encuentran distantes en los valores numéricos obtenidos por el mapeo
estadístico.
45
En la Tabla 5 podemos apreciar los resultados de clusterización para diferentes tipos de
con respecto al gold standar, dando una precisión de 85%. Los casos en los que se obtuvieron
con rojo); estos tres tipos fueron agrupados en el clúster 0 (perteneciente al grupo A9) siendo
69 0 A5-A6 18 1 A7 67 0 A9
26 0 A5-A6 45 1 A7 58 0 A9
51 0 A5-A6 39 1 A7 33 0 A9
30 2 A5-A6 70 1 A7 52 0 A9
53 2 A5-A6 68 1 A7 31 0 A9
56 2 A5-A6 59 1 A7 35 0 A9
66 2 A5-A6 16 0 A9
46
9. Conclusiones
Tomando como base los resultados obtenidos, podemos apreciar que efectivamente el
algoritmo BIRCH realiza un buen acoplamiento de los organismos vivos al utilizar el enfoque
experimento final de este trabajo, en el cual se obtuvo un porcentaje de éxito del 85% en el
agrupamiento generado por el algoritmo con base en el gold standar elegido. Este resultado
a su vez demuestra la efectividad del enfoque del GSP, y que el algoritmo BIRCH es una
buena opción para encontrar similitudes, debido a que éste nos permite implementar
algoritmos jerárquicos para encontrar semejanzas entre los grupos formados, tomando como
Python fue de gran ayuda en las diferentes etapas de la metodología. De dicho lenguaje
de forma sencilla las secuencias de organismos vivos del NCBI y la última para las etapas de
lenguaje nos permitieron avanzar de forma rápida; quizás la desventaja encontrada durante
hablando en temas del versionamiento, debido a que algunas librerías no eran compatibles.
Como trabajo futuro y hablando primero sobre las mejoras que se le pudieran hacer a la
herramienta, existen casos de uso en los cuales es necesario hacer muchas búsquedas por un
mismo organismo debido a que las regiones del ADN deseado no se encuentran en las
opciones de búsqueda, por lo que aquí se pudiera implementar una búsqueda dinámica hasta
encontrar el resultado deseado. Pasando a temas que conciernen al enfoque de GSP, aquí
47
tenemos un campo amplio para explorar, ya sea utilizando alguna otra forma de mapeo como
Rápida de Fourier para caracterizar las señales o simplemente dentro del algoritmo BIRCH
utilizar diferentes medidas en los parámetros para generar el Clustering Feature Tree(CFT) y
área biológica, se pudiera experimentar con otras regiones genéticas del organismo vivo
(incluso concatenar regiones), ya que en este trabajo probamos únicamente con L2, para ver
48
Bibliografía
[3] Kuska (1998) Beer, Bethesda, and biology: how “genomics” came into being. J Nat
Cancer Inst 90:93
[4] Selzer, P. M., Marhöfer, R. J., & Rohwer, A. (2008). Applied bioinformatics. An
introduction–Springer, Verlag, Berlin, Heidelberg, Germany, 260.
[5] Tatusov RL, Koonin EV, Lipman DJ (1997) A genomic perspective on protein families.
Science 287: 631 – 637
[7] Baikey KD. 1994. Numerical taxonomy and cluster analysis. In: Typologies and
taxonomies: an introduction to classification. USA: SAGE Publications, 34–65.
[8] (2018). CD-HIT. Mayo 15, 2020, de Weizhong Li's Group Sitio web: http://weizhongli-
lab.org/cd-hit/
[9] Edgar RC. 2010. Search and clustering orders of magnitude faster than BLAST.
Bioinfor-matics 26(19):2460–2461
[10] James, B., Luczak, B., &. (2018). MeShClust: an intelligent tool for clustering DNA
sequences. Mayo 15, 2020, de Oxford Academic Sitio web:
https://academic.oup.com/nar/article/46/14/e83/4990634
[11] NCBI. (2009). Genomic Signal Processing. Mayo 15, 2020, de PMC Sitio web:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766787/
49
[12] Larry Escobar. (2017). PROCESADORES DIGITALES DE SEÑALES (DSPs) Y
APLICACIONES. Mayo 15, 2020, de UNAM Sitio web: http://odin.fi-
b.unam.mx/labdsp/files/ADSP/apuntes/dsp_apli0_17
[13] Zhao B, Duan V, Yau SS-T. 2011. A novel clustering method via nucleotide-based
Fourier power spectrum analysis. Journal of Theoretical Biology 279(1):83–89
[16] Narita, A., Nagai, M., Mizuno, S., Ogishima, S., Tamiya, G., Ueki, M., ... & Yamanaka,
C. (2020). Clustering by phenotype and genome-wide association study in autism.
Translational psychiatry, 10(1), 1-12.
[18] Frandsen, P. B., Calcott, B., Mayer, C., & Lanfear, R. (2015). Automatic selection of
partitioning schemes for phylogenetic analyses using iterative k-means clustering of
site rates. BMC evolutionary biology, 15(1), 1-17.
[19] Bustamam, A., Tasman, H., Yuniarti, N., Frisca, & Mursidah, I. (2017, July).
Application of k-means clustering algorithm in grouping the DNA sequences of
hepatitis B virus (HBV). In AIP Conference Proceedings (Vol. 1862, No. 1, p. 030134).
AIP Publishing LLC.
50
[21] Magalhães, Lana. ADN: Qué es, definición y estructura (2021). Abril 27, 2021, de Toda
Materia sitio web: https://www.todamateria.com/adn/
[22] Secuenciación del ADN (2021). Abril 31, 2021, de National Human Genome Research
Institute Sitio web: https://www.genome.gov/27563183/secuenciacin-del adn/
[24] Shelley Farrar Stoakes, ¿Qué es la Filogenia?. Marzo 14, 2021. Sitio web:
https://www.news-medical.net/life-sciences/What-is-Phylogeny-(Spanish).aspx
[25] Gregory TR. Understanding evolutionary trees. Evolution: Education and Outreach
2008; 1: 121-137.
[26] Simmons MP, Freudenstein JV. Artifacts of coding amino acids and other composite
characters for phylogenetic analysis. Cladistics. 2002; 18: 354– 365.
[27] Procariotas (2013), Marzo 17, 2021. Sitio web Universidad Nacional del Nordeste:
http://www.biologia.edu.ar/bacterias/micro1.htm
[28] Michu E. A short guide to phylogeny reconstruction. Plant soil environ. 2007; 53 (10):
442–446.
[30] Abascal, Federico & Irisarri, Iker & Zardoya, Rafael. (2014). Filogenia y Evolución
Molecular.
[31] Coltell, Óscar, Arregui, María, Fabregat, Antonio, & Portolés, Olga. (2008). La
bioinformática en la práctica médica: Integración de datos biológicos y
clínicos. Revista médica de Chile, 136(5), 645-652
[32] Escobar, C. A. M., Murillo, L. V. R., & Soto, J. F. (2011). Tecnologías bioinformáticas
para el análisis de secuencias de ADN. Scientia et technica, 3(49), 116-121.
51
[33] (2015). Secuenciación del ADN. Marzo 21, 2021, de National Human Genome
Research Institute Sitio web: https://www.genome.gov/27563183/secuenciacin-del-
adn/
[34] National Center for Biotechnology Information. (2002). BLAST topics. Marzo 25,
2021, de National Library of Medicine Sitio web:
https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DO
C_TYPE=BlastHelp
[36] Dougherty E., Huang Y., Seungchan K., Cai X., & Yamaguchi R. (2009).
Genomic Signal Processing. Octubre 5, 2018, de NCBI Sitio
web: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766787/
[37] Dougherty E., Shmulevich I., Chen J., & Wang Z. (2005). Genomic signal
processing: perspectives. En Genomic signal processing and Statistics (p.1). USA:
Hindawi Publishing Corporation.
[38] Kwan H., Arniker S. (2009). Numerical representation of DNA sequences. En IEEE
International Conference on Electro/Information Technology (pp. 307–310)
[39] El Naqa, I., & Murphy, M. J. (2015). What is machine learning?. In machine learning
in radiation oncology (pp. 3-11). Springer, Cham.
[40] Soria, E. (2005). Transformada Discreta de Fourier. Marzo 30, 2021, de Universitat de
València Sitio web: https://www.uv.es/soriae/tema_5_pds.pdf
[41] Smith S. (2011). Chapter 12: The Fast Fourier Transform. Octubre 6, 2018,
de California Technical Publishing Sitio web: http://www.dspguide.com/ch12.htm
52
[43] Larose, D. T. (2015). Data mining and predictive analytics. John Wiley & Sons.
[44] Zhang, T., Ramakrishnan, R., & Livny, M. (1997). BIRCH: A new data clustering
algorithm and its applications. Data Mining and Knowledge Discovery, 1(2), 141-182.
[45] National Library of Medicine. (1988). Welcome to NCBI. Mayo 26, 2020, de NIH Sitio
web: https://www.ncbi.nlm.nih.gov
[46] Voss, R. F. (1992). Evolution of long-range fractal correlations and 1/f noise in DNA
base sequences. Physical review letters, 68(25), 3805.
[47] Hoang, T., Yin, C., Zheng, H., Yu, C., He, R. L., & Yau, S. S. T. (2015). A new method
to cluster DNA sequences using Fourier power spectrum. Journal of theoretical
[48] Lloyd, S. (1982). Least squares quantization in PCM. IEEE transactions on information
theory, 28(2), 129-137.
[49] Zhang, T., Ramakrishnan, R., & Livny, M. (1996). BIRCH: an efficient data clustering
method for very large databases. ACM sigmod record, 25(2), 103-114.
[50] Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
[51] Instituto Nacional del Cáncer. (2019). VPH y el cáncer. Mayo 26, 2020, de NIH Sitio
web:https://www.cancer.gov/espanol/cancer/causas-prevencion/riesgo/germenes-
infecciosos/vph-y-cancer
[52] Los Alamos National Laboratory. Human papillomaviruses: a compilation and analysis
of nucleic acid and amino acid sequences. 1997. Available at: http://hpv-web.lanl.gov
53