Reloj Molecular (Underdog) PDF
Reloj Molecular (Underdog) PDF
Reloj Molecular (Underdog) PDF
MOLECULAR
Norberto Martnez Mndez
Departamento de Zoologa, Instituto de Biologa, Universidad Autnoma de Mxico, Mxico, D. F. Mxico
1. El Reloj Molecular
a) Concepto de reloj molecular y la teora Neutral
El concepto de reloj molecular fue expuesto por primera vez en los trabajos
de Zuckerland y Pauling (1962, 1965), quienes al comparar la secuencia de una
misma protena proveniente de distintas especies, sugirieron que las protenas y
los genes que las codifican pueden evolucionar a tasas constantes, lo que puede
ser usado para medir la divergencia molecular y con estos datos calibrar un reloj
molecular. Lo anterior significa que para cada protena la cantidad de sustituciones
de aminocidos es constante a travs del tiempo.
Los datos de Zuckerland y Pauling, as como el descubrimiento de que muy
probablemente la gran mayora de los organismos en sus secuencias de ADN, sean
heterocigotos para todos sus loci, fueron algunos de los hechos que llevaron a
Motoo Kimura a crear la teora Neutralista de la evolucin Molecular (Kimura,
1968).
En la teora neutral, se expone que la mayora de las mutaciones son
selectivamente neutras y que es la deriva gnica la que determina la probabilidad
de que estas mutaciones se fijen o se pierdan. Asimismo, Kimura concluy que la
tasa de evolucin en trminos de sustituciones mutantes (k) es igual a la tasa de
3
mutacin por gameto y por unidad de tiempo (v), lo cual quiere decir que la tasa
evolutiva en trminos de sustituciones mutantes en una poblacin es equivalente a
la tasa de mutacin por gameto, sin importar cual es el tamao poblacional. Esta
igualdad slo es vlida en alelos neutros, pues si el mutante tiene una ventaja
selectiva (s), entonces la probabilidad de que este mutante logre fijarse en la
poblacin (u) es aproximadamente igual a 2s y la ecuacin de la tasa evolutiva
debe cambiar; entonces si (N) es el tamao efectivo de la poblacin y puesto que
2Nv es el total de mutantes nuevos en cada generacin dado que cada individuo
tiene dos juegos de cromosomas, la ecuacin se convierte en K=
(2s)(2Nv)=4Nsv. Es decir, en genes con ventaja selectiva, la tasa evolutiva si
depende del tamao de la poblacin.
Segn la teora neutralista, los valores ms o menos constantes de las tasas
evolutivas observadas en diferentes organismos se explican mejor por la relacin
k=v que por la explicacin seleccionista K=4Nsv. La propuesta original de Kimura
de que la mayora de los cambios en las secuencias aminoacdicas de la protenas
se corresponden con mutaciones neutras, se hizo posteriormente extensivo al DNA
que las codificaba.
Lo anterior, no quiere decir que la mayora de las mutaciones sean neutras,
pero aquellas mutaciones deletreas surgidas son rpidamente eliminadas por la
seleccin purificadora. Asimismo, segn esta teora las mutaciones ventajosas son
una proporcin casi despreciable de los cambios moleculares, lo cual explica la
constancia observada en las tasas de sustitucin, esto debido a que las protenas
4
tienen una limitacin funcional para variar, por lo que tienen baja tolerancia a los
cambios aminoacdicos que pueden alterar su funcin.
Adems, la teora neutralista nos dice que las variaciones que se agregan al
acervo gentico lo hacen de una manera aleatoria, por lo que el proceso tiene un
ritmo ms o menos constante, lo cual justifica la propuesta de un reloj molecular,
en donde una determinada molcula proteica o de ADN, puede ser utilizada para
estimar el tiempo de divergencia entre especies.
Actualmente an existe un gran debate entre los neutralistas y los
seleccionistas (los cuales piensan que las sustituciones se fijan porque confieren
una ventaja selectiva y que las mutaciones neutras son raras). Los datos
disponibles de secuencias proteicas en los aos sesenta produjeron el surgimiento
de la teora neutral, pero en los setentas al estudiarse ms secuencias y reunirse
ms evidencia comparativa, se acumularon evidencias de variacin de tasas
evolutivas entre distintas especies y la constancia del reloj molecular fue puesta en
juicio.
Los defensores de la teora neutral han dado algunas explicaciones de la
variacin en el reloj molecular y una de las maneras de incorporar la variacin de
las tasas de sustitucin dentro de la estructura neutralista fue incorporando
aquellas mutaciones con pequeos coeficientes de seleccin, as surgi la teora
casi neutral de Tomoko Ohta (1992). Lo que es claro es que an faltan ms
anlisis de secuencias en muchas especies y mejores mtodos estadsticos para
aproximarse al problema (Page y Holmes, 2000).
5
b) El reloj molecular ideal
El reloj molecular universal ha sido propuesto para muchos genes y regiones
genmicas y en un amplio espectro de especies, es as que
estudios entre varios linajes de vertebrados indican una tasa de mutacin de
aproximadamente 2% en la divergencia de secuencias por milln de aos ( Brown
et al., 1979). Pero aunque hoy existen datos que cuestionan estas afirmaciones,
debemos preguntarnos si es posible la existencia de un reloj molecular ideal.
En un reloj molecular ideal, se espera que el cambio molecular sea una
funcin lineal del tiempo con sustituciones acumuladas siguiendo una distribucin
de Poisson, pues la nica variacin esperada es de origen estocstico (Wilson et
al.,1987). Para esta situacin se ha propuesto una distribucin de Poisson, pues
este modelo considera un nmero X de eventos (x= 0,1,2,...) en este caso
hablamos de sustituciones, cuando la probabilidad de ocurrencia de estos eventos
es pequea, pero el nmero de oportunidades para la ocurrencia de estos es
grande, dado el tamao del genoma. Asimismo, se espera que un reloj molecular
ideal tenga una tasa de cambio equivalente a travs de todas las posiciones y de
todos los linajes, que el rbol filogentico pueda ser reconstruido sin error y que
cada rama pueda ser analizada independientemente, que el nmero de
sustituciones a travs de cada linaje en el rbol pueda ser reconstruida sin error,
que los datos de calibracin para todos los tiempos de divergencia usados para
calcular la tasa del reloj molecular sean conocidos sin error y que la regresin del
tiempo del nmero de substituciones pueda ser conducida sin error (Hillis, et al.
1996).
6
An bajo los supuestos no realistas de un reloj molecular ideal, no se puede
asignar con exactitud una edad determinada a un linaje, pues simplemente se est
manejando un modelo estadstico el cual arroja los resultados con lmites de
confianza asociados. Por lo que en algunas ocasiones no podramos decir si el
nmero de sustituciones observadas entre dos linajes relacionados puedan tener la
misma antigedad, debido precisamente a los lmites de confianza del reloj
molecular. Es as que una de las fuentes importantes de error a la hora de emplear
un reloj molecular es la misma variacin estocstica debida al modelo de
sustitucin empleado.
2. Consideraciones en el uso del reloj molecular
Actualmente, muchos estudios han mostrado una considerable tasa de
heterogeneidad del ADN mit dentro y entre varios grupos de animales, y
recientemente hay trabajos que han sugerido la posibilidad de estimar edades sin
asumir un reloj molecular global (Sanderson, 1998;Yoder y Yang, 2000). Adems,
han surgido nuevos modelos de sustitucin nucleotdica, por lo que antes de
evaluar los tiempos de divergencia entre linajes es necesario evaluar los distintos
modelos de sustitucin nucleotdica existentes. Asimismo, actualmente existen
mtodos para reconstruir tiempos y tasas de divergencia, los cuales requieren
considerar si hay o no constancia en las tasas de sustitucin nucleotdica, por lo
cual, hay una serie de pruebas que se deben realizar antes de hacer inferencias
acerca de los tiempos de divergencia (Sanderson, 1998).
Por otra parte, la estimacin de los tiempos de divergencia cuando se
estudia un gene, es complicada, pero la cuestin de cmo extraer apropiadamente
7
informacin evolutiva de la combinacin de mltiples genes, es an ms difcil, y
s debe tener en mente que las tasas evolutivas cambian a travs del tiempo y
entre genes. En este sentido, existen pocos mtodos que trabajen con grupos de
datos provenientes de varios genes (Thorne y Kishino, 2002).
Otro aspecto que debemos considerar y que ya se ha tocado brevemente,
es el concerniente al error asociado a los mtodos y algoritmos utilizados. Es as,
que podemos distinguir dos tipos de errores, el error estocstico que es el que est
asociado a un nmero de muestra muy pequeo, y el error sistemtico que es
aquel que surge por utilizar un modelo o mtodo que describe inadecuadamente el
proceso evolutivo subyacente. Por ejemplo, el criterio de optimizacin puede ser
una causa importante de error cuando se usa Parsimonia y Mxima verosimilitud,
pero adems para los mtodos que utilizan Mxima verosimilitud, el modelo de
sustitucin elegido puede ser una causa de error sistemtico importante.
3. Seleccin de modelos evolutivos
Uno de los mayores problemas a los que se enfrentan quienes reconstruyen
filogenias moleculares, y que afecta directamente el trabajo con el reloj molecular,
es la saturacin en las secuencias (sustituciones mltiples en un solo sitio),
problema que se ha tratado de solucionar buscando modelos ms adecuados de
evolucin nucleotdica. Estos modelos bsicamente difieren entre ellos por el
nmero y tipos de parmetros que son libres de variar. Los parmetros de los
modelos deben incluir el nmero de tipos de sustituciones, las frecuencias de las
cuatro bases nucleotdicas y la variacin en la tasa de sustitucin entre sitios
nucleotdicos (Arbogast, et al.,2002).
8
Actualmente, existen cinco modelos bsicos de sustitucin nucleotdica: El
modelo de J ukes-Cantor (JC, por sus siglas en ingls), que considera frecuencias
de bases iguales con sustituciones equitativas; El modelo del parmetro 2 de
Kimura (K2P), que considera frecuencia de bases iguales con transversiones y
transiciones con diferentes tasas de sustitucin; El modelo de Felsenstein (F81)
con frecuencias de bases no equitativas y con todas los tipos de sustituciones
cambiando a la misma tasa; El modelo de Hasegawa (HKY85), permitiendo
frecuencias distintas de bases y transversiones y transiciones con diferentes tasas
de sustitucin, y por ltimo tenemos al modelo ms general el de Tiempo General
Reversible (GTR), considerando frecuencias de bases no equitativas y que los seis
pares de sustituciones pueden cambiar a diferentes tasas (Page y Holmes, 2000).
Para cualquier serie de datos moleculares, se puede encontrar el modelo
que mejor se ajuste a nustros datos, para lo cual se ha desarrollado la prueba de
Razn de verosimilitud (likelihood ratio test, LRT), para decidir entre los modelos
de sustitucin molecular. Esta prueba viene implementada en el programa
Modeltest (Posada y Crandall, 1998) y que trabaja en conjunto con el paquete
PAUP (Swoffor, 1998).
No obstante, es obvio que los modelos de evolucin molecular ms simples
no comprenden la complejidad en la evolucin de secuencias, pero al mismo
tiempo es evidente que los modelos ms complejos introducen supuestos y
aproximaciones que hacen que sus resultados sean inciertos cuando se aplican por
ejemplo al estudio de ciertas familias de protenas (Brocchieri, 2001), ver figura 1.
9
Estos modelos, tampoco incluyen algn parmetro correspondiente a la
variacin en la tasa de sustitucin entre distintos sitios nucleotdicos conocida
como tasa de variacin entre sitios.
Fig.1. Curvas tericas que estiman la relacin entre la distancia evolutiva y la similitud de
secuencias, generadas por la aproximacin de Poisson (Zuckerland y Pauling, 1965), asumiendo
que las tasas mutacionales son variables entre sitio y siguen una distribucin gamma (Ota y Nei,
1994), aplicando la correccin de Kimura a la aproximacin de Poisson (datos de Dayhoff et al.
1972, 1978) y las formulas derivadas de Grishin (1995) con tasas mutacionales dependientes de
amino cidos, de sitios y ambas. Modificado de Brocchieri, (2000).
La tasa de variacin entre sitios ha sido tomada en cuenta y considerada de
mucho inters en la estimacin de longitud de ramas, tasas evolutivas y tiempos
de divergencia (Arbogast y Slowinsky, 1998). Este parmetro ha sido incorporado
a los modelos de sustitucin nucleotdica ya existentes, por medio de la
distribucin gamma.
La distribucin gamma, es un parmetro de forma () que es inversamente
proporcional al aumento de la heterogeneidad de la tasa de variacin entre sitios,
presente en los datos, por ejemplo cuando no hay variacin de tasas entre sitios,
10
se hace infinita, y si < 1 la tasa de variacin entre sitios es importante, esto
ltimo quiere decir que en una secuencia dada, una pequea cantidad de sitios
experimental la mayor cantidad de las sustituciones (Arbogast, et al.,2002). Lo
anterior es muy importante, pues si no se tiene en cuenta el parmetro de forma
(), puede haber una gran subestimacin de la longitud de las ramas y de la tasa
de sustitucin nucleotdica (Buckley et al.2001).
Generalmente, al usar secuencias de ADN mit. en trabajos a nivel
subespecfico, es comn la utilizacin de otro modelo, el de sitios infinitos. Este
modelo, provee una buena aproximacin en el caso de tiempos de divergencia
muy recientes o en secuencias de ADN con baja tasa de mutacin, pues asume
que cada mutacin ocurre en un sitio diferente en la secuencia ya que la tasa de
mutacin por sitio nucleotdico, es tan pequea que la posibilidad de mutaciones
mltiples en sitios individuales puede ser ignorada (Kimura, 1969).
4. Pruebas para evaluar la constancia de las tasas de sustitucin
Uno de los primeros pasos para estimar la edad de divergencia, es evaluar si
existe una variacin o no de las tasas de sustitucin entre los linajes en estudio,
para lo cual se han implementado una serie de pruebas. Pero antes de hablar
sobre las pruebas existentes par evaluar la constancia de tasas de sustitucin entre
linajes, se debe sealar que la probabilidad de refutar la hiptesis nula (constancia
de tasas), es baja para genes de evolucin lenta y genes pequeos, as como para
protenas, por lo que alguna variacin en las tasas de sustitucin pudiera ser
indetectable (error tipo II), resultando en una inadecuada estimacin de los
tiempos de divergencia (Hedges y Kumar, 2003).
11
a) Pruebas de tasas relativas
Este mtodo prueba la constancia de tasas de sustitucin (hiptesis nula)
comparando el aumento total del cambio de las secuencias (nmero de
sustituciones) en dos o ms linajes, que comparten un ancestro comn. Se le
llama prueba de tasas relativas pues no es necesario ningn conocimiento previo
de los tiempos de divergencia (Hedges y Kumar, 2003).
Esta prueba se basa en el supuesto de que la distancia relativa entre el grupo
externo y cada terminal debe ser la misma bajo una constancia de tasas de
sustitucin. Es as que como se observa en el cladograma de la figura 2 , los
cambios acumulados desde el ancestro comn de A y B se espera que sean los
mismos, considerando un pequeo error debido al muestreo. Los mismo se espera
del grupo externo hacia A y hacia B. La prueba de tasas relativas tiene un
estadstico, , que es la diferencia en algn tipo de medida o cuantificacin, de la
distancia entre el grupo externo y cado uno del los grupos internos (D), la cual se
espera sea cero cuando hay constancia de tasas (Sanderson, 1998).
Figura 2. Cladograma que muestra las comparaciones que se hacen en la prueba de tasas
relativas. Modificado de Sanderson (1998).
12
El mtodo ms utilizado para cuantificar la distancia D, es el de Wu y Li (1985),
el cual utiliza el modelo evolutivo del parmetro 2 de Kimura para estimar las
distancias pareadas entre los taxones utilizados. Esta prueba utiliza el supuesto de
la constancia de tasas para calcular la varianza de . Entonces, dado que se
puede considerar equivalente a un valor de desviacin desde la media, de una
serie de datos en este caso de distancias ( es equivalente a x-, donde es la
media de los datos) se puede conocer la desviacin estndar de las distancias que
es var(), por lo que es posible conocer la forma de la distribucin de la media
muestral, como un estadstico Z. Es as, que una prueba de Z a dos colas se puede
realizar, esperando que los valores estn normalmente distribuidos con una media
de cero y una varianza de 1. Por lo que, un valor extremo que caiga en las
regiones crticas de la curva normal ser rechazado y se considera que no presenta
una tasa constante. As, se puede construir una tabla de valores Z. Tambin se
puede utilizar una estrategia de bootstraping para remuestrear la secuencia
original y construir una tabla de Z no paramtrica.
Existe otra variante al mtodo, propuesta por Tajima (1993), la cual se basa en
una prueba de chi-cuadrada con un grado de libertad, en donde las distancias se
calculan a partir de los nucletidos compartidos por sitio, entre el grupo externo y
los grupos internos. Sin embargo, la aproximacin de Wu y Li, as como la de
Tajima arrojan resultados muy similares. No obstante, un problema con este tipo
de pruebas, es que son locales, pues slo abarcan una regin en la filogenia
cubierta por el rbol. Estos mtodos no prueban tasas de constancia de una rama
temprana a otra lejana en el tiempo, ya que nada ms prueban diferencias de
13
tasas entre linajes descendientes de un punto comn en el tiempo, por lo que se
debe tener precaucin en hacer afirmaciones acerca del incremento o decremento
de tasas, basados en una prueba de tasas relativas.
Adems, los grupos de datos usados en estas pruebas, son usualmente
filogenticamente no independientes porque muchas de las pruebas utilizan los
mismos taxa, y la dependencia que surge por esto afecta el tamao de la regin
crtica de maneras impredecibles (Sanderson, 1998).
b) Prueba utilizando longitud de ramas
Existen pruebas que son capaces de combinar la prueba de tasas relativas para
tratar de saber si hay constancia de tasas en todo un rbol filogentico, los cuales
se basan en mtodos linealizados. La primera de estas prueba, se conocen como
la prueba de los dos grupos (two cluster test) que examina la hiptesis del reloj
molecular para dos linajes surgidos de un nodo interior del rbol. Esta prueba
consiste en tomar un grupo externo y formar diferencias de distancias para cada
terminal de los nodos internos para construir un estadstico similar al de la prueba
de tasas relativas, que es
i
,
entonces sea V la matriz varianza/covarianza, tal que
V
ij
=cov(
i
,
j
) , entonces el estadstico queda como: U=
t
V
-1
, con una
distribucin chi cuadrada con n-1 grados de libertad y en donde n representa el
nmero de nodos muestreados. As, que las propiedades de U son que es
dependiente de las diferencias de tasas relativas individuales de cada uno de los
nodos, pero ponderada para la covarianza entre las longitudes de ramas, las cuales
tienen una historia filogentica compartida (Takezaki et al.,1995).
14
La segunda prueba, es la de longitud de ramas, que prueba la desviacin que
tienen de la longitud promedio de las ramas, aquellas ramas correspondientes a la
raz del rbol y las terminales. Entonces, se obtiene un vector de distancias entre
la raz y cada terminal a, el cual se compara con la distancia promedio ,
entonces se construye un nuevo estadstico: U=(a- )
T
V
-1
(a- ), cuya desviacin
de cero es la que se examina, esperando que tenga una distribucin chi cuadrada,
con n-1 grados de libertad (Takezaki et al.,1995).
Posteriormente, aquellas secuencias que presentan una mayor o menor tasa de
cambios con respecto al promedio, son eliminadas. Entonces se puede construir un
rbol linealizado con las secuencias restantes bajo el supuesto de una constancia
de tasas (Takezaki et al.,1995).
Por ultimo, mencionaremos un mtodo ms antiguo, el de Langley y Fitch
(1974) el cual emplea un enfoque de mxima verosimilitud utilizando las
longitudes de las ramas. En este mtodo se obtiene un rbol por ejemplo con
parsimonia, en el cual se conocen las longitudes de las ramas, posteriormente la
verosimilitud de estos datos es calculada, asumiendo un reloj molecular con un
modelo de sustitucin de Poisson. Luego estos datos se maximizan y se calculan
los parmetros desconocidos por medio de la mxima verosimilitud, para obtener
una nueva longitud de ramas, a la cual se le llama longitud de remas esperadas,
las cuales se comparan con las originales por medio de una prueba de chi
cuadrada. Este modelo ha sido cuestionado, pues hay evidencias que muestran
que generalmente las longitudes de ramas son subestimadas con parsimonia
(Sanderson, 1998).
15
c) Prueba global en el rbol filogentico basada en caracteres
Esta prueba propuesta por Felsenstein (1988) se basa en una proporcin de
Mxima verosimilitud, en el cual un modelo de constancia de tasas es probado
contra un modelo que calcula la probabilidad de observar un cambio en una base
nucleotdica de una secuencia, despus de un periodo de tiempo determinado:
P=exp(c
k
RT
K
) , en donde R es la matriz de las tasas instantneas de cambio
entre los distintos nucleotidos, c
k
es una constante creada para permitir que las
tasas de cambio varen en cada rama k , y T es el perodo de tiempo en que se
dan los cambios. Entonces la verosimilitud de un rbol se calcula asumiendo un
reloj molecular, luego es calculado sin asumir la constancia de tasas.
Posteriormente los resultados de ambos procesos se comparan con pruebas de chi
cuadrada. Los grados de libertad de esta prueba se calculan tomando en cuanta
las diferencias de los parmetros libres de variar en las dos procesos de la prueba,
lo cual queda de la siguiente manera: g.l= m-(k+1), en donde k es el nmero de
ramas en el rbol (sin considerar a la raz) del modelo que asume constancia de
tasas y m es el nmero de ramas del modelo que no asume el reloj molecular.
5. Evaluacin de tiempos de divergencia
Los mtodos existentes para la evaluacin de los tiempos de divergencia se
pueden agrupar en mtodos de reloj global, si es que no hay diferencia
significativa entre las tasas de sustitucin entre los taxa analizados y mtodos de
reloj molecular local, si es que las tasas de sustitucin no son constantes.
Hay otros autores que adems consideran dividir estos dos grupos bsicos,
si es que se analizan ms de un gene. Es as que para estos autores existen cuatro
16
aproximaciones. Los mtodos de reloj molecular global que se pueden dividir en:
mtodos de multigene global y de multigene local. Y los mtodos de reloj
molecular local que se pueden dividir en: mtodos de supergene global y
supergene local. Estas clasificaciones, difieren en que si los genes analizados son
considerados por separado (multigene) o combinados (supergene). En los mtodos
multigene los tiempos de divergencia son estimados para cada gene por
separado, y el promedio de estos tiempos es estimado para calcular un tiempo de
divergencia y su error asociado. La aproximacin del supergene, implica unir
secuencias nucleotdicas o proteicas de genes relevantes (o segmentos de genes)
de las especies en estudio, para formar un solo alineamiento para la estimacin de
los tiempos de divergencia, y la tasa de variacin entre genes y entre sitios puede
ser modelada (Hedges y Kumar, 2003).
Los mtodos que se revisarn son los bsicos, ya que depende de cada autor,
la utilizacin de ms de un gen y si los estudiara por separado o combinados.
Adems, para cada aproximacin existen pasos bsicos comunes como la
calibracin. Aunque se harn algunas indicaciones de trabajos con mltiples genes.
a) Calibracin
La comparacin entre protenas o secuencias de ADN, producen estimados del
aumento de la evolucin molecular, pero en la comparacin de las secuencias
moleculares, las tasas evolutivas se confunden con la estimacin de los tiempos de
divergencia de los taxa en estudio (Thorne y Kishino, 2002). Por tanto, las tasas
evolutivas encontradas tienen que ser acotadas temporalmente, procedimiento que
se conoce como calibracin del reloj molecular. Esta calibracin puede ser por
17
medio de tiempos inferidos del registro fsil o de eventos biogeogrficos, tales
como eventos vicariantes bien documentados.
La calibracin de un reloj molecular, sigue la lgica siguiente. Supongamos
que queremos saber cul es el tiempo en el que AB se separo de C, (lo
llamaremos to, o tiempo objetivo, (Fig. 3). Luego asumimos, que el promedio de
sustituciones nucleotdicas o bien de reemplazo aminoacdico por sitio entre A y B
es K
AB
=1, y que C difiere de A o B por K
AC
=K
BC
=10. As que, si suponemos por
el registro fsil que A y B se separaron de un ancestro comn 100 m.a. atrs (que
llamaremos tc, o tiempo de calibracin). Entonces, la tasa absoluta de evolucin
molecular entre A y B es igual a r
AB
=K
AB
/2tc=5 10
-9
reemplazos por sitio y
por ao. Si asumimos que r
AB
(que ahora llamaremos r
R
, o tasa de referencia) es
igual a la tasa entre C y AB. La edad desconocida, se puede calcular como:
to=[(K
AC
+ K
BC
)/4]/r
R
= 1000 m.a. al pasado (Rodrguez-Trelles et al., 2002).
Fig.3. rbol filogentico de los linajes A, B y C. En donde, tc indica tiempo de calibracin y to el
tiempo objetivo.
18
El problema de asignar edades a un nodo por medio de evidencia fsil es
que esta evidencia solamente puede circunscribir esos datos dentro de ciertos
lmites. Esta evidencia fsil, solamente puede proveer una edad mnima para un
nodo cercano, pero no una edad mxima. Esto ltimo slo es posible en aquellos
casos muy raros, en que el registro fsil es completo.
Un fsil puede ser utilizado para calibracin si es que se conoce lo suficiente
de sus relaciones filogenticas. En este sentido debemos distinguir los conceptos
de grupo troncal y grupo corona (Fig.4).
El grupo corona, son los taxa descendientes de un evento de cladogeness
mayor vivientes y extintos, reconocidos por poseer las sinapomorfas del clado. El
grupo troncal, son todos aquellos taxa en un clado que precede a un evento de
cladogensis mayor, y es el grupo ms extensivo que incluye tambin a
organismos vivientes y extintos. Estos taxa a veces son difciles de reconocer, pues
no presentan las sinapomorfias encontradas en el grupo corona. Debido a lo
anterior, cuando se cuenta con un fsil se tiene que saber si es parte del grupo
troncal o del grupo corona de nuestro inters, lo cual es importante para saber que
nodo se tiene que calibrar.
19
Fig. 4 Grupo corona (A), Grupo troncal (B). Tomado de
www.flmnh.ufl.edu/deeptime/datingdivergences.html pagina web de Deep Time Project:A
Comprehensive Phylogenetic Tree of living and Fossil Angiosperms, responsable Dr.Doug Soltis,
ultima modificacin, mayo de 2002.
Un grupo extinto tiene dos edades, primero la edad a la cual su grupo
troncal ramifica del linaje que conduce a su grupo hermano extinto, y la edad del
grupo corona, la cual es la edad del ancestro comn ms reciente de los miembros
vivientes. Lo anterior, puede tener un impacto muy grande en las consideraciones
de la edad de divergencia, sin embargo las estimaciones de edad son muy
frecuentemente dadas sin considerar este hecho (Sanderson y Doyle, 2001).
Algunos autores, basados en lo antes dicho, plantean precaucin al analizar
los datos de la calibracin, pues sealan que los fsiles siempre subestimarn los
tiempos de divergencia estimados (Hedges y Kumar, 2003).
Por otro lado, en el mundo real no es posible satisfacer todas las
condiciones de un reloj molecular ideal, y muchos investigadores han optado por
no usar linajes independientes de un rbol filogentico, para calibrar el reloj, sino
todos los pares de divergencia entre taxa dentro de un grupo dado. Pero como
20
estos valores no son independientes uno del otro, porque muchos estn basados
en partes compartidas del rbol filogentico, en este caso se puede sobre estimar
la percepcin de la relacin entre divergencia y tiempo (Lynch y J arrell, 1993).
Otro aspecto que tambin puede sobre estimar los tiempos de divergencia, es que
conforme la longitud de la secuencia analizada decrece y la tasa de evolucin de
esta tambin decrece, la sobre estimacin de los tiempos de divergencia se
incrementa (Rodrguez-Trelles et al., 2002).
b) Mtodos de evaluacin de divergencias bajo tasas de sustitucin
constantes (mtodos de reloj molecular global)
El mtodo, que se describir, es bsicamente una variacin al mtodo general
descrito en la seccin anterior (Li y Graur, 1991;Li y Bousquet, 1992), en el cual se
asume una misma tasa de sustitucin en dos linajes que descienden de un mismo
ancestro comn.
Supongamos que hay dos especies que comparten un ancestro comn de edad
t, con una tasa de sustitucin por sitio y por unidad de tiempo K, con un nmero
promedio de sustituciones por sitio D, y ya que estas sustituciones se acumulan a
lo largo de los dos linajes, tenemos que D= 2Kt, por lo que el estimador de las
tasas de sustitucin es =D/2t . Como se asume que K es una constante,
entonces D y t estn relacionados de manera lineal. Ahora, si se tiene un punto
de calibracin para poder estimar K, se puede utilizar algn otro valor de D para
inferir la edad de algn otro punto en el tiempo. Asimismo, si se obtienen distintos
puntos de calibracin es posible hacer una regresin de D en t para lograr una
estimacin de K, que pueda ser usada par predecir otros tiempos de divergencia.
21
Un variante a este mtodo (tambin asumiendo constancia de tasas) consiste
en sumar las longitudes de las ramas, no importando por que mtodo se hayan
calculado, para usar este resultado como el estimador de distancia.
c) Mtodos de evaluacin de divergencias bajo heterogeneidad de
tasas de sustitucin (mtodos de reloj molecular local)
Algunos de los mtodos que han sido utilizados para determinar si existe o no
constancia en las tasas evolutivas van ligados desde su creacin a un mtodo
para evaluar los tiempos de divergencia, por lo que podemos hablar de un slo
mtodo con dos partes. Este es el caso del mtodo de los dos grupos (two cluster
test) o tambin conocido como mtodo del rbol linealizado del cual ya se ha
hablado anteriormente, y cuyo propsito es encontrar si hay linajes que
evolucionen ms rpido o ms lento que la tasa promedio, los cuales son
eliminados para producir un rbol linealizado que slo incluye aquellos taxa que
tienen tasa de evolucin molecular estadsticamente similares.
Entonces los tiempos de divergencia, de estos taxa pueden ser estimados
usando mtodos ultramtricos de construccin de rboles, tales como UPGMA
(Takezaki et al.,1995;Arbogast, et al.,2002).
Existe otro mtodo que tambin elimina a aquellos linajes que no se
comportan conforme a un reloj molecular, este el llamado mtodo del cuarteto
propuesto por Cooper y Penny (1997). En este mtodo primero se identifican
aquellos pares de taxa que cuentan con un buen registro fsil para poder hacer
calibraciones de las tasas absolutas de evolucin molecular entre ellos. Luego los
pares escogidos son acomodados en cuartetos consistentes de dos pares de taxa,
22
cada uno de los cuales cuenta con una edad de divergencia inferida de un fsil. A
continuacin, se obtiene una tasa de divergencia promedio entre estos pares, la
cual se utiliza para determinar la edad de divergencia del ancestro comn de ellos.
Asimismo, la varianza de esta fecha se puede obtener de combinar la informacin
de distintos cuartetos que deriven de un mismo nodo ancestral (Steel, et al.,1996;
Arbogast, et al.,2002).
Los anteriores mtodos, no toman en cuenta a aquellos linajes que no se
comportan como un reloj molecular. Por lo anterior, y para lidiar con la violacin
del reloj molecular, han surgido modelos de reloj locales, que implementan
mxima verosimilitud, para permitir distintas tasas evolutivas para algunos linajes,
mientras que para otros asumen una constancia de tasas (Yoder y Yang, 2000).
Sin embargo, estos modelos fuerzan a los brazos dentro de una porcin particular
de la filogenia a evolucionar a la misma tasa (Kishino, et al., 2001).
Es as que Sanderson (1997,2002), propone dos mtodos no paramtricos
que estrictamente no asumen tasas locales o una tasa global de evolucin
molecular, y que consideran que las tasas evolucionan a travs del tiempo. Estos
mtodos ponen restricciones a la manera en que la evolucin molecular puede
variar entre linajes.
El primero de esos mtodos es el de tasa de suavizacin no paramtrica
(NPRS, por sus siglas en ingles), en donde la restriccin es una autocorrelacin
temporal de las tasa de evolucin molecular entre los linajes relacionados a travs
del rbol. El NPRS, estima una tasa local de evolucin para cada nodo en el rbol
(k), y entonces minimiza la diferencia de estas tasas a travs del rbol. Por
23
ejemplo, supngase que la tasa de la rama a (Fig. 5) es: a= = La/Ta, en donde
La es la longitud de la rama y Ta es el tiempo de duracin de esa rama. Entonces,
la medida de la tasa de suavizacin del nodo k es: R
k
=(
a
-
b1
)
2
+ (
a
-
b2
)
2
y si
se ajusta el tiempo para minimizar las diferencias para todos los nodos internos del
rbol, tenemos que:
K=1
K=n-1
=R
k.
La minimizacin de la funcin R
k
, sobre estos
tiempos desconocidos, provee una estimacin de los tiempos de divergencia
(Sanderson, 1997). Luego, por medio de mnimos cuadrados, se determina un
nivel ptimo de suavizacin, en donde las tasas de cambio drsticas a lo largo del
rbol, son penalizadas. Este mtodo, al usar solamente las longitudes de las
ramas, es un mtodo relativamente rpido y fcil de aplicar.
Fig.5. rbol en donde se muestran las ramas y los nodos para ilustrar el mtodo de NPRS. (Ver
texto para detalles).
El otro mtodo propuesto por Sanderson, es el de verosimilitud
penalizada, que como el mtodo anterior, trata de determinar un nivel optimo de
autocorrelacin o suavizacin, para un determinado grupo de datos en un rbol
(Sanderson, 2002). Este mtodo utiliza los datos crudos para obtener una
24
verosimilitud de los datos con un determinado modelo de evolucin molecular,
pero acoplando la verosimilitud de la funcin R
k
, pesando por un parmetro
suavizado ().
La verosimilitud penalizada, busca el nivel optimo del parmetro de
autocorrelacin, usando la rugosidad, parmetro suavizado (), el cual
incrementa como variacin de las tasas a medida que el rbol incrementa. En otras
palabras, el modelo admite que cada rama tenga su propia tasa de sustitucin,
solamente que con la penalizacin se evita una disparidad demasiado grande entre
estas tasas.
A diferencia del NPRS, la verosimilitud penalizada si utiliza datos crudos y
quiz es ms precisa, pero es de ms difcil implementacin y manejo. En general
estos mtodos, una vez suavizados los datos proceden a determinar las edades de
divergencia de manera muy parecida a la que ya se ha expuesto.
Tambin hay otros mtodos, que determinan las tasas ptimas a travs de
rboles con linajes que presentan tasas de evolucin distintas. Estos son los
mtodos de lognormal (Thorne et al.,1998) y de la distribucin de Poisson
compuesta (Huelsenbeck et al.,2000). Estos mtodos asignan determinadas tasas
a distintas partes de un rbol de acuerdo con una predeterminada distribucin y
son capaces de probar la variacin bajo una variedad de parmetros como la
composicin de bases, la proporcin de ts/tv etc., adems de la tasa de evolucin
molecular. Con mxima verosimilitud es posible estimar la magnitud de las tasas
ms lentas o ms rpidas de evolucin molecular y calcular otros parmetros
adems de auxiliar en determinar los tiempos de divergencia.
25
Actualmente, se han desarrollado otros mtodos basados en la
reconstruccin filogentica Bayesiana, para probar la existencia del reloj molecular
y estimar los tiempos de divergencia (Suchard et al., 2001). En esta aproximacin,
la inferencia filogentica se basa en las probabilidades posteriores de los rboles
filogenticos (Huelsenbeck et al., 2001).
El mtodo Bayesiano se basa en el teorema de Bayes, que en el caso de
datos moleculares puede representarse como:
p( x,M)= f(X,M)q( M)
m(XM)
Esto representa la probabilidad del parmetro de espacio (que en trminos
del teorema de Bayes, tambin representa una hiptesis), dado un determinado
modelo estadstico M con datos X. Por lo que la posterior distribucin de es
proporcional a la densidad de muestreo de los datos dado , que se refiere como
la verosimilitud del modelo f(X,M) multiplicado por la probabilidad o
distribucin posterior de , representado por q( M). Donde la constante
reciproca proporcional m(XM)=