Reloj Molecular (Underdog) PDF

INTRODUCCIN AL CONCEPTO Y METODOLOGAS DEL RELOJ
MOLECULAR

Norberto Martnez Mndez

Departamento de Zoologa, Instituto de Biologa, Universidad Autnoma de Mxico, Mxico, D. F. Mxico

1. El Reloj Molecular
a) Concepto de reloj molecular y la teora Neutral
El concepto de reloj molecular fue expuesto por primera vez en los trabajos
de Zuckerland y Pauling (1962, 1965), quienes al comparar la secuencia de una
misma protena proveniente de distintas especies, sugirieron que las protenas y
los genes que las codifican pueden evolucionar a tasas constantes, lo que puede
ser usado para medir la divergencia molecular y con estos datos calibrar un reloj
molecular. Lo anterior significa que para cada protena la cantidad de sustituciones
de aminocidos es constante a travs del tiempo.
Los datos de Zuckerland y Pauling, as como el descubrimiento de que muy
probablemente la gran mayora de los organismos en sus secuencias de ADN, sean
heterocigotos para todos sus loci, fueron algunos de los hechos que llevaron a
Motoo Kimura a crear la teora Neutralista de la evolucin Molecular (Kimura,
1968).
En la teora neutral, se expone que la mayora de las mutaciones son
selectivamente neutras y que es la deriva gnica la que determina la probabilidad
de que estas mutaciones se fijen o se pierdan. Asimismo, Kimura concluy que la
tasa de evolucin en trminos de sustituciones mutantes (k) es igual a la tasa de
3
mutacin por gameto y por unidad de tiempo (v), lo cual quiere decir que la tasa
evolutiva en trminos de sustituciones mutantes en una poblacin es equivalente a
la tasa de mutacin por gameto, sin importar cual es el tamao poblacional. Esta
igualdad slo es vlida en alelos neutros, pues si el mutante tiene una ventaja
selectiva (s), entonces la probabilidad de que este mutante logre fijarse en la
poblacin (u) es aproximadamente igual a 2s y la ecuacin de la tasa evolutiva
debe cambiar; entonces si (N) es el tamao efectivo de la poblacin y puesto que
2Nv es el total de mutantes nuevos en cada generacin dado que cada individuo
tiene dos juegos de cromosomas, la ecuacin se convierte en K=
(2s)(2Nv)=4Nsv. Es decir, en genes con ventaja selectiva, la tasa evolutiva si
depende del tamao de la poblacin.
Segn la teora neutralista, los valores ms o menos constantes de las tasas
evolutivas observadas en diferentes organismos se explican mejor por la relacin
k=v que por la explicacin seleccionista K=4Nsv. La propuesta original de Kimura
de que la mayora de los cambios en las secuencias aminoacdicas de la protenas
se corresponden con mutaciones neutras, se hizo posteriormente extensivo al DNA
que las codificaba.
Lo anterior, no quiere decir que la mayora de las mutaciones sean neutras,
pero aquellas mutaciones deletreas surgidas son rpidamente eliminadas por la
seleccin purificadora. Asimismo, segn esta teora las mutaciones ventajosas son
una proporcin casi despreciable de los cambios moleculares, lo cual explica la
constancia observada en las tasas de sustitucin, esto debido a que las protenas
4
tienen una limitacin funcional para variar, por lo que tienen baja tolerancia a los
cambios aminoacdicos que pueden alterar su funcin.
Adems, la teora neutralista nos dice que las variaciones que se agregan al
acervo gentico lo hacen de una manera aleatoria, por lo que el proceso tiene un
ritmo ms o menos constante, lo cual justifica la propuesta de un reloj molecular,
en donde una determinada molcula proteica o de ADN, puede ser utilizada para
estimar el tiempo de divergencia entre especies.
Actualmente an existe un gran debate entre los neutralistas y los
seleccionistas (los cuales piensan que las sustituciones se fijan porque confieren
una ventaja selectiva y que las mutaciones neutras son raras). Los datos
disponibles de secuencias proteicas en los aos sesenta produjeron el surgimiento
de la teora neutral, pero en los setentas al estudiarse ms secuencias y reunirse
ms evidencia comparativa, se acumularon evidencias de variacin de tasas
evolutivas entre distintas especies y la constancia del reloj molecular fue puesta en
juicio.
Los defensores de la teora neutral han dado algunas explicaciones de la
variacin en el reloj molecular y una de las maneras de incorporar la variacin de
las tasas de sustitucin dentro de la estructura neutralista fue incorporando
aquellas mutaciones con pequeos coeficientes de seleccin, as surgi la teora
casi neutral de Tomoko Ohta (1992). Lo que es claro es que an faltan ms
anlisis de secuencias en muchas especies y mejores mtodos estadsticos para
aproximarse al problema (Page y Holmes, 2000).

5
b) El reloj molecular ideal
El reloj molecular universal ha sido propuesto para muchos genes y regiones
genmicas y en un amplio espectro de especies, es as que
estudios entre varios linajes de vertebrados indican una tasa de mutacin de
aproximadamente 2% en la divergencia de secuencias por milln de aos ( Brown
et al., 1979). Pero aunque hoy existen datos que cuestionan estas afirmaciones,
debemos preguntarnos si es posible la existencia de un reloj molecular ideal.
En un reloj molecular ideal, se espera que el cambio molecular sea una
funcin lineal del tiempo con sustituciones acumuladas siguiendo una distribucin
de Poisson, pues la nica variacin esperada es de origen estocstico (Wilson et
al.,1987). Para esta situacin se ha propuesto una distribucin de Poisson, pues
este modelo considera un nmero X de eventos (x= 0,1,2,...) en este caso
hablamos de sustituciones, cuando la probabilidad de ocurrencia de estos eventos
es pequea, pero el nmero de oportunidades para la ocurrencia de estos es
grande, dado el tamao del genoma. Asimismo, se espera que un reloj molecular
ideal tenga una tasa de cambio equivalente a travs de todas las posiciones y de
todos los linajes, que el rbol filogentico pueda ser reconstruido sin error y que
cada rama pueda ser analizada independientemente, que el nmero de
sustituciones a travs de cada linaje en el rbol pueda ser reconstruida sin error,
que los datos de calibracin para todos los tiempos de divergencia usados para
calcular la tasa del reloj molecular sean conocidos sin error y que la regresin del
tiempo del nmero de substituciones pueda ser conducida sin error (Hillis, et al.
1996).
6
An bajo los supuestos no realistas de un reloj molecular ideal, no se puede
asignar con exactitud una edad determinada a un linaje, pues simplemente se est
manejando un modelo estadstico el cual arroja los resultados con lmites de
confianza asociados. Por lo que en algunas ocasiones no podramos decir si el
nmero de sustituciones observadas entre dos linajes relacionados puedan tener la
misma antigedad, debido precisamente a los lmites de confianza del reloj
molecular. Es as que una de las fuentes importantes de error a la hora de emplear
un reloj molecular es la misma variacin estocstica debida al modelo de
sustitucin empleado.
2. Consideraciones en el uso del reloj molecular
Actualmente, muchos estudios han mostrado una considerable tasa de
heterogeneidad del ADN mit dentro y entre varios grupos de animales, y
recientemente hay trabajos que han sugerido la posibilidad de estimar edades sin
asumir un reloj molecular global (Sanderson, 1998;Yoder y Yang, 2000). Adems,
han surgido nuevos modelos de sustitucin nucleotdica, por lo que antes de
evaluar los tiempos de divergencia entre linajes es necesario evaluar los distintos
modelos de sustitucin nucleotdica existentes. Asimismo, actualmente existen
mtodos para reconstruir tiempos y tasas de divergencia, los cuales requieren
considerar si hay o no constancia en las tasas de sustitucin nucleotdica, por lo
cual, hay una serie de pruebas que se deben realizar antes de hacer inferencias
acerca de los tiempos de divergencia (Sanderson, 1998).
Por otra parte, la estimacin de los tiempos de divergencia cuando se
estudia un gene, es complicada, pero la cuestin de cmo extraer apropiadamente
7
informacin evolutiva de la combinacin de mltiples genes, es an ms difcil, y
s debe tener en mente que las tasas evolutivas cambian a travs del tiempo y
entre genes. En este sentido, existen pocos mtodos que trabajen con grupos de
datos provenientes de varios genes (Thorne y Kishino, 2002).
Otro aspecto que debemos considerar y que ya se ha tocado brevemente,
es el concerniente al error asociado a los mtodos y algoritmos utilizados. Es as,
que podemos distinguir dos tipos de errores, el error estocstico que es el que est
asociado a un nmero de muestra muy pequeo, y el error sistemtico que es
aquel que surge por utilizar un modelo o mtodo que describe inadecuadamente el
proceso evolutivo subyacente. Por ejemplo, el criterio de optimizacin puede ser
una causa importante de error cuando se usa Parsimonia y Mxima verosimilitud,
pero adems para los mtodos que utilizan Mxima verosimilitud, el modelo de
sustitucin elegido puede ser una causa de error sistemtico importante.
3. Seleccin de modelos evolutivos
Uno de los mayores problemas a los que se enfrentan quienes reconstruyen
filogenias moleculares, y que afecta directamente el trabajo con el reloj molecular,
es la saturacin en las secuencias (sustituciones mltiples en un solo sitio),
problema que se ha tratado de solucionar buscando modelos ms adecuados de
evolucin nucleotdica. Estos modelos bsicamente difieren entre ellos por el
nmero y tipos de parmetros que son libres de variar. Los parmetros de los
modelos deben incluir el nmero de tipos de sustituciones, las frecuencias de las
cuatro bases nucleotdicas y la variacin en la tasa de sustitucin entre sitios
nucleotdicos (Arbogast, et al.,2002).
8
Actualmente, existen cinco modelos bsicos de sustitucin nucleotdica: El
modelo de J ukes-Cantor (JC, por sus siglas en ingls), que considera frecuencias
de bases iguales con sustituciones equitativas; El modelo del parmetro 2 de
Kimura (K2P), que considera frecuencia de bases iguales con transversiones y
transiciones con diferentes tasas de sustitucin; El modelo de Felsenstein (F81)
con frecuencias de bases no equitativas y con todas los tipos de sustituciones
cambiando a la misma tasa; El modelo de Hasegawa (HKY85), permitiendo
frecuencias distintas de bases y transversiones y transiciones con diferentes tasas
de sustitucin, y por ltimo tenemos al modelo ms general el de Tiempo General
Reversible (GTR), considerando frecuencias de bases no equitativas y que los seis
pares de sustituciones pueden cambiar a diferentes tasas (Page y Holmes, 2000).
Para cualquier serie de datos moleculares, se puede encontrar el modelo
que mejor se ajuste a nustros datos, para lo cual se ha desarrollado la prueba de
Razn de verosimilitud (likelihood ratio test, LRT), para decidir entre los modelos
de sustitucin molecular. Esta prueba viene implementada en el programa
Modeltest (Posada y Crandall, 1998) y que trabaja en conjunto con el paquete
PAUP (Swoffor, 1998).
No obstante, es obvio que los modelos de evolucin molecular ms simples
no comprenden la complejidad en la evolucin de secuencias, pero al mismo
tiempo es evidente que los modelos ms complejos introducen supuestos y
aproximaciones que hacen que sus resultados sean inciertos cuando se aplican por
ejemplo al estudio de ciertas familias de protenas (Brocchieri, 2001), ver figura 1.
9
Estos modelos, tampoco incluyen algn parmetro correspondiente a la
variacin en la tasa de sustitucin entre distintos sitios nucleotdicos conocida
como tasa de variacin entre sitios.

Fig.1. Curvas tericas que estiman la relacin entre la distancia evolutiva y la similitud de
secuencias, generadas por la aproximacin de Poisson (Zuckerland y Pauling, 1965), asumiendo
que las tasas mutacionales son variables entre sitio y siguen una distribucin gamma (Ota y Nei,
1994), aplicando la correccin de Kimura a la aproximacin de Poisson (datos de Dayhoff et al.
1972, 1978) y las formulas derivadas de Grishin (1995) con tasas mutacionales dependientes de
amino cidos, de sitios y ambas. Modificado de Brocchieri, (2000).

La tasa de variacin entre sitios ha sido tomada en cuenta y considerada de
mucho inters en la estimacin de longitud de ramas, tasas evolutivas y tiempos
de divergencia (Arbogast y Slowinsky, 1998). Este parmetro ha sido incorporado
a los modelos de sustitucin nucleotdica ya existentes, por medio de la
distribucin gamma.
La distribucin gamma, es un parmetro de forma () que es inversamente
proporcional al aumento de la heterogeneidad de la tasa de variacin entre sitios,
presente en los datos, por ejemplo cuando no hay variacin de tasas entre sitios,
10
se hace infinita, y si < 1 la tasa de variacin entre sitios es importante, esto
ltimo quiere decir que en una secuencia dada, una pequea cantidad de sitios
experimental la mayor cantidad de las sustituciones (Arbogast, et al.,2002). Lo
anterior es muy importante, pues si no se tiene en cuenta el parmetro de forma
(), puede haber una gran subestimacin de la longitud de las ramas y de la tasa
de sustitucin nucleotdica (Buckley et al.2001).
Generalmente, al usar secuencias de ADN mit. en trabajos a nivel
subespecfico, es comn la utilizacin de otro modelo, el de sitios infinitos. Este
modelo, provee una buena aproximacin en el caso de tiempos de divergencia
muy recientes o en secuencias de ADN con baja tasa de mutacin, pues asume
que cada mutacin ocurre en un sitio diferente en la secuencia ya que la tasa de
mutacin por sitio nucleotdico, es tan pequea que la posibilidad de mutaciones
mltiples en sitios individuales puede ser ignorada (Kimura, 1969).
4. Pruebas para evaluar la constancia de las tasas de sustitucin
Uno de los primeros pasos para estimar la edad de divergencia, es evaluar si
existe una variacin o no de las tasas de sustitucin entre los linajes en estudio,
para lo cual se han implementado una serie de pruebas. Pero antes de hablar
sobre las pruebas existentes par evaluar la constancia de tasas de sustitucin entre
linajes, se debe sealar que la probabilidad de refutar la hiptesis nula (constancia
de tasas), es baja para genes de evolucin lenta y genes pequeos, as como para
protenas, por lo que alguna variacin en las tasas de sustitucin pudiera ser
indetectable (error tipo II), resultando en una inadecuada estimacin de los
tiempos de divergencia (Hedges y Kumar, 2003).
11
a) Pruebas de tasas relativas
Este mtodo prueba la constancia de tasas de sustitucin (hiptesis nula)
comparando el aumento total del cambio de las secuencias (nmero de
sustituciones) en dos o ms linajes, que comparten un ancestro comn. Se le
llama prueba de tasas relativas pues no es necesario ningn conocimiento previo
de los tiempos de divergencia (Hedges y Kumar, 2003).
Esta prueba se basa en el supuesto de que la distancia relativa entre el grupo
externo y cada terminal debe ser la misma bajo una constancia de tasas de
sustitucin. Es as que como se observa en el cladograma de la figura 2 , los
cambios acumulados desde el ancestro comn de A y B se espera que sean los
mismos, considerando un pequeo error debido al muestreo. Los mismo se espera
del grupo externo hacia A y hacia B. La prueba de tasas relativas tiene un
estadstico, , que es la diferencia en algn tipo de medida o cuantificacin, de la
distancia entre el grupo externo y cado uno del los grupos internos (D), la cual se
espera sea cero cuando hay constancia de tasas (Sanderson, 1998).

Figura 2. Cladograma que muestra las comparaciones que se hacen en la prueba de tasas
relativas. Modificado de Sanderson (1998).
12
El mtodo ms utilizado para cuantificar la distancia D, es el de Wu y Li (1985),
el cual utiliza el modelo evolutivo del parmetro 2 de Kimura para estimar las
distancias pareadas entre los taxones utilizados. Esta prueba utiliza el supuesto de
la constancia de tasas para calcular la varianza de . Entonces, dado que se
puede considerar equivalente a un valor de desviacin desde la media, de una
serie de datos en este caso de distancias ( es equivalente a x-, donde es la
media de los datos) se puede conocer la desviacin estndar de las distancias que
es var(), por lo que es posible conocer la forma de la distribucin de la media
muestral, como un estadstico Z. Es as, que una prueba de Z a dos colas se puede
realizar, esperando que los valores estn normalmente distribuidos con una media
de cero y una varianza de 1. Por lo que, un valor extremo que caiga en las
regiones crticas de la curva normal ser rechazado y se considera que no presenta
una tasa constante. As, se puede construir una tabla de valores Z. Tambin se
puede utilizar una estrategia de bootstraping para remuestrear la secuencia
original y construir una tabla de Z no paramtrica.
Existe otra variante al mtodo, propuesta por Tajima (1993), la cual se basa en
una prueba de chi-cuadrada con un grado de libertad, en donde las distancias se
calculan a partir de los nucletidos compartidos por sitio, entre el grupo externo y
los grupos internos. Sin embargo, la aproximacin de Wu y Li, as como la de
Tajima arrojan resultados muy similares. No obstante, un problema con este tipo
de pruebas, es que son locales, pues slo abarcan una regin en la filogenia
cubierta por el rbol. Estos mtodos no prueban tasas de constancia de una rama
temprana a otra lejana en el tiempo, ya que nada ms prueban diferencias de
13
tasas entre linajes descendientes de un punto comn en el tiempo, por lo que se
debe tener precaucin en hacer afirmaciones acerca del incremento o decremento
de tasas, basados en una prueba de tasas relativas.
Adems, los grupos de datos usados en estas pruebas, son usualmente
filogenticamente no independientes porque muchas de las pruebas utilizan los
mismos taxa, y la dependencia que surge por esto afecta el tamao de la regin
crtica de maneras impredecibles (Sanderson, 1998).
b) Prueba utilizando longitud de ramas
Existen pruebas que son capaces de combinar la prueba de tasas relativas para
tratar de saber si hay constancia de tasas en todo un rbol filogentico, los cuales
se basan en mtodos linealizados. La primera de estas prueba, se conocen como
la prueba de los dos grupos (two cluster test) que examina la hiptesis del reloj
molecular para dos linajes surgidos de un nodo interior del rbol. Esta prueba
consiste en tomar un grupo externo y formar diferencias de distancias para cada
terminal de los nodos internos para construir un estadstico similar al de la prueba
de tasas relativas, que es
i
,

entonces sea V la matriz varianza/covarianza, tal que
V
ij
=cov(
i
,
j
) , entonces el estadstico queda como: U=
t
V
-1
, con una
distribucin chi cuadrada con n-1 grados de libertad y en donde n representa el
nmero de nodos muestreados. As, que las propiedades de U son que es
dependiente de las diferencias de tasas relativas individuales de cada uno de los
nodos, pero ponderada para la covarianza entre las longitudes de ramas, las cuales
tienen una historia filogentica compartida (Takezaki et al.,1995).
14
La segunda prueba, es la de longitud de ramas, que prueba la desviacin que
tienen de la longitud promedio de las ramas, aquellas ramas correspondientes a la
raz del rbol y las terminales. Entonces, se obtiene un vector de distancias entre
la raz y cada terminal a, el cual se compara con la distancia promedio ,
entonces se construye un nuevo estadstico: U=(a- )
T
V
-1
(a- ), cuya desviacin
de cero es la que se examina, esperando que tenga una distribucin chi cuadrada,
con n-1 grados de libertad (Takezaki et al.,1995).
Posteriormente, aquellas secuencias que presentan una mayor o menor tasa de
cambios con respecto al promedio, son eliminadas. Entonces se puede construir un
rbol linealizado con las secuencias restantes bajo el supuesto de una constancia
de tasas (Takezaki et al.,1995).
Por ultimo, mencionaremos un mtodo ms antiguo, el de Langley y Fitch
(1974) el cual emplea un enfoque de mxima verosimilitud utilizando las
longitudes de las ramas. En este mtodo se obtiene un rbol por ejemplo con
parsimonia, en el cual se conocen las longitudes de las ramas, posteriormente la
verosimilitud de estos datos es calculada, asumiendo un reloj molecular con un
modelo de sustitucin de Poisson. Luego estos datos se maximizan y se calculan
los parmetros desconocidos por medio de la mxima verosimilitud, para obtener
una nueva longitud de ramas, a la cual se le llama longitud de remas esperadas,
las cuales se comparan con las originales por medio de una prueba de chi
cuadrada. Este modelo ha sido cuestionado, pues hay evidencias que muestran
que generalmente las longitudes de ramas son subestimadas con parsimonia
(Sanderson, 1998).
15
c) Prueba global en el rbol filogentico basada en caracteres
Esta prueba propuesta por Felsenstein (1988) se basa en una proporcin de
Mxima verosimilitud, en el cual un modelo de constancia de tasas es probado
contra un modelo que calcula la probabilidad de observar un cambio en una base
nucleotdica de una secuencia, despus de un periodo de tiempo determinado:
P=exp(c
k
RT
K
) , en donde R es la matriz de las tasas instantneas de cambio
entre los distintos nucleotidos, c
k
es una constante creada para permitir que las
tasas de cambio varen en cada rama k , y T es el perodo de tiempo en que se
dan los cambios. Entonces la verosimilitud de un rbol se calcula asumiendo un
reloj molecular, luego es calculado sin asumir la constancia de tasas.
Posteriormente los resultados de ambos procesos se comparan con pruebas de chi
cuadrada. Los grados de libertad de esta prueba se calculan tomando en cuanta
las diferencias de los parmetros libres de variar en las dos procesos de la prueba,
lo cual queda de la siguiente manera: g.l= m-(k+1), en donde k es el nmero de
ramas en el rbol (sin considerar a la raz) del modelo que asume constancia de
tasas y m es el nmero de ramas del modelo que no asume el reloj molecular.
5. Evaluacin de tiempos de divergencia
Los mtodos existentes para la evaluacin de los tiempos de divergencia se
pueden agrupar en mtodos de reloj global, si es que no hay diferencia
significativa entre las tasas de sustitucin entre los taxa analizados y mtodos de
reloj molecular local, si es que las tasas de sustitucin no son constantes.
Hay otros autores que adems consideran dividir estos dos grupos bsicos,
si es que se analizan ms de un gene. Es as que para estos autores existen cuatro
16
aproximaciones. Los mtodos de reloj molecular global que se pueden dividir en:
mtodos de multigene global y de multigene local. Y los mtodos de reloj
molecular local que se pueden dividir en: mtodos de supergene global y
supergene local. Estas clasificaciones, difieren en que si los genes analizados son
considerados por separado (multigene) o combinados (supergene). En los mtodos
multigene los tiempos de divergencia son estimados para cada gene por
separado, y el promedio de estos tiempos es estimado para calcular un tiempo de
divergencia y su error asociado. La aproximacin del supergene, implica unir
secuencias nucleotdicas o proteicas de genes relevantes (o segmentos de genes)
de las especies en estudio, para formar un solo alineamiento para la estimacin de
los tiempos de divergencia, y la tasa de variacin entre genes y entre sitios puede
ser modelada (Hedges y Kumar, 2003).
Los mtodos que se revisarn son los bsicos, ya que depende de cada autor,
la utilizacin de ms de un gen y si los estudiara por separado o combinados.
Adems, para cada aproximacin existen pasos bsicos comunes como la
calibracin. Aunque se harn algunas indicaciones de trabajos con mltiples genes.
a) Calibracin
La comparacin entre protenas o secuencias de ADN, producen estimados del
aumento de la evolucin molecular, pero en la comparacin de las secuencias
moleculares, las tasas evolutivas se confunden con la estimacin de los tiempos de
divergencia de los taxa en estudio (Thorne y Kishino, 2002). Por tanto, las tasas
evolutivas encontradas tienen que ser acotadas temporalmente, procedimiento que
se conoce como calibracin del reloj molecular. Esta calibracin puede ser por
17
medio de tiempos inferidos del registro fsil o de eventos biogeogrficos, tales
como eventos vicariantes bien documentados.
La calibracin de un reloj molecular, sigue la lgica siguiente. Supongamos
que queremos saber cul es el tiempo en el que AB se separo de C, (lo
llamaremos to, o tiempo objetivo, (Fig. 3). Luego asumimos, que el promedio de
sustituciones nucleotdicas o bien de reemplazo aminoacdico por sitio entre A y B
es K
AB
=1, y que C difiere de A o B por K
AC
=K
BC
=10. As que, si suponemos por
el registro fsil que A y B se separaron de un ancestro comn 100 m.a. atrs (que
llamaremos tc, o tiempo de calibracin). Entonces, la tasa absoluta de evolucin
molecular entre A y B es igual a r
AB
=K
AB
/2tc=5 10
-9
reemplazos por sitio y
por ao. Si asumimos que r
AB
(que ahora llamaremos r
R
, o tasa de referencia) es
igual a la tasa entre C y AB. La edad desconocida, se puede calcular como:
to=[(K
AC
+ K
BC
)/4]/r
R
= 1000 m.a. al pasado (Rodrguez-Trelles et al., 2002).

Fig.3. rbol filogentico de los linajes A, B y C. En donde, tc indica tiempo de calibracin y to el
tiempo objetivo.

18
El problema de asignar edades a un nodo por medio de evidencia fsil es
que esta evidencia solamente puede circunscribir esos datos dentro de ciertos
lmites. Esta evidencia fsil, solamente puede proveer una edad mnima para un
nodo cercano, pero no una edad mxima. Esto ltimo slo es posible en aquellos
casos muy raros, en que el registro fsil es completo.
Un fsil puede ser utilizado para calibracin si es que se conoce lo suficiente
de sus relaciones filogenticas. En este sentido debemos distinguir los conceptos
de grupo troncal y grupo corona (Fig.4).
El grupo corona, son los taxa descendientes de un evento de cladogeness
mayor vivientes y extintos, reconocidos por poseer las sinapomorfas del clado. El
grupo troncal, son todos aquellos taxa en un clado que precede a un evento de
cladogensis mayor, y es el grupo ms extensivo que incluye tambin a
organismos vivientes y extintos. Estos taxa a veces son difciles de reconocer, pues
no presentan las sinapomorfias encontradas en el grupo corona. Debido a lo
anterior, cuando se cuenta con un fsil se tiene que saber si es parte del grupo
troncal o del grupo corona de nuestro inters, lo cual es importante para saber que
nodo se tiene que calibrar.
19

Fig. 4 Grupo corona (A), Grupo troncal (B). Tomado de
www.flmnh.ufl.edu/deeptime/datingdivergences.html pagina web de Deep Time Project:A
Comprehensive Phylogenetic Tree of living and Fossil Angiosperms, responsable Dr.Doug Soltis,
ultima modificacin, mayo de 2002.

Un grupo extinto tiene dos edades, primero la edad a la cual su grupo
troncal ramifica del linaje que conduce a su grupo hermano extinto, y la edad del
grupo corona, la cual es la edad del ancestro comn ms reciente de los miembros
vivientes. Lo anterior, puede tener un impacto muy grande en las consideraciones
de la edad de divergencia, sin embargo las estimaciones de edad son muy
frecuentemente dadas sin considerar este hecho (Sanderson y Doyle, 2001).
Algunos autores, basados en lo antes dicho, plantean precaucin al analizar
los datos de la calibracin, pues sealan que los fsiles siempre subestimarn los
tiempos de divergencia estimados (Hedges y Kumar, 2003).
Por otro lado, en el mundo real no es posible satisfacer todas las
condiciones de un reloj molecular ideal, y muchos investigadores han optado por
no usar linajes independientes de un rbol filogentico, para calibrar el reloj, sino
todos los pares de divergencia entre taxa dentro de un grupo dado. Pero como
20
estos valores no son independientes uno del otro, porque muchos estn basados
en partes compartidas del rbol filogentico, en este caso se puede sobre estimar
la percepcin de la relacin entre divergencia y tiempo (Lynch y J arrell, 1993).
Otro aspecto que tambin puede sobre estimar los tiempos de divergencia, es que
conforme la longitud de la secuencia analizada decrece y la tasa de evolucin de
esta tambin decrece, la sobre estimacin de los tiempos de divergencia se
incrementa (Rodrguez-Trelles et al., 2002).
b) Mtodos de evaluacin de divergencias bajo tasas de sustitucin
constantes (mtodos de reloj molecular global)
El mtodo, que se describir, es bsicamente una variacin al mtodo general
descrito en la seccin anterior (Li y Graur, 1991;Li y Bousquet, 1992), en el cual se
asume una misma tasa de sustitucin en dos linajes que descienden de un mismo
ancestro comn.
Supongamos que hay dos especies que comparten un ancestro comn de edad
t, con una tasa de sustitucin por sitio y por unidad de tiempo K, con un nmero
promedio de sustituciones por sitio D, y ya que estas sustituciones se acumulan a
lo largo de los dos linajes, tenemos que D= 2Kt, por lo que el estimador de las
tasas de sustitucin es =D/2t . Como se asume que K es una constante,
entonces D y t estn relacionados de manera lineal. Ahora, si se tiene un punto
de calibracin para poder estimar K, se puede utilizar algn otro valor de D para
inferir la edad de algn otro punto en el tiempo. Asimismo, si se obtienen distintos
puntos de calibracin es posible hacer una regresin de D en t para lograr una
estimacin de K, que pueda ser usada par predecir otros tiempos de divergencia.
21
Un variante a este mtodo (tambin asumiendo constancia de tasas) consiste
en sumar las longitudes de las ramas, no importando por que mtodo se hayan
calculado, para usar este resultado como el estimador de distancia.
c) Mtodos de evaluacin de divergencias bajo heterogeneidad de
tasas de sustitucin (mtodos de reloj molecular local)
Algunos de los mtodos que han sido utilizados para determinar si existe o no
constancia en las tasas evolutivas van ligados desde su creacin a un mtodo
para evaluar los tiempos de divergencia, por lo que podemos hablar de un slo
mtodo con dos partes. Este es el caso del mtodo de los dos grupos (two cluster
test) o tambin conocido como mtodo del rbol linealizado del cual ya se ha
hablado anteriormente, y cuyo propsito es encontrar si hay linajes que
evolucionen ms rpido o ms lento que la tasa promedio, los cuales son
eliminados para producir un rbol linealizado que slo incluye aquellos taxa que
tienen tasa de evolucin molecular estadsticamente similares.
Entonces los tiempos de divergencia, de estos taxa pueden ser estimados
usando mtodos ultramtricos de construccin de rboles, tales como UPGMA
(Takezaki et al.,1995;Arbogast, et al.,2002).
Existe otro mtodo que tambin elimina a aquellos linajes que no se
comportan conforme a un reloj molecular, este el llamado mtodo del cuarteto
propuesto por Cooper y Penny (1997). En este mtodo primero se identifican
aquellos pares de taxa que cuentan con un buen registro fsil para poder hacer
calibraciones de las tasas absolutas de evolucin molecular entre ellos. Luego los
pares escogidos son acomodados en cuartetos consistentes de dos pares de taxa,
22
cada uno de los cuales cuenta con una edad de divergencia inferida de un fsil. A
continuacin, se obtiene una tasa de divergencia promedio entre estos pares, la
cual se utiliza para determinar la edad de divergencia del ancestro comn de ellos.
Asimismo, la varianza de esta fecha se puede obtener de combinar la informacin
de distintos cuartetos que deriven de un mismo nodo ancestral (Steel, et al.,1996;
Arbogast, et al.,2002).
Los anteriores mtodos, no toman en cuenta a aquellos linajes que no se
comportan como un reloj molecular. Por lo anterior, y para lidiar con la violacin
del reloj molecular, han surgido modelos de reloj locales, que implementan
mxima verosimilitud, para permitir distintas tasas evolutivas para algunos linajes,
mientras que para otros asumen una constancia de tasas (Yoder y Yang, 2000).
Sin embargo, estos modelos fuerzan a los brazos dentro de una porcin particular
de la filogenia a evolucionar a la misma tasa (Kishino, et al., 2001).
Es as que Sanderson (1997,2002), propone dos mtodos no paramtricos
que estrictamente no asumen tasas locales o una tasa global de evolucin
molecular, y que consideran que las tasas evolucionan a travs del tiempo. Estos
mtodos ponen restricciones a la manera en que la evolucin molecular puede
variar entre linajes.
El primero de esos mtodos es el de tasa de suavizacin no paramtrica
(NPRS, por sus siglas en ingles), en donde la restriccin es una autocorrelacin
temporal de las tasa de evolucin molecular entre los linajes relacionados a travs
del rbol. El NPRS, estima una tasa local de evolucin para cada nodo en el rbol
(k), y entonces minimiza la diferencia de estas tasas a travs del rbol. Por
23
ejemplo, supngase que la tasa de la rama a (Fig. 5) es: a= = La/Ta, en donde
La es la longitud de la rama y Ta es el tiempo de duracin de esa rama. Entonces,
la medida de la tasa de suavizacin del nodo k es: R
k
=(
a
-
b1
)
2
+ (
a
-
b2
)
2
y si
se ajusta el tiempo para minimizar las diferencias para todos los nodos internos del
rbol, tenemos que:
K=1
K=n-1
=R
k.
La minimizacin de la funcin R
k
, sobre estos
tiempos desconocidos, provee una estimacin de los tiempos de divergencia
(Sanderson, 1997). Luego, por medio de mnimos cuadrados, se determina un
nivel ptimo de suavizacin, en donde las tasas de cambio drsticas a lo largo del
rbol, son penalizadas. Este mtodo, al usar solamente las longitudes de las
ramas, es un mtodo relativamente rpido y fcil de aplicar.

Fig.5. rbol en donde se muestran las ramas y los nodos para ilustrar el mtodo de NPRS. (Ver
texto para detalles).

El otro mtodo propuesto por Sanderson, es el de verosimilitud
penalizada, que como el mtodo anterior, trata de determinar un nivel optimo de
autocorrelacin o suavizacin, para un determinado grupo de datos en un rbol
(Sanderson, 2002). Este mtodo utiliza los datos crudos para obtener una
24
verosimilitud de los datos con un determinado modelo de evolucin molecular,
pero acoplando la verosimilitud de la funcin R
k
, pesando por un parmetro
suavizado ().
La verosimilitud penalizada, busca el nivel optimo del parmetro de
autocorrelacin, usando la rugosidad, parmetro suavizado (), el cual
incrementa como variacin de las tasas a medida que el rbol incrementa. En otras
palabras, el modelo admite que cada rama tenga su propia tasa de sustitucin,
solamente que con la penalizacin se evita una disparidad demasiado grande entre
estas tasas.
A diferencia del NPRS, la verosimilitud penalizada si utiliza datos crudos y
quiz es ms precisa, pero es de ms difcil implementacin y manejo. En general
estos mtodos, una vez suavizados los datos proceden a determinar las edades de
divergencia de manera muy parecida a la que ya se ha expuesto.
Tambin hay otros mtodos, que determinan las tasas ptimas a travs de
rboles con linajes que presentan tasas de evolucin distintas. Estos son los
mtodos de lognormal (Thorne et al.,1998) y de la distribucin de Poisson
compuesta (Huelsenbeck et al.,2000). Estos mtodos asignan determinadas tasas
a distintas partes de un rbol de acuerdo con una predeterminada distribucin y
son capaces de probar la variacin bajo una variedad de parmetros como la
composicin de bases, la proporcin de ts/tv etc., adems de la tasa de evolucin
molecular. Con mxima verosimilitud es posible estimar la magnitud de las tasas
ms lentas o ms rpidas de evolucin molecular y calcular otros parmetros
adems de auxiliar en determinar los tiempos de divergencia.
25

Actualmente, se han desarrollado otros mtodos basados en la
reconstruccin filogentica Bayesiana, para probar la existencia del reloj molecular
y estimar los tiempos de divergencia (Suchard et al., 2001). En esta aproximacin,
la inferencia filogentica se basa en las probabilidades posteriores de los rboles
filogenticos (Huelsenbeck et al., 2001).
El mtodo Bayesiano se basa en el teorema de Bayes, que en el caso de
datos moleculares puede representarse como:

p( x,M)= f(X,M)q( M)
m(XM)
Esto representa la probabilidad del parmetro de espacio (que en trminos
del teorema de Bayes, tambin representa una hiptesis), dado un determinado
modelo estadstico M con datos X. Por lo que la posterior distribucin de es
proporcional a la densidad de muestreo de los datos dado , que se refiere como
la verosimilitud del modelo f(X,M) multiplicado por la probabilidad o
distribucin posterior de , representado por q( M). Donde la constante
reciproca proporcional m(XM)=
f(X,M) q( M)d es la verosimilitud

marginal de los datos X dado el modelo M (Suchard et al.,2003).
Dado lo anterior, tenemos que utilizando la metodologa Bayesiana en la
reconstruccin filogentica, la probabilidad posterior de una hiptesis o rbol
puede interpretarse como la probabilidad de que el rbol sea correcto. Esta
probabilidad aunque es sencilla de plantear, implica la sumatoria sobre todos los
26
rboles, y para cada rbol la integracin de todas las posibles combinaciones de
longitudes de rama y modelos de sustitucin, y debido a que hacer esto es
analticamente muy difcil, se utiliza un anlisis de Cadenas de Markov acoplado a
esta metodologa para analizar de manera eficiente los rboles posibles (ver ms
adelante) (Huelsenbeck et al., 2001).
El mtodo Bayesiano, utiliza los mismos modelos de evolucin nucleotdica
utilizados con Mxima verosimilitud, adems si se tiene informacin molecular a
priori de algn tipo se puede tambin incorporar al anlisis. Este mtodo muestrea
rboles segn sus probabilidades posteriores en lugar de buscar un rbol optimo.
Una vez que se tienen una serie de rboles elegidos, estos se utilizan para
construir un rbol de consenso con las probabilidades posteriores colocadas en
cada nodo. El resultado es similar a una bsqueda de mxima verosimilitud con
bootstrapping, adems de que se dan los parmetros de la longitud de ramas.
Esta metodologa ha sido propuesta como una alternativa, principalmente
porque con ella se pueden realizar anlisis de una gran cantidad de datos
relativamente rpido y sin tener los problemas computacionales que se presentan
por ejemplo, con la mxima verosimilitud cuando se tienen muchos taxa.
La aproximacin bayesiana ms sencilla, en el clculo de tiempos de
divergencia es aquella en donde se relaja el reloj molecular, asignando una
distribucin previa (prior) p (R,T) para tasas de evolucin R y tiempos de
divergencia T. A continuacin, el teorema de Bayes es usado para derivar la
probabilidad posterior de los tiempos de divergencia y las tasas evolutivas ( Aris-
Brosou y Yang, 2002):
27

p(R, T l X)= p(Xl R, T)p(R,T)
p(X)
En donde, p(Xl R, T) representa es la verosimilitud y su clculo requiere
de un modelo de sustitucin nucleotdica.
Otros autores como Thorne et al. (1998), han utilizado la aproximacin
bayesiana para estimar tiempos de divergencia. Este modelo, estima la
distribucin previa de los tiempos de divergencia, asumiendo de que la tasa de
nacimiento de nuevas ramas siguen un proceso de Yule o proceso de divisin
binario. La estimacin de la distribucin previa de las tasas de evolucin, asume
que las tasas de evolucin molecular son constantes a travs de las ramas de un
rbol, pero que pueden diferir entre ramas.
El modelo plantea, que hay una autocorrelacin de las tasas de evolucin de
las ramas ancestrales y las derivadas, que depende de la diferencia de tiempo
entre los puntos intermedios de las ramas ancestrales y las derivadas. Se asume
que el logaritmo de la tasa de la rama derivada tiene una distribucin normal con
una media igual al logaritmo de la tasa de la rama ancestral y con una varianza
igual al tiempo de diferencia multiplicado por una constante llamada v. Si el valor
de v es alto existe una autocorrelacin baja y si el valor es bajo existe una fuerte
autocorrelacin. En este caso el valor v determina la distribucin posterior de las
tasas de evolucin molecular en diferentes ramas dado el tiempo de un nodo
interno. Este es un modelo jerrquico en donde dos ramas de un rbol que
emanan de una misma raz tienen que ser incluidas en el modelo.
28
Se considera a R como la tasa de evolucin molecular en k + 1 ramas del
rbol enraizado y T es el vector de los nodos internos incluyendo la raz. Cabe
aclarar que se utilizan unidades de relativas de tiempo (r.t.u. por sus siglas en
ingls) que son el valor esperado de tiempo para el reemplazo de un amino cido
en cien sitios, dada una tasa constante de cambio por ao. Una vez que los
tiempos T y la constante v son determinados la distribucin condicional p(R l T,v)
de las tasas de evolucin molecular son determinadas. Para un dado nmero de
secuencias representadas en los terminales de un rbol, la tasa de nacimientos o
bifurcaciones (asumiendo un proceso Yule) puede ser utilizada para calcular el
valor esperado de -T
o
en donde T
o
es el tiempo a la secuencia ancestral. Por
tanto, el valor de la tasa de bifurcaciones puede determinarse a partir del valor
esperado de -T
o
, y el valor de T es condicional en la tasa de nacimiento. Y
nuevamente utilizando la aproximacin bayesiana con los datos X, se puede
calcular la distribucin o probabilidad posteriores de T, por lo que tenemos:
p(T,R, v l X)= p(X l T, R) p(R l T, v) p(T) p(v)
p(X)
El proceso del clculo de las distribuciones por ser muy complejo, se acopla a un
proceso de clculo de Cadenas de Markov (ver ms adelante).
Existen otras variantes dentro de estos modelos, como la de Aris-Brosou y
Yang (2002), que en lugar de utilizar el proceso de Yule como Thorne et al.
(1998), para calcular las distribuciones previas de los tiempos de divergencia,
utilizan un modelo ms flexible y que puede acomodar ms formas de los rboles
filogenticos.
29
Este modelo, est basado en un proceso de cladognesis, el proceso
generalizado de nacimientos y muertes (BDP, por sus siglas en ingls) y que
asume una tasas constantes de especiacin y de extincin por linaje. Los
tiempos de los nodos se condicionan arbitrariamente al tiempo de la raz, que se
sita en 1. El muestreo de especies es modelado como un evento de extincin en
masa, que ocurre en el momento del muestreo con una probabilidad . Este
modelo es comparable al modelo generalizado de la distribucin Dirichlet, utilizada
por Kishino et al. (2001).
Adems, las bandas de tiempo por arriba y debajo de los tiempos de los
nodos pueden ser marcadas con ayuda del registro fsil. En esta variante, la
distribucin previa de las tasas de evolucin, son modeladas para probar diferentes
distribuciones. La forma de modelar estas distribuciones es con un estimador
2

(hiperparmetro) que da una medida de cuanto se incrementa la varianza de las
tasas evolutivas como funcin del tiempo. Es as, que valores pequeos de
2
indican que el modelo tiende a un reloj molecular y valores grandes de
2
indican
altos valores de variacin de tasas.
En cuanto a la utilizacin de informacin proveniente de varios genes,
Thorne y Kishino (2002) han propuesto un mtodo Bayesiano para estimar los
tiempos de divergencia. Dicha tcnica permite detectar cambios correlacionados de
tasas evolutivas entre genes, y asume que las tasas evolutivas en distintos tiempos
y genes pueden estar correlacionadas, especialmente en los linajes ms cercanos.

30
El modelo, asume tambin que la tasa promedio de una rama en un rbol
filogentico es el promedio de la tasa del nodo y la tasa del final de la rama. A
continuacin, los datos son modelados para obtener una distribucin normal de las
tasas de las ramas, en donde el promedio de esta distribucin es tal que se espera
que la tasas al principio y al final de las ramas tengan un valor que no sea
estadsticamente distinto.
La varianza de esta distribucin es igual al producto del tiempo de duracin
de la rama y un parmetro v que determina el aumento de la autocorrelacin de
las tasas de a travs del tiempo, es as que si v es cero existe una constancia de
tasas y si es mayor, la diferencia de las tasas al comienzo y al final de las ramas se
incrementa en una razn proporcional a v. Entonces, los datos de mltiples genes
pueden incorporarse bajo estas condiciones y se modelan a su vez bajo una
distribucin gamma. Esta distribucin gamma, se interpreta como la suma de la
variabilidad de la tendencia de las tasas a cambiar en el tiempo a travs de los
genes en el genoma.
Adems esta metodologa requiere de datos del registro fsil, que se
incorporan para constreir las edades de los nodos. Al final se obtienen
distribuciones posteriores de los tiempos de divergencia, en donde una distribucin
gamma describe el tiempo de separacin de las races de los grupos internos y los
terminales. Con esta distribucin se pueden calcular de manera ms o menos
directa los tiempos relativos de los nodos.

31
Otro aspecto, que hace interesante la utilizacin de los modelos bayesianos,
es que los modelos de relojes locales basados en verosimilitud como el de Yoder y
Yang (2000), slo son tiles si se cuenta con informacin previa sobre que linajes
pueden tener diferentes tasas de evolucin molecular y por tanto son utilizados
para probar si ciertos grupos de especies tienen distintas tasas de evolucin o no,
pero cuando esta informacin no est disponible es mejor utilizar modelos
Bayesianos de tasas de cambio aleatorio (Aris-Brosou y Yang, 2002).
Las aproximaciones bayesianas para estimar los tiempos de divergencia, son
relativamente recientes y existen pocos trabajos que comprueben su eficacia.
Entre estos podemos citar a Kishino, et al (2001), quienes estudian el efecto de
los parmetros previos sobre los posteriores, evaluando la robustez del modelo
utilizando simulaciones y la consistencia de los tiempos de divergencia estimados
con informacin externa al anlisis.
El mtodo Bayesiano, tambin ha sido utilizado para probar la hiptesis de reloj
molecular, utilizando el factor de Bayes, que es una medida del cambio del soporte
de un modelo contra otro modelo dado un grupo de datos, lo que constituye el
anlogo Bayesiano de la prueba de razn de verosimilitud (LRT) (Suchard et
al.,2003).
d) Clculo de tiempos de divergencia de poblaciones y especies muy
cercanas
Mencin especial merecen aquellos casos en que se pretende estimar la edad
de divergencia a nivel infraespecfico o de especies de muy reciente separacin. Ya
que en estos casos los problemas de saturacin pueden no ser tan importantes, al
32
considerar problemas como conservacin de un polimorfismo gentico ancestral o
de una completa separacin de los linajes (Avise,2000). Incluso los modelos de
sustitucin empleados en estos casos suelen ser otros, como el modelo de sitios
infinitos, del que ya se ha hablado.
Asimismo, se tiene que tomar en cuenta que existe una discordancia entre los
tiempos de divergencia poblacional y divergencia gnica. Generalmente se tiende a
sobreestimar el tiempo de divergencia gnica al compararlo con el tiempo de
divergencia poblacional (Knowles y Maddison, 2002), aunque esta discrepancia se
va haciendo cada vez menos importante a medida que el tiempo pasa y el evento
de divergencia se sita en un pasado distante (Fig 6).

Fig.6. El tiempo de la divergencia gnica generalmente est sobreestimado al compararlo con el
tiempo de divergencia poblacional. a. La discrepancia en tiempos de divergencia poblacional y
gentica es menor para eventos en el pasado distante. b. La discrepancia entre tiempos de
divergencia poblacional y gentica es mayor en divergencias recientes. Modificado de Knowles y
Maddison, 2002.

33
Algunos de los mtodos ms importantes, para tratar de estimar edades de
divergencia a nivel infraespecfico tienen como base la teora de la coalescencia, la
cual provee un marco terico para lidiar con aspectos de gentica de
poblacionales.
La teora de la coalescencia, nos dice bsicamente que, conforme
retrocedemos en el tiempo, los genes coalescen, es decir, que todos los genes
tienen un ancestro comn.
Esta teora, supone idealmente que no existe recombinacin de los genes
(genes mitocondriales y de cloroplasto), por lo que todas las secuencias de un
determinado gen en estudio, estn conectadas por un rbol filogentico. La teora,
tambin supone poblaciones diploides y panmcticas que se comportan segn la
teora neutral, en donde no interviene la seleccin natural y las mutaciones neutras
no afectan la estructura de una determinada genealoga.
Para ejemplificar el concepto de coalescencia (Fig.7 ), supongamos que de
una poblacin se toman al azar dos copias de un mismo gen, por lo que tendremos
N=2, Cul ser la probabilidad que estos dos genes tengan el mismo ancestro
en una generacin previa?, esto se puede expresar as: 1/2N, pero como tambin
hay la posibilidad de los genes no compartan un ancestro comn, tenemos:1-
1/2N. Por lo que la probabilidad completa se expresa como: 1/2N (1- 1/2N).
Pero si queremos calcular la probabilidad para x generaciones en el pasado la
expresin queda as: 1/2N (1 - 1/2N)
x
.

34
Tericamente, se puede calcular hace cuantas generaciones derivaron del
gen ancestral todas las copias que se encuentran actualmente en una poblacin.
Pero si consideramos que los progenitores pueden tener ms de un individuo de
descendencia, nuestra expresin puede cambiar a
2
/(N-1), en donde
2
es la
varianza de la distribucin del nmero de descendencia producido por un
progenitor en una generacin, y por convencin se suele referir la escala de
tiempo en unidades de N/
2
(Markovtsova et al., 2000).
Asimismo, la estimacin de la edad al ancestro comn ms reciente (MRCA,
por sus siglas en ingls), se puede expresar tambin como E(T
MRCA
)=4N
e
(1-
1/n), en donde n es el nmero de secuencias muestreadas y N
e
es el tamao
efectivo de la poblacin (Sanderson, 1998).
Debemos apuntar, que las predicciones de esta teora se pueden ver
afectadas significativamente si es que la seleccin natural se encuentra actuando,
y tambin por cambios en el tamao poblacional en el pasado, por ejemplo cuellos
de botella (Avise, 2000). Adems, como se ha mostrado en recientes trabajos
(Markovtsova et al., 2000), la inferencia de tiempos de divergencia bajo la teora
de la coalescencia, se puede ver afectada si la tasa de variacin nucleotdica es
ignorada.
35

Fig.7. El principio bsico de la coalescencia. a. Genealoga completa para una poblacin de diez
individuos haploides (poblaciones diploides de N individuos son estudiadas usando un modelo
haploide con 2N individuos). Las lneas ms oscuras trazan la ancestria de tres linajes a un solo
ancestro comn. b. Subgenealoga para los tres linajes muestreados. Modificado de Rosenberg y
Nordborg, 2002.

Existen una serie de mtodos para inferir edades de divergencia en tiempos
muy recientes llamados mtodos de momento. Estos mtodos buscan valores de
parmetros que igualen a los valores observados y esperados de las mediciones
del polimorfismo de las secuencias de ADN o de su divergencia. El nmero
promedio de diferencias pareadas dentro y entre las especies son ejemplos de
tales mediciones.
Los parmetros buscados son los parmetros del modelo de aislamiento, el
cual supone una especie panmctica ancestral con un tamao poblacional efectivo
que se dividi en dos especies derivadas en algn punto en el pasado. Tambin
asume, que despus de la divisin no existe flujo gnico entre las especies nuevas
y que su tamao poblacional se ha mantenido constante (la teora de la
coalescencia es compatible con este modelo).
36
Este modelo tiene cuatro parmetros, suponiendo que cada una de las tres
especies (la ancestral y las derivadas) tienen tamao poblacional propio y la tasa
de mutacin permanece constante a travs del tiempo, los parmetros que
describen al modelo son
1
=4N
1
u,
2
=4N
2
u,
A
=4N
A
u, y =2ut, donde t es el
tiempo de divergencia de las especies y u es la tasa neutral de mutacin (Wakeley
y Hey, 1997). Los valores de los parmetros que se busca obtener por estos
mtodos son aquellos que dan el mejor ajuste entre las observaciones y los valores
esperados.
La manera en que estos mtodos funcionan, es estimando el nmero de
diferencias entre un par de secuencias de ADN, una de cada especie, y entonces
se igualan estas con el valor de 2ut, de donde se puede estimar posteriormente t
que es el tiempo de divergencia de las especies estudiadas.
Como ya lo hemos tratado antes, en este modelo existe un problema, la
divergencia gentica ocurre antes que la divergencia de especies. Por lo que, se
propuso una correccin (Arbogast et al., 2002) para la parte ancestral de la
divergencia observada usando un estimado de las especies descendientes. Este
estimado es la red de diferencias nucleotdicas d=dxy-(dx+dy)/2, que permite
sustraer el promedio de las diferencias pareadas intraespecficas de los valores
interespecficos observados. Por ejemplo, si todas las especies tienen un mismo
tamao (N
1
= N
2
= N
A
), entonces el valor esperado para d es igual a 2ut y el
mtodo no est sesgado.

37
El mtodo tampoco estar sesgado en sus resultados si es que ha pasado
suficiente tiempo como para que exista una monofilia reciproca y si el tamao
poblacional promedio de las especies descendientes es similar al de la especie
ancestral.
El anterior mtodo de momento, asume tambin no recombinacin, pero
hay otros mtodos de momento que no requieren asumir nada acerca de la tasa
de recombinacin. Uno de esos mtodos es el de sitios segregantes (Wakeley y
Hey, 1997), en el cual cada sitio segregante de muchas copias de secuencias
genes de dos especies comparadas, se categorizar de cuatro maneras mutuamente
excluyentes que son: compartido, fijado y exclusivo de especie 1 y exclusivo de
especie 2. Luego los resultados son igualados a las expectativas tericas que
dependen de
1
,
2
,
A
, y =2ut; posteriormente los lmites de confianza pueden
ser calculados por medio de simulaciones si es que un estimado de la tasa de
recombinacin de cada locus est disponible.
Otra serie de mtodos para la inferencia de edades de divergencia
poblacional estn basados en la aproximacin de la mxima verosimilitud.
Bsicamente, transforman el promedio y la varianza de los muestreos de muchos
loci de genes de dos especies en un mtodo analtico de mxima verosimilitud, que
se basa en usar las probabilidades generadas de una funcin del nmero de
diferencias pareadas bajo el modelo de aislamiento y asumiendo que no existe
recombinacin intralocus.

38
Tambin hay variaciones ha estos mtodos que usan modelos de sitios
finitos en lugar del de sitios infinitos. (Takahata y Satta, 1997; Arbogast, et
al.,2002).
Finalmente, hablaremos de los mtodos basados en los mtodos de
Cadenas de Markov Monte Carlo (MCMC, por sus siglas en ingls), los cuales no
asumen recombinacin intralocus y que requieren utilizar datos de varias
secuencias de dos especies. Lo que hace esta metodologa es calcular la
distribucin de los parmetros de inters o sea la probabilidad de observar los
valores de los parmetros segn el modelo Markov Monte Carlo.
El modelo de las cadenas de Markov, es un modelo probabilstico que ha
sido utilizado en muchos tipos de anlisis de secuencias y en bsqueda de
homologas, y como hemos visto antes, esta metodologa puede ser acoplada en la
inferencia filogentica por medio de anlisis Bayesianos. Las cadenas de Markov,
tambin puede ser utilizado para inferir distintas tasas de evolucin en distintos
sitios.
El mtodo de las cadenas de Markov, consistente de una serie de pasos
interconectados o caminatas aleatorias, en donde en cada instante la cadena visita
uno de un cierto nmero de estados posibles del sistema, asumiendo que la
probabilidad de un estado futuro slo est determinada por el estado presente y
no por los anteriores. Estos modelos se componen de los pasos o conjunto de
nodos, de la probabilidad inicial para entrar al sistema y de la probabilidad de
transicin de un estado al otro.

39
En biologa molecular, este tipo de modelos describen comnmente a
procesos discretos que cambian en el espacio, como las secuencias nucleotdicas o
que varan en el tiempo (generaciones). Por ejemplo, cada paso de la cadena
implica un cambio o transicin del sistema, en el cual se da una modificacin al
azar de parmetros como la tasa a la cual se presentan las sustituciones o la
longitud de las ramas en un rbol, as como su topologa, por lo cual se pueden
explorar una gran posibilidad de topologas y parmetros asociados, dentro del
espacio de topologas ms probables (Felsenstein y Churchill, 1996).
Con la metodologa de las cadenas de Markov, se pueden explorar muchas
topologas, procediendo a obtener la verosimilitud de las genealogas posibles
segn las probabilidades bajo el modelo. Finalmente, la genealoga con la
verosimilitud ms adecuada, es de la cual se obtienen los parmetros para estimar
los tiempos de divergencia (Nielsen y Wakeley, 2001).
6. Causas biolgicas y fuentes de error que pueden afectar al reloj
molecular
Existen una gran cantidad de factores que pueden afectar o intervenir en las
expectativas del reloj molecular. Estos factores quiz los podemos agrupar de una
manera ms o menos arbitraria en factores poblacionales, factores moleculares,
factores metablicos y por ltimo tenemos a la seleccin natural.
a) Factores poblacionales
1.- Tamao poblacional. Este factor afecta principalmente el tiempo en que una
nueva mutacin se fija en la poblacin, por lo que un tamao poblacional grande
puede hacer que reloj molecular sea ms lento. Por lo que cambios de tamao
40
poblacional en el pasado de las poblaciones podran afectar los clculos de los
tiempos de divergencia (Kimura, 1983).
2.- Tiempo de generacin. Tiempos de generacin largos pueden incrementar
los tiempos en que la fijacin de una determinada mutacin ocurre y viceversa. Por
ejemplo se ha notado que la tasa de evolucin molecular es ms rpida en
pequeos mamferos como roedores que en grandes herbvoros o incluso el
hombre (Gu y Li, 1992).
3.- Flujo gnico y recombinacin. Como ya se ha mencionado, para el caso de
estimaciones de tiempos de divergencia de poblaciones o de especies cercanas, los
fenmenos de flujo de gnico o hibridacin pueden afectar los tiempos de
divergencia considerablemente.
b) Factores moleculares
1.- Replicacin del ADN. Existen caractersticas especie-especficas en las
polimerasas o en otras propiedades biolgicas, que afectan la fidelidad de la
replicacin del ADN y por tanto la incidencia de mutaciones sean neutrales o no
(Ayala, 1999).
2.- Cambios en la funcin de protenas. En el caso de duplicacin de genes,
cuando una o ambas duplicaciones evolucionan en nuevas funciones, puede ser
esperada una aceleracin en la tasa de evolucin (Ayala, 1999).
c) Factores metablicos
1.- Tasa metablica. Algunos trabajos han sugerido que quiz la tasa metablica
de los organismos, es un factor que afecta la tasa de evolucin molecular, debido
41
a que los desechos del metabolismo como algunos radicales del oxgeno son
conocidos mutgenos (Martn, 1995).
Debido a lo anterior se ha propuesto que el tamao corporal puede
influenciar las tasas de evolucin molecular, pues se considera que el tamao
corporal esta ligado a la tasa metablica del organismo, por lo que se plantea una
relacin inversa entre el tamao corporal y la tasa de evolucin molecular.
En algunos trabajos con vertebrados se ha podido encontrar esta relacin inversa
entre el tamao corporal y la tasa de evolucin molecular (Martin y Palumbi,
1993;Bromham, 2002), sin embargo tambin se ha sugerido que quiz en aquellos
organismo con tasa metablicas muy altas (como colibres o musaraas ) tambin
tienen tiempos generacionales cortos, que tal vez, sea un factor ms importante
para la evolucin molecular.
d) Seleccin natural
Se ha sealado anteriormente, que la seleccin natural es uno de los factores
que pueden estar interviniendo y afectando la neutralidad de las mutaciones en
muchos taxa, lo cual es uno de los sustentos tericos del reloj molecular. Por
ejemplo, distintos genes pudieran estar evolucionando a tasas diferentes, debido a
algn fenmeno de seleccin en su funcin (Hedges y Kumar, 2003). Aunque
actualmente, no existe un consenso entre los cientficos que apoyan a la teora
neutral y los seleccionistas, la seleccin natural se debe tener en mente como
fuente de algunas de las desviaciones al reloj molecular.

42
7. Conclusin
El fundamento terico en el que se enmarca el concepto del reloj molecular,
la teora neutral, probablemente, llegue a ser insostenible, adems muchos
trabajos han demostrado que slo algunas protenas y genes funcionan como un
reloj molecular. No obstante, pienso que no se debe de rechazar por completo las
tentativas de tratar de inferir tiempos de divergencias con ayuda de informacin
molecular. Quiz, es alentador el surgimiento de pruebas y metodologas que
proponen relojes moleculares locales y que tratan de lidiar con la falta de
constancia entre tasas de sustitucin en taxa relacionados. En este sentido,
metodologas como el anlisis Bayesiano que permiten analizar grandes cantidades
de informacin en tiempos computacionales ms o menos cortos, permitirn hacer
inferencias tomando en cuenta muchos genes y as poder obtener tiempos
promedio de divergencia, que tal vez sean ms cercanos a la realidad.
No debemos olvidar que en el caso de poblaciones y subespecies, an
existen muchos problemas y asuntos por resolver, directamente aquellos
relacionados con la dinmica de las poblaciones. Ya que actualmente, sabemos
poco de como la demografa puede afectar exactamente a los patrones
recuperados de las secuencias de ADN, por ejemplo en el caso de estudios con
ADN mit, la subdivisin poblacional puede afectar de maneras poco predecibles la
forma de los rboles de genes. En este sentido, creo que en el futuro se
desarrollaran nuevos modelos estadsticos aplicados al estudio de datos
moleculares, que podrn acoplarse igualmente con nuevos modelos demogrficos
43
y de coalescencia, lo que permitir que la estimacin de tiempos de divergencia,
aunque ms complicada sea ms adecuada.

44
8. Literatura citada

Arbogast, B.S., S.V. Edwards, J . Wakeley, P. Beerli y J .B. Slowinski. 2002.
Estimating Divergence Times From Molecular Data on Phylogenetic and
Population Genetic Timescales. Annu. Rev. Ecol.Syst. 33: 707-40.

Arbogast, B.S. y J .B. Slowinski. 1998. Pleistocene speciation and the mitochondrial
DNA clock. Science 282: 1995.

Aris-Brosou, S. y Z. Yang. 2002. Effects of models of rate evolution on estimation
of divergence dates with special reference to the metazoan 18S Ribosomal
RNA Phylogeny. Syst. Biol. 51:703-714.

Avise, J .C.,2000. Phylogeography. The history and formation of species. Harvard
University Press. Londres.

Ayala, F.J . 1999. Molecular clock mirages. BioEssays 21:71-75.

Brocchieri, L. 2000. Phylogenetic Influences from Molecular sequences: Review
and Critique. Theor. Pop. Biol. 59: 27-40.

Bromham, L. 2002. Molecular Clocks in Reptiles: Life History Influences Rate of
Molecular Evolution. Mol. Biol. Evol. 19: 302-309.

Brown, W.M., M. George y A.C. Wilson. 1979. Rapid evolution of animal
mitochondrial DNA. Proceedings of the National Academy of Sciences, USA.
76: 1967-1971.

Buckley, T., C. Simon y G. Chamb. 2001. Exploring among-site rate variation
models in a maximum likelihood framework using empirical data: effects of
model assumptions on estimates of topology, branch lengths and bootstrap
support. Syst. Biol. 50: 67-86.

Cooper, A. y D. Penny. 1997. Mass survival of birds across the Cretaceous-Tertiary
boundary: molecular evidence. Science 275: 1109-1113.
Felsenstein, J . 1998. Phylogenies and quantitative characters. Ann. Rev. Ecol. Syst.
19: 445-4471.
Felsenstein, J . y G. Churchill. 1996. A hidden Markov model approach to variation a
mong sites in rate of evolution. Mol. Biol. Evol. 13: 93-104.
Gu, X. y W.H. Li.1992. Higer rates of amino acid substitution in rodents than in
humans. Mol. Phylogenet. Evol. 1: 211-214.
45
Hedges, S.B. y S. Kumar. 2003. Genomic clocks and evolutionary timescales.
Trends in Genetics 19: 200-206.

Hillis, D.M., K.M. Mable y C. Moritz. 1996. Applications of molecular Systemtics:
The State of the Field and a look to the future, pp.531-540. En: Hillis, D.M.,
C. Moritz y K.M. Mable (eds.), Molecular Systematics Second edition.
Sinauer Associates, Inc. USA.

Huelsenbeck, J .P., B. Larget, D. Swofford. 2000. A compound Poisson process for
relaxing the molecular clock. Genetics 154: 1879-1892.

Huelsenbeck, J .P., F. Ronquist, R. Nielsen y P. Bollback. 2001. Bayesian inference
of phylogeny and its impact on evolutionary biology. Science 294: 2310-
2314.

Kimura, M. 1968. Evolutionary rate at the molecular level. Nature 217: 624-626.
Kimura, M. 1969. The number of heterogeneus nucleotide sites maintained in a
finite population due to steady flux of mutation. Genetics 61: 893-903.
Kimura, M. 1983. The neutral theory of molecular evolution. Cambridge University
Press, Cambridge, UK.
Kishino, H., J . L. Thorne y W.J . Bruno. 2001. Performance of a divergence time
estimation method under a probabilistic model of rate evolution.

Knowles, L.L. y W. P. Maddison. 2002. Statistical phylogeography. Mol. Ecol. 1:
2623-2635.

Langley, C.H. y W.M. Fitch. 1974. An examination of the constancy of the rate of
molecular evolution. J . Mol. Evol. 3: 161-177.

Li, P y J . Bousquet. 1992. Relative-rate test for nucleotide substitutions between
two lineages. Mol. Biol. Evol. 9: 1185-1189.

Li, P.y D.Graur. 1991. Fundamentals of molecular evolution. Sinauer, Sunderland,
Mass.

Lynch, M. y J arrell. 1993. A method for calibrating molecular clocks and its
application to animal mitochondrial DNA. Genetics 135: 1197-1208.

Markovtsova, L., P. Marjoram y S. Tavar. 2000. The effects of rate variation on
ancestral inference in the Coalescent. Genetics 156: 1427-1436.

46
Martin, A.P. 1995. Metabolic rate and directional nucleotide substitution in animal
motochondrial DNA. Mol.Biol. Evol. 16: 996-1002.
Martin, A.P. y S. R. Palumbi. 1993. Body size, metabolic generation time and the
molecular clock. Proc. Natl. Acad. Sci., USA 90: 4087-4091.

Nei, M. 1987. Molecular Evolutionary Genetics. Columbia University Press, New
York.

Nielsen, R. y J . Wakeley. 2001. Distinguishing migration from isolation: a Markov
Chain Monte Carlo approach. Genetics 158: 885-896.

Otha, T. 1992.The nearly neutral theory of molecular evolution. Ann.Rev. Ecol.
Syst. 23: 263-286.

Page, R.D.M. y E.C. Holmes, 2000. Molecular Evolution. A phylogenetic approach.
Blackwell science, Cambridge, UK.
Posada, D. y K.A. Crandall. 1998. MODELTEST: testing the model of DNA
substitution. Bioinformatics 14: 817-818.
Rodrguez-Trellez, F., R. Tarrio y F.J . Ayala. 2002. A methodological bias toward
overestimation of molecular evolutionary time scales. Proc. Nat. Acad. Sci.,
USA 99: 8112-8115.

Sanderson, M.J . 1997. A nonparametric approch to estimating divergence times in
the absence of rate constancy. Mol. Biol. Evol. 14: 1218-1232.

Sanderson, M.J . 1998. Estimating Rate and Time in molecular Phylogenies: Beyond
the Molecular Clock?, pp. 242-264. In: D.E. Soltis, P.S. Soltis y J .J . Doyle
(eds.), Molecular Systematics of plants. Kluwer Acad. Publ.

Sanderson, M.J . 2002. Estimating absolute rates of molecular evolution and
divergence times: a penalized likelihood approach. Mol. Biol. Evol. 19: 101-
109.

Sanderson, M.J . y Doyle. 2001. Sources of error and confidence intervals in
estimating the age of angiosperms from rbcL and 18S rDNA data. Am. J .
Bot. 88: 1499-1516.
Steel, M.A., A.C. Cooper, D. Penny. 1996. Is there an inverse relationship between
body size and rate of molecular evolution. Syst. Biol. 48: 396-399.
Suchard, M., R. Weiss y J . Sinsheimer. 2001. Bayesian selection of continuous-time
Markov chain evolutionary models. Mol. Biol. Evol. 18: 1001- 1013.
47
Suchard, M., R. Weiss y J . Sinsheimer. 2003. Testing a Molecular Clock without an
outgroup: Derivations of induced Priors on Branch-Length Restrictions in a
Bayesian Framework. Syst. Biol. 52: 48-54.

Swofford, D. (1998). PAUP: Phylogenetic Analysis Using Parsimony (And other
Methods), version 4. Sinauer, Sunderland, MA.

Tajima, F. 1993. Unbiased estimation of evolutionary distances between nucleotide
sequences. Mol Biol Evol. 10: 677-688.

Takahata, N. y Satta, Y. 1997. Evolution of the primate lineage leading to modern
humans: phylogenetic and demographic inferences from DNA sequences.
Proc. Natl. Acad. Sci. USA. 94: 4811-4815.

Takezaki, N. A. Rzhetsky y M. Nei. 1995. Phylogenetic test of the molecular clock
and linearized trees. Mol Biol Evol.12: 823-33.

Thorne, J ., H. Kishino y I. Painter. 1998. Estimating the rate of evolution of the
rate of molecular evolution. Mol. Biol. Evol. 15: 1647-1657.

Thorne, J . y H. Kishino . 2002. Divergence time and evolutionary rate estimation
with multilocus data. Syst. Biol. 51: 689-702

Wakeley, J . y J . Hey. 1997. Estimating ancestral population parameters. Genetics
145: 847-855.
Wilson, A.C., H. Ochman y E.M. Prager. 1987. Molecular time scale for evolution.
Trends in Genetics 3: 241-247.

Wu, C.I. y W.H. Li. 1985. Evidence for higher rates of nucleotide substitution in
rodents than in man. Proc. Nat. Acad. Sci., USA 82:1741-1745.

www.flmnh.ufl.edu/deeptime/datingdivergences.html pagina web de Deep Time
Project:A Comprehensive Phylogenetic Tree of living and Fossil
Angiosperms, responsable Dr.Doug Soltis, ultima modificacin, mayo de
2002.

48
Yoder, A.D. y Z. Yang. 2000. Estimation of Primate Speciation Dates using local
molecular clocks. Mol. Biol. Evol. 17: 1081-1090.
Zuckerkandl, E. y L.Pauling. 1962. Molecular disease, evolution and genic
heterogeneity, pp. 189-225. En: M. Kasha y B. Pullman (eds.), Horizons in
Biochemistry. Academic Press, New York.
Zuckerkandl, E. y L.Pauling. 1965. Evolutionary divergence and convergence in
proteins, pp. 97-166. En: V.Bryson and H.J . Vogel (eds.), Evolving Genes
and Proteins. Academic Press, New York.

Reloj Molecular (Underdog) PDF

Cargado por

Copyright:

Formatos disponibles

Reloj Molecular (Underdog) PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reloj Molecular (Underdog) PDF

Cargado por

Copyright:

Formatos disponibles

INTRODUCCIN AL CONCEPTO Y METODOLOGAS DEL RELOJ

f(X,M) q( M)d es la verosimilitud

También podría gustarte