La Phylogénie
La Phylogénie
La Phylogénie
1 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
http://www.infobiogen.fr/doc/tutoriel/PHYLO
/phylogenie.html
III. CONCLUSION
IV. BIBLIOGRAPHIE
I. INTRODUCTION
Depuis Darwin, il est communment admis que les tres vivants descendent tous les uns des autres.
22/05/2016 08:37
Phylognie
2 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Jusqu'aux annes 1960, les comparaisons entre des morphologies, des comportements et des rpartions
gographiques des espces taient les seuls moyens disponibles pour contruire des classifications
d'espces. La dcouverte que des protines homologues (ou acides nucliques) avaient des squences en
acides amins (ou en bases) qui variaient d'une espce l'autre a fourni un nouveau moyen d'tude : la
phylognie.
Pour Lamark, l'volution tait due une adaptation continue au milieu ambiant : un environnement
changeant altre les besoins de l'organisme vivant qui s'adapte en modifiant son comportement et en
utilisant certains organes plus que d'autres.
La thorie dfendue par Darwin est l'volution par slection naturelle. Au sein d'une mme ligne, tous les
individus sont diffrents et la nature favorise la multiplication de ceux qui jouissent d'un quelconque
avantage.
22/05/2016 08:37
Phylognie
3 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Phylognie
4 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
1. L'horloge molculaire
1.1 Dfinition
En rsum, on constate que le taux d'accumulation des mutations dans le gnome d'organismes diffrents
est du mme ordre de grandeur dans des rgions homologues (rgions soumises la mme pression de
slection).
L'accumulation sera maximale pour des rgions qui ne sont pas soumises la pression de slection
naturelle (ne codant pas pour des gnes) et minimale dans les parties du gnome soumises une forte
pression (c'est dire les rgions codant pour des fonctions essentielles la survie de l'organisme).
Chaque squence accumule les mutations un rythme qui lui est propre et qui est dict par l'intensit de la
pression de slection laquelle elle est soumise. Pour reconstituer des phylognies (dater la divergence
entre deux espces), on peut utiliser diffrentes molcules comme on utilise les aiguilles d'une montre pour
calibrer l'horloge :
- la trotteuse des secondes (taux de mutation important, par exemple un pseudogne) pour des vnements
rcents (tudes des sous populations au sein d'une espce).
- l'aiguille des minutes (taux de mutation moyen, par exemple le cytochrome C) pour l'analyse d'un pass
proche.
- l'aiguille des heures (taux de mutations faible : les histones) pour l'tude d'un pass lointain.
La vitesse d'volution de la squence est du mme ordre de grandeur au sein d'une mme classe
fonctionnelle de protines et elle est diffrente pour des protines qui ont des fonctions diffrentes : la
vitesse d'volution de la srum albumine est toujours plus importante que celle du cytochrome C. Ces
diffrences de vitesse dpendent la fois de la probabilit qu'une substitution apparaisse et de sa
compatibilit avec la survie de l'organisme.
Si l'on admet cette thorie, et que l'on connat le taux d'accumulation des mutations, il est possible
d'estimer le temps de divergences d'espces en comparant leur diversit molculaire.
La thorie de l'horloge molculaire est remise en cause et plusieurs arguments ont t dvelopps :
- L'horloge molculaire ne serait pas constante (Goodman): les mutations avantageuses se fixeraient plus
rapidement lors de la formation de nouvelles espces.
- L'horloge molculaire serait pisodique (Gillepsie) et les mutations ne se produiraient pas de faon
indpendante au cours de l'volution: il y aurait des pisodes d'accumulation suivis d'arrts volutifs.
1.3 Conclusion
Bien que le dbat persiste, il semble que l'horloge molculaire fonctionne assez bien sur de longues
priodes volutives, pour des gnes ayant un taux de mutation relativement faible o mme si l'horloge ne
bat pas trs rgulirement, les ralentissements et les acclrations se compensent.
22/05/2016 08:37
Phylognie
5 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Il faut galement se mfier des estimations de temps de divergence bases sur un petit nombre de gnes.
2.Mthodes de reconstruction
Il existe deux grands types de mthodes permettant la reconstruction d'arbres phylogntiques :
- les mthodes bases sur les mesures de distances entre squences prises deux deux, c'est dire le
nombre de substitutions de nuclotides ou d'acides amins entre ces deux squences.
- les mthodes bases sur les caractres qui s'intressent au nombre de mutations (substitutions / insertions
/dltions) qui affectent chacun des sites (positions) de la squence.
Ce sont des mthodes de reconstruction d'arbre phylogntique sans racine base sur la recherche d'OTU
(operationnal taxonomic units, le plus souvent quivalent une squence) les plus proches et ceci
chaque tape de regroupement.
Ces mthodes sont rapides et donnent de bons rsultats pour des squences ayant une forte similarit.
Programmes DNADIST et PROTDIST de Phylip
UPGMA (Unweight Pair Group Method with Arithmetic mean)
Cette mthode est utilise pour reconstruire des arbres phylogntiques si les squences ne sont pas trop
divergentes.
UPGMA utilise un algorithme de clusterisation squentiel dans lequel les relations sont identifies dans
l'ordre de leur similarit et la reconstruction de l'arbre se fait pas pas grce cet ordre.
Il y a d'abord identification des deux squences les plus proches et ce groupe est ensuite trait comme un
tout, puis on recherche la squence la plus proche et ainsi de suite jusqu' ce qu'il n'y ait plus que deux
groupes.
Exemple
On considre la matrice de distances associ un groupe de 6 OTUs
B
C
D
E
F
A
2
4
6
6
8
4
6
6
8
6
6
8
4
8
On clusterise tout d'abord les deux OTUs avec la distance la plus faible (A et B). Le point de branchement
est positionn la distance 2/2=1.
On peut alors construire le sous arbre suivant :
Dans la suite, le cluster (A,B) est considr comme un tout et on peut calculer une nouvelle matrice de
distance :
dist(A,B),C = (distAC + distBC) / 2 = 4
dist(A,B),D = (distAD + distBD) / 2 = 6
dist(A,B),E = (distAE + distBE) / 2 = 6
dist(A,B),F = (distAF + distBF) / 2 = 8
22/05/2016 08:37
Phylognie
6 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Cycle 1
Cycle 2
Cycle 3
Cycle 4
Cycle 5
A
2
4
6
6
8
B
C
D
E
F
C
D
E
F
C
D,E
F
MATRICE
A,B
4
6
6
8
4
6
6
8
6
6
8
4
8
6
6
8
4
8
A,B
4
6
8
D,E
F
AB,C
6
8
C
6
8
ARBRE
D,E
8
D,E
8
ABC,DE
8
F
Cette mthode conduit essentiellement unn arbre non enracin. Si on veut enraciner l'arbre, on peut
appliquer la mthode du "mid-point rooting" : la racine de l'arbre est quidistance de tous les OTUs soit
(ABCDE),F / 2 = 4
22/05/2016 08:37
Phylognie
7 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Cycle 1
Cycle 2
Cycle 3
Cycle 4
Cycle 5
A
5
4
7
6
8
B
C
D
E
F
B
D
E
F
B
D,E
F
MATRICE
A,C
4
7
6
8
7
10
9
11
7
6
8
5
9
A,C
6
6.5
8
D,E
F
10
9
11
5
8
AC,B
8
9.5
9.5
11
ARBRE
D,E
8.5
D,E
9.5
ABC,DE
9
F
Topologie Fausse !!
NJ(Neighbor-Joining)
Cette mthode dveloppe par Saitou et Nei (1987) tente de corriger la mthode UPGMA afin d'autoriser
22/05/2016 08:37
Phylognie
8 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
A
5
4
7
6
8
7
10
9
11
7
6
8
5
9
Etape 1 : calcul de la divergence de chacun des N OTUs par rapport aux autres (N= 6)
r (A) = 5+4+7+6+8 = 30
r(B) = 42
r(C) = 32
r(D) = 38
r (E) =34
r(F) = 44
Etape 2 : cacul de la nouvelle matrice en utilisant la formule
M(i,j) = d(ij) -[r(i) + r(j)] / (N-2)
ce qui donne pour la paire AB : M(AB) = 5 - [30 + 42] / 4 = -13
A
B
C
D
E
B -13
C -11.5 -11.5
D -10 -10 -10.5
E -10 -10 -10.5 -13
F -10.5 -10.5 -11 -11.5 -11.5
Ceci permet de construire l'arbre en toile suivant :
A
F
|
B
\
| /
\ | /
\ |/
22/05/2016 08:37
Phylognie
9 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
/|\
/ | \
/ | \
E
|
C
D
Etape 3 : Choix des plus proches voisins, c'est dire des deux OTUs ayant le M(i,j) le plus petit, donc soit
A et B soit D et E.
On prend A et B et on forme un nouveau noeud U et on calcule la longueur de la branche entre U et A
ainsi qu'entre U et B :
S (AU) = d (AB) / 2 + [r(A) - r(B)] / 2 (N-2) = 5/2 + [30-42] /2(6-4) = 1
S(BU) = d (AB) - S(AU) = 5 - 1 = 4
Etape 4 : on dfinit les nouvelles distances entre U et les autres OTUs
d (CU) = d(AC) + d (BC) - d(AB) / 2 = 3
d (DU) = d(AD) + d(BD) -d(AB) /2 = 6
d (EU) = d(AE) + d (BE) - d(AB) / 2 = 5
d (DU) = d(AF) + d(BF) -d(AB) /2 = 7
cration d'une nouvelle matrice :
C
D
E
F
U
3
6
5
7
7
6
8
5
9
22/05/2016 08:37
Phylognie
10 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Si le temps de divergence entre deux squences augmente, la probabilit d'avoir une seconde mutation a
un site augmente galement. Ceci fait que le simple comptage des diffrences entre deux squences n'est
pas le reflet exact de la ralit mais sous-estime le nombre d'vnements mutationnels. On tente de
corriger ce biais en faisant des hypothses sur la faon dont les bases ou acides amins se sont subsitus
un locus donn. Les premiers avoir proposs une solution ce problme sont Jukes et Cantor en 1969.
Types de substitutions
On distingue diffrents types de substitution suivant les bases impliques.
Transitions :
A <-> G, C <-> T
Transversions :
A <-> C, A <-> T,
G <-> C, G <-> T
Lorsque l'on compare deux squences, on diffrencie aussi les substitutions selon leur ordre et leurs
consquences.
Substitution unique
Squence Squence
1
2
C
Substitutions
A
multiples
Substitutions
coincidentes au mme C -> A
site
Substitutions
T -> A
parallles
C -> T ->
Substitutions
convergentes
A
C -> T ->
Substitutions reverses
C
C -> A
A -> C ->
T
Nb de
substitutions
observes
1
Nb rel de
substitutions
1
C-> G
T -> A
C -> A
- Correction de Jukes et Cantor (1969) : On fait l'hypothse que tous les sites sont quivalents (tous les
changements ont une probabillit gale mais elle varie au cours du temps), qu'il n'y a pas de biais dans la
direction du changement et qu'il n'y a eu ni insertions ni dltions. C'est l'hypothse la plus simple,mais pas
forcment la plus correcte.
22/05/2016 08:37
Phylognie
11 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
avec
et
Nb d'arbres
non
enracins
Nb d'arbres
enracins
possibles
22/05/2016 08:37
Phylognie
12 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
2
3
4
5
1
1
3
105
10 395
10
15
3
15
15
6
7
954
105
945
10 395
135 135
135 135
34 459 425
2.13 E15
8E21
34 459 425
2.13 E15
Exemple
Sequence 1 2 3 4 5 6 7 8 9
AAGAGTGCA
1
AGC CGTGCG
2
AGA TATCCA
3
AGAGATCCG
4
Pour 4 squences, il y a 3 arbres non enracins possibles. Ces trois arbres sont analyss (recherche de la
squence ancestrale et comptage du nombre de mutations)
(1) AAGAGTGCA
AGATATCCA (3)
\ 4
/ 2
\
4 /
AGCCGTGCG --- AGAGATCCG
/
\
/ 0
\ 0
(2) AGCCGTGCG
AGAGATCCG (4)
Nombre de mutations : 10
(1) AAGAGTGCA
AGCCGTGCG (2)
\ 1
/3
\
5
/
AGGAGTGCA --- AGAGGTCCG
/
\
/ 4
\1
(3) AGATATCCA
AGAGATCCG (4)
Nombre de mutations : 14
(1) AAGAGTGCA
AGCCGTGCG (2)
\ 1
/3
\
5
/
AGGAGTGCA --- AGATGTCCG
/
\
/ 5
\2
(4) AGAGATCCG
AGATATCCA (3)
Nombre de mutations : 16
L'arbre I est celui ncessitant le moins de mutations, c'est donc le plus parcimonieux.
Cette analyse prend en compte tous les sites des squences mais l'analyse peut galement se faire
uniquement sur les sites informatifs, c'est dire quand cette position il y a au moins 2 nuclotides
22/05/2016 08:37
Phylognie
13 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Nombre de mutations : 4
(1) GGA
GGG (2)
\1
/1
\
1
/
GGG - - - ACG
/1
\1
/
\
(3) ACA
ACG (4)
Nombre de mutations : 5
(1) GGA
ACA (2)
\2
/1
\
0
/
GGG - - - ACG
/1
\2
/
\
(4) ACG
ACA (3)
Nombre de mutations : 6
Dans le cas de 4 squences, un site informatif favorise seulement un arbre : le site 5 favorise l'arbre I plus
que les arbres II et III (il supporte l'arbre I). L'arbre le plus parcimonieux est celui qui est support par le
plus grand nombre de sites informatifs.
Le maximum de parcimonie recherche l'arbre optimal et dans ce processus, il est possible de trouver
plusieurs arbres optimaux (= arbres ex-aequo = configuration comptabilisant le mme nombre minimal de
substitutions ncessaires pour passeer d'une squence l'autre dans l'ensemble de l'arbre).
Afin de garantir de trouver l'arbre le meilleur possible, il faut faire une valuation de toutes les topologies
possibles mais cela devient impossible lorsque l'on a plus de 12 squences.
Branch and Bound : cette mthode est drive du maximum de parcimonie, elle garantit de trouver le
meilleur arbre mais sans valuer tous les arbres possibles. Elle permet de traiter un plus grand nombre de
22/05/2016 08:37
Phylognie
14 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Recherche heuristique : il y a un rarrangement des branches chaque tape, cette mthode ne garantit
pas de trouver l'arbre optimal.
Arbre consensus : comme la mthode du maximum de parcimonie peut conduire trouver plusieurs
arbres quivalents, on peut crer un arbre consensus (avec utilisation du bootstraping). Cet arbre
consensus est construit partir des noeuds les plus frquemment rencontrs sur l'ensemble des arbres
possibles.
G
G
G
A
C
A
G
G
T
A
A
T
j
C
C
A
22/05/2016 08:37
Phylognie
15 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
A partir des 4 squences ci-dessus, on veut estimer la probabilit que l'arbre A soit le bon, sous le modle
choisi.
(1)
(2)
\
/
\
/
---------Arbre A
/
\
/
\
(3)
(4)
La vraissemblance de l'arbre est en gnral indpendante de la position de la racine, on peut donc
l'enraciner de manire arbitraire :
1
2 3
4
\ /
|
/
\/
|
/
\
| /
\ | /
\ |/
ACGT ?
La vraissemblance au site j :
C
C A
G
\ /
|
/
\/
|
/
ACGT? |
/
\
| /
\ | /
\ |/
ACGT ?
La vraissemblance pour un site j est la somme des probabilits de toutes les possiblits de reconstruction
de l'tat ancestral sous le modle choisi.
La vraissemblance de l'arbre A est en gnral value en sommant les logs des vraissemblances pour
chaque site (la somme des probabibilits est trop faible).
L'arbre du maximum de vraissemblance est celui avec la vraissemblance la plus leve.
22/05/2016 08:37
Phylognie
16 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Il faut savoir que plus on introduit de paramtres, plus le calcul sera long et plus il y aura une
accumulation de petites erreurs : il vaut mieux utiliser un modle simple.
Le maximum de vraissemblance est une bonne mthode de reconstruction phylogntique mais il faut que
le modle de dpart corresponde bien aux donnes. Pour estimer les paramtres, on peut utiliser une
mthode plus rapide et utiliser l'arbre obtenu pour fixer les paramtres de dpart.
Cette mthode n'est utilisable que si on a un petit nombre de squences.
Quand on a obtenu un arbre, il faut ensuite valuer la confiance que l'on peut avoir dans cet arbre. Pour
cela plusieurs mthodes sont disponibles.
Le bootstrap
Cette mthode, partant du postulat que les caractres voluent de manire indpendante, est sans doute la
plus utilise en phylognie. Elle a t invente par Bradley Efron en 1979 et introduite en phylognie par
Felsenstein en 1985 dans le package Phylip.
Cette mthode peut tre divise en 3 tapes ralises chacune au moins 100 fois:
- Ralisation d'un pseudo-alignement A' partir des squences d'origine en prenant arbitrairement n
colonnes (avec remplacements) de l'alignement d'origine.
- Estimation de l'arbre obtenu : T'.
- Comparaison des arbres T et T' : pour chaque sous-arbre de T, on regarde s'il est prsent dans T'.
On compte ensuite pour chaque sous-arbre le nombre de fois o il est prsent dans les T'. Cette frquence
avec laquelle on retrouve un sous-arbre est la valeur de bootstrap (plus elle est leve plus la fiabilit de la
branche est importante).
22/05/2016 08:37
Phylognie
17 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
Delete-half-Jackknifing :
Cette mthode, prne par Wu (1986) r-chantillonne la moiti des sites des squences et limine le
reste. Cette mthode donne des rsultats trs similaire ceux obtenus par bootstrap.
Permutation :
Cette mthode introduite par Archie (1989) et Faith (1990, Faith et Cranston 1991)est base sur la
permutation des colonnes de la matrice. Ce la produit des matrices ayant le mme nombre de colonnes, les
mmes caractres mais qui n'ont plus de structure taxonomique. Cette mthode est utilise dans un but
diffrent par rapport au bootstrap : elle teste l'hypothse qu'il y a bien une taxonomie dans les donnes
actuelles.
Le plus souvent, les mthodes de reconstruction phylogntiques aboutissent des arbres non enracins.
Pour enraciner un arbre, on peut ajouter une squence dont on sait qu'elle est beaucoup plus ancienne que
toutes les autres squences.
Cependant , il ne faut pas que la squence choisie pour enraciner l'arbre soit
- trop loigne des autres donnes. En effet, cela peut conduire des erreurs dans la topoolgie de l'arbre.
- soit trop proche des squences car dans ce cas, cela n'est peut-tre pas un vrai "outgroup".
L'utilisation de plus d'un "outgroup" amliore en gnral l'valuation de l'arbre.
Enfin, en l'absence d'un bon "outgroup", la racine peut tre positionne approximativement gale
distance de toutes les squences : on parle alors de mid-point rooting.
La topologie des arbres est soumise de nombreuses variations et dpendent :
- de la nature des squences utilises (acides nucliques ou protines)
- de la mthode utilise (mthodes de distances ou parcimonie)
- de la qualit de l'alignement
- du nombre de squences incluses dans l'alignement
- de l'ordre des squences dans l'alignement
- du choix de la racine.
3.Rcapitulatif
22/05/2016 08:37
Phylognie
18 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
METHODES SEQUENCES
Distances
Trs proches
AVANTAGES
Rapides
Faciles mettre en
oeuvre
Il vaut m
Neigbor-jo
DNAdist
qu'UPGM
Nj autoris
FITCH
diffren
Protdist
KITSCH
d'introduir
Parcimonie
Relativement
loignes
Evaluation de diffrents
arbres
Essaie de donner des
informations sur les
squences ancestrales
Robuste
ML
loignes
taux de
transisitions/transversions
diffrents
Estimation de la longueur
des branches de l'arbre
final
Lente
Inutilisable lorsque
l'on a un grand
nombre de
squences
On peut o
plusieurs a
quivalen
dans ce c
choix de
par rappor
autres peu
DNApars
PROTpars
Lente
Inutilisable lorsque
l'on a un grand
nombre de
squences
FastDnaml
III. CONCLUSION
L'tude de la phylognie est un vaste domaine et quelque soit la mthode utilise, des hypothses trs
simplificatrices sont faites sur l'volution biologique des squences. Actuellement, pour reconstruire une
bonne phylognie, la qualit et le nombre des donnes provoquent plus de variations au sein d'un arbre
qu'un changement de mthode.
Pour construire de bons arbres, il faut :
- Avoir le plus grand nombre de gnes homologues possibles
- Aligner les squences trs soigneusement
- Eliminer les rgions ambigues, les rgions hypervariables, les gaps des alignements
- Utiliser si possibles plusieurs mthodes de reconstruction, prendre NJ plutt que UPGMA (le neighborjoining autorise des taux de mutations diffrents sur les branches) et incorporer des biais dans les taux de
mutations / substitutions.
22/05/2016 08:37
Phylognie
19 sur 19
http://www.info.univ-angers.fr/~gh/Idas/Wphylog/infobiogen/phylogenie.htm
IV. BIBLIOGRAPHIE
Divers documents html sur l'analyse de squences (Fred Opperdoes)
Cours d'analyse de squences (Daniel Gautheret)
Site sur l'volution
Estimating Phylogenetic Trees
Maximum Likelihood
Phylip Home Page
22/05/2016 08:37