Cours 2-Alignement de Sequence 2019
Cours 2-Alignement de Sequence 2019
Cours 2-Alignement de Sequence 2019
biomolécules
Dr. SADAOUI. N
Dr. KHEMILI. S
sadaouinesrine@hotmail.com
Alignement de séquences
Utilité de l'alignement:
- Identifier des sites fonctionnels.
- Prédire la ou les fonctions d'une protéine.
- Prédire la structure secondaire (voire tertiaire ou quaternaire) d'une protéine.
- Établir une phylogénie (évolution: parenté entre les organismes).
Alignement de séquences
• Sa composition;
• La localisation de patterns (motifs);
• Le profil de propriétés telle l’hydrophilicité ou l’hydrophobicité (dans le cas des
protéines).
• Les répétitions;
• Les motifs particuliers.
• Étude phylogénétique.
• Étude comparative des génomes.
• Prédiction de gène.
• Prédiction de la structure 2D/3D des protéines.
• Caractérisation de la fonction des protéines.
• Prédiction de la structure et fonction des ARN.
• Réseaux d’interaction
• Génétique (différence entre génotype et phénotype).
• Découverte et conception de médicaments.
Alignement de séquences
Substitution (Mismatch)
Insertion
(Indels ou gaps)
Délétion
Le score d'un alignement par paires A(S1,S2) est donné par une formule w de somme des
paires :
Mismatch: -1
Match : 2
Indel: -2
Alignement de séquences
Matrices de substitution
Matrices nucléiques: Il existe peu de matrices pour les acides nucléiques car il n'y a que
5 lettres pour leur alphabet.
La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les
bases sont considérées comme équivalentes.
Match : 1
Mismatch: 0
Indel: 0
Les matrices
% Identité
Quantité qui se mesure en % d’acides aminés identiques entre 2 séquences (après alignement
des séquences).
%Similarité
Quantité qui se mesure en % d’acides aminés ressemblants entre 2 séquences
Homologie
2 protéines sont homologues si elles ont un ancêtre commun .
Paralogues: Séquences homologues qui ont évoluées par duplication .
Orthologues: Gènes homologues qui ont divergé suite à la spéciation (à la séparation d’une
espèce en deux espèces différentes) .
Il est possible d’observer la ressemblance résiduelle entre les séquences originelles après
l’évolution, ce qui permet d’inférer l’homologie.
En général, pour des séquences de longueur standard, on peut inférer l’homologie entre 2
protéines si leurs séquences présentent 30% ou plus d’identités résiduelles mais…
Il existe des séquences homologues avec moins de 30% d’identité.
Homologie - Paralogues – Orthologues
Analogie
Les algorithmes d’alignement
Algorithme de Needleman et Wunsch
• 1970 :A general method applicable to the search for similarities in the amino acid
sequence of two proteins, J Mol Biol. 48 4488 48(3):443-453
• Algorithme général de comparaison globale de séquences
• Accord maximum = le plus grand nombre de résidus d’une séquence qui peut
correspondre à une autre séquence en autorisant des gaps.
-Toutes les paires possibles (base ou aa) sont présentés sous forme d’un tableau 2D
-Tous les alignements sont représentés par des chemins dans le tableau.
Alignement multiple de séquences pourquoi faire?
Multalin
Muscle 3.8
T-Coffee
MAFFT 7.023