Cours 2-Alignement de Sequence 2019

Télécharger au format pptx, pdf ou txt
Télécharger au format pptx, pdf ou txt
Vous êtes sur la page 1sur 19

Alignement des séquences de

biomolécules

Dr. SADAOUI. N
Dr. KHEMILI. S
sadaouinesrine@hotmail.com
Alignement de séquences

Alignement de séquences d'ADN (ou d’acides aminés) :


Opération de base en bio-informatique qui a pour but d'identifier des zones identiques,
similaires et conservées entre séquences.

Utilité de l'alignement:
- Identifier des sites fonctionnels.
- Prédire la ou les fonctions d'une protéine.
- Prédire la structure secondaire (voire tertiaire ou quaternaire) d'une protéine.
- Établir une phylogénie (évolution: parenté entre les organismes).
Alignement de séquences

L’analyse de la séquence seule peut indiquer:

• Sa composition;
• La localisation de patterns (motifs);
• Le profil de propriétés telle l’hydrophilicité ou l’hydrophobicité (dans le cas des
protéines).

La comparaison avec elle-même peut indiquer:

• Les répétitions;
• Les motifs particuliers.

La comparaison avec d’autres séquences peut indiquer:

• Les relations suite à l’evolution (homologie).


Applications de l’alignement

• Étude phylogénétique.
• Étude comparative des génomes.
• Prédiction de gène.
• Prédiction de la structure 2D/3D des protéines.
• Caractérisation de la fonction des protéines.
• Prédiction de la structure et fonction des ARN.
• Réseaux d’interaction
• Génétique (différence entre génotype et phénotype).
• Découverte et conception de médicaments.
Alignement de séquences

 On distingue 2 types d'alignements qui diffèrent suivant leur complexité :


L'alignement par paires: Consiste à aligner deux séquences au même temps. Il est
possible de réaliser un alignement :
Global: on tente d’identifier des similarités sur la longueur totale des séquences.
Local: on tente d’identifier des similarités entre une séquence et une sous-séquence.

L'alignement multiple: C’ est un alignement global : consiste à aligner plus de 2 séquences


et nécessite un temps de calcul et un espace de stockage exponentiel en fonction de la taille
des données.

 Alignement de genres différents :


Alignement de séquences d’ADN

Alignement de séquences d’acides aminés


Alignement de séquences

 Alignement= Mise en correspondance de deux séquences (ADN ou protéines)

 Il existe 3 événements mutationnels élémentaires :

Substitution (Mismatch)
Insertion
(Indels ou gaps)
Délétion

 Score d'une opération

• Substitution : score de similarité


• Indel : pénalité

Le score de l'alignement est la somme des scores élémentaires

Score = Score Identités + Score Différences


Somme des paires

Le score d'un alignement par paires A(S1,S2) est donné par une formule w de somme des
paires :

 Exemple (Mismatch: -1, Match: 3, Indel: -2):


Alignement de séquences

2 séquences plusieurs alignements possibles

Bon/mauvais alignement ? matrices de substitutions


Exemple :

Mismatch: -1
Match : 2
Indel: -2
Alignement de séquences

Matrices de substitution

Matrices nucléiques: Il existe peu de matrices pour les acides nucléiques car il n'y a que
5 lettres pour leur alphabet.
La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où toutes les
bases sont considérées comme équivalentes.
Match : 1
Mismatch: 0
Indel: 0
Les matrices

Les matrices des acides aminés sont beaucoup plus complexe !


Pam (Point Accepted Mutation) [1978], Blosum (BLOck SUbstitution Matrices )[1992],
Gonnet [1992]…
Basées sur: le nombres de mutations nécessaires pour changer d’acide aminé, propriétés
physico-chimiques, évolution…

Relations entre matrices


• Séquences peu divergentes : BLOSUM80, PAM1.
• Séquences très divergentes : BLOSUM45, PAM250.
• En général : BLOSUM62, PAM120.
• Séquences courtes PAM30 (< 35 AA), PAM70 (< 50 AA).
%Identité - %Similarité - Homologie

% Identité
Quantité qui se mesure en % d’acides aminés identiques entre 2 séquences (après alignement
des séquences).
%Similarité
Quantité qui se mesure en % d’acides aminés ressemblants entre 2 séquences
Homologie
2 protéines sont homologues si elles ont un ancêtre commun .
Paralogues: Séquences homologues qui ont évoluées par duplication .
Orthologues: Gènes homologues qui ont divergé suite à la spéciation (à la séparation d’une
espèce en deux espèces différentes) .
Il est possible d’observer la ressemblance résiduelle entre les séquences originelles après
l’évolution, ce qui permet d’inférer l’homologie.
En général, pour des séquences de longueur standard, on peut inférer l’homologie entre 2
protéines si leurs séquences présentent 30% ou plus d’identités résiduelles mais…
Il existe des séquences homologues avec moins de 30% d’identité.
Homologie - Paralogues – Orthologues
Analogie
Les algorithmes d’alignement
Algorithme de Needleman et Wunsch
• 1970 :A general method applicable to the search for similarities in the amino acid
sequence of two proteins, J Mol Biol. 48 4488 48(3):443-453
• Algorithme général de comparaison globale de séquences

• Maximise un score de similarité => Accord maximum


ou
• Différence minimale (ou minimise les différences)

• Accord maximum = le plus grand nombre de résidus d’une séquence qui peut
correspondre à une autre séquence en autorisant des gaps.

• Trouve l’alignement optimal entre 2 séquences.

• Calcul itératif d’une méthode matricielle qui calcule:

-Toutes les paires possibles (base ou aa) sont présentés sous forme d’un tableau 2D
-Tous les alignements sont représentés par des chemins dans le tableau.
Alignement multiple de séquences pourquoi faire?

 Choix de « primers » consensus pour la PCR

 Caractériser une nouvelle famille de protéines

 Détecter une homologie entre différentes protéines

 Établir une phylogénie

 Détecter des résidus identiques ou similaires ayant un rôle fonctionnel ou


structural

 Prédictions de structures secondaires


Programmes d’alignement multiple

ClustalW (Bien mais lent 20 sec)

ClustalO (Le plus récent de la série)

Multalin

Muscle 3.8

T-Coffee

MAFFT 7.023

Vous aimerez peut-être aussi