1 - Introduction À La Génomique
1 - Introduction À La Génomique
1 - Introduction À La Génomique
Introduction à la génomique
Définitions
La génomique est la science qui étudie les génomes complets.
Elle vise à faire l'inventaire des gènes, les localiser, caractériser leur séquence et étudier leur
fonction. Elle permet également l’analyse de la structure physique du génome.
On ne peut séparer les deux disciplines, car la quantité d'information qui doit
être traitée par la génomique requiert l'utilisation de machines et donc d’outils
bioinformatiques.
Introduction à la génomique
Historique
L'essor de cette discipline a été facilité par le développement des techniques de séquençage des
génomes et la bio-informatique.
•En 1972, le premier véritable séquençage d'un génome est publié, avec la lecture de la séquence
ARN du gène du virus bactériophage MS2.
•En 1995, pour la première fois, la séquence complète du génome d’une cellule vivante a été
déterminée. Il s’agissait d’Haemophilus influenzae.
•A la fin du 20ème siècle, cette discipline a été très médiatisée grâce notamment à la compétition
entre plusieurs équipes pour finaliser le séquençage du génome humain et publier les résultats.
•En 2001, la séquence « brute » du génome humain a été publiée.
•Depuis, un nombre croissant de génomes complets sont séquencés chez des espèces vivantes
très différentes : le ver Caenorhabditis elegans en 1998, la mouche drosophile et la plante
Arabidopsis thaliana en 2000 ou encore, le chien en 2005. En septembre 2007, une équipe menée
par le biologiste et entrepreneur Craig Venter a publié le premier génome complet d'un individu
qui se trouve être Craig Venter lui-même. Le génome du codécouvreur de la structure de l'ADN
et ancien directeur du Projet génome humain, James Watson, a aussi été séquencé dans son
intégralité à la même période.
Introduction à la génomique: Suite Historique
La biologie moléculaire est donc entrée depuis 1995 dans l’ère de la génomique : on dispose
maintenant de l’information génétique exhaustive sur un nombre croissant d’organismes vivants
et il est aujourd’hui possible d’aborder de manière globale un certain nombre de problèmes
complexes dont on n’avait jusqu’à présent qu’une connaissance fragmentaire : voies
métaboliques, interaction de la cellule avec l’extérieur, mécanismes globaux de régulation et de
contrôle.
Introduction à la génomique
Génomique
Analyse globale du génome d’un organisme (gènes et
régions intergéniques)
Séquençage
•Une manipulation de séquençage ne peut pas déterminer plus de 500 à 1.000 nucléotides
à la suite. C’est très peu par rapport à un chromosome entier !
•Besoin de couper les chromosomes en fragments puis de les reconstituer
• Il peut y avoir des erreurs de lecture
•Oubli d’un nucléotide
• Inversion de l’ordre des nucléotides, …
Il est donc nécessaire de séquencer plusieurs fois un fragment pour obtenir une
séquence fiable
Introduction à la génomique
Après extraction et purification de l’ADN, celui-ci est fragmenté par sonication: Librairie de
fragments
Les extrémités adhésives sont transformées en coupures franches à l’aide d’exonucléases, des
groupements phosphates y sont ajouté et enfin, des nucléotides A sont ajoutés.
Ligation à deux différents adapteurs suite à une amplification : le brin sens avec un type
d'adaptateur A, le brin anti-sens avec un adaptateur B.
Introduction à la génomique: suite Le séquençage de nouvelle
génération Principe Technologie Illumina
•Les adaptateurs contiennent dans les deux sens: un site de liaison des primers, un indexe et
une région complémentaires aux sondes de la cellule en verre
Introduction à la génomique: suite Le séquençage de nouvelle
génération Principe Technologie Illumina
2- Génération des clusters par bridge PCR:
•L’étape permettant la génération des clusters est l’étape ou chaque fragment est amplifié de
manière isothermale.
•Le système permettant la génération de ces clusters est muni de plaques de verres constitués
de microsillons.
•The flow cell: est la plaque en verre partagée en lignes (sillons). Chacun des sillons contient
deux types d’oligonucléotides A’ et B’.
•L’hybridation est possible grâce à ces deux types d’oligonucléotides qui sont complémentaires
aux adaptateurs A et B.
Introduction à la génomique: suite Le séquençage de nouvelle
génération Principe Technologie Illumina
RMQ: Le séquençage est réalisé dans un sens pour tous les fragments puis grâce à l’indexe 2
dans l’autre sens de la même manière.
(voir vidéo illumina https://www.youtube.com/watch?v=womKfikWlxM)
Introduction à la génomique: suite Le séquençage de nouvelle
génération Principe Technologie Illumina
Analyse des données de séquençage
•Les données brutes générées par séquençage sont traitées pour la vérification de la qualité
du séquençage.
•Par la suite, il est important de trouver le bon alignement des séquences.
•L’étape de post-alignement consiste en la suppression des erreurs dues aux étapes
d’amplification et au réalignement afin d’arriver à un alignement le plus fin possible.
•L’étape de variants calling consiste à identifier les variations de l’échantillon par rapport à
la séquence de référence.
•L’annotation fonctionnelle est une étape cruciale permettant la distinction entre une
variation génétique pathologique ou non pour la priorisation des variations (sélection de
variations candidates).
•Dans cette dernière étape (priorisation), il est important d’utiliser les informations sur les
variants et la pathologie pour classer les variations.
Introduction à la génomique: suite Le séquençage de nouvelle
génération
Comparaison des trois méthodes de séquençage à haut débit les plus
employées
Introduction à la génomique
Grace au "whole-genome random sequencing” Craig Venter et ces collaborateurs ont publié, en
1995, le premier génome séquencé dans sa totatilé qui est celui de la bactérie Haemophilus
influenzae Rd.
Ce séquençage a démontré pour la première fois que le shotgun randomisé pouvait être appliqué
pour le séquençage de génomes entiers de manière rapide et efficace.
Assemblage final
Il reste à ordonner et orienter les contigs.
Difficulté :
- Présence de répétitions dans les génomes qui peuvent conduire à assembler des contigs
provenant de régions distantes du chr.
- Présence de « trous » qui sont comblés par un séquençage ciblé.
- Correction des erreurs.
• 2 ans d’avance sur le calendrier initial grâce aux progrès des techniques de séquençage.
• Séquençage de 5 autres « équivalents génomiques ».
• Taux d’erreurs d’un nucléotide tous les 10.000.
• Travail focalisé sur les trous résiduels
• Il en reste moins de 400
• 2,9 milliards de nucléotides, soit 90% des 3,2 milliards de nucléotides de l'ensemble du
génome humain.
• Le reste du génome est constitué de séquences répétées (notamment au niveau des
centromères et télomères)
Introduction à la génomique: suite Approche de séquençage de
génomes entiers
Principe du séquençage du génome humain: méthode du consortium
Introduction à la génomique: suite Approche de séquençage de
génomes entiers
Principe du séquençage du génome humain: méthode du consortium
Introduction à la génomique: suite Approche de séquençage de
génomes entiers
Principe du séquençage du génome humain: méthode du consortium
Introduction à la génomique: suite Approche de séquençage de
génomes entiers
Pourquoi séquencer des génomes
•Intérêt économique
Médecine
Biotechnologies
Environnement
• Intérêt scientifique
Evolution des espèces
Fonctionnement des
cellules
Etude des êtres vivants
• Utilité publique
Nutrition
Propagation des maladies
Environnement
Introduction à la génomique: suite Approche de séquençage de
génomes entiers
Bilan des projets génome en 2016
Genome online database: https://gold.jgi.doe.gov/