Bioinformatique 3ème Licence Microbiologie 27 05 2018
Bioinformatique 3ème Licence Microbiologie 27 05 2018
Bioinformatique 3ème Licence Microbiologie 27 05 2018
NOTES DE COURS
La bioinformatique est l'approche « in silico » de la biologie qui consiste en une analyse informatisée
des données biologiques en utilisant un ensemble de moyens :
• Acquisition et organisation des données biologiques ;
• Conception de logiciels pour l'analyse, la comparaison et la modélisation des données ;
• Analyse des résultats produits par les logiciels.
4. Rappel
4.1. La cellule
C’est l'unité biologique structurelle et fonctionnelle fondamentale de tous les êtres vivants connus. C'est
la plus petite unité vivante capable de se reproduire de façon autonome. La science qui étudie les cellules
est appelée biologie cellulaire.
4.3. L’ADN
4.4. Le gène
Un gène, est une unité de base d'hérédité qui en principe prédétermine un trait précis de la forme d'un
organisme vivant (phénotype). Au point de vue physique, un gène est un fragment déterminé d'une
séquence d'ADN.
Un gène permet la synthèse d'un ARN donné, en prédéfinissant sa structure et, donc, celle de l'éventuelle
protéine ou de l'éventuel polypeptide synthétisés à partir de cet ARN : c'est ce qu'étudie la biologie
moléculaire.
Sur la molécule d'ADN, un gène est caractérisé à la fois par sa position et par l'ordre de ses bases azotées.
Il s'agit d'un langage codé en "séquence de bases". On dit ainsi que l'ADN est le support de l'information
génétique
4.5. Le génome
C’est l'ensemble du matériel génétique d'une espèce codé dans son (ADN) à l'exception de certains
virus dont le génome est constitué d'ARN. Il contient en particulier tous les gènes codant des protéines
ou correspondant à des ARN structurés. Il se décompose donc en séquences codantes (transcrites en
ARN messagers et traduites en protéines) et non codantes (non transcrites, ou transcrites en ARN, mais
non traduites).
Le génome est constitué d’un ou plusieurs chromosomes dont le nombre total dépend de l'espèce
considérée, chaque chromosome étant constitué d'une unique molécule d'ADN, linéaire chez les
eucaryotes et le plus souvent circulaire chez les procaryotes. Chaque chromosome peut être présent
en un ou plusieurs exemplaires, le plus souvent deux chez les espèces sexuées, l'un d'origine maternelle
et l'autre d'origine paternelle (organisme diploïde).
5
4.6. La génomique
C’est une discipline de la biologie moderne. Elle étudie le fonctionnement d'un organisme, d'un organe,
d'un cancer, etc. à l'échelle du génome, au lieu de se limiter à l'échelle d'un seul gène.
4.7. Le génome des procaryotes
Le matériel génétique des bactéries n'est pas organisé de la même façon que chez les eucaryotes.
Toutefois, les gènes bactériens sont disposés linéairement sur le chromosome. Les procaryotes possèdent
en général un seul chromosome circulaire, en exemplaire souvent unique. Néanmoins, il a été montré
que certaines bactéries ont un chromosome linéaire ou plusieurs chromosomes circulaires et linéaires.
En plus les procaryotes possèdent de l'ADN sous forme extra-génomique. Il s'agit d'une petite molécule
circulaire d'ADN, appelée plasmide, capable de se répliquer indépendamment du chromosome.
4.8. Le génome des eucaryotes
Chez les eucaryotes, les génomes sont en fait visualisés comme des structures filamenteuses, non
circulaires, situées majoritairement dans le noyau, et qui peuvent présenter des configurations variables
suivant le cycle cellulaire (cf. mitose). Il existe également des chromosomes mitochondriaux et
chloroplastiques qui sont pour la plupart circulaires. Ceux-ci sont plus petits que les chromosomes
nucléaires et ne présentent pas d'aspect filamenteux. Les gènes présents sur ces chromosomes extra-
nucléaires ne suivent pas les lois de la transmission mendélienne.
Consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné.
5.2. Pourquoi séquencer l’ADN (ou bien les génomes) ?
- Etudier des gènes (et leurs fonctions) connaitre leur séquence, c’est-à-dire, « le texte » (la chaîne
de nucléotides) qui la compose.
- Intérêt scientifique (étudier l’évolution des espèces, le fonctionnement des cellules, la biodiversité)
- Intérêt économique (Médecine, Biotechnologies, Ecologie)
- Utilité publique (Nutrition, Nouveaux traitement pour les maladies)
5.3. Développement du séquençage de l’ADN
- 1977 : F. Sanger met au point la méthode de Sanger pour établir le séquençage de l’ADN.
- 1980 : Création de la banque EMBL
- 1984 : Développement de la réaction de polymérisation en chaîne (PCR) par Mullis.
- 1987 : Réalisation et commercialisation du 1er séquenceur automatisé par la société Applied
Biosystems (Californie, USA).
5.4. Les techniques de séquençage
La détection en temps réel de molécules SMRT® permet d'obtenir plusieurs milliers de bases de
séquence par molécule, et ainsi d'étudier ou de résoudre la structure de gènes complexes ou de génomes
entiers.
7
Tableau. Comparaison des 4 principales techniques de séquençage
Nombre de
Techniques Longueur de la nucléotides lus Prix approximatif
Principe de
Technique Banque d’amplification lecture par par Mpb (en
séquençage
de la banque (Nucléotides) expérimentation euros)
(en Mpb)
Synthèse
Fragments
Technique de enzymatique en
d'ADN
Sanger sur un Multiplication présence
double brin
séquenceur bactérienne ou d'inhibiteurs Jusqu'à 800 0,096 5000
dans un
automatisé (96 PCR standard d'élongation, les
vecteur
réactions) ddNTP et
réplicatif
électrophorèse
Synthèse
Fragments
enzymatique et
d'ADN
Pyroséquençage suivi du relargage
simple brin PCR en
sur une du pyrophosphate 200-300 80-120 75
ligaturés émulsion
plateforme FLX généré lors de
avec des
l'incorporation
adaptateurs
d'un nucléotide
Synthèse
enzymatique,
Fragments
inhibition
d'ADN
réversible de
Technique simple brin PCR par
l'élongation et 30-40 1000 5
Solexa/Illumina ligaturés pontage
suivi de la
avec des
fluorescence du
adaptateurs
nucléotide
incorporé
Fragments Hybridation /
d'ADN ligature d'amorces
Technique simple brin PCR en et suivi de la
35 1000-3000 5
SOLiD ligaturés émulsion fluorescence des
avec des oligonucléotides
adaptateurs hybridés
8
5.5. Comment séquencer un génome ?
L’acquisition des données se fait grâce aux techniques du séquençage. Mais ces dernières n’autorisent
la lecture que de séquences relativement courtes (jusqu’à 800 paires de bases avec la technique de
Sanger). Donc l’obtention du génome se fait par séquençage de fragments du génome qui se chevauchent
(extrémité ayant la même séquence) et réassemblage des fragments grâce à un programme informatique.
5.6. Principe du séquençage d’un génome entier
9
6. L’annotation des génomes
Une succession brute de nucléotides n'a aucun sens. L'annotation est le travail d'analyse qui permet
d'expliquer ou de proposer des hypothèses pour les propriétés biologiques d'un génome.
Pour cela, il faut rechercher les objets génétiques présents dans le génome puis essayer de leur attribuer
des fonctions. Ainsi, l'annotation est l'antichambre de l'expérimentation ; elle conduit à élaborer des
protocoles expérimentaux qui valident ou invalident la fonction supposée de l'objet biologique.
Classiquement, on distingue trois étapes principales dans le processus d'annotation d'un génome :
- L’annotation syntaxique : c'est l'étape qui permet d'identifier les objets génétiques présentant une
pertinence biologique (séquences codantes, ARN, séquences répétées, etc.).
- L’annotation fonctionnelle : c'est l'étape qui permet de prédire les fonctions potentielles des objets
génétiques préalablement identifiés (similitudes de séquences, motifs, structures, etc.) et de collecter
d'éventuelles informations expérimentales (littérature, jeux de données à grande échelle) ;
- L’annotation relationnelle : c'est l'étape qui permet de déterminer les interactions que les objets
biologiques préalablement identifiés sont susceptibles d'entretenir (familles de gènes, réseaux de
régulation, réseaux métaboliques, etc.).
6.1. Annotation syntaxique : la recherche d'objets génétiques
La recherche d'objets génétiques passe principalement par la recherche de gènes au sens large, c'est-à-
dire, toute séquence qui, transcrite et/ou traduite, peut avoir un rôle dans le fonctionnement biologique
de la cellule. Cela recouvre donc les séquences codantes (Coding Sequence) ou CDS en anglais, c'est-
à-dire séquences traduites en protéines), les ARN non traduits (ARN de transfert ou ARNt, ARN
ribosomaux ou ARNr, petits ARN, ARN interférents, etc.).
- Les génomes procaryotes sont plus petits que les génomes eucaryotes et ont surtout une densité de
codage bien plus importante, de l'ordre de 80-90 %, tandis qu'elle peut aller de 70% chez la levure à
quelques pourcentages chez l'humain ;
- Les gènes procaryotes sont fréquemment organisés en opéron, c'est-à-dire qu'une seule unité de
transcription peut contenir plusieurs séquences codantes ;
- Les gènes procaryotes ne sont pas morcelés1 contrairement à ceux des eucaryotes.
6.1.2. ORF et CDS chez les procaryotes
La phase ouverte de lecture (ORF, Open Reading Frame en anglais) est la région de l'ADN qui sépare
deux codons de terminaison de la traduction (donc potentiellement codante). Dans celle-ci, une séquence
codante (CDS) débute toujours par un codon d'initiation de la traduction et se termine toujours par un
1
Qualifie un gène constitué d'une alternance de séquences codantes (les exons) et non codantes (les introns).
10
codon de terminaison de la traduction. Par abus de langage, la séquence codante est parfois appelée
ORF.
- Le codon universel d'initiation de la traduction ou codon « Start » est le codon ATG. Néanmoins,
chez les procaryotes il existe des codons « Start » plus rares tels les codons GTG et TTG. Les
codons de terminaison de la traduction ou codon « Stop » sont les codons TAA, TAG et TGA. Chez
les procaryotes, chaque séquence codante s'appelle un cistron. Beaucoup d'ARN messagers
procaryotes sont polycistroniques : ils contiennent plusieurs cistrons ou CDS et codent donc pour
plusieurs protéines
6.1.3. Le site de liaison au ribosome (Ribosome Binding Site ou RBS en anglais)
Le site de liaison au ribosome, est une séquence qui se situe entre 3 à 10 nucléotides en amont du codon
« Start ». C'est une région riche en purine de 5-6 nucléotides qui permet au ribosome de se fixer
spécifiquement sur les AUG correspondant à un véritable codon « Start ».
6.1.4. Le promoteur
La région promotrice est la séquence reconnue spécifiquement par le complexe entre l'ARN polymérase
(enzyme qui assure la transcription de l'ADN) et le facteur sigma (facteur protéique qui assure la
spécificité de l'initiation de la transcription).
6.1.5. Le terminateur de transcription
C’est une séquence grâce à laquelle le complexe de transcription va se désassembler et ainsi terminer la
transcription. Les terminateurs sont des séquences palindromiques2 riches en GC suivies de séquences
riches en A ou non.
La détection d'un RBS, d'un promoteur ou d'un terminateur de transcription peut valider l'existence
d'une séquence codante (CDS) a posteriori. Néanmoins, leurs consensus sont trop faiblement conservés
pour qu'ils constituent des signaux fiables a priori. Donc il faut complété par l’annotation fonctionnelle.
2
Une séquence palindromique est une séquence d'acide nucléique — ADN ou ARN — identique lorsqu'elle est lue dans le
sens 5' → 3' sur un brin ou dans le sens 5' → 3' sur le brin complémentaire. Exemple :
5’-GAATTC-3’
3’-CTTAAG-5’
11
6.2. Annotation fonctionnelle : la recherche de fonctions potentielles
L'annotation fonctionnelle permet d'attribuer à des objets génomiques prédits par l'annotation
syntaxique des fonctions potentielles. L'annotation fonctionnelle est fondée sur la recherche de
similarité avec des séquences nucléotidiques, des séquences d'acides aminés ou éventuellement des
structures déjà décrites dans les bases de données.
En général, l'étape d'annotation s'effectue en deux étapes : une phase automatique qui s'effectue grâce à
des programmes informatiques de comparaison et une phase manuelle au cours de laquelle
l'annotateur peut corriger le cas échéant la première phase.
6.2.1. Les outils bioinformatique de comparaison de séquences
Les séquences peuvent être comparées avec des programmes comme FASTA (FAST-ALL) ou BLAST
(Basic Local Alignment Search Tool). Ces instruments de recherche de similarité reposent sur la notion
d'alignement local. Les algorithmes d'alignement local recherchent dans des paires de séquences des
régions isolées qui ont un haut degré de similitude. Nous décrirons ici l'usage du programme le plus
couramment utilisé (cité dans google scholar 68461 fois), BLAST (Altschul et al. 1990). L'utilisateur
fournit une séquence-requête qui est alors comparée à toutes les séquences d'une base de données
choisie. Différents sous-programmes existent selon la nature de la séquence-requête et des séquences de
la base de données
Nom du
Nature de la séquence-requête Nature des séquences des bases de données
programme
Blast ou Blastn Nucléotides Nucléotides
Blastp Acides aminés Acides aminés
Blastx Nucléotides traduits dans les 6 phases de lectures Acides aminés
Blastn Acides aminés Nucléotides traduits dans les 6 phases de lectures
Blastx Nucléotides traduits dans les 6 phases de lectures Nucléotides traduits dans les 6 phases de lectures
- Alignement multiple : Clustal, Muscle, Dialign, Multalign : alignement de plus de deux séquences
12
7. Les bases de données biologiques
Les bases de données biologiques sont des bibliothèques répertoriant des informations sur les sciences
de la vie collectées grâce à des expériences scientifiques, à la littérature publiée, aux technologies
expérimentales à haut débit, et aux analyses informatiques.
On peut chercher des similitudes entre l'objet génomique étudié et différentes bases de données.
Date de
Nom Lien Description
création
Swiss Prot https://expasy.org/ 1986 Séquences annotées & séquences codantes traduite de l'EMBL
13
7.1. Structuration des données : fichiers et formats
Les séquences sont stockées en général sous forme de fichiers texte qui peuvent être soit des fichiers
personnels (présents dans un espace personnel), soit des fichiers publics (séquences des banques)
accessibles par des programmes interfaces (tels que SRS, GCG, Entrez).
Le format correspond à l'ensemble des règles (contraintes) de présentation auxquelles sont soumises la
ou les séquences dans un fichier donné.
Le format permet :
Il existe plusieurs formats dont le plus courant est le format FASTA : La séquence, sous forme de
lignes de 80 caractères maximum, est précédée d'une ligne de titre (nom, définition ...) qui doit
commencer par le caractère ">". Plusieurs séquences peuvent être ainsi mises dans un même fichier.
14
8. Résumé de l’ensemble du travail réalisé en bioinformatique
15