These Nguyen Thien-An 2007 CEA-iBiTec-S
These Nguyen Thien-An 2007 CEA-iBiTec-S
These Nguyen Thien-An 2007 CEA-iBiTec-S
Cytochromes P450
Thien-An Nguyen
Les cytochromes P450 (CYP) sont des enzymes responsables de la biotransformation de composés exogènes,
aussi bien dans les phénomènes de détoxication que d’intoxication par formation d’entités réactives. La forme
hépatique humaine la plus abondante (CYP3A4) est responsable du métabolisme de plus de 60 % des
médicaments utilisés actuellement, entraînant de nombreuses interactions médicamenteuses indésirables. La
connaissance des mécanismes moléculaires de fonctionnement de ces CYPs au moyen de modèles prédictifs est
d’un intérêt primordial pour les industriels. L’obtention de ces modèles par modélisation comparative est
toutefois pénalisée par la dispersion en séquences dans cette superfamille.
Une méthode originale de reconstruction des CYPs basée sur l’identification au sein de cette famille des
blocs structuralement conservés (CSB) est proposée ici. Ces CSBs définissent un repliement commun aux CYPs
et sont considérés comme la signature structurale de la superfamille. Les CSBs sont codés en termes
d’informations statistiques (profile) puis alignés sur les séquences de CYP de structure inconnue, par un outil
d’alignement multiple (Caliseq) créé pour produire l’alignement multiple optimal pour les reconstructions par
modélisation comparative. Caliseq sert aussi à détecter des séquences originales de CYP dans une banque ou un
génome.
Le modèle structural obtenu permet de suggérer des mutations pour observer les modifications du
comportement de la protéine vis-à-vis de ses substrats spécifiques. Le cas du CYB2B6 est un exemple concret où
le modèle a suggéré des mutations permettant d’augmenter l’affinité de l’enzyme pour un substrat spécifique
utilisé en chimiothérapie.
Mots clef : Cytochrome P450, Modélisation comparative à bas taux d’identité, Génomique exploratoire à
partir de signature structurale, CYP2B6.
Abstract
Keywords: Cytochrome P450, low identity Homology Modeling, Genomic exploration using structural
signature, CYP2B6.
Table des matières
INTRODUCTION GENERALE 1
i
4 VOYAGE AU CENTRE DE CALISEQ 159
4.1 PRESENTATION DE L’OUTIL 160
4.2 FONCTIONNEMENT DE CALISEQ 160
4.3 LES DIFFERENTES EVOLUTIONS DE CALISEQ 163
4.4 CONCLUSION 172
RESULTATS 175
BIBLIOGRAPHIES 271
ANNEXES 289
ii
Abréviations et acronymes
iii
Introduction générale
1
3
En l’espace d’un demi-siècle, le Cytochrome P450, est devenu un véritable emblème dans la
communauté scientifique des biologistes tant l’engouement que cette protéine suscite est intense.
Depuis sa découverte dans les années 50, elle ne cesse de poser de nouvelles questions aux chercheurs.
En réalité, il n’existe pas un Cytochrome P450, mais toute une variété : ces cytochromes P450s
correspondent en effet à une large superfamille d’hémoprotéines mono-oxygénases, présente à la fois
chez les procaryotes et les eucaryotes. Ces enzymes jouent un rôle important dans le métabolisme
oxydatif d’une grande diversité de substrats pour la plupart hydrophobe, aussi bien d’origine endogène
qu’exogène. Ainsi, chez les cellules de mammifère, ils sont notamment responsables de la
métabolisation et de la détoxication des composés exogènes, également appelés xénobiotiques. On les
trouve aussi impliqués dans les phénomènes d’intoxication par formation d’entités réactives :
époxydes, radicaux, etc. Ces enzymes de phase I du métabolisme, assurent une modification du
potentiel redox de ces xénobiotiques par mono-oxygénation ou réduction, modifiant leur liposolubilité
et rendant possible leur excrétion après conjugaison ou non par des enzymes de phase II. Les P450s,
de 400 à 500 acides aminés environ, contiennent une proto-porphyrine IX de fer (l'hème) qui joue le
rôle de catalyseur d'oxydo-réduction, et peuvent être solubles ou membranaires. Les réactions
d'oxydo-réduction entraînent l’activation de l’oxygène qui est transférée sur le substrat positionné
entre 3 et 6 Å du fer (Johnson, 2003).
La thématique des P450s depuis, tout particulièrement les P450s impliqués dans la cascade de
détoxication chez l’homme est une des activités majeures de l’équipe dirigée par M. Delaforge et F.
André au sein de laquelle j’ai effectué mon travail de thèse. Elle concerne aussi bien l’activité
catalytique de ces enzymes (multi-spécificité et coopérativité) que leurs relations structure-activité vis-
4 Introduction générale
En bioinformatique structurale, le point de départ avant toute investigation est la disposition d’un
support de travail qui est soit la structure de la protéine, soit un modèle. Même si aujourd’hui un
nombre important de structure de CYPs est disponible, il demeure insignifiant comparé au nombre de
gènes connus dans cette superfamille. À noter que la plupart des structures de P450s connus
correspondent à celles qui ont un intérêt clinique ou pharmaceutique. Bref, pour étudier des P450s de
structure inconnue, il est nécessaire de produire des modèles. Toutefois, la diversité en séquence
(principalement en partie N-terminale, et à un degré moindre en C-terminale) qui existe au sein de
cette superfamille est un vrai frein à l’obtention d’un modèle 3D par modélisation comparative.
Le premier point sur lequel j’ai travaillé durant mes trois années de thèse, a consisté à développer
une méthodologie fiable de reconstruction de P450s à bas taux d’identité. Pour cela, j’ai conduit
mes expériences sur un cas particulier des P450s : celui du CYP 3A4. En effet, chez l'homme, la
famille de P450 la plus abondante est celle du CYP3A, qui comprend notamment l'isoforme P450 3A4
(CYP3A4, 503 acides aminés). Celui-ci est majoritaire dans le foie, responsable à lui seul du
métabolisme de près de 60% des médicaments utilisés actuellement (Lewis, 2003), mais aussi de
nombreux produits présents dans notre environnement : pesticides, mycotoxines, additifs alimentaires,
etc. Des composés endogènes tels que la testostérone ou des petits dérivés peptidiques (Delaforge et
al., 1997) sont aussi reconnus et oxydés par ce cytochrome. Les substrats pris en charge sont
5
généralement hydrophobes, mais de taille, de nature chimique, et de poids moléculaire très variables :
de 150 à 1400 Da (Rendic, 2002, Ekins et al., 2003).
J’ai donc été amené à étudier cette information de conservation structurale au sein de la
superfamille des CYPs, puis vérifier et valider l’intérêt de son utilisation pour améliorer l’alignement
multiple. Pour cela, il a fallu mettre en place et développer un outil fiable d’alignement multiple
(Caliseq) permettant de positionner correctement les séquences des P450s de structures connus, sur la
famille des 3A. Les alignements produits par cette méthode servent de points de départ aux
reconstructions de modèles 3D de CYP 3A et par extension à d’autres P450s ne disposant pas d’autres
homologues à plus de 30% d’identité (limite acceptable pour la reconstruction de modèles par des
méthodes classiques).
6 Introduction générale
Outre l’aspect prédictif de la bioinformatique, j’ai été également conduit au cours de ma thèse à
travailler sur une application concrète de la bioinformatique structurale dans un traitement par
thérapie génique, impliquant une autre P450, la CYP 2B6. Ce travail a été initié par l’équipe de
Toxicologie Moléculaire à la Faculté de Médecine de Paris V qui a développé les techniques de
thérapie génique autour d’une prodrogue, dont le produit de dégradation par le CYP présente un effet
chimiothérapique. Pour améliorer l’affinité et l’activité enzymatique du CYP 2B6 pour ce substrat, des
expériences de mutations dirigées ont été réalisées. En raison du nombre important de mutants opérés,
cette équipe a sollicité notre aide pour lui fournir un support bioinformatique en vue de tester in silico
les résultats. Ce fut donc pour moi l’occasion d’aborder un autre aspect de la bioinformatique
apportant une véritable finalisation au travail in silico, à savoir utiliser les ressources et les
informations disponibles pour fournir une base destinée et une description moléculaire à des
expériences biochimiques.
Ce travail de collaboration m’a ainsi permis de confronter des résultats obtenus (mutations in
silico, docking de la prodrogue dans le site actif, simulations de dynamique moléculaire…) sur des
modèles de CYP 2B6 par des résultats expérimentaux et au plan plus général, d’apporter (ou de
confirmer) des éléments de réponse aux mécanismes de reconnaissances de substrat par les P450s.
L’ensemble de tous mes travaux est présenté au travers de ce manuscrit, agencé de la manière
suivante : dans un premier chapitre, j’exposerai l’état des connaissances actuelles disponibles, aussi
bien sur les P450s que sur les méthodes bioinformatiques classiques d’étude de protéine. Je décrirai
dans un second chapitre les méthodes que j’ai développées pour compléter les méthodes
7
bioinformatiques existantes, et en dernier chapitre, je présenterai les résultats obtenus par cette
méthode et ceux issus de la collaboration avec l’équipe de Paris V.
Première Partie
9
CHAPITRE 1
11
12 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Le cytochrome P450 constitue un des sujets de recherche les plus en vogue au cours de ce dernier
demi-siècle, aussi bien en biochimie qu’en biologie moléculaire. Il doit également son principal essor
au développement de ressources de l’industrie pharmaceutique mondiale. Sous le terme général de
cytochrome P450, se regroupe une superfamille multigénique de protéines enzymatiques dites
«hemo-thiolate» à propriétés redox. Aussi connu sous le terme de mono-oxygénases, il a la capacité
d’activer les molécules de dioxygène en des entités hautement réactives (ROS) et d’insérer ensuite
l’oxygène moléculaire dans un nombre important et varié de substrats tant au niveau d’un atome de
carbone, que d’azote ou de soufre. Cette activation du dioxygène est rendue possible par la présence
d’un atome de fer inclus dans l’hème qu’il porte. Ces cytochromes P450 (CYPs ou P450s) sont des
enzymes ubiquitaires qu’on retrouve dans tous les organismes vivants à l’exception près de certains
micro-organismes primitifs qui auraient évolué il y a plus de 3,5 milliards d’années. De même,
substrats et réactions générés par ces enzymes sont multiples et ubiquitaires : les CYPs sont
responsables du métabolisme oxydatif de molécules très diverses, comprenant aussi bien des
substances endogènes (hormones stéroïdiennes, acides gras, vitamines D, prostanoïdes, alkanoïdes,
terpènes et autres pytoalexines…) que les xénobiotiques (médicaments, pesticides polluants, toxiques,
cancérigènes, carcinogènes…). Les réactions de biotransformation des xénobiotiques catalysées par
les CYPs s’inscrivent en effet dans un processus de détoxication évitant l’accumulation de substances
potentiellement toxiques dans l’organisme. Ce sont d’ailleurs ces mêmes substrats qui auto induisent
leurs propres réactions de détoxication. Paradoxalement, les CYPs peuvent parfois catalyser
l’activation chimique de certains composés (procarcinogènes…) et produire des métabolites toxiques,
mutagènes voir cancérogènes (génération de ROS qui endommagent l’ADN). Cette ambivalence et les
conséquences majeures qui en découlent ont conduit à s’intéresser aux cytochromes P450, tant du
point de vue structural que fonctionnel.
Cela fait à présent cinquante ans que Garfinkel et Kligenberg (1958) ont reporté pour la première
fois l’apparition d’un pigment jaune orangé dans des fractions microsomales hépatiques de rat et de
cochon en présence de monoxyde de carbone. Ce pigment fut alors dans un premier temps caractérisé
comme une hémoprotéine, identifiée à un cytochrome de type b peu commun, puis deviendra plus tard
A la découverte d’une superfamille d’enzyme… 13
ce qu’on connaît sous la désignation « P450 ». Cette désignation de « P450 » a été attribué en raison
de sa propriété d’absorption maximal à 450 nm dans le spectre UV (cf. Figure 1-1) lorsque le fer de
l’hème, à l’état réduit, est complexé au monoxyde de carbone (Omura et Sato, 1962). Le ‘P’ de P450
fait référence quant à lui au « pigment » d’où le terme P450 pour Pigment à 450 nm. La fonction
biochimique des cytochromes P450 fut alors établie vers le début des années 60 aussi bien dans la
biotransformation des stéroïdes (Estrabook et al., 1963) que dans l’oxydation des composés exogènes
(Cooper et al., 1965).
Figure 1-1 Spectre d’absorption du P450 complexé à du monoxyde de carbone montrant le pic caractéristique
aux alentours de 450 nm
C’est donc, d’une part l’observation d’une pigmentation cellulaire jaune-orangé apparue à la suite
d’une complexion de préparation microsomale avec un monoxyde de carbone et d’autre part, la
présence d’un pic distinct à 450 nm en spectre UV visible d’absorption (Garfinkel, 1958 ; Klingenberg,
1958) qui ont permis la découverte de l’enzyme. Les origines phylogéniques des P450s quant à elles,
demeurent discutables et restent encore à démontrer. On pense toutefois que le système des P450s
aurait évolué de façon constante il y a plus de 3,5 milliards d’années, avant même l’arrivée de
l’oxygène atmosphérique (Wickramasinghe et Villee, 1975). Au départ, il semble que les organismes
présents se servaient du potentiel chimique des molécules d’oxygène pour traiter les composés
organiques, grâce à la formation contrôlée d’entités réactives (i.e. superoxydes, peroxydes, etc.). Ces
mécanismes de transformation de l’oxygène seraient rendus possibles par la médiation d’un complexe
fer-porphyrine dont la structure est similaire de la protoporphyrine IX (ou hème cf. Figure 1-1). La
porphyrine est en effet une entité appropriée pour la régulation de l’équilibre de l’état de spin du fer
(Frausto da Sliva et Williams, 1991), occupant donc un rôle important dans les échanges électroniques
du fer (et donc par la même occasion, dans la catalyse par les hémoprotéines). Ce type de réaction peut
être de plus favorisé par l’influence d’une cystéine proximale (thiolate) présente dans l’apoprotéine du
P450 qui se charge, d’acheminer les molécules d’eau, les éléments réducteurs (i.e. proton/électrons)
14 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
nécessaires à la réaction (Lewis et Pratt, 1998) et les substrats organiques à lier. De toute évidence,
l’apoprotéine P450 semblerait avoir évolué de façon à incorporer la partie héminique et à « orienter »
les substrats potentiels vers un métabolisme oxydatif d’une position particulière. L’apport en électron
peut être obtenu quant à lui par transfert à partir de partenaires redox pouvant appartenir à un système
immergé dans une bicouche phospholipidique (comme celle de la membrane du réticulum
endoplasmique dans le cas des P450s hépatiques microsomaux).
Au final, tous les P450s identifiés à ce jour désignent des hémoprotéines constituées d’un hème
relié à l’apoprotéine par un groupement cystéinate complexant le fer de groupe prosthétique (cf.
Figure 1-3). Schématiquement, on a coutume de représenter les CYPs comme une grosse
hémoprotéine constitué d’une chaîne polypeptidique unique, l’apoprotéine (d’un poids moléculaire
compris entre 45 et 60 kDa) et d’un groupement prosthétique central, l’hème (catalyseur de la réaction
enzymatique). Ce dernier est lié de façon « non covalente » à l’apoprotéine par l’intermédiaire d’une
cystéine. Le site catalytique de l’enzyme est hydrophobe, permettant l’accueil de substrats.
- La diversité des P450s est naturellement liée à la séquence primaire en acides aminés de
l’apoprotéine.
- L’hème des CYPs est constitué d’une protoporphyrine XI de Fer. Au sein des P450s, ce métal
est lié aux quatre azotes pyrroliques de la porphyrine et au soufre de la cystéine axiale. Cette
cinquième liaison de coordination du fer est réalisée avec le groupement thiolate de la cystéine
présente dans la région C-terminale. Le fer peut être hexacoordonné, le sixième ligand étant
par exemple, O2, H2O, CO ou une autre molécule. Dans le P450, le plan de l’hème définit
deux régions : (a) la face proximale située du côté du ligand cystéinate et (b) la face distale
contenant le site actif de l’enzyme.
A la découverte d’une superfamille d’enzyme… 15
Cystéine
Apoprotéine
S Face proximale
N N
FeIII
Hème
(protoporphyrine)
N N
Site catalytique
(zone hydrophobe
Face distale pour le substrat)
Depuis sa découverte, l’intérêt que cette superfamille suscite n’a cessé d’augmenter de façon
considérable : aujourd’hui encore, le CYP reste un challenge scientifique majeur. Les trois décennies
qui séparent la première purification d’un P450 en 1970 (Yu et Gunsalus, 1970) de la première
résolution d’une structure d’un P450 de mammifère en 2000 (Williams et al., 2000b), ont ainsi permis
d’appréhender efficacement la complexité et la diversité de cette superfamille.
déméthylation du lanostérol, un intermédiaire qui intervient dans les premières phases de la chaîne de
synthèse des stérols. La diversification des CYPs pourrait donc être expliquée par une
complexification de la biosynthèse des stérols au cours de l’évolution. Par ailleurs, l’apparition d’une
« menace oxygène » dans le monde végétal ou animal expliquerait également la différentiation des
CYPs, spécialisés dans la détoxication des xénobiotiques. Malgré l’importante diversité génique des
cytochromes, cette superfamille est caractérisée par deux séquences protéiques consensus :
- Une séquence consensus située du côté proximal de l’hème FxxGx(R/H)CxG (il s’agit là du
motif décrit de façon historique). Appelé « Cys-Pocket », elle contient la cystéine ligand du
fer et est considérée comme la signature peptidique de la superfamille des P450s. D’ailleurs,
ce motif est également désigné « signature cytochrome P450 – hème » et est utilisé pour
identifier les P450s dans la base PROSITE (voir le paragraphe sur Prosite page 79) pour la
recherche des P450s. Le motif de la base PROSITE s’écrit sous cette forme : [FW]-[SGNH]-
x-[GD]-{F}-[RKHPT]-{P}-C-[LIVMFAP]-[GAD]. Cette séquence participe au maintien de
l’hème au sein de l’apoprotéine.
- Une séquence consensus distale (G/A)Gx(E/D)T moins bien conservée au sein des P450s, elle
joue un rôle dans l’activation de l’oxygène moléculaire lors de la catalyse.
En raison du nombre important de P450s exprimés dans le monde vivant, une nomenclature en
famille et sous famille basée sur l’identité en séquence a été élaborée. Cette nomenclature sera
détaillée la section 1.2.1.
distingue les P450s mitochondriaux, les P450s microsomaux, fixés aux membranes du réticulum
endoplasmique (RE), et les cytochromes plastidiaux chez les végétaux.
Figure 1-5 Réactions d’oxydation généralement catalysées par les P450s. D’après (Mansuy et Battioni, 2000)
biosynthèse de composés endogènes tels que les stérols ou des antibiotiques assurant la défense du
microorganisme. Chez les eucaryotes, c’est également les P450s qui assurent la synthèse des stérols
nécessaires aux membranes plasmiques comme le cholestérol ou l’ergostérol, ainsi que la biosynthèse
des hormones stéroïdiennes, des eïcosanoïdes, des rétinoïdes et de certaines vitamines (Guenguerich,
2005).
Métabolisme Polymorphisme
endogènique et génétique
biosynthèse de
stéroïdes, d’acides Activation
gras, prostanoïdes, métabolique de
Biotransformation de procarcinogènes
eicosanoïdes
médicaments/métabolisme
vitamines D et
acides biliaires
Détoxication de
Physiologie Pharmacologie Toxicologie xénobiotiques
Dégradation
métabolique de Cytochromes P450 Biochimie Biosenseurs
terpènes, Microbiologie Biotechnologie Biosynthèses
alkanes et ciblées
d’acides gras
Métabolisme de
Stéréo- et Régio- phytoalexins, Conversion
sélectivité alkanoïdes, terpènes des herbicides
d’oxygénation et couleur des fleurs et insecticides
Figure 1-6 Domaines de recherches du P450 et champs d'application (Adapté de Bernhardt, 1996 ; récupéré de
Lewis, 2001)
En résumé, il est facile de comprendre toute cette agitation « cérébrale » autour des CYPs, tant
leurs fonctions, leurs implications, leurs mécanismes sont importants et variés. Ils présentent non
seulement une véritable multiplicité en gènes, une grande diversité en réactions catalytiques mais
montrent également des rôles variés, pouvant aller du métabolisme de xénobiotiques à la biosynthèse
et biodégradation des composés endogènes. Dans cette diversité pourtant, le mécanisme sous-jacent
semble imposer une contrainte à cette superfamille : sa structure très conservée.
Étonnamment et en dépit de leur diversité, les CYPs semblent partager en commun un repliement
très conservé. En effet, compte tenu de l’évolution fonctionnelle des CYPs, la structure tertiaire des
A la découverte d’une superfamille d’enzyme… 21
P450s telle que nous la connaissons1 au travers des différents cristaux publiés dans la Protein Data
Bank (PDB) (http://www.rcsb.org) résulterait de contraintes apportées par divers éléments nécessaires
à sa fonction catalytique (cf. Tableau 1.1) : liaison au substrat, hème, oxygène et partenaire(s) redox.
3. Liaison des partenaires redox Résidus basiques pour les liaisons ioniques
4. Transfert du proton à l’oxygène Liaisons ioniques internes établies par les résidus avoisinant l’hème
5. Liaison des différents substrats Les hélices B’, F et I et les brins β1 et β4 (Région SRS)
Ces contraintes liées à la fonction sembleraient exercer une certaine pression conduisant à la
conservation structurale des P450s : en effet, d’un P450 à un autre, la structure des P450s est
inchangée, et ce en dépit de leurs localisations environnementales, que ce soit chez la bactérie (où le
P450s est cytoplasmique), les mitochondries ou encore dans les systèmes microsomaux (où les P450s
sont ancrés à la membrane) (Degtyarenko et Archakov, 1993). Il existe bien entendu quelques
exceptions connues à cette conservation structurale. C’est le cas des P450s dont la fonction est quelque
peu inhabituelle, comme par exemple l’allène oxyde synhtase (AOS), la prostacyclin synthase (PGIS)
ou encore la thromboxane synthase (TXAS). En fait, les différentes fonctionnalités montrées par ces
enzymes peuvent être associées à de petits changements dans la séquence (par exemple sur l’hélice I),
mais suffisamment cruciaux (cf. Tableau 1.2) à l’intérieur du centre catalytique du P450 pour entraîner
une légère modification de la structure de la protéine.
1
De 16 à 18 hélices α numérotées de A à L avec quelques variations et 4 à 6 feuillets β numérotés de 1 à 6. La
structure des CYPs sera vue plus loin.
22 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Note :
1. La séquence habituelle de l’hélice distale est montrée par la séquence AGxET du CYP3A4 (ou x est
n’importe quel résidu
2. CYP5A1 ne possède pas la thréonine distale conservée
3. CYP74 ne possède ni la thréonine distale conservée ni le résidu acide précédent
4. CYP19 possède une proline avant l’aspartate
5. CYP51 ne possède pas de résidu acide avant la thréonine distale
6. ↓. Pointe les résidus normalement conservés
Références : Nelson et al., 1996 ; Mansuy et Renaud, 1995, Tableau tiré de Lewis, 2001
En conclusion, ce qui a été un jour vu en tant qu’un simple enzyme est désormais connu pour sa
multiplicité de formes, disposant de fonctionnalités variées et d’un vaste nombre de substrats
potentiels (Porter et Coon, 1991 ; Guengerich, 1991a et b ; Stegeman et Livingstone, 1998 ; Mansuy,
1998; Nelson, 1999).
Nomenclature, Classification et Phylogénie 23
Vu l’importance en nombre et l’extrême diversité des P450s exprimés dans le monde vivant, sans
méthodologie stricte, on risquerait de se perdre dans un brouillard d’informations. Ainsi, il a été
convenu de répertorier chaque P450 selon une nomenclature particulière. Cette dernière a été
arbitrairement choisie, en fonction du degré d’identité entre chaque P450. Un autre regroupement a pu
également être décrit, reposant cette fois-ci sur la fonctionnalité des P450s, et plus précisément, la
manière dont ces derniers reçoivent les électrons nécessaires à leurs activités. On parlera alors de
classification. Bien évidemment, ces deux éléments permettent d’apporter suffisamment
d’informations pertinentes à la réalisation d’un modèle d’évolution, qui peut être décrit par la
phylogénie.
1.2.1 Nomenclature
Depuis 1989, une appellation systématique des P450s a été mise en place, périodiquement mise à
jour depuis (Nebert et al., 1989a et b, 1991a ; Nelson et al., 1993, 1996). Cette nomenclature utilise le
symbole CYP (ou Cyp chez la souris et la drosophile) comme abréviation pour le terme cytochrome
P450 (aussi bien ADNc, ARNm que protéine), symbole qu’on retrouve en italique (CYP) lorsqu’il fait
référence au gène. La lettre P qui est parfois trouvé après un gène informe quant à lui qu’on a affaire à
un pseudogène. Il a donc été convenu que les CYPs soient classés en fonction de leur degré de
similitude dans leur séquence primaire2 (séquence en acides aminés) (voir aussi le site internet de
David Nelson à l’adresse http://drnelson.utmem.edu/CytochromeP450.html) comme suit :
- Appartiennent à la même famille (désigné par un chiffre arabe, CYP1, CYP2, …), les CYPs
ayant un degré de similitude supérieur à 40% ;
- A la même sous-famille (représentée par une lettre majuscule, CYP2B, CYP2C, …), les
CYPs ayant un degré de similitude supérieur à 55%
- Enfin, les isoformes appartenant à une même sous famille sont différenciés par un chiffre
arabe (CYP2C8, CYP2C9,…).
2
Il existe des cas particuliers pour les CYP responsable du métabolisme des stéroïdes où l’ancienne
nomenclature subsiste : le nombre juste après CYP correspond alors au numéro de l’atome du substrat où s’opère
la réaction de monoxygénation. C’est le cas pour le CYP 19 par exemple.
24 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Alors que ce système fut initialement mis en place de façon arbitraire, ce choix de classification
par degré de similitude s’est révélé être assez judicieux et approprié, compte tenu qu’il permet de
séparer les différentes familles et sous-familles de façon satisfaisante dans la majorité des cas. Bien
évidemment, certains regroupements demeurent inexacts.
En se basant sur cette similitude entre les séquences et dans certains cas en tenant compte des
activités catalytiques, il a donc été possible de déterminer si deux gènes étaient issus ou non d’une
duplication de gènes phylogénétiques. En raison du nombre de familles devenu très important, un
niveau supplémentaire de regroupement est requis. Les clans font alors leur apparition et rassemblent
les familles qui appartiennent à un même groupe (issu d’un même gène ancestral) d’après de
nombreux arbres phylogénétiques établis auparavant (Nelson, 1999). Ces clans sont désignés par le
chiffre le plus petit des familles qu’ils regroupent ou par le chiffre de la famille majoritaire. Ainsi, le
clan 2 regroupe la famille de CYP2 de même que les familles CYP1, 17, 18 et 21.
Outre cette classification standard, les divers CYP se distinguent aussi par deux autres critères :
leur spécificité de substrat et la classe de molécules entraînant l’augmentation de l’expression.
Néanmoins, bien que les CYPs puissent se distinguer par leur spécificité au substrat, cette dernière
caractéristique peut être chevauchante comme il a été déjà mentionné précédemment : un CYP peut
ainsi métaboliser plusieurs substrats et un substrat peut être métabolisé par plusieurs CYPs. On peut
donner à titre d’exemple le cas de la morphine qui peut être soit métabolisée par les CYP3A4 et 2C8
(Projean et al., 2003). Un aperçu des CYPs et de leurs substrats est disponible sur le site Internet
http://www.edhayes.com/startp450.html.
1.2.2 Classification
Figure 1-7 Partenaires de transfert d'électrons des CYPs (d’après Paine et al., 2005). La classe I comprend les
P450s mitochondriaux (A), la majorité des P450s solubles (B) et certains systèmes fusionnés, dont le CYP RhF est
un représentant (C). La classe II comprend les P450s du RE (D) et les P450s qui incluent la ferredoxine à deux
flavines comme P450BM3 (E) Fx : ferredoxine, FxR : ferredoxine réductase, CPR : CYP réductase
- La classe I fait intervenir dans la chaîne de transfert d’électrons des enzymes à centre fer-
soufre. Les électrons du NAD(P)H sont prélevés par une ferrodoxine réductase à flavine (FAD)
puis transmis à une ferrodoxine à centre fer-soufre Fe2S2. Cette ferrodoxine transfère ensuite
les électrons au P450 pour permettre la catalyse. Cette classe contient la très grande majorité
des P450s bactériens et les P450s mitochondriaux. Il conviendrait d’ajouter à cette classe des
nouveaux systèmes identifiés récemment comme le P450RhF (Roberts et al., 2002), qui est
une protéine de fusion contenant une réductase à flavine et FMN, une protéine type
ferredoxine à centre fer-soufre et le cytochrome P450.
- La classe II des P450s est la plus commune chez les eucaryotes, à l’origine de réactions
catalytiques extrêmement diverses et variés. Les CYPs de cette classe sont trouvés au niveau
du RE et requièrent une NADPH-Cytochrome P450 réductase (CPR) qui contient les
groupements prosthétiques FAD et FMN. Cette dernière est issue d’une fusion de deux
protéines ancestrales : elle montre une partie N-terminale homologue avec une flavodoxine
bactérienne à FMN et une partie C-terminale homologue avec une ferrodoxine NADP+
26 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Le Tableau 1.3 et la Figure 1-8 qui suivent, résument et illustrent les principales caractéristiques
permettant de regrouper les P450s selon cette nouvelle classification.
Nomenclature, Classification et Phylogénie 27
Tableau 1.3 Classes des systèmes P450s, classées selon la topologie des partenaires redox impliqués dans le transfert d’électrons au CYP
(d’après Hannermann, 2006).
Classe I
Bactérienne NAD(P)H > [FdR] > [Fdx]a> [P450] Cytosolique, soluble
NADPH > [FdR] > [Fdx] > [P450]
Mitochondriale P450 : membrane interne des mitochondries
FdR : membrane associée
Fdx : matrice mitochondriale, soluble
Classe II
Bactérienne NADH > [CPR] > [P450] Cytosolique, soluble ; Streptomyces
NADPH > [CPR] > [P450]
Microsomale A carbophilus
NADH > [CPR] > [cytb5] > [P450]
Microsomale B NADH > [cytb5Red] > [cytb5] > [P450]
Ancrée à la membrane, ER
Microsomale C Ancrée à la membrane, ER
Ancrée à la membrane, ER
Classe III
Bactérienne NAD(P)H > [FdR] > [Fldx] > [P450] Cytosolique, soluble ; Citrobacter braakii
Similaire à la classe II, mais sans l’entité
CPR
Classe IV
Bactérienne Pyruvate, CoA > [OFOR] > [Fdx] > [P450] Cytosolique, soluble ; Sulfolobus tokadaii
Classe des P450s thermophiles (ex CYP 119)
Classe V
Bactérienne NADPH > [FdR] > [Fdx–P450] Cytosolique, soluble ; Methylococcus
capsulatarus
Classe VI
Bactérienne NAD(P)H > [FdR] > [Fldx–P450] Cytosolique, soluble ; Rhodococcus
rhodochrous strain 11Y
Classe VII
Bactérienne NADH > [PFOR–P450] Cytosolique, soluble ; Rhodococcus sp. strain
NCIMB 9784, Burkholderia sp., Ralstonia
metallidurans
Cas du P450RhF
Classe VIII
Bactérienne, fungique NADPH > [CPR–P450] Cytosolique, soluble ; Bacillus megaterium,
Fusarium oxysporum
Cas du P450BM3
Classe IX
Seule NADH NADH > [P450] Cytosolique, soluble ; Fusarium oxysporum
dépendant, fungique Seul représentant : P450nor
Classe X
Indépendant chez la [P450] Liée à la membrane, ER
plante/mammifère Anciennement la classe III
Abréviation pour les partenaires contenant les centres redox suivants : Fdx (complexe fer-sulfure) ; FdR, Ferrodoxine réductase (FAD);
CPR, cytochrome P450 réductase (FAD, FMN) ; Fldx, Flavodoxine (FMN) ; OFOR, 2-oxyacid:ferrodoxine oxydoréductase (complexe
thiamine phosphate, [4Fe-4S]) ; PFOR, phthalate-family oxygénase réductase (FMN, complexe [2Fe-2S]).
a
Fdx contenant un complexe fer-sulfure de type [2Fe-2S], [3Fe-4S], [4Fe-4S], [3Fe-4S]/ [4Fe-4S]
28 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Figure 1-8 Organisation schématique des différents systèmes de P450s. (A) Classe I, système bactérien ; (B)
Classe I, système mitochondrial ; (C) Classe II, système microsomal ; (D) Classe III, système bactérien, ex. du
P450cin ; (E) Classe IV, système bactérien thermophile ; (F) Classe V, système bactérien à [Fdx]–[P450] fusionné ;
(G) Classe VI, système bactérien à [Fldx]–[P450] fusionné ; (H) Classe VII, système bactérien à [PFOR]–[P450]
fusionné ; (I) Classe VIII, système bactérien à [CPR]–[P450] fusionné ; (J) Classe IX, système eucaryote P450nor ;
(K) Classe X, système eucaryote indépendant, cas du P450TxA (source Hannemann et al., 2006)
Nomenclature, Classification et Phylogénie 29
1.2.3 Phylogénie
Pour remonter aux origines des P450s, les chercheurs ont essayé de retracer leur évolution au
moyen de techniques phylogéniques. Cependant, la construction d’arbres phylogénétiques n’est pas
aisée pour cet enzyme car elle se base sur des matrices de distances calculées à partir d’un alignement
multiple en séquences primaires (MSA). Cet alignement dépend fortement du degré de similarité entre
séquences utilisées. En raison des divergences en séquence primaire, il est facile de comprendre qu’un
alignement multiple qui prendrait en compte tous les P450s serait difficilement réalisable. La
classification des P450s en famille et sous famille, basée sur la similitude en séquence, a rendu plus
abordable dans un premier temps, la construction d’arbres phylogénétiques ainsi que d’autres formes
d’analyses qui étudient l’évolution des relations entre gènes de P450s.
Un nombre très varié de méthodes a été utilisé pour comparer les séquences de P450s conduisant
la plupart du temps à des arbres assez proches pour un gène ancestral commun à 2 milliards d’années.
La méthode largement utilisée pour investir l’évolution et les relations entre P450s est celle de
l’UPGMA (Unweighted Pair Group Method of Analysis) (Nelson et Strobel, 1987 ; Gotoh et Fujii-
Kuriyama, 1989 ; Nebert et al., 1991 ; Nebert et Gonzalez, 1987 ). Nebert et Nelson ont également
exploré les variations au sein des arbres phylogénétiques produits par le Neighbor Joining (NJ) et
l’UPGMA pour 39 séquences, où ils trouvèrent une légère différence entre les deux méthodes
principalement en raison des familles de CYP1 et CYP2. Toutes les méthodes d’analyse de séquences
ont montré que la forme bactérienne CYP102 (P450BM3) du Bascillus megaterium se regroupe avec les
P450s d’eucaryotes, tandis que les autres formes de procaryotes ségrégent clairement dans des classes
différentes. Une des raisons évoquées serait liée à la similitude des partenaires redox partagés par
CYP102 et les P450s microsomaux d’eucaryotes comme il a été vu précédemment lors des
classifications à 4 formes.
Au final, un arbre simplifié (cf. Figure 1-9) a été proposé où partant d’un gène ancestral commun
(il y a 2 milliards d’années) qui se serait dupliqué. Les gènes ainsi créés auraient alors divergé, faisant
apparaître progressivement une multitude de familles, sous-familles et d’isoformes de CYP. Au cours
de l’évolution, ces gènes qui se sont considérablement diversifiés, ont vraisemblablement participé à
l’adaptation des organismes aux changements de biotope. Cette diversification est corrélée au passage
d’une atmosphère originellement réductrice à une atmosphère plus oxydante sous l’effet de la
production de dioxygène par les organismes photosynthétiques. La pression actuelle en oxygène a
30 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
ainsi crû rapidement de façon exponentielle avec le temps. Ceci serait une cause probable de la non
linéarité de l’évolution des CYPs.
Figure 1-9 Arbre phylogénique simplifié des cytochromes P450 (d'après Lewis, 2001). Les CYPs (CYP1 à 4)
qui interviennent dans le métabolisme des xénobiotiques sont annotés en rouge (où EMX signifie Enzyme du
métabolisme des Xénobiotiques). Il est admis que ces familles CYPs ont évolué puis divergé vers le monde animal
pour permettre une adaptation et/ou une protection vis-à-vis de composés nouveaux et/ou toxiques synthétisés par
les végétaux. Les CYP11A, 11B, 17,19 et 21 interviennent dans la synthèse d’hormones stéroïdiennes en
catalysant des réactions d’hydroxylations.
Occurrence, Distribution et Localisation 31
Comme mentionné précédemment, les CYPs sont des enzymes ubiquitaires, largement
représentées dans tous les organismes vivants, de la bactérie aux mammifères, en passant par la plante
et les champignons (Nerbert et al., 1989a et b), bien qu’il semble que certaines espèces primitives de
bactéries en soient dépourvues. La répartition de ces CYPs au sein des différents organismes est
consultable sur le site (http://drnelson.utmem.edu/CytochromeP450.html) de David Nelson, site
complet qui est tenu régulièrement à jour par l’auteur de façon bénévole depuis plus de 10 ans. On y
retrouve donc non seulement la répartition entre organismes et les statistiques sur les P450s, mais
également tout un ensemble d’informations relatives aux P450s. Il permet ainsi à n’importe quel
utilisateur d’avoir accès aux connaissances actuellement disponibles sur les P450s telles que les bases
de données ou encore les séquences de P450s. Concernant la répartition, à la date du 7 septembre 2007,
Nelson a répertorié pas moins de 7703 séquences de CYPs provenant de 866 familles différentes qui
se répartissent entre les animaux, les plantes, les champignons, les bactéries, les protistes et les archées.
Ces données sont issues d’un comptage et d’une vérification manuelle par l’auteur du site (cf. Tableau
1.4 et Figure 1-10). Elles mettent d’ailleurs en évidence une proportion très élevée de CYPs chez la
plante, phénomène qui s’explique en partie par le fait que de nombreux génomes ont été séquencés
chez la plante.
Tableau 1.4 Répartitions des CYPs dans les différents organismes vivants (source de Nelson)
Organismes Nombre de CYPs compté Nombre de familles de CYPs
Figure 1-10 Répartition des séquences (a) et des familles (b) de CYPs dans les différents organismes vivants.
On remarque que les CYPs sont largement représentés dans chez la plante et l’animal. Cela est lié à l’effort des
investigations dans chaque organisme.
Même si les P450s ont été caractérisés dans de nombreuses espèces telles que les oiseaux, les
poissons, les reptiles, les insectes, les mollusques, les arthropodes, les crustacés, les champignons, les
plantes et les bactéries (Schenkman et Griem, 1993 ; Pinot et al., 1999 ; Gorman et al., 1998 ; Chapple,
1998 ; Scott et al., 1998 ; Walker, 1998 ; Hallahan et al., 1993 ; Hallahan et West, 1995 ; Nelson, 1998)
(Une revue spéciale de « Comparative Biochemestry and Physiology » (Volume 121C, Nos. 1–3, 1998)
traite justement de ces P450s non mammifères), c’est pourtant chez les mammifères que le P450
suscitent le plus d’intérêt, en particulier les formes humaines de l’enzyme (Guenguerich, 1989a et b,
1992a–d, 1994, 1995a ; Guenguerich et al., 1998, 1992 ; Rendic et DiCarlo, 1997). En conséquence,
les P450s humains ont été intensément investis et étudiés, et les systèmes d’expression hétérologues
sont devenus à présent un moyen fiable d’analyse pour les interactions enzyme–substrat de P450s
isolés (Estabrook et al. 1991 ; Gonzalez et Korzerkwa, 1995).
1.3.2 Localisation
Chez les mammifères, les P450s sont présents dans la plupart des tissus, mais ils sont
particulièrement abondants en quantité et en diversité au niveau du foie (cf. Figure 1-11). Pour l’être
humain, le foie est un organe très important tant au niveau de sa corpulence physique que son rôle
fonctionnel. C’est le premier organe, après l’intestin grêle, à être en contact avec les xénobiotiques via
le système porte hépatique. Il représente en effet à lui seul 1/50e du poids total du corps humain. Il se
compose pour 70% de cellules parenchymateuse ou hépatocytes et pour 30% de cellules diverses dont
les cellules de Ito, les cellules composant les canicules biliaires et les cellules de Küpffer. Ses
fonctions sont nombreuses et variées : fondamentalement, le foie est impliqué dans la sécrétion et
l’évacuation de la bile par les canalicules biliaires, mais du fait qu’il soit extrêmement vascularisé et
qu’il soit situé à l’interface de l’appareil digestif et l’appareil circulatoire, il joue également un rôle
Occurrence, Distribution et Localisation 33
dans la distribution de nombreux métabolites issus de la nutrition. En outre, le foie est capable
d’assurer un grand nombre de fonctions métaboliques comme la synthèse des protéines plasmatiques,
des lipides (dont le cholestérol), de l’urée et le stockage et la libération du glucose dans le sang, la
production de substrats à haut potentiel énergétique, mais aussi le stockage de nombreuses vitamines.
Enfin, il joue un rôle central au cours du processus de détoxication.
Figure 1-11 Répartition des CYPs dans le foie Humain (d'après Guenguerich, 2005)
Ces deux dernières (fonctions de synthèse et de détoxication par le foie) ne sont en fait que le
reflet macroscopique des acteurs principaux de l’échelle microscopique : les CYPs. Les CYPs sont
donc en nombre abondant dans le foie, et plus précisément localisés dans les membranes du réticulum
endoplasmique (RE) des hépatocytes (Ruckpaul et Rein, 1984 ; Stier, 1976). Le RE est en effet une
structure lipidique particulière, très favorable aux échanges, et disposant d’une surface étonnamment
large (comprenant 7 à 11 m²/g du poids du foie) comparé à son volume, ce qui fait de lui la structure
idéale pour héberger les enzymes de Phase I comme les P450s (Lewis et Pratt, 1998 ; Gibson et Skett,
1994). Sachant que 12 à 15% du RE est composé de cytochromes P450, on peut estimer
approximativement que les P450s comptent pour un peu moins d’1% du poids total d’un hépatocyte
(Ruckpaul et Rein, 1984).
34 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Figure 1-12 Localisation dans le réticulum endoplasmique lisse (source Nebert, 1987). Six à huit P450s se
regroupe autour d’une réductase qui leur apporte les électrons nécessaires au métabolisme des substrats.
Au sein de la membrane du RE, des études stœchiométrique (Finch et Stier, 1991 ; Schwarz, 1991)
ont suggéré que les P450s se regrouperaient par 6 ou par huit autour d’une réductase, un partenaire
fournisseur en électrons. Ces unités hexamèriques (ou octamèriques) subissent alors une diffusion
transversale à l’intérieur de cette membrane phospholipidique du RE, elle-même sujette à une
diffusion latérale au moyen du « flip-flop ». Par conséquent, les substrats relativement lipophiles se
retrouvent alors facilement acheminés vers le centre réactionnel des P450s afin d’y être métabolisés.
Bien que majoritairement concentrés au niveau du foie, les P450s sont également exprimés dans
d’autres organes et tissus (cf. Tableau 1.5) tels que le rein, les seins, la prostate (Williams et al., 2000a)
la peau, l’épithélium nasal, le placenta, le cerveau, le poumon, la rate, le pancréas et la région
gastro-intestinale (Waterman, 1992 ; Schenkmann et Griem, 1993 ; Hellmold et al., 1998 ; Hakkola et
al., 1998, 1996). Toutefois, même si les P450s sont identifiés dans ces autres organes, ils demeurent en
concentration faible et leur participation dans les biotransformations des xénobiotiques n’est pas bien
définie. Certains CYP (CYP11A et CYP11B) sont également présents du côté du feuillet externe de la
membrane nucléaire et dans la membrane interne des mitochondries (Montoliu et al., 1995). Ces
isoformes sont relativement peu impliquées dans la biotransformation des xénobiotiques mais elles
jouent un rôle important dans le métabolisme des composés endogènes comme les stéroïdes, le
cholestérol, la vitamine D3, et les acides biliaires.
Occurrence, Distribution et Localisation 35
En raison de leur diversité, tant au niveau de leur localisation, de leur sélectivité et réactivités vis-
à-vis des substrats dans des espèces différentes (Guengerich, 1997), on comprend mieux pourquoi il
est relativement difficile d’étudier cette superfamille. Parfois, au sein même des mammifères, des
différences de comportements, d’inductibilités et de sélectivités sont observées (Lewis et al., 1998a ;
Soucek et Gut, 1992 ; Nedelcheva et Gut, 1994 ; Smith, 1991 ; Guenguerich, 1997). En conséquence,
il peut être parfois très difficile d’extrapoler des résultats obtenus à partir d’expériences menées sur
des rongeurs de laboratoire, par exemple, sur les résultats attendus de métabolisme de composé chez
l’Homme (Lewis et al., 1998a). On sait par ailleurs qu’il existe chez les mammifères une différence
sexuelle de P450s (Schenkman et al., 1967) et que les niveaux de P450s chez les individus varient en
fonction de leur régime alimentaire (Ioannides, 1999 ; Parke et Ioannides, 1994). Il existe enfin une
variation de facteurs cellulaires contrôlant l’expression de ces P450s dans les tissus, qui conduit à une
altération du niveau de ces enzymes dans les différents tissus (Wolff et Strecker, 1992). Chez l’homme,
cette variation se retrouve au niveau hépatique, en raison des différences génétiques liées aux groupes
ethnographiques et des changements phénotypiques (Price-Evans, 1993 ; Bachmann, 1996), dont
certains ont été associés à la susceptibilité au cancer (Crespi et al., 1991 ; Nebert et al., 1996 ; Crofts
et al., 1993 ; Puga et al., 1997).
36 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
La grande diversité des CYPs, tant au point de vue de sa composition en acides aminés, de ses
formes dans les différents organismes, que des différents substrats qu’ils sont en mesure de prendre en
charge, a été largement soulignée tout au long des précédents paragraphes. En dépit de cette diversité
importante et contre toute attente, tous les CYPs partagent une structure tertiaire, un repliement,
extrêmement conservé, de la bactérie, aux mammifères. Ce phénomène est d’autant plus remarquable
que les CYPs bactériennes et les CYPs des eucaryotes présentent une différence majeure liée à leur
localisation : à l’opposé de son homologue bactérien qui est cytoplasmique, les CYPs des eucaryotes
sont membranaires, ancrés à la membrane au moyen d’une courte séquence hydrophobe
transmembranaire de 20 à 30 acides aminés en N-terminale de la protéine.
C’est d’ailleurs en raison de leur solubilité que les premières structures de CYP à avoir été
publiées furent celles de bactéries. Celles d’eucaryotes sont en effet nettement plus difficiles à purifier
et à stabiliser au cours de leur extraction, les rendant moins favorable à une expérience de
cristallographie. Or, jusqu’à présent, les expériences de cristallographie par rayon X (RX)
produisent les modèles les plus fiables pour décrire la conformation tridimensionnelle de protéine – en
raison de leur taille trop importante, il n’est pas possible d’appliquer la méthode de résonance
magnétique nucléaire (ou RMN) sur les CYPs – dans un état solide (ces deux techniques seront
décrites en annexes). Ce qu’il faut retenir concernant la cristallographie, c’est que le cristal X d’une
structure n’est qu’un « instantané » (en anglais on utilisera le terme de « snapshot ») moléculaire de la
protéine. Elle correspond à un « cliché photographique » d’une situation dynamique du
fonctionnement de la protéine (où par exemple un ligand se lie à l’enzyme, ou au cours de processus
de métabolisation…). Même si un cristal donne beaucoup d’informations sur le repliement d’une
protéine, il ne tient pas en compte la protéine dans son vrai milieu et dans son fonctionnement habituel.
De plus, les contraintes de préparations pour une cristallographie sont nombreuses et il n’est pas
possible à ce jour de cristalliser une membrane lipidique ou un élément ancré dans une membrane
lipidique.
Ainsi, il y a encore moins d’une dizaine d’années, aucune structure de mammifère n’était publiée :
toutes les études et les hypothèses sur la structure et sur la fonction des P450s de mammifère
reposaient alors sur des structures connues de P450s bactériennes (ou micro-organismes). Jusqu’au
Un repliement très conservé 37
début des années 90, le seul cristal de P450 disponible est celui du P450cam (CYP101) provenant de
Pseudomonas putida (Poulos et al., 1985). Cette structure haute résolution est restée longtemps un
paradigme pour l’étude de la relation structure-fonction de P450 pendant plusieurs années, jusqu’à
l’obtention d’autres structures de P450s solubles, dont les principales sont répertoriées dans le Tableau
1.6. Parmi elles, les quatre premières structures qui ont vu le jour après P450cam, sont le P450BM3
(CYP102), le P450terp (CYP108), le P450eryF (CYP107) et le P450nor (CYP55). Ce n’est qu’au cours de
ces 7 dernières années qu’on assiste à un progrès considérable dans la résolution de structure de CYPs
de mammifères avec en 2000 le premier cristal de CYP2C5 un P450 de lapin (Williams et al., 2000c).
Celle-ci a été rendue possible au moyen de procédés particuliers qui ont consisté en la protection de la
partie C-terminale du P450 par un tag d’histidine et le remplacement de l’ancre hydrophobe
N-terminale par une chaîne hydrophile (une séquence MAKKTSSKGR dans le cas du CYP2C9
(Williams, 2003)) pour rendre les enzymes plus solubles. Il est généralement accepté que ces
changements opérés sur les CYPs de mammifères n’affectent en rien, ni leur repliement, ni leurs
fonctions dans la mesure où ils ne changent pas les paramètres d’activité ou de cinétique de l’enzyme
(Cosme et Johnson, 2000 ; von Wachenfeldt et al., 1997 ; Pernecky et al., 1993). A partir du moment
où l’on a compris comment cristalliser des structures de mammifère, d’autres P450s de mammifère ont
été résolus, tous en majorité de la famille 2, excepté les CYP3A4, CYP 8A1 et CYP1A2.
Entre la première structure de P450 soluble publiée en 1985 (Poulos et al., 1985) et la structure du
CYP2D6 humain résolue fin 2005 (Rowland et al., 2005) environs 140 structures tridimensionnelles
résolues par cristallographie ont été déposées à la PDB. À ce jour, on peut en répertorier environs 160,
bien d’autres sont déposées sur la PDB et attendent d’être publiées. Les progrès technologiques et les
moyens mis en œuvre pour l’étude de cette superfamille sont tels qu’on s’attend en moyenne à avoir
une à deux structures X par mois. La Figure 1-13 et la Figure 1-14 qui correspondent aux statistiques
de dépôt des structures de P450s sur la PDB illustrent justement ce phénomène. A noter que sur les
150 structures qu’on répertorie à ce jour, on peut identifier 29 formes différentes comprenant 19 P450s
solubles (dont 1 fongique) et 10 P450s microsomaux de mammifères (dont 8 humaines).
38 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
CYP Organisme Entrées PDB Res (Å) Références (de la 1ere entrée)
Microorganismes
CYP 101 56 structures
Pseudomonas putida 1,63 (Poulos et al., 1987)
(P450cam) dont 2CPP
CYP 102 21 structures
Bacillus megaterium 2,00 (Ravicahndran et al., 1993)
(P450BM3) dont 2HPD
P450Terp Pseudomas sp. 1CPT 2,30 (Hasemann et al., 1994)
CYP 107 9 structures dont
Saccharopolyspora erythrea 2,35 (Cupp-Vickery et Poulos., 1995)
(P450eryF) 1OXA
CYP 55A1 Fusarium oxysporum 12 structures
2,00 (Park et al., 1997)
(P450nor) (fungique) dont 1ROM
5 structures dont
CYP 119 Sulfobus solfactaricus 1,93 (Yano et al., 2000)
1F4T
5 structures dont
CYP 51 Myobacterium tuberculosis 2,10 (Podust et al., 2001)
1E9X
3 structures dont
P450OxyB Amycolatopsis orientalis 1,70 (Zerb et al., 2002)
1LFK
5 structures dont
P450Epok Polyangium cellulosum 2,65 (Nagano et al., 2003)
1Q5E
4 structures dont
CYP 121 Myobacterium tuberculosis 1,06 (Leys et al., 2003)
1N40
P450OxyC Amycolatopsis orientalis 1UED 1,90 (Pylypenko et al., 2003)
Figure 1-13 Statistiques sur le nombre de structures de P450s publiées dans la PDB. La partie de
l’histogramme en jaune représente le nombre de structures bactériennes de P450s publiées dans la PDB, en rouge
le nombre de structures de mammifères. La première structure de 1985 du P450cam par l’équipe de Poulos n’est
plus disponible (PDB 1CPP). Les structures de mammifères commencent à apparaître en nombre depuis 2000,
bien que généralement, ce sont les structures solubles qui soient les plus publiées.
Figure 1-14 Effectif cumulé des structures de P450s publiées depuis 1987. Le nombre de templates est
également montré, en jaune pour les bactériens et en rouge pour les microsomaux.
40 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
En dépit des disparités évoquées précédemment, un nombre suffisant de structures a été résolu
pour confirmer que le repliement général et la topographie des P450s sont globalement identiques pour
tous les P450s, solubles ou membranaires, quelle que soit leur classe d’appartenance (cf. Figure 1-15).
Nombreux sont les articles où cette conservation structurale soulignée par comparaison des structures
entre elles avec le dernier en date, celui de M. Otyepka (Oteypka et al., 2006) qui fait un inventaire
des différences et conservations entre les structures des P450s de mammifères. Ce repliement est de
façon surprenante spécifique au P450s : à ce jour, il n’existe aucune autre protéine non-P450 publiée
qui partage cette structure. Les structures ont une forme de prisme triangulaire dont la hauteur mesure
environ 65 Å et la base 35 Å. Les éléments de structures secondaires suivent une nomenclature établie
sur le P450cam et donnée par Poulos en 1985 (Poulos et al., 1985). Cette nomenclature s’est vue bien
entendu modifiée légèrement au fur et à mesure de la découverte de nouvelles structures secondaires
d’autres P450s. Un schéma topographique du P450BM3 est représenté en Figure 1-16. Les hélices α
sont identifiées par des lettres majuscules (auxquels des « ‘ » ou « ‘’ » viennent s’ajouter) tandis que
les feuillets β sont désignés par des chiffres de 1 à 5. Sur cette figure, deux régions dans les structures
se distinguent : une région riche en hélices α, bien structurée à droite et une seconde région constituée
principalement de feuillets β et de boucles, donc plus flexible, à gauche et en haut. L’hème situé au
centre de la molécule et de cette vue, semble assez accessible de la surface. Dans la région riche en
hélices α, la longue hélice I de 32 résidus environ traverse la molécule de part et d’autres de la
molécule. Au centre de cette hélice I, près du fer de l’hème, se trouve une thréonine (en position 252
dans la numérotation du P450cam) impliquée dans l’activation de l’oxygène moléculaire. Le rôle de la
thréonine sera décrit dans les paragraphes à venir. Enfin, cette longue hélice I se retrouve dans toutes
les P450s et sert souvent d’ancrage lors d’alignement structural.
Les régions structurales les plus conservées dans toutes les structures sont celles qui participent à
la chimie d’activation de l’oxygène par le complexe hème-thiolate (Figure 1-16). La première d’entre
elles, contient une partie de l’hélice L et la cystéine proximale. Afin d’assurer une stabilisation du
ligand cystéinate, une structuration particulière de la boucle contenant la cystéine (Cys-pocket) est
observée dans toutes les structures. La seconde région relativement bien conservée est située du côté
distal de l’hème et fait partie de l’hélice I.
Un repliement très conservé 41
Figure 1-15 Exemples représentatifs de structures tridimensionnelles illustrant le repliement similaire des
P450s (images générées avec Pymol avec les structures PDB : 1PHA, 2HPD, 1NR6 et 1TQN). Les hélices sont
représentées en rubans rouges, les feuillets en flèches jaunes et l’hème en représentation sphérique bleue. Les
petites flèches noires délimitent l’hélice I qui a servi pour aligner les structures dans la présente image. Cette
hélice I est présente sur toutes les structures de P450. Elle parcourt la molécule de part et d’autres, ici de haut en
bas et de droite vers la gauche. Les 4 structures adoptent une forme relativement conservée, en dépit de quelques
différences. La structure du CYP3A4 (1TQN) présente une délétion de quelques résidus dans sa séquence,
correspondant à une région qui ne diffracte pas aux RX.
42 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Les parties les plus variables dans les structures quant elles, correspondent à celles qui forment la
cavité distale au dessus de l’hème, comprenant le site actif et les canaux potentiels d’accès des
substrats comme les hélices B’, F, G, et la boucle F-G (ou les hélices F’ et G ‘ chez les P450s
membranaires).
Figure 1-16 (A) Topologie et éléments de structures secondaires du cytochrome P450BM3 reproduit de la p.
157 de Cytochrome P450 (P.R. Ortiz de Montellano, ed.) d’après Graham et Peterson, 1995). Les hélices sont
représentées par des barres noires dont la longueur est approximativement proportionnelle à la longueur de l’hélice.
Les brins β des feuillets sont représentés par des flèches. L’hème est représenté par un carré en N-terminal de
l’hélice L. Avec quelques changements mineurs, cette topographie peut être généralisée à tous les CYPs ; (B)
structure 3D du P450BM3 (PDB 2HPD). En raison de l’angle de vue, certaines hélices et certains feuillets n’ont
pas pu être annotés. Les hélices α sont annotées en lettre majuscule de A à L et les feuillets β désignés par les
chiffres 1 à 5. Sur les deux figures, on observe la présence de deux régions: une riche en feuillets β, annotée β-
domain et l’autre riche en hélices α, annotée α-domain.
Figure 1-17 Comparaison de structures secondaires bordant les cavités du P450cam (vert) et CYP 2C8 (bleu),
en vue de dessus (A) et en vu de profil (B) par rapport à l’hème. Les hélices sont représentées en ruban tandis que
l’hème, en rouge est représenté en bâtonnet. Alors que les hélices I coïncident à peu près, on observe un
positionnement diffèrent pour les hélices F’, F, G, G’ et B’
En se basant sur la structure tridimensionnelle du P450cam, ainsi que sur les alignements de
séquences des CYPs membranaires de la famille 2 sur celle du CYP 101A (P450cam) et des
informations prédictives de structures secondaires sur les CYP2, O. Gotoh a prédit la position de six
régions d’interaction possibles entre le substrat et l’apoprotéine (Gotoh, 1992) (cf. Figure 1-18).
Désignés sous le terme de SRS (pour « Substrate Recognition Site »), ces zones sont réparties tout au
long de la séquence des P450s, recouvrant environ 16% des résidus totaux de la protéine. Ces SRSs
correspondent à des zones fortement variables en termes de séquence et ont été repérées grâce à
l’observation de substitutions non « synonymes » par l’auteur. Toutes les mutations reportées ou les
fragments chimériques ayant significativement affecté les spécificités de reconnaissance du substrat
aux enzymes CYP2 parentaux tombent ou chevauchent l’une de ces six régions.
La reconnaissance d’une grande variété de substrats par les P450s pourrait donc être expliquée par
le positionnement différent des éléments structuraux bordant le site actif, mais également par la
variabilité des séquences au sein des zones en interaction avec les substrats.
44 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
A
1 Rat 2A1 MLD---TGLLLVVILASLSVMLLVSLWQQ-KIRGRLPPGPTPLPFIGNYLQLNTKDVYSSITQLSERYG
1 Souris 2A5 MLT---SGLLLVAAVAFLSVLVLMSVWKQRKLSGKLPPGPTPLPFIGNFLQLNTEQMYNSLMKISQRYG
1 Rat 2B2 MEP---S---ILLLLALLVGFLLLLVRGHPKSRGNFPPGPRPLPLLGNLLQLDRGGLLNSFMQLREKYG
1 Humain 2F1 MDS---I---STAILLLLLALVCLLLTLSSRDKGKLPPGPRPLSILGNLLLLCSQDMLTSLTKLSKEYG
1 Rat 2G1 MT-------------LCLSCLLILIAWKRTSRGGKLPPGPTPIPFLGNLLQVRIDATFQSFLKLQKKYG
1 Lapin 2C3 MDL---L----IILGICLSCVVLLSLWKKTHGKGKLPPGPTPLPVVGNLLQLETKDINKSLSMLAKEYG
1 Lapin 2C4 MDP---V----AGLVLGLCCLLLLSLWKQNSGRGKLPPGPTPFPIIGNILQIDVKDISKSLTKFSERYG
1 Chien 2C21 MXX---X----XXXXXXXXXXXXXXXXXXXXXXXKLPPGPTPLPIIGNILQINTKNVSKSLSKLAENYG
1 Rat 2D1 MAV---LGIT-IALLVWVATLLVISIWKKIYNSWNLPPGPFPLPILGNIFQLDLKDIPKSFTKLAKRFG
1 Rat 2E1 MELLNGTGLWSMAIFTVIFILLVDLMHRRHRWTSRYPPGPVPWPVLGNLLQVDLSNMPYSLYKLQHRYG
1 P.putida 101A1 MTT-------ETIQSNANLAPLPPHVPEHLVFDFDMYNPSNLSAGVQEAWAV--------LQESNV--P
1 B B’ SRS-1 C D
72 PVFTIHLGPRRVVVLYGYDAVKEALVDQAEEFSGRGEQATYNT---LFKGYGVAFSS-GERAKQLRRLSIATLRDFGVGKRGVEERILEE
76 PVFTIYLGPRRIVVLCGQEAVKEALVDQAEEFSGRGEQATFDW---LFKGYGVAFSS-GERAKQLRRFSIATLRDFGVGKRGIEERIQEE
70 DVFTVHLGPRPVVMLCGTDTIKEALVGQAEDFSGRGTIAVIEP---IFKEYGVIFAN-GERWKALRRFSLATMRDFGMGKRSVEERIQEE
73 SMYTVHLGPRRVVVLSGYQAVKEALVDQGEEFSGRGDYPAFFN---FTKGNGIAFSS-GDRWKVLRQFSIQILRNFGMGKRSIEERILEE
63 SVFTVYFGPRPVVILCGHEAVKEALVDQADDFSGRGEMPTLEK---NFQGYGLALSN-GERWKILRRFSLTVLRNFGMGKRSIEERIQEE
71 SIFTLYFGMKPAVVLYGYEGVIEALIDRGEEFSGRGIFPVFDR---VTKGLGIVFSS-GEKWKETRRFSLTVLRNLGMGKKTIEERIQEE
71 PVFTVYLGMKPTVVLHGYKAVKEALVDLGEEFAGRGHFPIAEK---VNKGLGIVFTN-ANTWKEMRRFSLMTLRNFGMGKRSIEDRVQEE
72 PVFTVYFGMKPTVVLYGYEAVKEALIDRSEEFSGRGHFPLLDW---TIQGLGIVFSN-GEKWKQTRRFSLTVLRNMGMGKKTVEDRIQEE
72 PVFTLHLGSRRIVVLHGYKAVKEVLLNHKNEFSGRGDIPVFQ----EYKNKGIIFNN-GPTWKDVRRFSLSILRDWGMGKQGNEARIQRE
76 DVFSLQKGWKPMVIVNRLKAVQEVLVTHGEDTADRPPVPIFKCLGVKPRSQGVILASYGPEWREQRRFSVSTLRTFGMGKKSLEEWVTKE
65 DLVWTRCNGGHWIATRG-Q-LIREAYEDYRHFSSECPFIPREA---GEAYDFIPTSMDPPEQRQFRALANQVV-GMPVVDK-LENRIQEL
5 E F SRS-2 SRS-3
158 AGYLIKMLQGTCGAPIDPTIYLSKTVSNVISSIVFGERFDYEDTEFLSLLQMMGQMNRFAASPTGQLYDMFHSVMKYLPGPQQQIIKVTQ
162 AGFLIDSFRKTNGAFIDPTFYLSRTVSNVISSIVFGDRFDYEDKEFLSLLRMMLGSFQFTATSMGQLYEMFSSVMKHLPGPQQQAFKELQ
156 AQCLVEELRKSQGAPLDPTFLFQCITANIICSIVFGERFDYTDRQFLRLLELFYRTFSLLSSFSSQVFEFFSGFLKYFPGAHRQISKNLQ
159 GSFLLAELRKTEGEPFDPTFVLSRSVSNIICSVLFGSRFDYDDERLLTIIRLINDNFQIMSSPWGELYDIFPSLLDWVPGPHQRIFQNFK
149 AGYLLEELHKVKGAPIDPTFYLSRTVSNVICSVVFGKRFDYEDQRFRSLMKMINESFVEMSMPWAQLYDMYWGVIQYFPGRHNRLYNLIE
157 ALCLIQALRKTNASPCDPTFLLFCVPCNVICSVIFQNRFDYDDEKFKTLIKYFHENFELLGTPWIQLYNIFP-ILHYLPGSHRQLFKNID
157 ARCLVEELRKTNALPCDPTFILGCAPCNVICSVILHNRFDYKDEEFLKLMERLNENIRILSSPWLQVYNNFPALLDYFPGIHKTLLKNAD
158 ALYLVEALKKTNASPCDPTFLLGCAPCNVICSIIFQNRFEYDDKDFLTLLEYFHENLLISSTSWIQLYNAFPLLIHYLPGSHHVLFKNIA
157 AQFLVEELKKTKGQPFDPTFLIGCAPCNVIADILFNKRFDYNDKKCLRLMSLFNENFYLLSTPWIQLYNNFADYLRYLPGSHRKIMKNVS
166 AGHLCDAFTAQAGQSINPKAMLNKALCNVIASLIFARRFEYEDPYLIRMVKLVEESLTEVSGFIPEVLNTFPALLR-IPGLADKVFQGQK
148 ACSLIESLRPQ--GQCNFTEDYAEPFPIRIFMLLAGL-PEEDIPHLKYLTDQMTR-PDGS----------------------MTFAEAKE
G H 2 SRS-4 I J
248 KLEDFMIEKVRQNHSTLDP-NSPRNFIDSFLIRMQEEK-NGNSEFHMKNLVMTTLSLFFAGSETVSSTLRYGFLLLMKHPDVEAKVHEEI
252 GLEDFITKKVEHNQRTLDP-NSPRDFIDSFLIRMLEEKKNPNTEFYMKNLVLTTLNLFFAGTETVSTTLRYGFLLLMKHPDIEAKVHEEI
246 EILDYIGHIVEKHRATLDP-SAPRDFIDTYLLRMEKEKSNHHTEFHHENLMISLLSLFFAGTETGSTTLRYGFLLMLKYPHVTEKVQKEI
249 CLRDLIAHSVHDHQASLDP-RSPRDFIQCFLTKMAEEKEDPLSHFHMDTLLMTTHNLLFGGTKTVSTTLHHAFLALMKYPKVQARVQEEI
239 ELKDFIASRVKINEASFDP-SNPRDFIDCFLIKMYQDKSDPHSEFNLKNLVLTTLNLFFAGTETVSSTLRYGFLLLMKYPEVEAKIHEEI
246 GQIKFILEKVQEHQESLDS-NNPRDFVDHFLIKMEKEKHKKQSEFTMDNLITTIWDVFSAGTDTTSNTLKFALLLLLKHPEITAKVQEEI
247 YTKNFIMEKVKEHQKLLDV-NNPRDFIDCFLIKMEKEN---NLEFTLGSLVIAVFDLFGAGTETTSTTLRYSLLLLLKHPEVAARVQEEI
248 NQFKFISEKIKEHEESLNF-SNPRDFIDYFLIKIEKEKHNKQSEFTMDNLIITIWDVFSAGTETTSTTLRYGLLVLLKHPDVTAKVQEEI
247 EIKQYTLEKAKEHLQSLDI-NCARDVTDCLLIEMEKEKHSQEPMYTMENVSVTLADLFFAGTETTSTTLRYGLLILMKYPEIEEKLHEEI
255 TFMALLDNLLAENRTTWDPAQPPRNLTDAFLAEVEKAKGNPESSFNDENLRMVVVDLFTAGMVTTATTLTWALLLMILYPDVQRRVQQEI
212 ALYDYLIPIIEQRRQ-----KPGTDAISIVANG-Q----VNGRPITSDEAKRMCGLLLVGGLDTVVNFLSFSMEFLAKSPEHRQELIERP
K SRS-5 3 4 3
336 EQVIGRNRQPQYEDHMKMPYTQAVINEIQRFSNLAPLGIPRRIIKNTTFRGFFLPKATDVFPILGSLMTDPKFFPSPKDFDPQNFLDDKG
341 DRVIGRNRQPKYEDRMKMPYTEAVIHEIQRFADMIPMGLARRVTKDTKFRDFLLPKGTEVFPMLGSVLKDPKFFSNPKDFNPKHFLDDKG
335 DQVIGSHRPPSLDDRTKMPYTDAVIHEIQRFADLAPIGLPHRVTKDTMFRGYLLPKNTEVYPILSSALHDPQYFDHPDTFNPEHFLDADG
338 DLVVGRARLPALKDRAAMPYTDAVIHEVQRFADIIPMNLPHRVTRDTAFRGFLIPKGTDVITLLNTVHYDPSQFLTPQEFNPEHFLDANQ
328 NQVIGTHRTPRVDDRAKMPYTDAVIHEIQRLTDIVPLGVPHNVIRDTHFRGYFLPKGTDVYPLIGSVLKDPKYFRYPEAFYPQHFLDEQG
335 EHVIGRHRSPCMQDRTRMPYTDAVMHEIQRYVDLVPTSLPHAVTQDIEFNGYLIPKGTDIIPSLTSVLYDDKEFPNPEKFDPGHFLDESG
333 ERVIGRHRSPCMQDRSHMPYTDAVIHEIQRFIDLLPTNLPHAVTRDVKFRNYFIPKGTDIITSLTSVLHDEKAFPNPKVFDPGHFLDESG
337 HRVVGRHRSPCMQDRSCMPYTDAVVHEIQRYIDLVPNNLPHSVTQDIKFREYLIPKGTTILTSLTSVLHDEKGFPNPDQFDPGHFLDENG
336 DRVIGPSRVPAVRDRLDMPYMDAVVHEIQRFINLVPSNLPHEATRDTVFQGYVIPKGTVVIPTLDSLLYDSHEFPDPEKFKPEHFLNENG
345 DEVIGQVRCPEMTDQAHMPYTNAVIHEVQRFGDIAPLNLPRITSCDIEVQDFVIPKGTTLIINLSSVLKDETVWEKPHRFHPEHFLDAQG
292 E------------------RIPAACEELLRRFSLV--ADGRILTSDYEFHGVQLKKGDQILLPQM-----LSGL-DERENACPMHVDFSR
6 L 5 SRS-6
426 QLKKNAAFLPFSTGKRFCLGDGLAKMELFLLLTTILQNFRFKFPMKLEDINESPKPLGFTRIIPKY--TMSFMPI---- 492
431 QFKKNDAFVPFSIGKRYCFGEGLARMELFLFLTNIMQNFHFKSTQAPQDIDVSPRLVGFATIPPTY--TMSFLSR---- 494
425 TLKKSEAFMPFSTGKRICLGEGIARNELFLFFTTILQNFSVSSHLAPKDIDLTPKESGIAKIPPTY--QICFSAR---- 491
428 SFKKSPAFMPFSAGRRLCLGESLARMELFLYLTAILQSFSLQPLGAPEDIDLTPLSSGLGNLPRPF--QLCLRPR---- 491
418 RFKKNDAFVAFSSGKRICVGEALARMELFLYFTSILQRFSLRSLVPPADIDIAHKISGFGNIPPTY--ELCFMAR---- 484
425 NFKKSDYFMPFSAGKRACVGEGLARMELFLLLTTILQHFTLKPLVDPKDIDPTPVENGFVSVPPSY--ELCFVPV---- 489
423 NFKKSDYFMPFSAGKRMCVGEGLARMELFLFLTSILQNFKLQSLVEPKDLDITAVVNGFVSVPPSY--QLCFIPI---- 487
427 SFKKSDYFMAFSAGKRVCVGEGLARMELFLLLTNILQHFTLKPLVDPKDIDTTPIANGLGATPPSY--KLCFVPV---- 484
426 KFKYSDYFKAFSAGKRVCVGEGLARMELFLLLSAILQHFNLKSLVDPKDIDLSPVTVGFGSIPPQF--KLCVIPRS--- 493
435 NFVKHEAFMPFSAGRRACLGEPLARMELFLFFTCLLQRFSFSVPVG-QPRPSTHGFFAFPVAPLPY--QLCAVVREQGL 504
356 Q-K-VS-HTTFGHGSHLCLGQHLARREIIVTLKEWLTRIPDFSIAPGAQIQHKSGIVSGVQALPLVWDPATTKAV---- 415
Figure 1-18 Alignement de séquences multiples entre les CYP2 membranaires et le P450cam (source Gotoh,
1992). Les régions correspondant aux hélices et aux feuillets du P450cam sont encapsulés dans un cadre à trait
plein. Les zones surlignées en gris correspondent aux résidus de liaison au substrat dans le P450cam (Laughton et
al., 1990). Les SRSs sont représentés dans un cadre rouge à trait en pointillé. L’alignement diffère légèrement de
la publication de Gotoh en raison des séquences sélectionnées. Il existe une différence de nomenclature entre cet
alignement donné par Gotoh et le schéma (A) (celui d’un BM3) de la Figure 1-16. Ainsi, le premier feuillet 5 sur
l’alignement, correspond en fait au feuillet 3 de la figure, le premier feuillet 2 à 5, les feuillets entre K et L (3-4-3)
correspondent aux feuillets 1-2-1 (avec aussi un feuillet 6 avant le feuillet 1) et le dernier feuillet (5) correspond
aux feuillets 3-4-3.
Un repliement très conservé 45
Parmi les structures de CYPs déposées sur la PDB, nombreuses sont celles co-cristallisées de leur
substrat. Parmi celles de mammifères, les premières à avoir été réalisées sont celles du
CYP2C5/3LVdH, par les équipes d’E.F. Johnson et D. Mansuy. Historiquement, le CYP2C5 (code
PDB 1DT6) fut la première structure de mammifère à avoir été réalisée et publiée. Cette dernière a
subi quelques mutations et délétions afin d’être cristallisée dans les meilleures conditions. Par la suite,
deux autres structures de ce CYP 2C5 ont été réalisées à de meilleurs résolutions, toutes deux
co-cristallisées à un substrat dont la taille et la polarité diffèrent : le diclofénac (DIF) et le 4-méthyl-N-
méthyl-N(2-phényl-2H-pyrazol-3-yl)benznesulfonamide (DMZ) (Marquest-Soares et al., 2003). Ce fut
d’ailleurs les premières structures de complexes P450s de mammifère : celui avec le DMZ est trouvé
46 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
sous le code PDB 1N6B et celui avec le DIF, 1R6B. Par superposition différentielle de ces trois
structures, il est possible d’observer quelques comportements de la protéine en présence ou absence de
son substrat.
Tableau 1.7 Résidus du site actif du CYP2C5 en contact avec le DMZ (Wester et al., 2003a) et le DIF (Wester et al., 2003b)
Résidus en contact
SRS
Communs aux 2 substrats Spécifique du DMZ Spécifique du DIF
Les résidus du 2C5 en contact avec le DMZ ou le diclofénac sont quasiment les mêmes (cf.
Tableau 1.7), et ne présentent pas de différence majeure de polarité. Lorsqu’un substrat se fixe au sein
de son site actif, le CYP 2C5 montre une adaptabilité importante des éléments structuraux bordant la
cavité du site actif en fonction de la taille et de la polarité du composé (cf. Figure 1-19) :
- Ainsi la présence dans le site actif d’un composé faiblement polaire comme le DMZ
correspond à une conformation fermée du P450. La protéine se contracte ainsi autour du
substrat, ce qui a pour conséquence de chasser l’eau présente dans la cavité du site actif
renforçant alors les interactions favorables avec le substrat. Le déplacement observé d’hélices
permettrait donc de boucher les canaux par lesquels pourraient rentrer les molécules d’eau.
Conjointement, les deux hélices F et G se rapprochent alors de l’hème par translation
perpendiculaire à l’axe de l’hélice I. D’autre part, la boucle B-C se structure pour former une
petite hélice B’ qui permet d’optimiser les contacts de type hydrophobe avec le substrat. Cette
région fait d’ailleurs partie du SRS-1.
- Globalement, les modifications du site actif du CYP 2C5 induites par la fixation du DIF sont
analogues à celles observées avec le DMZ (compaction autour du substrat, structuration de la
boucle B’, fermeture des différents canaux). Cependant, le diclofénac est plus petit que le
DMZ et porte une fonction chargée (COOH) qui pointe vers l’extrémité d’un canal. Le reste
du canal est comblé alors par un réseau de molécules d’eau, stabilisé par les différents résidus
du canal (Figure 1-19 B).
Un repliement très conservé 47
Figure 1-19 Adaptations conformationnelles du site actif du CYP 2C5/3LVdh lors de la fixation du DMZ (A)
ou du DIF (B). (d’après Wester et al., 2003a, b). Dans les deux figures, la structure du CYP 2C5/3LVdH sans
substrat est représentée en orange. Les portions d’hélices sont représentées en ruban. On observe ici pour les deux
cas un structuration de l’hélice B’. Pour le DFI, un réseau de molécules d’eau apparaît pour combler le canal.
Figure 1-20 P450cam co-cristallisé avec un analogue du camphre (PDB 1LWL) (d'après Dunn et al., 2002).
L’analogue du camphre est représenté en sphère orangé au centre du site. Du fait de sa longueur important, il
occupe tout un canal d’accès avec la partie fluorescente à l’extérieur de l’enveloppe protéique.
Figure 1-21 Comparaison des structures du CYP 2B4 (A) sans substrat (PDB 1PO5); (B) avec le CPI (PDB
1SUO). Pour les deux structures, l’hème figure en rouge en style bâtonnet, les hélices α sont représentées en ruban
rouge, les brins β en flèches jaunes. Le CPI sur la figure (B) est représenté en bâtonnet orange, au dessus de
l’hème. Dans la structure sans ligand (A), les hélices F et G sont éloignées du plan de l’hème et la boucle B-C est
structurée de façon différente à celle de la seconde structure. D’après Scott et al., 2004 ; Zhao et al., 2006.
Des analyses par dynamique moléculaire (MD) (la technique sera décrite dans le prochain
chapitre) d’expulsion de substrat menées par l’équipe de R.C Wade ont permis de compléter ces
hypothèses sur l’accès au site actif, en démontrant la présence possible d’autres canaux en fonction des
substrats utilisés et montrent que les canaux d’entrée peuvent varier selon le substrat à métaboliser.
(Ludemann et al., 2000 ; Winn et al., 2002 ; Wade et al., 2004 ; Schleinkofer et al., 2005). Ces
techniques de MD ont permis notamment de faire apparaître des canaux lors d’observation de la
protéine en mouvement, canaux qui n’étaient pas percevables sous observation figée de la structure
RX.
1.4.4.3 Bilan des canaux d’entrée et de sortie, selon Cojocaru et al.(Cojocaru et al., 2007)
V. Cojocaru a récemment publié un article faisant le bilan de toutes les entrées et sorties possibles,
répertoriés sur l’ensemble des P450s disponibles en Mars 2006, soulignant par la même occasion
quelques différences entre les mécanismes d’entrées/sorties pour les P450s bactériennes et ceux de
mammifères. La recherche des canaux a été opérée à l’aide du logiciel CAVER (Petrek et al., 2006)
(http://loschmidt.chemi.muni.cz/caver/). L’ensemble des canaux repérés est décrit dans la Figure 1-22
et le Tableau 1.8.
50 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Figure 1-22 Canaux d'accès potentiels des CYPs. (source Cujucaro) Tous les canaux calculés ont été annotés
sur la structure du P450cam (PDB 1ATKD). La protéine, en grise, est en représentation cartoon (hélice en ruban et
brin en flèches) Les ouvertures de canaux sont montrées à l’aide de cercles numérotés à la position correspondante
en surface de la protéine. Les canaux partageant une même couleur sont liés par (i) leur mode d’ouverture (2c, 2ac,
2a, 2f, 2b – en rouge ; 2c, 2d, 4 – en vert ; 1,3 – en marron), (ii) leur fonction [solvant (S), water (W) – en bleu], ou
(iii) récemment identifié (5 – violet). Chaque canal est montré avec une nuance de couleur différente. La boucle B-
C est coloriée en rose tandis que la boucle F-G est en vert. Deux vues distinctes sont proposées pour pouvoir
observer l’ensemble des canaux : (A) une vue de profil en regardant droit ver l’hélice I et (B) une vue de dessus de
l’hème, à partir de sa face distale.
Un repliement très conservé 51
Tableau 1.8 Localisation et occurrence des canaux d'accès au site actif des CYPs disponible en Mars 2006 (d’après Cojocaru et al., 2007)
1 Apparaît entre les hélice C/C’ et H ou L, Canal rare, observé en MD. P450cam
près de la boucle G-H et le feuillet 2 Possibilité de route pour les
espèces gazeuses
2a Apparaît entre la boucle F-G, l’hélice Canal commun CYP119, P450st, P450nor, CYP2B4,
B’/boucle B-B’/Boucle B-C et le feuillet 1. CYP2C9, P450cam, P450BM3, P450Terp,
Toute cette région est extrêmement CYP121, CYP152A2, CYP154C1,
variable en séquence et en structure chez CYP158A2, P450OxyB, P450OxyC,
les P450s. La région C-terminale de l’hélice P450epoK, CYP175A1
F forme le SRS-2 et la région N-terminale
de l’hélice G forme le SRS-3
2b Apparaît entre la boucle B-B’, les feuillets 1 CYP2B4, CYP2C8, CYP3A4, P450BM3,
et 3 (SRS-5 présent dans le feuillet 3) CYP152A2
2c Apparaît entre l’hélice Get I et l’hélice Canal commun CYP119, P450Nor, CYP2B4, CYP2C5,
B’/boucle B-C. L’hélice I contient le SRS-4 CYP2C8, CYP2C9, CYP154C1,
CYP158A2
2ac Apparaît entre le sommet de la boucle B-C Canal commun CYP119, P450Nor, CYP2B4, CYP2C5,
(ou hélice B’) et l’hélice G entre les canaux CYP2C9, CYP154A1, CYP154C1,
2A et 2c CYP158A2 P450OxyB, CYP175A1
2e Apparaît à travers le boucle B-C Canal assez commun, Il a été CYP2B4, CYP2C5, CYP2C8, CYP2C9,
montré comme une seconde CYP3A4, CYP51, P450EryF, CYP121,
sortie possible dans la MD du CYP152A2, CYP154C1, P450OxyB,
P450eryF P450epoK
2f Idem que 2d pour la définition. Apparaît Canal commun CYP119, P450Nor, CYP2B4, CYP2C5,
entre l’hélice F’/boucle F-G et le feuillet 5 CYP2C9, P450cam, P450BM3,
P450Terp, CYP158A2, P450OxyB,
P450OxyC, CYP175A1
S Apparaît entre les hélice E,F et I et le Présent dans la moitié des CYP119, P450Nor, CYP2B4, CYP2C5,
feuillet 5 P450s, possibilité de sortie CYP2C8, CYP2C9, CYP3A4, P450cam,
pour les substrats, mais non P450BM3, P450Terp, CYP158A2,
confirmé jusqu’à présent P450OxyB, P450OxyC
W Apparaît à la base de la boucle B-C près du Entrée de l’eau pour l’apport P450BM3
C-terminal de l’hélice B en oxygène moléculaire.
52 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
A partir de ces éléments structuraux, il est possible de s’intéresser aux mécanismes mis en jeu lors
des biotransformations. Comme il a été déjà souligné, l’élément essentiel qui permet ces réactions est
l’hème des P450s, plus particulièrement le fer qu’il porte. Ces réactions ont également besoin d’un
apport d’électrons et d’oxygène moléculaire lors de la réaction enzymatique.
L’atome de fer est en mesure de former 6 liaisons de coordination. Dans le cas des CYPs, le fer
est pentacoordiné par les 4 azotes pyrroliques de l’hème et par le thiolate de la cystéine. Le sixième
ligand peut être soit une molécule d’eau, soit un atome coordinant d’un composé fixé dans le site actif.
Ces variations dans l’état de coordination du fer se traduisent par des signatures spectrales
caractéristiques dans le domaine de l’UV visible (cf. Figure 1-23).
- Un état de bas spin S=1/2, dans lequel le fer est hexacoordiné et dans le plan de l’hème. Le
sixième ligand est presque toujours une molécule d’eau. Le maximum d’absorption de cette
espèce FeIII est situé aux environs de 420 nm.
- Un état de haut spin S=5/2 correspond à un FeIII pentacoordiné situé en dehors du plan de
l’hème. Cette espèce a un maximum d’absorption à 390 nm
à 390 nm. A noter que dans certains cas, l’arrivée d’un substrat dans le site actif peut favoriser
la fixation d’une molécule d’eau comme sixième ligand du fer et donner également un telle
interaction.
- Une interaction de type II est observée lorsque le composé exogène comporte un atome
d’azote ou de soufre pouvant complexer le FeIII et se fixe au sein du site actif. Le FeIII absorbe
alors entre 425 et 435 nm. Le spectre différentiel montre ainsi un minimum vers 390-410 nm
et un maximum vers 425-435 nm
Figure 1-23 Interactions spectrales observées lors de fixation d'un composé dans le site actif (d'après Mansuy
et al., 1989) (Source : Thèse de P. Lafite). HS : Haut Spin ; BS : Bas Spin.
54 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Figure 1-24 Cycle catalytique des CYPs (Makris et al., 2005; Mansuy et Battioni, 2000) (Source : Thèse de P.
Lafite) Le cycle court obtenu par addition d’un composé donneur d’atome d’oxygène est indiqué en bleu (aucun
exemple n’est donné) ; les voies non-productives ou abortives en rouge et la voie réductase en marron.
Propriétés chimiques des P450s 55
1. Le cycle catalytique des CYPs est initié par la fixation du substrat au sein du site actif. Ceci
entraîne dans le cas de l’état natif à bas spin le déplacement de la molécule d’eau distale et
favorise la position pentacoodinée haut spin du complexe ferrique FeIII.
2. Cette fixation du ligand induit une augmentation du potentiel du couple FeIII/FeII, permettant
ainsi le transfert d’un électron qui peut réduire le fer en complexe ferreux FeII. Dans certains
cas, tels les P450s d’eucaryotes, il semblerait que le transfert d’électron puisse se produire
sans fixation d’un composé dans le site actif (Guengerich et Johnson, 1997).
3. La réduction du fer est suivie par la fixation de l’oxygène moléculaire sur le fer, donnant le
complexe ferreux FeII←O2.
4. Le transfert d’un second électron vers ce complexe réduit l’oxygène moléculaire en formant
l’entité peroxy-ferrique FeIII–OO– qui par protonation donne ensuite un complexe hydroperoxo
FeIII–OOH.
5. Une seconde protonation provoque ensuite la rupture hétérolytique de la liaison O–O, libérant
une molécule d’eau et le composé fer-oxo formellement écrit FeV=O.
6. Ce composé est hautement oxydant. Il peut transférer son atome d’oxygène au substrat.
7. Le métabolite sort du site actif.
Dans certains cas, l’oxydation du substrat peut être réalisée par l’espèce FeIII–OOH. Les travaux
de A. Vaz ont ainsi montré que certaines époxydations d’oléfines sont réalisées par cette entité et non
par le fer-oxo FeV=O (Vaz et al., 1998). Par ailleurs, l’utilisation d’agents oxydant donneurs d’atome
d’oxygène, tels que l’iodosobenzène, les peracides, les hydroperoxydes, les anions ClO2– ou IO4–,
permettent d’obtenir directement l’espèce réactive fer-oxo à partir de l’état natif. On parle alors de
cycle court des CYPs.
- L’entité fer-oxo FeV=O peut redonner également l’état natif FeIII après consommation de deux
protons et de deux électrons :
FeV = O + 2 H + + 2e −
→ H 2 O2 + Fe III
L’ion superoxyde et le peroxyde d’hydrogène libérés, constituent tous deux une source potentielle
de stress oxydant. Cette activité oxydase des P450s est généralement plus importante que l’activité
catalytique oxygénase présentée précédemment dans le cas des P450s microsomaux, mais ce
découplage dépend de paramètres qui influent sur la vitesse de transfert des électrons ou des protons,
comme l’accessibilité de l’eau au site actif, un positionnement du substrat trop éloigné du fer,
l’absence de sites suffisamment réactifs sur le substrat (Mueller et al., 1995)…
- En dépit du fait que l’existence des complexes peroxo-, hydroxo- et oxo du fer n’a pas pu être
prouvée par des expériences de cristallographies, l’équipe de B. Hoffman a pu quand même
mettre en évidence par spectroscopie ENDOR et RPE les complexes peroxo- et hydroxperoxy-.
Ainsi, ils ont irradié par des rayons γ des échantillons à très basse température (77K et 6K),
figeant les structures à chaque étape du cycle, permettant ainsi la visualisation des complexes
(Davydov et al., 2001). En revanche, l’espère FeV=O n’a pas pu être observée : la
transformation du complexe FeIII–OOH produit directement l’espèce FeIII/hydroxycamphre
sans passer par le fer-oxo.
Chez les autres P450s, tels que ceux de la famille 2, D.F Lewis a montré qu’une mutation opérée
sur la thréonine correspondante à celle du 252 chez P450cam a pour conséquence une réduction
important de l’activité. A l’opposé, certains P450s qui ne possèdent pas cette thréonine ont pourtant
une activité catalytique (Hiroya et al., 1994 ; Cupp-Vickery et Poulos, 1995).
58 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Outre son implication dans les voies endogènes, la fonction de biotransformation confère aux
CYPs une place privilégiée dans les systèmes de détoxication. En effet, l’une des sources premières
d’agression quotidienne que subissent les organismes vivants provient de l’environnement. Ces
agressions sont liées de façon directe ou indirecte à des substances d’origine diverse, communément
désignées sous le terme de xénobiotique. On retrouve parmi ces substances des produits naturels,
médicaments ou encore polluants de l’environnement : toxines végétales et animales, dérivés des
combustibles domestiques et industriels, solvants, colorants, additifs alimentaires, pesticides,
herbicides, etc.… Ces composés ont pour principales caractéristiques d’être de faible poids
moléculaire d’une part et hydrophobes d’autre part. En raison de ces caractéristiques, ils ont une
tendance naturelle à s’accumuler dans les phases lipidiques des membranes cellulaires, rendant ainsi
leur élimination par voies classiques (urine et bile) très difficile. Ce phénomène résulterait en une mort
inéluctable des organismes par effet toxique, si ceux-ci ne s’étaient pas dotés, au cours de l’évolution
de systèmes enzymatiques permettant leur élimination.
Ce processus de détoxication se déroule en trois phases (cf. Figure 1-25) qui mettent en jeu
différents enzymes de biotransformation (Phase I et II) présentés dans le Tableau 1.9 et des
transporteurs (Phase III). L’ensemble forme un système connu sous l’appellation d’Enzymes du
Métabolisme des Xénobiotiques (EMX). Ces trois phases sont désignées comme il suit :
Il peut être toutefois signalé que le métabolisme des xénobiotiques ne conduit pas toujours à la
détoxication de ces composés. En effet, dans certains cas, le produit oxydé ou réduit peut manifester
un très forte réactivité par attaque électrophile ou nucléophile des macromolécules environnantes
(protéines, acides nucléiques).
Au centre d’un système de détoxication 59
Pénétration
intracellulaire Fixation sur les macromolécules :
Organites - ADN → Mutation (cancérogenèse)
par voie passive
- Protéines → allergies / inactivation
- Péroxydation lipidique
MRPs,
MDRs
Phase III
ELIMINATION
transporteurs
Composé RH Phase I ATP
OXYDATION
monooxygénases Phase II Conjugués ROR’
P450 CONJUGAISON
NADPH, O2 transférases
GSH
EFFLUX UDPGA
Métabolites ROH PAPS
+ MT
P-gp R.O.S.
Figure 1-25 Schéma simplifié du métabolisme des composés hydrophobes (Source : Cours de M. Delaforge)
La couleur froide représente la voie « normale » du métabolisme, en couleur chaude, lorsqu’il y a des phénomènes
de toxicités. Le devenir d’un composé hydrophobe dans la cellule dépend de toutes ces voies de métabolisme.
MDR : MultiDrug Resistance ; MRP :Multidrug Resistant Protein ; P-gp : P-glycoprotein
Dans ce processus de détoxication, les CYPs occupent une place prédominante : ils sont les
enzymes majoritaire de la phase I (ils oxydent jusqu’à 90% des substrats), jouant ainsi un rôle
pharmaco-toxicologique très important. La vitesse d’élimination des xénobiotiques de l’organisme est
donc contrôlée par leur vitesse de transformation par les cytochromes P450. Ce métabolisme peut
varier en fonction de facteurs génétiques liés au polymorphisme des CYPs par exemple, ou
environnementaux tels que l’induction, l’inhibition. Ces variations constituent donc une cause possible
d’inefficacité thérapeutique ou même de toxicité (Ingelman-Sundberg, 2002).
60 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
Réaction de Phase II
Hydrolyses Epoxyde hydrolases Cytosol, Microsomes Epoxydes
Glucuronidation UDP Glucuronyl-transférases Microsomes Phénols, Thiols, Amines,
Acides Carboxyliques
Conjugaison au gluthation Glutathion-S-transférases Microsomes Electrophiles
Sulfatation Sulfotransférases Phénols, Thiols, Amines
Méthylation O-,N-,S-méthyl-transférases Cytosol, Microsomes Phénols, Amines
Acétylation N-acétyl-transférases Cytosol Amines
Conjugaison aux acides Aminoacyl-transférases Microsomes Acides Carboxyliques
aminés
exemple. D’autres en revanche sont présents dans le foie, mais pas détectés de l’intestin, tels que les
CYP 1A2, 2A6, 2B6, 2C8 et 2E1 (Paine et al., 2006). Des études ont montré qu’en dépit d’une
concentration en P450s moins faible dans l’intestin, le métabolisme intestinal pouvait contribuer de
façon significative et parfois égale au métabolisme hépatique comme dans le cas de la cyclosporine,
du midazolam ou du verpamil (Kolars et al., 1991 ; Paine et al., 1996 ; von Richter et al., 2001). Les
tissus du système respiratoire, à la fois exposés aux xénobiotiques inhalés et aux pathogènes transmis
par le sang, sont une cible importante en toxicologie environnementale. De nombreux CYPs sont
exprimés dans le poumon, dont certains spécifiques du tissu : CYP 2A13, 2S1 ou 4B1 (Ding et
Kaminsky, 2003). Le poumon semble de plus être le lieu d’entrée dans l’organisme pour de nombreux
procarcinogènes, comme les hydrocarbures aromatiques présents dans la fumée de cigarette,
métabolisés par les CYP 1A ou 2A.
L’activité des P450s dans le tissu hépatique est fortement dépendante de deux paramètres, l’un
génétique (polymorphisme) et l’autre exogène (induction et inhibition). Cette variabilité peut être la
cause d’une accumulation trop importante ou d’une élimination trop rapide du médicament, et par voie
de conséquence entraîner les effets indésirables et/ou toxiques.
1.6.2.1 Polymorphisme
Les gènes codant pour les P450s impliqués dans le métabolisme des xénobiotiques peuvent avoir
des mutations allèliques qui sont appelées polymorphismes si leur fréquence est supérieure à 1% de la
population. Ces variations de gènes peuvent conduire à des variations d’expression du CYP
correspondant, ainsi qu’à des variations de leur activité catalytique. Ainsi de nombreux
polymorphismes de P450s définissent deux phénotypes appelés « métaboliseur lent » et « métaboliseur
rapide » pour un médicament donné. Les métaboliseurs rapides éliminent plus vite le médicament et
diminuent son efficacité thérapeutique, tandis que les métaboliseurs lents accumulent le médicament
qui peut devenir toxique par effet de surdosage. La communauté scientifique et médicale est
maintenant bien consciente qu’une thérapie rationnelle peut émerger en prenant en considération ces
variations de métabolisme inter-individuelles (Evans et Relling, 1999).
1.6.2.2 Cancérogenèse
La part des cancers imputables aux xénobiotiques (polluants ou constituants « normaux » de
l’alimentation) n’est pas bien définie, mais reste non négligeable. Chez l’homme, des corrélations
entre les polymorphismes génétiques de certaines isoformes et les risques de cancer suggèrent que les
62 Chapitre 1. Cytochromes P450 : pourquoi un tel intérêt ?
CYPs joueraient un rôle dans les processus de cancérogenèse. Les isoformes les plus étudiées et
impliquées dans ce mécanisme sont les CYP 1A1, 1A2, 4B1 et 2E1. Chez l’homme, une forte activité
du CYP 1A1 semble être associée à la survenue de cancers du poumon. L’activité du CYP 2E1 serait
impliquée dans le développement de stéatohépatites via la production d’un stress oxydant (Weltman et
al., 1996). Une étude montre d’ailleurs que l’induction du CYP 2E1 par la N-nitrosodiméthylamine
serait associée à l’apparition d’hépatocarcinomes (Tsutsumi et al., 1993). Le CYP 2A6 est responsable
de l’activation métabolique de la N–nitrytosamine (contenue dans la fumée de tabac), en métabolite
cancérigène pouvant provoquer un cancer du poumon (Kamataki et al., 1999).
Auto-anticorps Auto-anticorps
anti-CYP 2C9 anti-CYP 1A2
Figure 1-26 Mécanismes de mise en place de maladie auto-imunes après administration de l'acide tiénilique, de
la dihydralazine.
certains médicaments est déconseillée avec du jus de pamplemousse. C’est le cas du cisapride
(prokinétique) qui après absorption de jus de pamplemousse provoque des torsades de pointe
(Morawiecka, 2000). La cyclosporine A est un immunodépresseur très utilisé en thérapeutique, mais
aussi très coûteux. Il a été démontré que l’administration simultanée de kétoconazole et de
cyclosporine A doublerait la biodisponibilité de la cyclosporine A et ainsi réduisant les doses de 60%
à 80 % pour obtenir l’immunosuppression (Gomez et al., 1995).
Le Tableau 1.10 montre plusieurs types d’interactions médicamenteuses faisant intervenir les
mécanismes d’induction, de répression et d’inhibition. En pratique clinique, les interactions
médicamenteuses mettant en jeu des mécanismes d’inhibition sont plus fréquentes pour celles
impliquant des mécanismes d’induction et de répression. Les effets de nombreux médicaments sur
l’expression des CYPs restent inconnus. Il est important de les identifier afin de pouvoir prédire les
éventuelles interactions médicamenteuses.
1.7 Conclusion
Tout au long de ce chapitre, la nature, la diversité et la complexité des CYPs ont été soulignées.
Leurs implications dans le système de détoxication et les conséquences aussi bien bénéfiques que
pathologiques ont été également évoquées. Ces informations justifient bien l’intérêt que représente
cette superfamille auprès des industries pharmacologiques depuis sa découverte. Jusqu’à présent, la
plupart des études portées sur cette superfamille a été réalisée expérimentalement. Parmi elles,
l’obtention de cristaux de P450s fut une avancé importante dans la connaissance de ces enzymes : la
structure des protéines donnent en effet beaucoup d’information sur leurs fonctionnements. Pourtant,
comprendre les mécanismes de reconnaissance des CYPs, en se basant uniquement sur la structure,
n’est certainement pas une tâche aisée. C’est pourquoi on sollicite aujourd’hui l’utilisation d’outils
informatiques pour traiter et faire une synthèse des informations disponibles sur ces protéines.
Ces outils sont en effet très pratiques, pouvant être utilisés dans la prédiction (modélisation de
CYPs de structure inconnue lorsque cela est réalisable), pour proposer des réponses à de nombreuses
hypothèses formulées sur le fonctionnement (expérience de docking) ou encore, pour suggérer de
nouvelles expériences à réaliser (mutation dirigée). En pharmacologie, les industriels utilisent
classiquement ces structures (et/ou modèles) de P450 pour tester leurs molécules chimiques, afin d’en
déterminer des pharmacophore (support pour le design de nouveaux médicaments).
Conclusion 65
Tableau 1.10 Quelques exemples d'interactions médicamenteuses résultant d’une perturbation du métabolisme
Ainsi, l’ère du numérique ouvre réellement de nouvelles perspectives dans d’études de ces CYPs.
Dans le prochain chapitre, nous verrons comme exploiter les structures de P450s existantes pour la
construction de modèles (lorsque cela est possible), et également comment observer et comprendre les
mécanismes mis en jeu dans la reconnaissance substrat–protéine au travers de simulation. Bref, le
prochain chapitre sera dédié à la présentation des différents outils bioinformatiques déjà disponibles à
l’étude d’une protéine.
CHAPITRE 2
67
68 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Nous allons montrer dans cette thèse comment les outils de la bioinformatique peuvent permettre
l’étude des mécanismes sous-jacents des P450s. Les méthodes développées en bioinformatique sont
nombreuses et variées : il n’est donc pas question de faire un inventaire de toutes les méthodes
existantes, mais plutôt de présenter les différents méthodes ou données qui sont en rapport avec
l’objectif qu’on s’est fixé ici. Un plan d’expérience à suivre est ici proposé pour servir de fil
conducteur à ce chapitre (cf. Figure 2-1). Ce plan d’expérience consiste en des procédures, des étapes
à réaliser pas à pas, analysant des données simples (par exemple les séquences) pour aboutir à un
modèle (tel le mécanisme d’action de la protéine). Le modèle peut être le support pour des simulations
afin de « mimer » la réalité (par exemple, simulations de dynamique moléculaire en présence ou non
d’un substrat). En multipliant les expériences et en modifiant légèrement le support, on espère à terme
avoir des idées sur le fonctionnement de la protéine. C’est le principe de la modélisation moléculaire.
Dans ce chapitre, nous verrons où et comment chercher l’information nécessaire à notre étude,
comment obtenir un modèle (et les principes/méthodes impliqués pour le fabriquer), comment
modifier ce modèle et le rendre plus « proche » de la réalité, et comment procéder à des simulations
pour observer son comportement dans le temps. Chaque paragraphe de ce chapitre correspond à une
des différentes étapes illustrées sur la Figure 2-1.
Les protéines : description géométrique du squelette peptidique 69
Banque de
données
Obtention du modèle
Évaluations …
Docking (arrimage)
Simulations de dynamiques moléculaires
Mutation in silico …
Études du modèle
Analyse, comparaison avec des données
biochimiques …
Figure 2-1 Plan d’expérience pour la modélisation moléculaire en générale (correspondant au plan du chapitre).
Dans un premier temps, nous souhaitons aborder ce chapitre par des rappels de notions
géométriques et structurales des protéines, sur lesquelles reposent les concepts des logiciels
bioinformatiques qui ont été utilisés au cours de la thèse ou qui ont été développés.
La description la plus simple du squelette protéique est évidemment la liste des coordonnées
cartésiennes de ses atomes ou de ses Cα (carbone central des acides aminés, eux-mêmes composants
des protéines, cf. Annexes). Cette description est celle sur laquelle s’appuie la mesure de similarité
70 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
structural appelée RMSD (Root Mean Square Deviation) entre les structures superposées (voir section
2.4.3.2).
La liste des distances internes entre atomes ou Cα du squelette peptidique est un moyen de décrire
une conformation de manière indépendante de l’origine des coordonnées. Les distances internes d’une
sous-structure donnent donc une information « locale » de la conformation. Celle-ci permet
évidemment les comparaisons sans avoir à superposer les coordonnées cartésiennes des structures
concernées.
Comme la liaison peptidique –CO–NH– est considérée comme plane, le squelette peptidique peut
être décrit par les angles φ,ψ et ω qui sont les angles dièdres de la chaîne respectivement autour des
liaisons N–Cα, Cα–C et C–N (cf. Figure 2-2). L’angle ω est en général trans (180°), mais dans les
prolines il peut être cis dans 6 à 10% des cas. De ce fait, la description du repliement ne prend en
compte généralement que le couple (φ,ψ) (MacArthur et Thornton, 1996). De plus, le couple φ et ψ ne
peut pas prendre n’importe quelle combinaison de valeurs (Ramachandran et al., 1963). En outre, les
angles ψ et ω sont très corrélés (Esposito et al., 2005).
L’angle α est l’angle dièdre défini par quatre Cα successifs et l’angle τ est l’angle entre les plans
définis par trois Cα successifs (cf. Figure 2-3). L’angle αi est associé au deuxième des quatre Cα (le
Cαi) et l’angle τi est celui formé par les trois premiers Cα.
Figure 2-3 Angles Alpha et Tau décrit par Levitt. L’angle α est l’angle dièdre défini par les quatre Cα
successifs. L’angle τ est l’angle entre les plans définis par trois Cα successifs. La figure (A) correspond à une
simplification de la structure protéique où les groupes d’atomes C, N et H ont été combinés en un atome N’
(centres d’interaction) et les atomes O en O’ (figure tirées de Levitt, 1976).
Les angles α et τ ont été décrits par Levitt et al. (Levitt et Warshel, 1975 ; Levitt, 1976). Toutefois,
ils ont été utilisés précédemment par Flory lors de son étude de la conformation de polypeptides en
pelotes statiques (random-coil) (Flory, 1969). Les liaisons N– Cα et Cα+1–C sont parallèles à ± 10° et
le groupe peptidique (–CαHNH2–COOH) est plan, il est donc possible de remplacer les angles φ et ψ
par une seule valeur, l’angle α dont la relation avec φ et ψ est la suivante (Levitt, 1976) :
(A) (B)
Figure 2-4 Distribution des angles α dans la PDB (A) et τ dans la PDB non redondante (B)
(source thèse de M. Carpentier, 2005)
Nous décrirons dans ce paragraphe deux catégories de banques de données qui ont été utilisées
dans notre « plan d’expérience » (adapté aux P450s) : les banques de séquences et les banques de
structures de protéines.
Les premières banques de séquences sont apparues au début des années 80, sur l’initiative de
plusieurs équipes. Très rapidement, avec l’augmentation de l’efficacité du séquençage, la collecte et la
gestion des données ont nécessité une organisation plus conséquente. C’est ainsi que se sont apparues
les premières banques de séquences nucléiques telles que l’EMBL pour l’Europe – base financée par
l’EMBO (European Molecular Biology Organisation) et maintenue par une équipe située actuellement
à Cambridge au sein de l’EBI (Europeean Bioinformatics Institue) – ou encore GenBank pour les
États-Unis – financée par le NIH (National Institue of Health) diffusé par le NCBI (National Center of
Biotechnology Information) –. Une collaboration entre ces deux banques a été initiée relativement tôt,
s’est étendue en 1987 avec la participation de la DDBJ (DNA Data Bank) du Japon, pour donner
naissance en 1990 à un format unique de description des séquences dans les banques de données
nucléiques (Le format de ce fichier peut être consulté sur le serveur de l’EMBL à l’adresse suivante :
http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html)
Banques de séquences et de structures : les données sources 73
Parallèlement, deux banques principales de séquences protéiques ont été créées. La première se
nomme la Protein Identification Ressource (PIR-NBRF) (George et al., 1986), fruit de l’association
de données issues du MIPS (Martinsried Institute for Protein Sequences), de la base japonaise JIPID
(Japan International Protein Information Database) et des données de la NBRF (National Biomedical
Research Fondation). La deuxième, gérée par l’EBI et le SIR (Swiss Institute of Bioinformatics), se
nomme la spTrEMBL et a été constituée à Genève à partir de 1986. Elle comprend une banque de
données soigneusement annotée, la Swiss-Prot (Bairoch et Boeckmann, 1991), et une banque plus
large annotée automatiquement, la TrEMBL (Translated EMBL nucleotide sequence library)
(Apweiler et al., 1997). Aujourd’hui, l’EBI, le SIR et le PIR ont uni leurs forces pour créer la base de
données UNIPROT (Apweiler et al., 2004). La version non redondante de cette base de données,
UniRef100, contient environ 5 millions et demi de séquences. Si on analyse un extrait soigneusement
annoté de cette banque, UniProtKB Swiss-Prot, on constate qu’environ la moitié des séquences sont
d’origine bactérienne (cf. Figure 2-5)
À noter enfin que cette richesse en information est due à la présence de génomes entièrement
séquencés. Au début, il s’agissait de petits organismes comme le bactériophage Lambda, de 40 kb
(Sanger et al., 1982) ou encore la bactérie Haemophilus influenzae de 1,83 Mb (Fleischmann et al.,
1995), premier organisme vivant dont le génome a été entièrement séquencé. Progressivement les
séquences complètes de génomes de plus en plus grands sont arrivées avec en point d’orgue en 2001,
la séquence du génome humain 3400 Mb (Lander et al., 2001 ; Venter et al., 2001).
Database Entries
UniprotKB comprend l’ensemble de séquences annotées, les UniRef sont des bases de données non redondantes et UniParc correspond aux
archives. Dans les banques UniRef90 et UniRef50, aucune paire de séquence dans les bases respectives n’a une identité mutuelle en
séquence de > 90% ou > 50%. La base UniRef100 les séquences identiques et les fragments de ces séquences comme une même entrée, avec
des liens vers l’ID de la protéine, la séquence, la bibliographie associée, etc.
74 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Figure 2-5 Distribution taxonomique des 283 454 séquences (A) et des 122 974 séquences eucaryotes (B) de la
version 54.2 du 11-sept-07 d’UniProtKb/Swiss-Prot
Pour ce travail de thèse, les séquences de P450s utilisées proviennent essentiellement des bases de
données Swiss-Prot et TrEMBL. Dans ces dernières, les cytochromes P450s représentent environ plus
de 6481 entrées dans l’UniProtKB release 12.2 (Swiss-Prot(909) et TrEmbl(5572)).
Les structures de protéines sont généralement toutes répertoriées dans la Protein Data Bank (PDB)
(http://www.rcsb.org/pdb). Ce qui a été précédemment dit (dans le Chapitre 1) pour l’évolution
d’apparition des structures de P450 reflète l’évolution de la PDB en général. Cette banque connaît une
croissance impressionnante depuis sa création. Toutefois, cette banque est extrêmement redondante,
beaucoup de structures provenant de protéines très proches (grand nombre de mutants, de co-cristaux
avec des substrats variés). À titre d’exemple, plus de 600 structures de lysozyme sont présentes dans la
PDB. Les statistiques de la banque montre néanmoins que le nombre de structures 3D déterminées est
encore bien faible comparé au nombre de séquences disponibles.
Tableau 2.2 Dénombrement des structures déposées dans la PDB au 15 septembre 2007
Figure 2-6 Croissance annuelle du nombre de structures déposées dans la PDB. En bleu, est représentée le
nombre de structures annuelles et en rouge le nombre cumulé des structures. (Source : http://www.rcsb.org/)
Dans la PDB, l’ensemble des structures de P450s a été déterminé par cristallographie RX, (voir
Figure 1-13 et Figure 1-14 page 39). On peut remarquer que le nombre de structures résolues de P450
suit la tendance fortement croissante de la PDB elle-même.
Il existe des banques pour identifier et classer – soit de façon hiérarchique soit de façon non
hiérarchique – les familles de repliements déjà connus. Ces banques utilisent plusieurs approches soit
basées sur des calculs de « distance » entre repliements, soit essentiellement construites sur un examen
visuel des structures 3D disponibles.
2.3.3.1 FSSP
La base de données FSSP de L. Holm et C. Sander (Holm et al., 1992) a été construite à partir
d’un algorithme de mesure quantitative de la compacité des structures. Ce critère permet de diviser
une structure en domaines de plus en plus petits. La récurrence des domaines obtenus est ensuite
analysée afin de connaître la taille des domaines pouvant être retrouvés en grand nombre dans des
protéines différentes. C’est le serveur DALI (Holm et Sander, 1997) qui permet d’interroger la base
76 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
FSSP. Ce serveur permet non seulement de consulter la classification la plus récente de la PDB90 qui
contient les structures présentant entre elles moins de 90 % d’identité en séquence, mais aussi de
rechercher les structures les plus proches d’une structure que l’on soumet.
Lorsqu’une structure de P450 est soumise à ce serveur par exemple, un alignement structural de
structures proches de celle de la requête est alors affiché, comprenant des références et des liens vers
l’accession PDB de chaque structure.
2.3.3.2 SCOP
SCOP (Structural Classification of Protein) (Murzin et al., 1995) découpe les protéines en
domaines (régions ayant un cœur hydrophobe et peu d’interaction avec les autres protéines) pour les
classer. La classification de SCOP s’effectue sur quatre niveaux, du plus général au plus fin :
1. class : la composition en structures secondaires est similaire (tout α ; tout β ; α et β
mêlés ; α et β organisés en deux régions séparées) ;
2. fold : la composition en structures secondaires (hélices α et feuillets β), leur arrangement
spatial et leurs connexions topologiques sont similaires ;
3. superfamily : l’identité de séquence peut être faible mais les structures et les fonctions
suggèrent une origine évolutive commune ;
4. family : les structures protéiques ont au moins 30% d’identité de séquence ou bien
possèdent des fonctions et des structures très similaires
Ainsi, la banque SCOP classifie « manuellement » selon les organisations hiérarchiques les 26000
structures de la version Oct2004 de la PDB en 945 repliements, 1539 super familles et 2845 familles.
Dans cette banque, les CYPs sont retrouvés dans la classe des « tout α » et le repliement des
« Cytochrome P450 ». Ce dernier ne contient qu’une seule superfamille, celle des Cytochrome P450s,
elle-même ne contentant qu’une seule famille, celles des Cytochromes P450s. En résumé, la
superfamille des P450s représente une seule et unique branche dans la hiérarchie.
2.3.3.3 CATH
CATH (Class, Architecture, Topology (fold family) and Homologous superfamily) (Orengo et al.,
1997) est aussi base de données construite automatiquement et vérifiée manuellement à partir de la
PDB. Seuls les cristaux résolus à plus de 4 Å dans la PDB sont considérés dans CATH. La
classification hiérarchique des structures proposées dans cette base de données est illustrée sur la
Figure 2-7.
Banques de séquences et de structures : les données sources 77
Figure 2-7 Classification des rempliements dans la base de données CATH (source :
http://cathwww.biochem.ucl.ac.uk/cgi-bin/cath/GotoCath.pl?link=cath_info.html)
Cette base comporte également quatre niveaux principaux par familles structurales, et cinq autres
niveaux supplémentaires établis sur les similarités des séquences protéiques. Ces niveaux de
classification sont les suivants :
1. Class : les structures sont regroupées selon leur composition en structures secondaires et
les contacts entre celles-ci (4 classes : principalement α, principalement β, mixte,
quelques structures secondaires).
2. Architecture : l’organisation générale des structures secondaires est la même pour les
structures d’un même groupe.
3. Topology : les structures ayant un même repliement en termes de nombre, ordre et
connexions de structures secondaires sont regroupées.
4. Homologous superfamily : les structures d’un même groupe ont des structures et des
fonctions très similaires, suggérant un ancêtre commun.
5. Niveaux supplémentaires : S, O, L, I selon l’identité de séquences respectivement > 35%,
> 60%, >95% et de 100% (ce dernier regroupe en fait les protéines qui ont été résolues
plusieurs fois, par exemple complexées ou non avec un ligand). Le dernier niveau D sert
vérifier l’unicité de chaque entrée.
78 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Dans cette banque, et à l’image de SCOP, les P450s figurent dans la classe des « principalement
α » (Class 1), dans l’architecture des « paquets orthogonaux » (Architecture 1.10), dans la topologie
des « Cytochromes P450s » (Topology 1.10.630) et enfin dans les superfamilles homologues des
« Cytochromes P450s » (Homologous superfamily 1.10.630.10). Les CYPs dans la nomenclature
CATH peuvent descendre jusqu’aux sous-niveaux S, O, L I puis D. À noter qu’il existe une autre
entrée au niveau topologique (niveau 3), relative aux P450s : Cytochrome P450-Terp, domain 2
(Topology 1.10.230). La différence topologique observée est présentée à la Figure 2-8. Le recherche
de la structure 1cpt du P450Terp est pourtant retrouvée au niveau des « Cytochromes P450s »
(Homologous superfamily 1.10.630.10) : on peut donc se demander d’où peut provenir cette autre
entrée relative aux P450s…
(A) (B)
Figure 2-8 Différence topologique observée dans CATH pour « Cytochrome P450s » et
« Cytochrome P450-Terp, domain 2 »
Les banques de données de séquences telles que GenBank/EMBL/DDBJ pour les acides
nucléiques, Swiss-Prot, TrEMBL, UNIPROT pour les protéines et la PDB pour les structures, sont des
banques de données généralistes : elles contiennent toutes les données sources suffisantes pour les
travaux d’analyses et de traitements en bioinformatique. Devant la croissance quasi exponentielle des
données et l'hétérogénéité des séquences contenues dans les principales bases de séquences
généralistes, d'autres bases spécialisées sont apparues. Elles se sont constituées autour de thématiques
biologiques ou tout simplement en vue de réunir les séquences d'une même espèce et d'en enrichir les
annotations pour diminuer, ou lever les ambiguïtés laissées par les grandes banques publiques. A titre
Banques de séquences et de structures : les données sources 79
d’exemple, on peut citer la banque d’alignement de structures HOMSTRAD, les banques de domaines
de protéine PFAM, ProDom, ou SMART, les banques de régions ou de motifs conservés Blocks,
PRINTS mais également des banques de motifs/signatures spécifiques comme Prosite.
2.3.4.1 Prosite
Prosite (Hulo et al., 2006) est une banque originale et peut être considérée comme un dictionnaire
qui recense des motifs (ou signatures) protéiques ayant une signification biologique. Elle est établie en
regroupant, quand cela est possible, les protéines contenues dans Swiss-Prot par famille comme par
exemple les kinases ou les protéases. On recherche ensuite, au sein de ces groupes, des motifs
consensus susceptibles de les caractériser spécifiquement. La construction de cette base repose sur
quatre critères essentiels : i) collecter le plus possible de motifs significatifs, ii) avoir des motifs
hautement spécifiques pour caractériser au mieux une famille de protéines, iii) donner une
documentation complète sur chacun des motifs répertoriés, et iv) faire une révision périodique des
motifs pour s'assurer de leur validité par rapport aux dernières expérimentations. L'essentiel de
l'expertise est basé sur un réseau de correspondants spécialistes des sujets traités. La base est organisée
en deux parties. La première contient l'identification et la description de chaque motif. La deuxième
contient l'information qui documente chaque motif (Bairoch, 1993 ; Bairoch et Bucher, 1994).
Dans le cas des P450s, la fiche documentaire a pour le numéro d’accession PDOC00081, et pour
titre « Cytochrome P450 cysteine heme–iron signature ». Cette fiche répertorie les informations
générales des P450s telles que leur description, quelques références ainsi que l’entrée du motif
PROSITE des P450s proprement dite. Celle-ci dispose également d’un nom et d’un numéro
d’accession (PS00086) ainsi que la règle associée pour détecter les P450s sur UniProtKB/Swiss-Prot
et la PDB (grâce aux références croisées). Ce motif, correspond à peu près à la signature
caractéristique des P450s vu dans le premier chapitre (Figure 1-4, page 16) :
[FW]-[SGNH]-x-[GD]-{F}-[RKHPT]-{P}-C-[LIVMFAP]-[GAD].
Dans ce motif de 10 résidus, les crochets « [ ] » correspondent aux résidus possibles à la position
donnée, le caractère x, à n’importe quel résidu, et les accolades «{ } », à un résidu facultatif à une
position donnée. Cette signature (Cys-Pocket) est retrouvée sur 782 séquences des 283 454 séquences
d’UniProtKB/Swiss-Prot (version 54.2) ainsi que tous les P450s présent sur la PDB. À noter que
parmi ces 782 séquences, seuls 753 correspondent réellement à des P450s et 29 correspondent à des
protéines non P450s. Par ailleurs, 42 séquences de P450s ne présentent pas ce motif et ne sont pas
détectées par Prosite (source : http://www.expasy.org/prosite/PS00086)
80 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
2.3.4.2 Blocks
La base BLOCKS (Henikoff et al., 1999) est également basée sur un système qui détecte et
assemble les régions conservées de protéines apparentées. La détection des blocs similaires de
séquences est effectuée sur des alignements multiples de séquences. Un bloc ne contient pas
d’insertion ni de délétion. L'ensemble de tous ces blocs forme la base. C'est ainsi que Henikoff et
Henikoff (1991) ont défini 1764 blocs à partir des 437 groupes de protéines recensés durant
l'établissement de PROSITE. Les motifs représentés par la base BLOCK sont généralement plus courts
que ceux donnés par la base PROSITE mais les différences fondamentales entre ces deux banques
résident dans la représentation des données. Les motifs de PROSITE sont définis sous forme de
chaînes de caractères prenant en compte des insertions et des ambiguïtés sur les acides aminés
conservés alors que les motifs de la base BLOCK sont représentés par blocs d'alignements multiples.
Dans la banque de données Blocks, les blocks sont générés automatiquement à l’aide du programme
PROTOMAT (Henikoff et Henikoff, 1991), à partir des entrées de la base InterPro et en utilisant des
séquences issues de Swiss-Prot et TrEMBL, en association avec des références croisées à PROSITE
et/ou PRINTS et /ou SMART et/ou PFAM et/ou ProDom (toutes ces bases se référencent entre elles).
2.3.4.3 Pfam
Pfam (Bateman et al., 2004) est une banque de domaines de familles protéiques. Elle contient une
large collection d’alignements de séquences multiples ainsi que les profils associés de modèles de
Markov cachés (HMM pour Hidden Markov Model) qui permettent de retrouver ces domaines dans de
nouvelles séquences. Pour chaque famille, Pfam fournit également une annotation fonctionnelle, les
références bibliographiques ainsi que des liens vers d’autres banques de données. Chaque famille dans
Pfam est représentée par deux alignements de séquences multiples : (i) un alignement dit seed (graine)
contenant un petit nombre de membres de la famille et (ii) un alignement complet qui contient tous les
membres qui peuvent être détectés dans la base. Tous les alignements sont effectués à partir de
séquences provenant de la pfamseq (une banque construite à partir de la SwissProt et de la TrEmbl),
un ensemble de protéines non redondantes issues de la Swiss-Prot et SP-TrEMBL. Le profil HMM est
alors construit à partir de l’alignement seed en utilisant le package HMMER (http://hmmer.wustl.edu/)
qui permet une recherche de nouvelles séquences sur cette même banque pfamseq. Selon un seuil
défini, les séquences trouvées sont alors incorporées à l’alignement complet. À ce jour, dans la version
22.0 de Pfam (juillet 2007), on répertorie 9318 entrées (ou familles). L’entrée correspondante aux
P450s est la PF00067. Il s’agit d’un domaine d’une vingtaine de résidus, placé coté C-terminal. Cette
entrée est définie à partir d’un alignement seed comprenant 51 séquences, l’alignement complet quant
à lui comporte 6906 séquences de P450s.
Banques de séquences et de structures : les données sources 81
2.3.4.4 HOMSTRAD
HOMSTRAD –pour Homologous Structure Alignment Database– (Mizuguchi et al., 1998) est
une banque d’alignement de structures de familles homologues (1032 familles / 3454 structures
alignées en 2005). L’homologie, ordinairement utilisé dans le sens d’origine évolutionnaire commune,
est ici inférée par un degré d’identité suffisamment élevé. Les classifications de SCOP, Pfam,
PROSITE et SMART sont combinées avec les résultats de recherche de similarités de PSI-BLAST et
de FUGUE – une méthode de threading liée à HOMSTRAD – pour définir les familles, qui sont
représentées de manière à montrer l’environnement structural local de chaque résidu. Les alignements
structuraux sont réalisés automatiquement par les logiciels MNYFIT (Sutcliffe et al., 1987), STAMP
(Russell & Barton, 1992) et COMPARER (Sali & Blundell, 1990; Zhu et al., 1992) puis vérifiés par
une expertise humaine.
HOMSTRAD est la banque utilisée dans le logiciel SYBYL (Tripos Inc, St Luis, USA) pour
construire des modèles par homologie.
La récupération d’information telle que la séquence ou la structure d’une protéine est très aisée
dès lors que l’on dispose de son identité ou de son numéro d’accession. Elle se fait à l’aide d’une
simple requête à partir des logiciels dédiés comme GCG (Devereux et al., 1984) ou SRS (Etzold et
Argos, 1993). En revanche, lorsqu’on désire récupérer les séquences « voisines » ou les structures
proches de notre protéine d’intérêt, des techniques d’alignements sont nécessaires. Elles permettent de
récupérer uniquement les séquences dont le score d’alignement excède un certain seuil. Un alignement
repose sur une notion de ressemblance entre séquences qu’il convient définir. Ainsi, par exemple, on
peut mesurer le pourcentage d’identité global entre deux séquences après alignement. On peut aussi
utiliser le nombre et la qualité de sous-alignements locaux entre deux séquences. Les méthodes de
recherches sont donc basées sur des alignements et des scores attribués à ces alignements.
Communément, pour récupérer les séquences « voisines » d’une protéine étudiée, les outils les
plus utilisés sont FASTA (Pearson et Lipman, 1988), BLAST (Altschul et al., 1990) ou PSI-BLAST
(Altschul et al., 1997), qui sont des heuristiques d’alignement. À noter également que chaque banque
de données précédemment décrite dispose dans la plupart des cas de son propre « moteur » de
recherche. Au cours de ma thèse, je me suis principalement servi de BLASTP et PSI-BLAST pour
récupérer les séquences d’intérêt.
82 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
L’étape qui suit la récupération des données sources est celle de comparaison entre les données
récupérées. Nous décrirons dans le paragraphe qui suit, les diverses méthodes d’alignements de
séquences et de structures.
La recherche de similitude entre séquences est un élément fondamental qui constitue souvent la
première étape des analyses de séquences. Elle permet de révéler des régions proches dans leur
séquence primaire en considérant le minimum de changements en insertion, suppression, ou
substitution qui séparent deux séquences. Cette méthode est largement utilisée dans les recherches de
motifs sur une séquence, dans la caractérisation de régions communes ou similaires entre deux ou
plusieurs séquences, dans la comparaison d'une séquence avec l'ensemble ou sous-ensemble des
séquences d'une base de données, ou bien encore dans l'établissement d'un alignement multiple sur
lequel sont basées les analyses d'évolution moléculaire. Pour aligner deux séquences entre elles, il est
possible de chercher à optimiser le pourcentage de positions identiques dans l’alignement. Néanmoins,
cette mesure ne tient pas compte de la fréquence relative des différents acides aminés qui composent
les protéines. Or, cette fréquence est très variable. Ainsi, dans un alignement de séquence, la
conservation d’un acide aminé « rare » (Tryptophane, Cystéine) n’a pas la même significativité
statistique que la conservation d’un acide aminé « abondant » (Alanine, Valine). De plus, certains
acides aminés présentent des structures et des fonctions chimiques voisines. Le remplacement d’un
acide aminé par un autre acide aminé de fonction voisine peut être considéré comme une forme de
conservation. Afin de tenir compte des caractéristiques propres à chaque acide aminé, des matrices de
scores, appelée matrice de similarité, ont été développées.
Traitement des données sources 83
PAM. M. Dayhoff et ses collègues ont établi une méthode permettant d’estimer la probabilité
qu’un acide aminé i soit remplacé par un acide aminé j à une position donnée au cours de l’évolution,
sans que la fonction de la protéine ne soit altérée (Dayhoff et al., 1972, 1978 ; Kosiol et Goldmann,
2005). Cette estimation repose sur l’analyse d’alignements de séquences proches au sein desquelles il
est peu probable qu’une mutation de A vers B résulte de mutation successives A→X→Y→B. Elle a
été obtenue à partir de l’analyse de 71 alignements globaux de famille de protéines (~1300 séquences)
très semblables (à 85% d’identité en séquences). Les matrices de probabilités de mutation issues de
ces analyses dépendent donc des différences de séquences, fréquences et mutations observées au sein
de ces 1300 séquences pour 100 sites estimés sur un temps d'évolution particulier (1 mutation sur 100
sites). On parle alors d'une 1PAM (1 Percent Accepted Mutations) matrice. Si la matrice est multipliée
par elle-même un certain nombre de fois, une matrice XPAM est obtenue, et donne des probabilités de
substitution pour des distances d'évolution plus grande. Pour être plus facilement utilisable dans les
programmes de comparaison de séquences, chaque matrice XPAM est transformée en une matrice de
similitudes PAM-X appelée matrice de mutation de Dayhoff. Cette transformation revient à diviser la
probabilité de substitution observée pour une paire, par les fréquences des deux acides aminés la
composant. On obtient une chance (« odd »), c'est-à-dire un rapport de probabilité (la probabilité
d’obtenir une substitution observée dans des alignements de familles, divisée par la probabilité
d’obtenir cette substitution par hasard (due seulement à la composition des séquences). Afin
d’additionner les scores (au lieu de multiplier les probabilités) on prend le logarithme de cette
« chance » (« log-odd »). C’est ce nombre (ramené à un entier) qui constitue le score d’alignement
d’une paire d’acides aminés. Des études de simulation ont montré que la PAM-250 semble optimale
pour distinguer des protéines apparentées de celles possédant des similarités dues au hasard (Schwartz
et Dayhoff, 1979). C'est pourquoi, la matrice PAM-250 est devenue la matrice de mutation standard de
Dayhoff. Cette matrice est basée sur un échantillon assez large et représente assez bien les probabilités
84 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
de substitution d'un acide aminé en un autre suivant que cette mutation engendre ou pas des
changements dans la structure ou la fonctionnalité des protéines. Néanmoins, elle présente un certain
nombre d'inconvénients. Principalement, elle considère que les points de mutation sont équiprobables
au sein d'une même protéine (George et al., 1990). Or, on sait que ceci n'est pas vrai et qu'une protéine
peut présenter plusieurs niveaux de variabilité le long de la séquence. De plus, l'ensemble des
protéines utilisé en 1978 n'est pas entièrement représentatif des différentes classes de protéines
connues. Ainsi l'échantillon de 1978 était composé essentiellement de petites molécules solubles très
différentes des protéines membranaires ou virales que l'on peut étudier aujourd'hui. Ce constat a
conduit à une réactualisation de la matrice (Jones et al., 1992) en considérant 16 130 séquences issues
de la version 15 de Swiss-Prot, ce qui correspond à 2 621 familles de protéines. Cette étude a permis
de prendre davantage en compte les substitutions qui étaient mal représentées en 1978. Une autre
critique –mais qu’on peut adresser à l’ensemble des matrices de scores– est que l’on ne prend pas en
compte l’environnement (voisinage) de la paire considérée.
BLOSUM. On doit cette matrice à Henikoff et Henikoff (Henikoff et Henikoff, 1992). Une
approche différente a été réalisée ici pour mettre en évidence le caractère de substitution des acides
aminés. Alors que les matrices PAM dérivent d'alignements globaux (cf. la recherche d'alignements
optimaux page 85) de protéines très semblables, ici le degré de substitution des acides aminés a été
mesuré en observant des blocs d'acides aminés issus de protéines plus éloignées. Chaque bloc est
obtenu par l'alignement multiple sans insertion-délétion de courtes régions très conservées (cf. la base
BLOCK page 80). L’hypothèse sous-jacente est que ces blocs correspondent à des éléments bien
conservés au sein des structures tridimensionnelles des protéines correspondantes. Au sein de chaque
alignement, les séquences sont ensuite regroupées en familles partageant plus d’un certain pourcentage
seuil d’identité. Les fréquences de substitution pour toutes les paires d’acide aminé sont alors
calculées et permettent d’obtenir une matrice logarithmique de probabilité dénommée BLOSUM
(BLOcks Substitution Matrix). Différentes matrices ont été calculées en faisant varier le pourcentage
d’identité seuil. A titre d’exemple, la matrice BLOSUM62 (cf. Figure 2-9) a été obtenue en utilisant
un seuil de 62% d’identité : si deux séquences d’un même alignement initial partagent plus de 62%
d’identité, elles ne sont alors représentées qu’une seule fois dans l’alignement servant à construire la
matrice BLOSUM62.
Traitement des données sources 85
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
N -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
Figure 2-9 Matrice de substitution BLOSUM62. Les scores positifs indiquent les acides aminés considérés
comme similaire. Les scores de la diagonale correspondent aux valeurs attribuées en cas d’identité. On compte 24
acides aminés au lieu de 20 : X et * correspondent à des acides minés indéterminés, B correspond à D ou N, et Z
peut remplacer E ou Q.
Il est à noter que par la suite, d’autres matrices ont vu le jour, dérivées d’alignements structuraux
(Risler et al., 1988 ; Overington et al., 1990 ; Bowie et al., 1991).
2.4.1.2 La prise en compte des insertions dans les alignements par paires
La comparaison locale de deux séquences, qu’elles soient nucléiques ou protéiques, repose sur
une hypothèse d’évolution par mutations ponctuelles, à savoir, l’un des trois cas de figure qui suit : (i)
le remplacement d’un acide aminé ou d’un nucléotide par un autre, (ii) une délétion (iii) ou une
insertion. Afin d’évaluer la qualité d’un alignement, un score élémentaire issu de la matrice de
substitution est calculé à chaque position alignée et une pénalité est également calculée en cas
d’insertion ou de délétion (« indel »). La valeur attribuée aux pénalités d’indel est généralement
calculée avec une loi affine associant une pénalité d’ouverture de l’indel à une pénalité d’extension
augmentant linéairement avec la longueur de l’indel. L’avantage de ce calcul est sa simplicité mais la
modélisation de la pénalité à attribuer aux insertions fait encore l’objet d’optimisation, en particulier
dans le cas de l’alignement de séquences très divergentes.
façons différente d’aligner, soit à peut près 137 milliards de combinaisons possibles. Il existe une
solution pour trouver l’alignement optimal : la programmation dynamique.
S (i − 1, j − 1) + S SubMatrix ( ai , a j )
S (i, j ) = max S (i, j − k ) + k × Winsert
S (i − l , j ) + l × W
insert
Enfin, la matrice d’alignements, parcourue en sens inverse, à partir du bout des deux séquences en
remontant le chemin noté, permet d’identifier l’alignement global optimal entre les deux séquences
(flèches vertes dans la Figure 2-11). De nombreux programmes utilisent cet algorithme d'alignement.
Le programme ALIGN (Dayhoff et al., 1979) en est une application directe avec l'utilisation de
pénalités à deux paramètres (dépendant et indépendant de la longueur).
Traitement des données sources 87
Figure 2-10 Construction de la matrice des scores d'alignement entre les deux séquences « HEAGAWGHEE »
et « PAWHEAE » calculée à partir d’une matrice de similarité basée sur les scores de substitution BLOSUM62 et
un coût d’insertions (Winsert) constant de -8. La séquence horizontale est indicée en i et la séquence verticale en j.
Pour chaque cellule, le score maximal obtenu à partir des trois flèches de couleurs est attribué à cette cellule. Dans
l’exemple, la flèche rouge correspond à une absence d’insertion et le score associé se calcule par S(i,j)= S(i-1,j-
1) + SBLOSUM62(W,H) = –16 –2= –18, la flèche verte à une insertion dans la séquence 1 dont le score associé est
S(i,j)= S(i,j-k) + k*Winsert = –10 –8 = –18 avec (k=1), et la flèche bleue, à une insertion dans la séquence 2
ayant un score associé de S(i,j) = S(i-l,j) + l*Winsert = –24 –8= –32 (l=1). Dans la Figure 2-11 ci-dessous,
seuls les parcours passant par les flèches bleues et vertes sont conservés car ils sont associés aux trajectoires ayant
fourni les scores maxima.
Figure 2-11 Lecture de la matrice de scores d’alignement afin d’identifier l’alignement optimal par
l’algorithme NWS. Les flèches indiquent à partir de quelle cellule le score d’alignement a été obtenu à l’étape de
construction de la matrice (Figure 2-10). Les flèches vertes indiquent le parcours produisant le score optimal
parmi les flèches rouges illustrant les sous-parcours optimaux. Les flèches bleues indiquent les parcours
produisant les mêmes scores que le parcours optimal. L’alignement optimal (parcours vert) est présenté en
également.
88 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Figure 2-12 Lecture de la matrice de scores d'alignement afin d'effectuer l'alignement optimal par l'algorithme
de Smith et Waterman. Les flèches indiquent à partir de quelle cellule le score d’alignement maximal a été obtenu
à l’étape de construction de la matrice. Les flèches vertes indiquent le parcours produisant le score optimal parmi
les flèches rouges illustrant les sous-parcours optimaux. L’alignement optimal correspondant au parcours vert est
présenté.
3
Du moins, jusqu’à présent, car vu l’augmentation des puissances de calcul, les logiciels tels que BLITZ
(Sturrock et Collins, 1994) ou SSEARCH (Pearson, 1991) permettent de le faire à présent.
Traitement des données sources 89
Figure 2-13 Algorithme FASTA. (a) Comparaison de la position et de la nature de segments de longueur L
entre deux séquences afin de repérer les régions les plus denses en identités partagées. (b) Évaluation des 10
régions présentant les plus hauts scores de similarité calculés à partir des matrices de substitution. Cette étape
correspond à une recherche de similitude sans insertions. Le score init1 est attribué à la région ayant le plus fort
score parmi les 10 analysées (initn est le score incluant les autres régions). (c) Jonction des régions précédentes,
s’il en existe au moins deux et si chacune d’elles possède un score supérieur à un seuil donné. Ce seuil correspond
à un score moyen attendu pour des régions non apparentées. Les régions initiales sont réunies à chaque fois que
leur score diminué d’une pénalité de jonction est supérieur ou égal au score init1. Cette étape permet d’éliminer les
segments peu probables parmi ceux définis à l’étape précédente. (d) Alignement optimal (par programmation
dynamique) des deux séquences en considérant uniquement les régions définies à l’étape précédente avec calcul
d’un score (opt). Cette étape n’est accomplie que pour les « meilleurs » séquence de la banque (Source Barton,
1996)
90 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
FASTA est un logiciel d’alignement de séquences aussi bien protéiques que nucléiques. Il a été
pour la première fois décrit par D.J Lipman et W.R Pearson (Pearson et Lipman, 1988) sous le nom de
FASTP car il n’était élaboré que pour la recherche de similarité dans les séquences protéiques. FASTA
est apparu ensuite comme une amélioration de FASTP, incluant la recherche de similarité entre
séquence nucléique contre séquence nucléique, et séquence de protéine traduite contre séquence
nucléique. Cette nouvelle version de FASTA incorpore une évaluation de la signifiance statistique des
alignements obtenus. Le logiciel FASTA présenté précédemment procède en quatre étapes telles
présentées sur la Figure 2-13. Le programme calcule ensuite un z-score qui correspond à un score
diminué de la moyenne des scores des séquences de la banque et normalisé par l’écart type des scores.
BLAST (pour Basic Local Alignement Searc Tool) développé par S.F Altschul (Altschul et al.,
1990), est lui aussi un outil pour comparer les séquences biologiques primaires. A ce jour, il est
certainement l’outil le plus utilisé en bioinformatique, probablement parce qu’il repose sur une grande
efficacité algorithmique associée à une fiabilité statistique suffisante. Ces deux propriétés font de lui
l’un des programmes de recherche les plus rapide à ce jour, permettant ainsi la recherche sur des
grandes banques de données. Il permet ainsi de répondre à ce genre de questions qu’un chercheur a
l’habitude de se poser : « D’où provient cet ADN que je viens juste de séquencer ? » ou encore
« Quels autres gènes codent pour des protéines qui présentent des structures ou motifs tels que celui
dont je viens de déterminer ? » etc. … BLAST s’est vu décliné en plus de 7 versions différentes,
comme BLASTN qui compare deux séquences nucléiques, BLASTP, deux séquences protéiques,
BLASTX une protéine traduite à partir d’une séquence nucléique selon les 6 cadres de lecture… L’une
de ces versions, appelé PSI-BLAST présente des caractéristiques fort intéressantes car l’algorithme est
itératif et permet un affinement de la recherche basée sur les similarités déjà trouvées. Tout comme
FASTA, BLAST est une heuristique d’alignement local. Son fonctionnement peut être décrit en trois
étapes. D’abord, il cherche des coïncidences de mots de longueur W (usuellement égale à W=3 pour
les séquences protéiques) qui se ressemblent entre la séquence requête et les séquences de la banque.
Pour ce faire, BLAST calcule un dictionnaire des mots équivalents à ceux de la séquence requête et ne
conserve que ceux dont le score d’alignement obtenu à l’aide d’une matrice de substitution, dépasse un
certain seuil (seuil "T"). Une fois ces mots rangés, BLAST parcours ensuite les séquences de la
banque, et s'arrête à chaque mot d'une séquence de la banque ayant un correspondant dans le
dictionnaire de mots similaires tiré de la séquence. BLAST essaie alors d'étendre l'alignement local
(sans insérer de gap) de part et d'autre des ces "amorces" – constituées des 2 mots coïncidant – pour
obtenir un alignement local optimal (ou HSP pour "High-scoring Segment Pairs") dont le score est au
moins à S ou une E-value inférieur à un seuil spécifié.
Traitement des données sources 91
Figure 2-14 Algorithme du logiciel BLAST (Altschul et al., 1990) (source de la figure :
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/BLAST_algorithm.html)
Pour évaluer la validité statistique d’un alignement, le programme BLAST s’appuie sur une
expression analytique qui permet de calculer la probabilité d’obtenir l’alignement par hasard à partir
du score de l’alignement en question. La distribution des scores d’alignement obtenus par la
comparaison d’une séquence avec l’ensemble des séquences d’une base de données est supposée
suivre une loi de distribution dite des valeurs extrêmes. Fonction du score, la E-value (ou nombre
d’alignement attendu par hasard ayant un tel score) peut s’écrire de la façon suivante :
E - value = K × L1 × L2 × e − λ ×Score
Dans cette expression L1 et L2 sont des longueurs des deux séquences à aligner, K et λ des
paramètres de normalisation ajustés en fonction de la matrice de substitution utilisée, de la taille de la
base de données, de la taille des séquences. Plus la E-value est faible, plus l’alignement est supposé
significatif.
92 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
La recherche par paires entre une séquence d’intérêt et les séquences des bases de données a
permis d’identifier un ensemble de séquences (supposées homologues). L’étape qui suit a pour objectif
d’agencer en colonne les acides aminés qui possèdent la même histoire évolutive : c’est l’étape
d’alignement multiple. L’obtention d’alignements multiples constitue une étape essentielle de
l’analyse bioinformatique : elle permet de mettre en évidence les positions importantes pour la
structure et/ou la fonction. Dans le contexte de la prédiction de structure, l’optimisation des
alignements multiples revêt donc une importance cruciale.
présenter. Ici, on se propose de décrire ClustalW, l’un des plus simples, rapides largement utilisé (et
aussi cours de cette thèse).
CLUSTALW. De tous les logiciels, ClustalW (Thompson et al., 1994) est sans conteste l’un des
plus populaire dans la production d’alignements multiples à partir de séquences récupérés à partir d’un
BLAST par exemple. Il procède en plusieurs étapes. La première étape calcule un arbre
« dendogramme » qui sert de guide pour l’alignement multiple. Pour cela, un alignement de toutes les
séquences deux à deux est effectué par un algorithme relativement frustre mais extrêmement rapide
(n.(n-1) comparaisons) qui donne un score de distance pour chaque couple. Un arbre est alors construit
par Neighbor-Joining à partir de la matrice des distances. Les deux séquences les plus proches sur
l’arbre sont alignées. Un « profil » est alors construit à partir de cet alignement. Chaque position de ce
profil représente la « moyenne » des deux séquences de la paire. La séquence suivante (ou profil de
séquences déjà alignées) la plus proche (par rapport à la topologie de l’arbre) est alors alignée sur le
profil de la paire. On peut noter que les gaps aux positions terminales des séquences ne coûtent rien.
Les gaps seront introduits soit dans la nouvelle séquence (ou le nouveau profil), soit dans le profil. Ce
point représente une des principales limites du programme car il lui est impossible d’effectuer un gap
ou de le recalculer sur seulement une portion des séquences déjà alignées.
Figure 2-15 Représentation d'un profil paramétrant un alignement de 4 séquences, présenté en vertical à
gauche. Pour Chaque position un score de substitution différent est calculé pour chaque acide aminé et pour les
insertions (Gribskov et al., 1987).
observées dans l’alignement par la connaissance que l’on a, a priori, des relations entre acides aminés.
Ces fréquences d’occurrence observées peuvent être corrigées par la méthode de « pseudo-count »
comme c’est le cas dans PSI-BLAST. Dans cette approche, on ajoute une contribution variable des
scores des matrices BLOSUM et PAM aux fréquences observées. L’importance de ces scores de
« connaissance a priori » est pondérée en fonction de la richesse d’informations déjà contenues dans
l’alignement multiple.
Les approches HMM. La notion de profil a été généralisée par le développement du formalisme
des Chaînes de Markov Cachées (HMM) (Eddy, 1998). Ce formalisme associé aux HMM fournit un
ensemble d’outils statistiques très performants pour manipuler et évaluer la vraisemblance d’un
alignement. Les méthodes HMM sont très utilisées dans le traitement des séquences à grande échelle,
dans la constitution et l’interrogation des bases de données de domaines telles que PFAM et SMART,
mais également pour la détection et l’alignement des homologues lointains. Sans rentrer dans les
détails, le formalisme HMM permet de générer un modèle statistique d’un alignement multiple dans
lequel l’apparition des acides aminés dans l’alignement suit un processus stochastique de Markov (la
probabilité de l’état n dépend uniquement de l’état n-1). Un alignement multiple peut être ainsi
modélisé par une chaîne d’éléments qui possèdent 3 états (M pour une position alignée, I pour une
insertion, D pour une délétion) avec des probabilités d’émission et de transition attribuées entre
chacun des états (Figure 2-16). Les modèles HMM fournissent une flexibilité accrue par rapport aux
profils en autorisant les états de délétions en plus des états d’insertions, et surtout en modélisant la
relation de voisinage (ignorée dans le cas des PSSM). Les probabilités qui sous-tendent un alignement
sont inconnues (variables « cachées ») et le premier objectif est de les estimer à partir des fréquences
d’occurrence observées à chaque position. Comme pour les profils présentés précédemment, cette
information est enrichie par la connaissance a priori des probabilités d’occurrence des acides aminés
en fonction des contextes.
Le modèle HMM ainsi paramétré peut être utilisé pour reconnaître les séquences susceptibles
d’être reliées aux séquences de l’alignement tel qu’il est décrit dans la Figure 2-16. L’algorithme de
Viterbi, de façon similaire aux algorithmes de programmation dynamique, permet d’identifier la
trajectoire la plus probable au sein du modèle HMM. Formellement, une séquence n’est pas alignée
sur un HMM. Ce qu’on mesure, c’est la probabilité qu’un HMM donné puisse générer la séquence
alignée de façon optimale. La base Pfam dont je me sers pour identifier des P450s, est créée à partir
d’HHMER, un logiciel utilisant les HMM.
96 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Seq A : A-YET
Seq B : A-FET
Seq C : GSY-T
Seq D : A-F-T
M1 : I1 : M2 : M3 : M4 :
pA=2/3 pS=1 pY=2/3 pE=1 pT=1
pG=1/3 pF=1/3
I0 I1 I2 I3 I4
0 1/3 1 0 0 0
1 2/3 2/3 1 1
Début M1 M2 M3 M4 Fin
0 0 1/3 0
1
0
D1 D2 D3 D4
Figure 2-16 Architecture simplifié d’un modèle HMM (HMMER plan 7) et exemple de paramétrage.
L’alignement des trois séquences A,B et C peut être représenté par une chaîne à 4 états. Les probabilités de
transitions entre ces états déduites de l’alignement multiple sont indiquées en rouge au dessus de chaque flèche.
Les probabilités d’émission de chaque acide aminé au sein de chaque état sont indiquées au dessus du modèle.
L’indentification de la trajectoire pour le HMM génère la séquence D alignée de façon optimale par l’algorithme
de Viterbi. La trajectoire permettant de maximiser des probabilités lors du parcours du HMM est indiquée en vert.
L’alignement optimal pour la séquence D est indiqué en haut. (Source : thèse de V. Meyer)
Après avoir abordé les comparaisons des séquences primaires issues des bases de données, il est
intéressant de s’attarder à la comparaison de structure. Les techniques de comparaison de structures
protéiques sont essentielles dans beaucoup de domaines de recherche, notamment dans la prédiction de
structure d’une protéine et dans la compréhension de l’évolution des structures protéique. Initialement,
les première méthodes de comparaison servaient à comparer une structure avec elle-même : il
s’agissait tout simplement de comparaison de postions atomiques. Très vite, ces méthodes se sont
montrées limitées : lors de comparaison de structures différentes, un problème de choix de
correspondance entre les éléments à comparer se posait : comme deux protéines ne sont pas
composées de la même séquence en acides aminés, il n’est pas possible de comparer tous les atomes,
chaînes latérales comprises. Dans un premier temps, il a fallu ainsi se restreindre aux atomes du
squelette peptidique. Toutefois, le rôle des chaînes latérales (dans le cas de reconnaissance ou fixation
de ligand) ne pouvant être négligé, l’incorporation de ces atomes dans la comparaison devaient être
également prise en compte. Par ailleurs, l’organisation des structures secondaires semblait être
Traitement des données sources 97
conservée dans les protéines – même lointaines – d’une même famille. Ne comparer que celles-ci
serait donc plus pertinent, au moins pour des protéines assez différentes. Au final, trois niveaux de
représentation ont pu être recensés : une représentation « tout atome », une représentation restreinte
aux atomes du squelette peptidique et une représentation en termes de structures secondaires. A ces
trois représentations, une dernière peut être ajoutée : il s’agit de la représentation qui tient compte la
forme générale de la molécule.
Quelles que soient les méthodes utilisées, le principe dans la comparaison de structure demeure
inchangé : il s’agit de mettre en correspondance un élément d’une structure avec un seul élément de
l’autre structure. L’objectif recherché est le calcul d’une mesure quantitative de similarité entre deux
structures protéiques et/ou de générer un alignement structural, souvent converti ensuite en alignement
de séquences. Quatre points sont importants lors d’une comparaison structurale. Ceux-ci ont été
définis par Holm et Sander (Holm et Sander, 1996).
- La représentation des structures : les structures protéiques sont toujours simplifiées mais les
caractéristiques conservées doivent être suffisantes pour la comparaison. Exemples : les Cα
sont décrits par leur coordonnées cartésiennes ou par leurs distances internes ; les Structures
Secondaires sont décrites par des vecteurs ; etc…
- La mesure de similarité ou de dissimilarité : il faut pouvoir déterminer si un sous-
alignement est meilleur qu’un autre pendant le processus d’alignement. Cette mesure est bien
sûr totalement dépendante de la représentation ;
- L’algorithme de comparaison : un algorithme général bien connu peut être adapté au
problème (recherche des cliques maximales dans un graphe, Monte Carlo…) ou un algorithme
ad hoc peut être développé ;
- Les post-traitements : par exemple le calcul d’un score exprimant la significativité des
résultats (il peut être empirique ou statistique, humain ou automatique).
98 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Tout comme pour les séquences, les techniques et méthodes associées à ces comparaisons de
structures sont extrêmement riches et diversifiées. Dans les sections qui suivent, ne seront présentées
que succinctement les méthodes les plus usuelles et surtout celles qui ont servi pour cette thèse.
Étant donné qu’aucune de ces méthodes n’a été utilisée dans mon travail de thèse, il n’est pas
nécessaire de s’attarder d’avantage sur ces méthodes au niveau atomique.
Mesures de similarité : les RMSD. Quelque soit les descriptions – externes ou internes – des
mesures de similarités ont été mise en place afin de comparer deux structures. La plus usitée de toutes,
est certainement le RMSD (Root Mean Square Deviation) sur les coordonnées. Il s’agit de la racine
carrée de la moyenne des carrées des distances entre les atomes mis en correspondance dans les deux
structures – décrits par leurs coordonnées cartésiennes –. Ce RMSDc est donc :
Traitement des données sources 99
∑ D (a , b' )
i i
2
RMSDc = i =1
N
où N est le nombre d’atomes mis en correspondance : dans la structure B, l’atome b’i est mis en
correspondance avec l’élément ai de la structure A, et D(ai,b’i) est la distance entre les atomes ai et b’i
après superposition optimale de tous les atomes mis en correspondance (ensembles M(A) et M(B)).
Une superposition optimale de M(A) et M(B) est donc une transformation rigide T (une translation-
rotation) telle que le RMSDc est minimal. Il existe de nombreuses méthodes pour trouver cette
transformation optimale, comme celles faisant appel au formalisme fondé sur les quaternions
(Kearsley, 1989) ou encore diagonalisation de matrices (Kabsch, 1976, 1978) itérations successives
(Sippl et Stegbuchner, 1991) ou encore minimisation (McLachlan, 1979,1982). D’autres RMSD tels
que le RMSDd et l’URMS et les RMSD pour les angles, existent mais ne seront pas présentées car elles
n’ont pas été utilisées durant ce travail de thèse.
de la correspondance au niveaux des résidus. On retiendra ici les programmes tels que WHAT IF
(Vriend, 1990 ; Vriend et Sander, 1991) ou encore Flexprot (Shatsky et al., 2002, 2004).
Coordonnées internes : les angles. Les angles utilisés pour la comparaison de structures
protéiques sont les angles (φ,ψ) ou (α,τ) ou encore des dérivés de ceux-ci. A ce jour, il existe assez
peu de méthodes de comparaison structurales qui utilisent cette description angulaires des structures.
Ces méthodes reposant sur les angles ont pourtant été utilisées très tôt pour comparer les structures
Traitement des données sources 101
entre elles. En dépit de leur rapidité, l’alignement fourni ne se révélait pas toujours très précis. Ce
n’est que récemment que les angles ont été mieux exploités dans la comparaison de structure. GOK
(Jean et al, 1997), le logiciel dont je me suis servi pour rechercher les similitudes communes entre les
structures de P450s utilise les angles (α,τ) pour représenter la trajectoire du squelette protéique et
comparer les structures des protéines entre elles. Il permet de déterminer les sous-trajectoires
communes les plus longues, entre deux ou plusieurs structures. Son fonctionnement sera détaillé
ultérieurement (cf. section 2.4.4.3, page 106).
Méthodes avec SSE représentés par des vecteurs. Les méthodes de comparaison utilisant les
SSE sont très nombreuses. Pour la plupart, les SSE y sont représentées par des vecteurs colinéaires à
leur axe principal qui n’est autre qu’une droite pour laquelle l’inertie des éléments (souvent
uniquement des Cα) du SSE est minimale. Le vecteur dont les extrémités correspondent aux
projections des atomes aux extrémités des SSE est orienté de l’extrémité N-terminal vers l’extrémité
C-terminale. En conséquent, une structure est représentée par un ensemble de vecteur, réduisant le
problème à la comparaison de deux ensembles de vecteurs (l’ordre des SSE pouvant être prise en
compte ou non lors de la comparaison). Les algorithmes les plus utilisés pour la comparaison des
ensembles de vecteurs proviennent de la théorie des graphes. Tous disposent d’une procédure assez
similaire qui se déroulent en quatre étapes : (i) dans un premier temps, les SSE sont attribués et les
paramètres des vecteurs calculés, (ii) puis un graphe est construit pour chaque structure ayant aux
sommets les SSE et pour arêtes des informations sur l’organisation spatiale relative des vecteurs ; (iii)
les graphes sont alors comparés ente eux avec une recherche de sous-graphes similaires communs et
enfin en dernière étape (qui peut être facultative) un retour au niveau peptidique avec alignement
102 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
résidu par résidu. Parmi les programmes qui utilisent ces méthodes de graphes, on citera à titre
d’exemple POSSUM (Protein Online Substructure Searching) (Mitchell et al., 1990 ; Artymiuk et al.,
1990), PROFET (Grindley et al.,1993), GRATH(Harrison et al., 2003), VAST (Gibrat et al., 1996 ;
Madej et al., 1995) ou encore le très récent SSM (Krissinel et Henrick, 2004). Les méthodes de
graphes ne sont pas exclusives dans l’utilisation des vecteurs de SSE. On y trouve également des
méthodes par programmation dynamique utilisées dans le programme LOCK (Singh et Brutlag, 1997 ;
Shapio et Brutlag, 2004) par exemple ou encore PrISM (Yang et Honig, 1999, 2000).
Méthodes avec SSE représentés par d’autres caractéristiques. Outre la représentation par
vecteur, les SSE peuvent être dans certains cas représentés par d’autres caractéristiques. Dans la
méthode MATRAS (Kawabata, 2003) la comparaison se fait par programmation dynamique à partir
de scores de similarités basés sur un modèle d’évolution. Cette méthode a été largement utilisée au
cours de la thèse pour comparer ses résultats avec le logiciel GOK : une description plus détaillée est
donc nécessaire pour comprendre son fonctionnement. Dans cette méthode, trois scores de similarité
structurale sont calculés de manière analogue au modèle de Dayhoff (matrice PAM) pour la
substitution des acides aminés. Ces scores sont calculés entre paires de protéines homologues d’une
banque non-redondante à 95% d’identité extraite de SCOP, regroupées et alignées grâce à leurs
séquences. Une formule générale de log-odds est utilisée pour le calcul des trois scores :
P(i → j )
S (i, j ) = log
P( j )
Où i et j sont les états des caractéristiques structurales (telles que la distance inter résidus par
exemple), P(j) la probabilité que l’état j apparaisse par hasard, et P(i→j) la probabilité que l’état i
passe à l’état j durant l’évolution, suivant une transition du modèle de Markov. Les trois scores de
similarité structurale sont les suivants :
- un score SSSE, de paires de SSE, où trois états sont les combinaisons d’hélices α et de feuillets
β. Les SSE sont représentés comme des vecteurs. Quatre fonctions de similarité géométrique
sont estimées pour chaque type de paire (θ1, θ2, d et φ, voir la Figure 2-17) ainsi que deux
fonctions de similarité de longueur (L1 et L2). Le score SSSE est la somme de ces six fonctions
estimées sur l’échantillon des protéines homologues ;
- un score environnemental Senv où les états sont les deux structure secondaire (hélices α et
feuillets β) ainsi que 3 types de boucles définis selon leurs angles (φ,ψ). Chacune des
catégories peut être enfouie ou exposée, ce qui donne 10 états ;
Traitement des données sources 103
- une score de distances Sdis où les états sont les distances internes entre Cβ discrétisées avec un
pas de 1Å. Les bornes sont [0,50Å], il y a donc 50 états. Le score Sdis entre une distance Dix –
entre le ie et le xe résidu d’une protéine – et la distance Djy – entre le je et le ye résidu d’une
autre protéine – est évalué par les transitions observées entre ces distances pour tous les
intervalles k en résidus (k=|i–x|=|j-y|, l’intervalle est identique sur les deux structures).
Figure 2-17 Les quatre paramètres géométriques associées aux pairs de vecteurs de SSE de MATRAS : la
distance minimale entre les deux SSE d, les deux angles (plans) θ1 et θ2 et l’angle dièdre φ entre les plans formés
par chacun des deux vecteurs et la droite minimale en pointillée. Les deux longueurs sont L1, L2 exprimées en
résidus. Figure extraite de (Kawabata, 2000).
Un Z-score est calculé avec le score final de l’alignement, la moyenne et l’écart type étant
calculés en comparant la structure requête avec toute la banque.
Méthodes utilisant les alphabets structuraux. Dans ces méthodes, les structures protéiques sont
converties en suites de symboles qui correspondent à des classes de blocs structuraux. Les blocs
structuraux sont le plus souvent de taille fixe, comportent quelques résidus (moins de 10) et sont
104 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
chevauchant. Ils sont classés en comparant toutes les sous-structures d’une taille donnée d’une banque
non redondante de structure. Ces classes de blocs partitionnent le mieux possible l’espace de structures.
Un symbole est très souvent affecté à chaque classe de blocs, c’est pourquoi on parle d’alphabets
structuraux. Dans la méthode nommée SA-Search (Guyon et al., 2004), un modèle de loi normale
multivariée a permis de discrétiser le squelette peptidique en classes de blocs structuraux de longueur
4 résidus (un critère d’information est utilisé pour déterminer le nombre de classes optimales). Les
blocs structuraux – symboles d’un alphabet structural – sont décrits par 4 distances internes (voir
Figure 2-18).
Figure 2-18 Chaque fragment de 4 résidus es représenté par un vecteur de taille 4 qui contient 3 distances entre
Cα non consécutifs (d1=d(Cαi - Cαi+2), d1=d(Cαi - Cαi+3), d1=d(Cαi+1 - Cαi+3)) et la projection
orthogonale d4 de Cαi+3 sur le plan formé par les premiers Cα. Figure extraite du site
http://bioserv.rpbs.jussieu.fr/Help/SAHelp.html
Cet alphabet structural comporte 27 symboles et permet une description précise de l’ensemble des
structures (Camproux et al., 2004). Après cette étape, l’enchaînement des blocs structuraux est évalué
par un modèle de Markov entraîné sur une banque non redondante. Pour comparer les structures,
celles-ci sont d’abord converties en suites de symboles de l’alphabet structural avec l’algorithme de
Viterbi (Baum et al, 1970) qui permet de déterminer la meilleure série de symboles en prenant en
compte la dépendance Markovienne. La comparaison des deux structures est ensuite faite soit par
programmation dynamique (Smith et Watermann), soit par construction d’arbre de suffixes pour
rechercher des motifs exacts. Ces deux méthodes sont assez rapides pour rechercher les similarités
structurales dans une banque.
Les méthodes de comparaison multiple de structure s’appuient souvent sur des méthodes de
recherche de motifs. L’objectif est de déterminer les éléments communs à plusieurs structures, ces
éléments formant alors le(s) motif(s) caractéristique(s) du groupe de structures. De telles méthodes
Traitement des données sources 105
sont assez répandues au niveau des séquences, mais il est plus difficile de les appliquer au niveau des
structures. Les méthodes d’alignement multiple de structure ont été initialement conçues pour la RMN,
où il fallait comparer les modèles obtenus entre eux afin de déterminer un cœur structural rigide d’une
structure. Toutefois, lorsque des structures différentes sont comparées, comme pour les comparaisons
de paires de structures, la définition de correspondances entre les éléments est nécessaire.
Un objectif des méthodes de comparaison multiple de structure est de déterminer des régions ou
blocs structuraux conservés au sein d’une même famille de structures homologues. De tels blocs
structuraux sont utilisés notamment pour la modélisation par homologie ou par reconnaissance de
repliement. Plusieurs serveurs sont consacrés aux alignements structuraux multiples ; certains ont été
présentés précédemment. La caractérisation de ces blocs structuraux conservés peut apporter aussi des
informations sur les mécanismes d’évolution des structures protéiques ainsi que sur le repliement.
Les méthodes de comparaison multiple peuvent être regroupées en deux catégories : les méthodes
procédant à des comparaisons de paires de structures et les méthodes réellement multiples procédant
sans comparaison préalable des paires de structures.
paires de structures est calculée par alignement, comme décrite précédemment, et un arbre est ensuite
construit par la méthode UPGMA. L’alignement entre deux groupes suit celui entre les deux structures
appartenant à chacun des groupes qui alignent le mieux.
Une autre méthode décrite par Gerstein et Levitt (Gerstein et Levitt, 1996, 1998) utilise la
méthode itérative classique de superposition-alignement par programmation dynamique pour aligner
les paires de structures autour d’une structure « médiane » choisie, celle qui est en moyenne la plus
proche des autres structures. Après superposition, de nouveaux alignements entre la structure médiane
et les autres structures sont calculés par programmation dynamique, le score dépendant de la distance
externe entre les Cα. Ces alignements sont ensuite combinés pour former l’alignement multiple et les
structures sont à nouveau superposées selon ces nouvelles correspondances entre Cα.
Il existe bon nombre d’autres méthodes, mais les deux exemples présentés ci-dessus illustrent
bien les méthodes avec structure moyenne (pour la première méthode) ou pivot (pour la seconde
méthode).
peptidiques est décrite par une suite d’angles (φ,ψ) ou (α,τ). Les valeurs des angles pouvant être
échantillonnées suivant un pas –ou maille– δ, la conformation du squelette peut alors être décrite par
une chaîne de « caractères » d’un alphabet fini comptant 360/δ symboles. La recherche de similarités
structurales entre structures se ramène alors à la recherche de motifs répétés dans des chaînes de
symboles constituées de la concaténation des structures.
Nomenclature. L’alphabet sera nommé Σ et le « texte » dans lequel les motifs sont cherchés s. Le
symbole en position i dans le texte sera noté s[i]. Un motif de longueur k sera désigné par k-motif, et
un k-motif répété, un motif répété au moins une fois dans au moins q structures, q étant le quorum4.
Dans le cas de motifs exacts, une instance d’un motif représente ce motif. Par contre, dans le cas de
motifs approchés, une instance ne représente pas le motif car elle est « stricte ». Une distinction se fera
alors entre motif et instance d’un motif. Les occurrences p d’un motif sont les positions de ses
instances. L’ensemble des occurrences d’un motif sera nommé extension.
Description. La recherche de motifs répétés est un problème connu et très étudié. Beaucoup de
solutions ont été proposées dont certaines permettent de trouver des motifs approchés (Crochemore et
Rytter, 1994). Dans l’algorithme de KMR, la construction des motifs répétés exacts est progressive :
les motifs de taille k permettent de construire les motifs de taille 2k. En effet, si un motif de taille k a
pour extension {i,j} et qu’un second motif répété a pour extension {i+k,j+k}, il est possible de
combiner ces deux motifs pour former le motif de taille 2k présent en i et j. La recherche des motifs
répétés est donc faite en largeur d’abord.
Cependant, les motifs construits à chaque étape ne respectent pas obligatoirement la condition de
quorum, ils ne sont pas toujours répétés. Soient par exemple deux k-motifs, un dont l’extension est {i,j}
et l’autre dont l’extension est {i+k,l} avec l ≠ j + k. La combinaison de ces deux k-motifs aura pour
4
Dans tous les exemples, le quorum est de 2.
108 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
extension {i}, le nouveau motif n’existant pas en j. Ce nouveau 2k-motif n’est pas un motif répété, il
doit donc être éliminé. Il n’est pas possible de savoir quel motif sera répété avant de les avoir
construits. Une étape de filtrage des motifs répétés – i.e. ne respectant pas le quorum – est donc
nécessaire après chaque étape de construction.
Il sera bien sûr dommage de ne construire que des motifs de taille multiple de deux mais il n’est
pas obligatoire que deux motifs soient contigus pour être combinés : ils peuvent être chevauchants et
donner naissance à des motifs de taille intermédiaire (entre k et 2k). En théorie, il est aussi possible de
combiner des motifs de taille variable. Cependant, il est plus simple qu’à une étape donnée, tous les
motifs aient la même taille. Un des intérêts de cet algorithme est qu’à chaque étape, seuls les motifs
existants réellement son créés et traités.
La méthode proposé par H Soldano et coll. (Soldano et al., 1995) est une généralisation de cet
algorithme permettant de trouver des motifs approchés. Pour trouver des motifs approchés, certains
symboles sont considérés comme similaires. Soit par exemple l’alphabet Σ = {a,b,c}, a est similaire à
b et b est similaire à c, mais a n’est pas similaire à c. L’instance de 2-motif « aa » est similaire à
« ab » et « ab » est similaire à « ac » mais « ac » n’est pas similaire à « aa ». Ces similarités peuvent
être représentées par un pavage de l’espace des symboles : l’espace de l’alphabet Σ est découpé en
pavés recouvrant Gi tels que l’ensemble des pavés G = {G1,G2,….G|G|} avec Gi ⊆ Σ pour 1≤ i ≤ |G| et
aucun 1≤ i,j ≤ |G| avec i ≠ j tel que Gi ⊆ Gj. Ces pavés peuvent donc être chevauchants mais ne
peuvent pas se recouvrir totalement. Les symboles dans un même pavé sont similaires. Dans notre
exemple, l’alphabet est découpé en deux pavés : G0 = {a,b} et G1 = {b,c}. L’alphabet utilisé pour
décrire les motifs sera pour les motifs approchés cet ensemble de pavés Gi, aussi nommé alphabet
dégénéré. L’algorithme de construction des motifs suit le même principe que l’algorithme pour les
motifs exacts : les motifs de taille k permettent de construire les motifs de taille 2k. Il faut cependant
noter que – puisqu’un symbole peut appartenir à plusieurs pavés – plusieurs motifs différents peuvent
exister en une même position. Toujours avec le même exemple, l’instance « ab » est similaire à « aa »
et à « ac » mais ces deux instances sont différentes. L’instance « ab » appartient donc à deux 2-motifs,
qui sont les motifs G0G0 et G0G1 lorsqu’ils sont écrits avec l’alphabet dégénéré.
Un effet de cette dégénérescence est que beaucoup plus de motifs sont générés à chaque étape et
certains des motifs ont une extension incluse dans l’extension d’un autre motif. Prenons par exmple le
Traitement des données sources 109
texte s « abba », le même alphabet et les mêmes pavés que précédemment. Le symbole b appartient à
plusieurs pavés, le texte peut don être représenté de la manière suivante :
positions 1 2 3 4
symboles a b b a
pavés G0 G0 G0 G0
G1 G1
Quatre 2-motifs sont présents : G0G0 dont l’extension est {1,2,3}, G1G0 dont l’extension est {2,3},
G0G1 dont l’extension est {1,2}, et G1G1 dont l’extension est {2}. Ce dernier motif ne respecte pas le
quorum, il est donc éliminé. Par ailleurs, les deux motifs G0G1 et G1G0 ont chacun une extension
contenant deux occurrences, mais ces extensions sont chacune incluses dans l’extension du premier
motif G0G0. Ces deux motifs sont donc éliminés et seul le premier motif, G0G0 est conservé. Ce motif
est dit maximal. Les motifs maximaux seuls sont suffisants pour construire tous les motifs maximaux
de taille supérieure.
Cette méthode a été appliquée aux structures protéiques. Les symboles sont des angles discrétisés
selon une « maille » δ donnée. Les symboles sont alors des entiers représentant un intervalle d’angles.
Cependant, si δ = 10°, un angle de 8° est représenté par le symbole « 0 » car il fait partie de
l’intervalle [0°,10°[, il est alors considéré comme différent de l’angle 11° car ce dernier est représenté
par un symbole « 1 » (intervalle [10°,20°[). Or, ces deux angles devraient être similaires. La similarité
pour les angles fait intervenir un paramètre entier κ appelé « marge ». Si κ = 1, le symbole 1 est
similaire aux symboles 0 et 2. Deux angles sont donc considérés comme similaires si leur différence
angulaire est inférieur à (2 x κ +1) x δ.
Cette méthode a été appliquée à la recherche de blocs structuraux similaires dans les cytochromes
P450 par P. Jean et coll. (1997) en vue de la modélisation de la structure du P450eryF.
110 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Dans la méthode originale de « Gibbs sampling » décrite ci dessus, seule l’identité des angles est
prise en compte et non la similarité : ceci conduit à une estimation trop stricte et donc infructueuse des
blocs structuraux similaires. Il a été décidé d’ajouter dans l’étape 1) un terme supplémentaire de
« pseudo-comptes » basé sur la similarité entre les angles : si un angle à une position donnée est
compté, une fraction de ce comptage est rajoutée dans le comptage des angles voisins de cet angle. La
nouvelle formule s’écrit alors de la manière suivante :
∑γ
k = an lg es
jk ci , k + b j
qi , j =
m −1+ β
Traitement des données sources 111
Où ci,k est toujours le nombre d’angles αk en position i et γik est la probabilité de l’angle discrétisé
k dans une gaussienne de moyenne i et d’écart type choisi (plus l’écart type est grand, plus la similarité
entre angles différents est élevée). Ceci permet donc de prendre en compte la similarité entre les
angles α discrétisés, indispensable lorsqu’on travaille sur les structures.
En fait, cette méthode de « pseudo-comptes de similarité » - développée pour les structures - peut
être étendue avec profit à l’alignement multiple de séquence d’acides aminés (domaine original
d’application de la méthode de « Gibbs sampling »). En effet, les « pseudo-comptes » supplémentaires
de similarité sont alors basés sur les fréquences de substitution (fréquences de mutabilité) tirées d’une
matrice de similarité de type BLOSUM ou PAM. Cette extension permet d’améliorer la
reconnaissance de blocs similaires difficiles à exhiber par le « Gibbs sampling » classique : on ajoute
de l’ « information biologique » quant à la substituabilité des acides aminés.
Les différents traitements de données sources décrites dans le paragraphe précédent sont
nécessaires à l’obtention d’un modèle qui copie au mieux la réalité. Selon les données à disposition et
les traitements qu’on a pu leur faire subir, différentes techniques de reconstruction sont possibles pour
prédire la structure d’une protéine à partir de sa séquence. Les méthodes de prédiction in silico de la
structure 3D des protéines à partir de la séquence en acides aminés sont généralement regroupées en
trois grandes catégories : la modélisation par homologie (ou comparative), les méthodes de
reconnaissance de repliement (ou d’enfilage) et les méthodes ab initio / de novo. Le choix de la
méthode dépend de l’existence ou non dans la PDB d’une protéine de séquence similaire à celle de la
protéine à modéliser (ou protéine homologue), et du taux d’identité de séquences entre ces protéines
(homologie plus ou moins distante).
Construction d’un modèle 113
Figure 2-19 Précision et applications possibles des modèles protéiques. L’application des méthodes de
modélisation par homologie (ou comparative), d’enfilage (ou threading) et ab initio / de novo dépend
principalement du taux d’identité de séquence avec des structure connue. La précision des modèles diminue
lorsque ce taux diminue : la valeur du RMSD des atomes de la chaîne principale du modèle (en rouge) par rapport
à la vrai structure (en bleu) augmente. Lorsque le taux d’identité de la séquence se situe entre 30% et 50% par
exemple, les modèles construits par homologie ont généralement environ 90% des atomes de la chaîne principale à
1,5Å de la vraie structure. Différentes applications sont possibles en fonction de la précision des modèles. Figure
extraite de (Baker et Sali, 2001)
114 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Des problèmes majeurs sont liés à l’évaluation des performances des méthodes de prédiction
développées et à leur comparaison. Une solution à ces problèmes a été la mise en place d’une réunion
nommée CASP (Critical Assessment of Structure Prediction) qui a lieu tous les deux ans (Moult et al.,
1995). Cette dernière est née d’une volonté de tester la fiabilité des méthodes développées en évaluant
leurs performances sur un même jeu de protéines, et avec les mêmes critères. Elle consiste à proposer
aux différents groupes de recherche d’appliquer leurs méthodes sur des protéines dont la structure
vient d’être déterminée expérimentalement mais n’est pas encore déposée dans la PDB, ni publiée. Les
méthodes sont donc appliquées en aveugle. A la fin de la compétition, les différents modèles proposés
sont évalués par rapport à la vraie structure 3D. La première compétition CASP (ou CASP1) date de
1994. Les résultats publiés les plus récents sont ceux de CASP6 qui a eu lieu en 2004 (Moult et al.,
2005). Ceux de CASP7 qui s’est déroulé en Novembre dernier à Asilomar Conference Center en
Californie devraient être publiés cette année. Cette compétition permet d’évaluer les progrès réalisés
au cours des années dans les différentes catégories de méthodes de prédiction de structure (Ginalski et
al., 2005 ; Moult, 2005).
La précision des modèles obtenus par les différentes méthodes de modélisation ainsi que leurs
applications possibles sont résumées dans la Figure 2-19.
2.5.1.1 Principe
La modélisation par homologie (ou modélisation comparative) nécessite l’existence d’une
protéine de structure connue présentant plus de 30% d’identité de séquence avec la protéine à
modéliser (protéine cible), et qui pourra servir de structure de référence (Marti-Renom et al., 2000).
En effet, ce fort taux d’identité de séquence laisse supposer que les deux protéines sont homologues et
qu’elles adoptent des structures tridimensionnelles proches (Chlothia et Lesk, 1986).
Différentes étapes sont nécessaires. (i) Une structure de référence est sélectionnée pour servir de
support. (ii) Les séquences des protéines cible et support sont alignées. Le modèle peut alors être
construit avec (iii) la modélisation des régions conservées de la chaîne principale, (iv) la modélisation
des boucles, puis (v) le positionnement des chaînes latérales. Les dernières étapes correspondent à
l’optimisation et à la validation du modèle.
Actuellement, cette méthode est celle qui permet d’obtenir les modèles les plus précis. Toutefois,
ces méthodes sont loin d’être parfaites, de nombreux problèmes majeurs restent à traiter. L’alignement
Construction d’un modèle 115
des séquences par exemple est particulièrement délicat à réaliser lorsque le taux d’identité de séquence
diminue (Venclovas, 2003). De même, la modélisation des boucles, régions structurellement
divergentes, est complexe. De nombreuses études proposent des méthodes pour prédire la
conformation des boucles, soit ab initio (Fiser et al., 2000 ; Galaktionov et al., 2001), soit à partir de
banques de boucles (Donate et al., 1996 ; Oliva et al., 1997 ; Rufino et al., 1997 ; Wojcik et al., 1999 ;
Michalsky et al., 2003), ou encor par des méthodes mixtes (Deane et Blundell, 2001).
SwissModel est quant à lui un serveur qui propose de prédire la structure d’une protéine à partir
d’une séquence fournie par l’utilisateur. Contrairement à COMPOSER, SwissModel est un logiciel
académique, qui ne nécessite donc aucune licence pour utilisation. Il procède en quatre étapes. La
première étape est similaire à celle de COMPOSER, c'est-à-dire la recherche de « templates » qui
116 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
serviront de références pour reconstruire le modèle. Cette recherche se fait à l’aide d’un BLASTP sur
une base ExNRL-3D, une base de séquences dont les structures sont connues. La seconde étape
consiste à définir les zones à modéliser. Un programme, SIM, ne retient que les séquences dont
l’identité locale de séquence est supérieure à 25% et définit des fragments de la séquence cible qui
seront modélisés en fonction de la similarité des séquences templates. Suite à ce travail, un alignement
structural des templates est réalisé avec construction du modèle. Pour cela, le programme ProMod
(Peitsch, 1996) est sollicité pour aligner les structures 3D des templates. Les parties structurales des
templates proches spatialement sont alors utilisées pour définir un nouvel alignement structural en
séquences primaires des templates. La séquence de la protéine à modéliser est alors alignée sur cet
alignement multiple. Les parties de la séquence cible qui n’ont pu être alignées (généralement les
boucles) sont alors modélisées à partir d’une bibliothèque de fragments issue de la Protéine Data Bank.
Les chaînes latérales manquantes sont ensuite reconstruites et celles incorrectes, corrigée. Enfin, une
minimisation énergétique est réalisé sur la structure obtenue, assurée par le logiciel GROMOS96
(Scott et al., 1999). La validation du modèle se fait alors par l’outil Profil 3D. Il existe des limites à
l’utilisation de ce serveur, qui sont d’au moins 30% d’identité de séquence sur au moins 60% de la
longueur de la séquence.
5
Les champs de forces seront expliqués un peu plus tard dans le manuscrit
Construction d’un modèle 117
plusieurs méthodes dont le gradient conjugué, la dynamique moléculaire et le recuit simulé. Enfin, le
programme est également en mesure de reconstruire de novo les boucles des structures protéiques.
Figure 2-20 D’abord, les templates sont alignés avec la séquence cible à modéliser. Puis, les contraintes de
distances, d’angles etc. sont transféré à la cible afin d’obtenir des contraintes spatiales pour cette structure à
construire. Enfin, un modèle 3D est construit en essayant de satisfaire ces contraintes autant que possible.
La modélisation devient beaucoup plus difficile lorsque le taux d’identité de séquence diminue et
qu’aucun homologue proche de structure connue n’est disponible. Les méthodes de reconnaissance de
repliement, qui cherchent à mettre en évidence des similitudes structurales lorsque l’identité de
séquence est beaucoup plus faible, sont une alternative. L’idée consiste à identifier parmi les
repliements connus celui qui pourrait adopter la séquence cible. Comme il l’a été déjà évoqué, le
nombre de repliements protéiques est limité, une nouvelle protéine a par conséquent de grandes
chances d’adopter un repliement déjà connu. Ces méthodes sont également appelées méthodes
d’enfilage (ou « threading » : de manière imagée, la séquence de la protéine à modéliser est « enfilée »
dans des repliements connus afin de déterminer celui qui lui correspondrait le mieux par calcul d’un
118 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
score de compatibilité. Ces méthodes sont généralement applicables entre 15% et 30% d’identité de
séquence. Leurs principales difficultés résident dans la réalisation des alignements de séquence –
structure et dans l’évaluation des repliements potentiels. De plus, elles sont limitées par le nombre de
repliements uniques connus (Sippl et al., 2001 ; Kinch et al., 2003).
Finalement, les méthodes ab initio cherchent à prédire la structure d’une protéine à partir de sa
seule séquence en acides aminés (sans utilisation de structure de référence). Elles constituent donc un
défi scientifique majeur et trouvent tout leur intérêt dans ce contexte de séquençage à grande échelle
qui génère un grand nombre de séquences pour lesquelles aucun homologue de structure connue n’est
disponible ou tout du moins trop difficile à déceler. Il convient ici de distinguer les méthodes ab initio
« pures » des méthodes dites de novo. Les méthodes ab initio « pures » reposent uniquement sur les
propriétés physico-chimiques des protéines et sur l’hypothèse que la structure 3D adoptée par une
protéine (ou structure native) est celle qui est la plus stable (d’énergie la plus faible) parmi l’ensemble
des structures possibles (même si quelques contre-exemples existent) (Bonneau et Baker, 2001). Les
méthodes de novo vont quant à elles exploiter des informations statistiques obtenues de l’analyse des
structures 3D connues (Skolnick et al., 2003).
Actuellement, les résultats les plus encourageants sont obtenus par des méthodes de modélisation
de novo construisant des modèles protéiques à partir de courts fragments de structure. La plus connu
est ROSETTA développé par le groupe de Baker et cool. (Simons et al., 1997). On trouve également
parmi ces méthodes de reconstruction l’utilisation de bibliothèques de fragments comme ceux
présentés pour l’alphabet structural.
Afin d’interpréter et exploiter les modèles 3D de protéines, il est essentiel d’estimer leur précision,
aussi bien globale que locale à certaines régions du modèle. Les erreurs dans les modèles proviennent
de deux sources principalement : (i) l’échec de la recherche conformationnelle pour trouver la
conformation optimale ainsi que (ii) l’échec de la fonction de scoring à identifier la conformation
optimale. Les modèles 3D sont généralement évalués selon des préférences géométriques des résidus
ou des atomes, qui sont dérivées de structures protéiques connues. En pratique, on a coutume
d’aborder une évaluation d’un modèle donné dans une manière hiérarchique. Dans un premier temps,
il est nécessaire d’évaluer si le modèle dispose au moins d’un repliement (« fold ») correct. Le modèle
Construction d’un modèle 119
aura un repliement correct si le « bon » template est utilisé et correctement aligné sur la séquence cible.
Une fois le repliement du modèle confirmé, une autre évaluation détaillée sur la précision globale de
la protéine peut être effectuée, basée sur la similitude globale de séquence sur lequel le modèle est
basé. Finalement, une variété de profils d’erreurs peut être construite pour quantifier les erreurs
possibles dans les différentes régions du modèle. Une bonne stratégie est d’utiliser différentes
méthodes d’évaluation de modèles et d’en sortir un consensus. De plus, les fonctions d’énergies sont
généralement développées pour travailler sur un certain degré de détails, et ne sont pas appropriées
pour juger les modèles à un degré plus fin ou plus grossier (Park et al., 1997). Il existe un nombre
important de programmes ou de serveurs d’évaluation (cf. Tableau 2.3).
Les modèles ont besoin d’une stéréochimie correcte. Les programmes les plus usuels pour évaluer
la stéréochimie sont PROCHECK (Laskowski et al., 1993), AQUA (Laskowski et al., 1996), SQUID
(Oldfield, 1992) et WHATCHECK (Hooft et al., 1996). Ces programmes vérifient les caractéristiques
suivants : les longueurs des liaisons (« bond length »), les angles de liaisons, les liaisons peptidique et
la planéité des cycles des chaînes latérales, la chiralité, les angles de torsion pour la chaîne principale
et les chaînes latérales, et les collisions entre les paires d’atomes non liés. En plus d’une bonne
stéréochimie, un modèle doit également avoir une faible énergie en terme d’énergie de champs de
force comme CHARMM, AMBER ou encore GROMOS. Toutefois, une faible énergie de mécanique
moléculaire ne signifie pas forcément que le modèle est correct (Novotny et al., 1984,1988). Ainsi, les
distributions de plusieurs caractéristiques spatiales ont été compilées à partir de structures de protéines
à haute résolution et chaque déviation aussi large soit-elle de la valeur la plus « probable » est
interprétée comme une indication forte d’erreurs dans le modèle. De telles caractéristiques incluent
l’empaquetage (Gregoret et Cohen, 1991), la formation de cœurs hydrophobes (Bryant et Amzel,
1987), l’accession au solvant (Chiche et al., 1990 ; Holm et Sander, 1992), la distribution spatiale des
groupes chargés (Bryant et Lawrence, 1991), la distribution des distances inter atomes (Colovos et
Yeates, 1993), le volume atomique (Pontius et al., 1996), les liaisons hydrogènes de la chaîne
principale (Laskowski et al., 1993).
D’autres groupes de méthodes pour tester les modèles 3D qui prennent en compte implicitement
plusieurs critères cités ci-dessus, mettent en jeu des profils 3D et des potentiels statistiques (Sippl,
1990 ; Luthy et al., 1992). Ces méthodes évaluent l’environnement de chaque résidu dans le modèle
en respectant l’environnement attendu comme celui trouvé dans les structures X à haute résolution.
Les programmes qui implémentent ces approches sont VERIFY3D (Luthy et al., 1992), PROSA
(Sippl, 1993), HARMONY (Topham et al., 1994) et ANOLEA (Melos et Feytmans, 1998).
120 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Une fois le modèle obtenu, on dispose enfin d’un support d’étude. Toutefois, ce modèle n’est pas
encore exploitable : de même que pour les structures cristallographiques, il faut « relâcher »la
molécule afin qu’elle adopte une conformation stable de basse énergie. Ce travail de relaxation peut
être effectué par différentes méthodes dont (i) la chimie quantique (aussi appelée ab initio) dans
laquelle seuls les électrons sont traités, (ii) la méthode semi-empirique qui étudie seulement les
électrons de valence avec un hamiltonien plus simple qu’en ab initio, et (iii) la mécanique moléculaire
qui ne traite pas de l’électronique du système mais utilise les lois de la mécanique newtonienne. En
raison de la puissance de calcul demandé, les deux premières méthodes limitent la taille de molécules
étudiées à quelques atomes. C’est la mécanique moléculaire qui représente la forme la plus courante
des logiciels utilisés car elle est rapide, fiable et permet d’optimiser des molécules de poids très élevé
(macromolécules), avec un temps de calcul raisonnable.
d'une molécule peut être approchée à l'aide d’une fonction analytique dont les termes sont une somme
de plusieurs fonctions analytiques aux constantes déterminées empiriquement. Celles-ci englobent
généralement une série de terme qui sont les suivants : un terme d’élongation des liaisons, un terme de
variation des angles, un terme d’énergie de torsion des angles dièdres, un terme prenant en compte les
énergies d’interaction entre atomes non-liés (Van der Waals) , un terme prenant en compte les énergies
d’interaction électrostatiques entre atomes non liés et enfin un terme prenant en compte les liaisons
hydrogènes. Tous ces termes se décrivent sous la forme Ks(r – r0) ou Kθ(θ – θ0) … Ks, Kθ sont
appelées constantes de force. Ces constantes dépendent bien sûr du type d'atome, mais aussi de leur
environnement. La liste complète de ces constantes est appelée champs de forces.
Un champ de force est une liste de constantes qui décrit les interactions entre atomes liés et non
liés. L'élaboration d'un champ de force doit répondre à 2 critères : (i) tout d’abord un critère de
simplicité pour pouvoir être calculée rapidement et ensuite (ii) un critère de précision pour calculer de
manière acceptable les propriétés structurales et thermodynamiques des molécules. De tels champs de
force sont apparus dés 1970 et continuent à évoluer aujourd’hui. On distingue dans les champs de
force deux catégories d’interaction : (i) les interactions entre atomes liés correspondent à des énergies
de déformation des liaisons, des angles de valence et de torsion des angles dièdres ; (ii) les interactions
entre atomes non liés correspondent aux interactions de Van der Waals, électrostatiques, liaisons
Hydrogène. En biologie, les champs de forces habituellement utilisés sont CHARMM, AMBER,
OPLS et GROMOS.
Élongation des liaisons ("Stretching"). La déformation des liaisons est en général faible (de
l'ordre de 0.05 Å) et est exprimée par un potentiel harmonique6 décrit par la fonction suivante :
1 n
El = ∑ k r ,i (ri − ri0 ) 2
2 i =1
6
Il existe un autre potentiel pour les élongations des liaisons appelés Potentiel de Morse. Celui-ci prend en
compte la dissociation, mais est nettement plus cher en temps de calcul, c’est pourquoi le potentiel harmonique
est le plus utilisé.
122 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
Déformation des angles ("Bending"). La déformation des angles est également faible (de l'ordre
de quelques degrés) et est exprimée par la fonction suivante :
1
Eθ = ∑
2 ij
kθ ,ij (θ ji − θ ij0 ) 2
Torsion des angles dièdres ("Torsion"). Pour des atomes co-planaires, la torsion des angles
dièdres est décrite par une fonction périodique développée en série de Fourrier :
1
Eτ = ∑ Ai ,n [1 + cos(nτ i − φ )]
2 i
1 rij
12 6
0
r0
E vdw = ∑ Aij − Bij ij
2 ij rij
rij
Interactions électrostatiques.
1. Il y a d’abord les calculs de charge-charge : l'énergie électrostatique entre 2 atomes ij de
charges qi et qj est représentée par la loi de Coulomb
qi q j
E el = ∑
ij 4πε ij rij
Énergie des liaisons hydrogènes. La liaison Hydrogène est une interaction de 2 à 5 Kcal/mole
d'importance. Elle s'exerce entre un Hydrogène déficient en électrons et un atome de forte densité
électronique (comportant des doublets).
AMBER (Assisted Model Building and Energy Refinement) est une autre famille de champs
de force pour la dynamique moléculaire de biomolécules. Il a été développé par le groupe de P.
Kollman à l’Université de Californie (Duan et al., 2003). AMBER est aussi le nom du « package »,
l’ensemble d’outils pour les simulations de MD, qui implémente ces champs de force. Il est maintenu
par une active collaboration entre D. Case et ses collaborateurs. Comme pour CHARMM, il existe
différents champs de force AMBER plus ou moins adapté pour un type de molécule en particulier.
GROMOS est le troisième champs de force largement utilisé pour les biomolécules (Van
Gunsteren et al., 1996). Il a été développé à l’université de Groningen et l’ETH de Züirch. C’est le
logiciel GROMACS (Groningen Machine for Chemical Simulation) qui utilise principalement ce
champ de force. Contrairement aux deux autres champs de force, GROMOS est un champ de force de
type « atome unis » plutôt que de type tout atome, ce qui signifie par exemple qu’un groupe méthyle
est considéré comme un seul atome. Il a été optimisé pour respecter les propriétés des phases
condensées des alcanes. Cette simplification dans sa représentation des éléments fait de GROMACS le
programme le plus rapide en simulation moléculaire.
124 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
2.6.3 Minimisation
Les algorithmes de minimisation consistent à chercher à partir de la géométrie initiale, des jeux de
coordonnées cartésiennes qui réduisent à son minimum la somme de toutes les contributions
énergétiques. Les méthodes couramment utilisées reposent sur la dérivée première de l’énergie
potentielle (Steepest descent ou Conjugate grandient). Ces algorithmes consistent à rechercher la
direction de la plus grande pente c.-à-d. celle sur laquelle l'énergie décroît le plus rapidement et à
modifier la structure en conséquence. La direction imposée aux coordonnées suit alors celle indiquée
par l'opposé au gradient d'énergie.
2.6.4.1 Définition
La dynamique moléculaire consiste à étudier la trajectoire d'une molécule en appliquant les lois de
la mécanique classique newtonienne c'est-à-dire, à simuler les mouvements atomiques au cours du
temps. Ces mouvements correspondent à des vibrations autour d'un minimum ou au passage d'un
minimum à un autre minimum d'énergie. Ainsi la dynamique moléculaire permet de s'extraire d'un
minimum local.
2.6.4.2 Description
Dans les simulations de dynamiques moléculaires, on souhaite connaître la position et la vitesse
des particules à chaque pas de temps. Ce temps évolue de manière discrète au cours de la simulation.
Le calcul des forces d'interaction s’effectue entre les atomes : il permet de déterminer l'évolution des
vitesses, et donc des positions, en utilisant les lois de la dynamique classique de Newton discrétisées.
Un des points important est la conservation d’énergie totale du système au cours de la simulation. La
méthode utilisée pour calculer les forces d'interaction (ou le potentiel dont elles dérivent) caractérise
une simulation. Par exemple on parle de dynamique moléculaire ab initio si le potentiel est calculé à
Exploitation du modèle 125
partir des calculs de la mécanique quantique. Si en revanche les forces dérivent d'un potentiel fixé
empiriquement, on parlera de dynamique moléculaire classique.
La dynamique moléculaire s'applique aussi bien à l'étude structurale des molécules qu'à des
systèmes en interaction de grande taille. Néanmoins, en raison des capacités limitées de calcul, le
nombre de particules dans une simulation l'est aussi. Pour simuler un matériau infini dans une, deux
ou trois dimensions, les particules sont placées dans un espace périodique : on parlera alors d'une boîte
de simulation. Lors du calcul des forces, la périodicité de l'espace devra être tenu en compte. En
pratique, on distinguera dans la force d'interaction des termes à courte portée, qui ne seront pas
affectés par la périodicité, c'est-à-dire que seules les particules les plus proches seront prises en compte,
et un terme à longue portée, qui devra en tenir compte. Le terme à longue portée est généralement de
type coulombien et sera calculé par la somme d'Ewald.
En biologie structurale, on s'intéresse au rapport entre la structure des molécules et leur fonction
biologique. De manière générale, on peut dire que le domaine recouvre des questions relevant d'une
part de la pharmacologie (conception de médicaments) et d'autre part de la biologie cellulaire (étude
du fonctionnement de la cellule). Dans le premier cas, un récepteur étant connu, il s'agit de trouver un
ligand, c’est-à-dire une (ou plusieurs) molécule(s) complémentaire(s). Dans le second, on s'intéresse
plutôt à l'interaction entre macromolécules (protéines ou acides nucléiques) intervenant dans les cycles
cellulaires. On distingue donc les interactions entre ligand-protéine et les interactions entre
protéine-protéine. Une question centrale commune aux deux problématiques est le docking. Le
docking est l'étude des interactions intervenant lors de la formation de complexes moléculaires. Il
repose sur l’hypothèse que les ligands formant des interactions favorables avec le récepteur doivent
avoir une affinité de liaison élevée. Ces interactions entre molécules sont non liantes et concernent
donc : (i) les interactions VDW, (ii) les interactions électrostatiques, et (iii) les interactions hydrogènes.
Pour le sujet de thèse, on s’attachera plus au docking ligand-protéine. La plupart des programmes de
docking automatique effectuent une exploration systématique de l’espace des configurations pour
générer et évaluer un grand nombre de liaisons potentielles. Les structures générées sont alors
soumises à un critère de score pour identifier les plus intéressantes. C’est justement cette identification
qui pose problème lors du docking, à savoir si la génération et l’évaluation des complexes sont
plausibles. C’est pourquoi, il est préférable parfois de former manuellement les complexes, lorsque
l’utilisateur a une idée du placement des molécules entre-elles. Dans les expériences de docking, on
126 Chapitre 2. Les outils bioinformatiques : vers de nouvelles solutions
distingue les algorithmes de docking rigide (où les molécules sont figées) et ceux de docking flexible.
Dans le premier cas, il y a une simplification des degrés de libertés comme les deux molécules sont
rigides. L’un des premiers programme à utiliser ce genre d’algorithme est le programme DOCK
(Kuntz et al., 1982) : DOCK a été développé pour trouver des molécules à haut complémentarité de
forme avec le site de liaison. Pour cela, le site est transformé en image négative qui consiste en une
collection de sphères chevauchantes dont les rayons touchent la surface moléculaire en seulement
deux points. Les ligands sont ensuite confrontés à ces sphères en minimisant les interactions stériques
entre le ligand et le récepteur (cf. Figure 2-21)
Figure 2-21 L'algorithme DOCK (Kuntz et al., 1982). Les atomes sont positionnés au centre des sphères et la
molécule est positionnée à l’intérieur du site de liaison. Figure extraite de la page 556 de Molecular Modelling
d’AR. Leach.
Dans le cas des docking flexibles, tous les degrés de liberté conformationnels sont pris en compte,
même si la plupart du temps ils ne sont appliqués qu’aux ligands, le récepteur restant rigide. Plusieurs
méthodes sont utilisées pour effectuer cette recherche conformationnelle. On peut citer par exemple la
méthode de Monte Carlo (MC), souvent associé à du recuit simulé (Goodsell et Olson, 1990). A
chaque itération de la procédure MC, la conformation interne du ligand est changée (par rotation
autour d’une liaison) ou la molécule entière est aléatoirement translatée ou retournée. L’énergie du
ligand à l’intérieur du site est alors calculé par mécaniques moléculaires, et le mouvement est alors
accepté ou rejeté suivant le critère de Metropolis. Les algorithmes génétiques peuvent aussi être
appliqués pour le docking moléculaire (Judson et al., 1994 ; Jones et al., 1995 ; Oshiro et al., 1995).
Chaque chromosome code non seulement pour les conformations internes du ligand, mais aussi pour
sont orientation à l’intérieur du site. L’orientation et les conformations internes varient donc pendant
Conclusion 127
que la population évolue. Le score de chaque structure complexée agit comme une fonction de fitness
utilisée par chaque individu à chaque itération. Enfin, la distance géométrique peut également être
utilisée pour ce genre de docking moléculaire.
2.7 Conclusion
Il a été vu au cours de ce chapitre quelles sont les étapes nécessaires pour étudier une protéine in
silico par modélisation moléculaire. Afin de pouvoir étudier la fonction biologique d’une protéine, on
s’intéresse d’abord à sa structure : c’est le concept de la biologie structurale. Celle-ci repose sur
l’obtention d’un modèle des plus fiables possibles afin d’être utilisé en tant que support d’étude.
Lorsqu’on s’intéresse aux mécanismes de reconnaissance d’une protéine, l’obtention du meilleur
modèle outre la structure cristallographique, est le modèle par modélisation comparative. Ce modèle
repose sur un alignement des plus rigoureux et des plus fiables possibles. Dans le cas des P450s, la
construction de modèle ne pose pas de problème au sein d’une même famille. Ainsi, reconstruire un
CYP2C8 à partir d’un CYP2C9 ne pose pas en soi une difficulté majeure. En revanche, lorsque l’on ne
dispose pas de structure d’une même famille, le problème d’alignement est flagrant : les P450s étant
très divergentes en séquences, il s’avère extrêmement difficile d’obtenir un alignement de séquence
correct avec les outils actuellement disponibles. C’est pour cette raison que nous avons développé au
sein du laboratoire, une méthode nouvelle qui prend en compte la conservation de la structure pour
produire cet alignement : c’est le sujet du prochain chapitre.
Une fois le support obtenu, la compréhension des mécanismes de reconnaissance des CYPs
nécessitera l’analyse de résultats de docking de ligands dans le site actif qui peut être à l’état natif ou
légèrement modifié afin de repérer les résidus essentiels dans la reconnaissance du substrat.
Deuxième Partie
Nouvelles méthodes
129
CHAPITRE 3
131
132 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
À mon arrivée au laboratoire, on m’a d’abord confié un sujet portant sur l’étude et la
compréhension des mécanismes moléculaires impliqués dans les phénomènes de reconnaissance de
multiples substrats par les cytochromes P450 de la famille des 3A (CYP3A). Je devais pour cela avoir
recours à une approche bioinformatique qui combine des techniques variées et complémentaires, telles
que la modélisation comparative, l’arrimage moléculaire (docking) et la dynamique. En début de thèse,
aucune structure cristallographique de la famille CYP3A n’était disponible dans la PDB, mais
plusieurs structures de P450s de micro-organisme (P450cam, P450terp, P450eryF, P450nor et CYP 51) et de
mammifère (en général privés de leur hélice d’ancrage à la membrane : CYP 2C5, CYP 2C8,
CYP 2C9, CYP 2B4) étaient dipsonibles. L’idée était d’utiliser les structures connues de CYPs pour
construire un modèle de CYP3A, mais la faible identité en séquence des structures disponibles fut le
premier frein à la proposition d’un modèle de CYP3A fiable.
Toutefois, une propriété importante et caractéristique des P450s pouvait être mise à profit : leur
repliement unique, de la bactérie au mammifère. Ainsi, une stratégie en 3 étapes inspirée de celle de
P.Jean (Jean et al., 1997) pour reconstruire un P450eryF a été adoptée. A la différence des techniques
classiques de modélisation comparative qui s’appuient sur un alignement purement séquentiel, la
méthodologie consiste ici à aligner par éléments structuraux plusieurs templates, pour définir des
zones fixes, en termes de structure. Ces zones correspondent à des morceaux d’hélices ou de feuillets,
mais ne sont pas limitées aux SSE uniquement : avec la technique de recherche utilisée, des morceaux
de boucles sont également pris en compte. Ces zones, appelées Blocs Structuraux Communs (CSBs),
sont utilisées pour être alignées avec la séquence du P450 à modéliser. Les zones variables seront
quant à elles reconstruites sans information structurale a priori. Ainsi, cette méthode s’affranchit de
l’utilisation d’une structure unique, évitant d’obtenir un modèle trop proche des templates initiaux, et
permet également de fournir un alignement en séquence plus fiable.
Cette méthodologie en trois étapes fera l’objet de ce chapitre : dans un premier temps je montre
comment obtenir les CSBs. Puis, je décrirai brièvement le principe d’alignement des CSBs sur la
séquence cible à modéliser. Enfin, je présenterai les procédures suivies pour l’obtention d’un modèle à
partir de l’alignement obtenu.
Recherche des éléments structuraux conservés 133
Un bon compromis fut donc d’ajouter à ce jeu de structures « mammifères », trois structures
bactériennes avec des homologies fonctionnelles. Ce choix respecte ainsi l’universalité du repliement
P450 et l’absence d’identité marquée pour l’un ou l’autre des templates. L’ensemble des structures
choisies figure dans Tableau 3.1.
Tableau 3.1 Structures cristallines utilisées pour reconstruire le CYP3A4. Les identités sont données par un Blastp de la séquence du
CYP3A4 sur la PDB.
C 2C9 1OG5 Homo sapiens Williams et al., 2003 28% 490 475
Les structures qui ont servi de templates à chaque utilisateur sont représentées par les symboles :
− A pour ceux de N. Loiseau,
− B pour ceux de M. Cottevieille,
− C pour ceux de T.A Nguyen.
Pour réaliser l’alignement structural, et pallier la faible identité de séquence entre les différents
P450s dans la partie très variable, nous avons choisi d'employer une méthode utilisant une
comparaison structurale multiple à l’aide du logiciel GOK développé par Joël Pothier à l'Atelier de
BioInformatique de l'Université Paris VI (A.B.I.). Cette méthode, décrite dans la section 2.4.5.1,
utilise les coordonnées internes de la chaîne peptidique, à savoir un jeu d'angles dièdres, puisque la
protéine peut être décrite comme une trajectoire dans le plan de Ramachandran. Il travaille avec le
couple (α, τ) (Levitt, 1976), mais dans le cas de notre étude, seules les coordonnées angulaires α sont
utilisées, l'angle τ étant à peu près constant (cf. section 2.2.4). Une sous-structure commune (CSB pour
« Conserved Structural Blocs ») est donc définie comme un segment de trajectoire commun à toutes
les structures dans une marge d’erreur définie par l’utilisateur. Le quadrillage de ce plan (la maille) et
l'utilisation d'une marge de tolérance (la marge) permettent de définir un critère de similarité multiple
et précis (cf. Figure 3-1).
marge
maille
marge Cα n+2
τ α τ C α n-1
Cα n+1
C αn
Figure 3-1 Comparaison structurale dans GOK : la maille (définie en unités d’angle) et la tolérance (marge en
unités de maille) pour l’angle dièdre α définissent une zone de similarité. Les sous-structures ayant un angle α
compris dans cette zone, sont considérées comme similaires. Dans la présente figure, chaque marge correspond à
une maille.
GOK propose deux mesures rms multiple pour vérifier que les correspondances entre les
coordonnées internes et les structures 3D déterminées sont bien en accord. Le premier, noté mp-rms
(pour « mean of all pairwise rms deviation »), est une moyenne arithmétique des déviations calculées
par paires de structures. Si on note S1, S2, …, Sm les m structures, chacune composée de n carbones α,
136 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
et sij = (xij, yij, zij) les coordonnées du Cα j dans la structure i (i = 1, …, m ; j = 1, …, n), alors la
déviation minimale rms ∆kl entre les structures k et l est définie comme suit :
n 2
∆2kl = min ∑ Rs kj + t − s lj n
Rt
j =1
où le minimum est pris sur toutes les rotations propres R et translations t (Kabsch, 1976 ; Sippl et
Stegbuchner, 1991). Le mp-rms est alors défini de la façon suivante :
m(m − 1)
mp − rms = ∑∆
1≥ k > l ≥ m
kl
2
Le deuxième critère, noté s-rms (pour « star-rms »), est obtenu par le calcul de la moyenne
arithmétique de toutes les déviations rms entre chaque template et une structure « moyenne » S0 (c-à-d
recalculée sur les angles moyens) calculé sur le bloc. Celle-ci est définie comme suit :
m
s − rms = ∑ ∆ 0 k m
k =1
GOK est donc une méthode qui a l'avantage de tester toutes les solutions possibles sans favoriser
l'une des structures en tant que « pivot » et permet, en théorie, la comparaison simultanée d'un grand
nombre de structures.
Au moyen de cette méthode, des éléments structuraux communs sont alors identifiables sur
l’ensemble des structures choisies en template. Ces éléments qu’on appellera également Blocs
Structuraux Communs (CSB) ou encore, blocs, correspondent souvent à des éléments de structures
secondaires. Pour désigner ces éléments de structure secondaire chez les P450s nous utiliserons celle
proposée par Poulos (Poulos et al, 1985) et revue par Hasemann (Hasemann et al., 1995). Toutefois,
un bloc ne correspond pas à un simple élément de structure secondaire, il peut contenir un
fragment d’un tel élément, par exemple une partie de brin ou d’hélice, ou encore un groupe de SSEs
contigus.
Dans l’étude des P450s, et selon les structures présentes dans chaque jeu, un nombre différent de
CSBs a été déterminé. Ce nombre de blocs tourne autour d’une vingtaine et la longueur totale des
blocs couvre à peu près 60 à 70% de toute la protéine. Ils serviront alors d’ossature pour la
reconstruction de la protéine cible, un peu à la manière des techniques d’enfilage (ou threading). Ils
sont présentés en détail dans le chapitre 5.
Recherche des éléments structuraux conservés 137
Avec trois ensembles différents de structures cristallines –comprenant toutefois des structures
communes– nous sommes parvenus par trois fois à obtenir à peu près le même jeu de blocs. Chaque
jeu de blocs a été aligné indépendamment sur les mêmes P450s cibles en vue de reconstruire leurs
modèles. La plupart du temps (comme il sera montré dans la partie résultats) les modèles obtenus sont
différents. Cette différence pouvant provenir de l’alignement des blocs sur la séquence cible, je me
suis intéressé de près aux positionnements des blocs pour les trois jeux de blocs. Il s’est alors avéré
que selon le jeu de blocs utilisés, le positionnement de certains blocs ne concordait pas d’un jeu à
l’autre. Comme nous n’avions pas utilisé les mêmes structures pour chacun des jeux, l’idée m’est
venue de faire un jeu de blocs général qui comprendrait les onze différentes structures utilisées au
travers des trois jeux de templates. GOK recherche des trajectoires 3D communes et fournit les
résultats de blocs sous forme de courts sous-alignements (cf. Figure 3-2) comme le font la plupart des
logiciels d’alignement structural. Pour élaborer un jeu global de blocs à partir des trois jeux
disponibles, il suffisait donc a priori de fusionner entre eux les sous-alignements de chaque bloc. Cette
tâche qui semblait aisée au premier abord s’est révélée moins évidente que prévue : certains sous-
alignements de blocs ne concordaient pas avec leurs homologues provenant d’un set de templates
différent. Par exemple, deux séquences d’un même bloc pour un jeu de templates donné n’étaient pas
trouvées alignées de la même façon dans un autre jeu, pour ce même bloc.
La plupart des désaccords trouvent leur origine dans un décalage en séquence en début ou fin de
bloc. Ces décalages de quelques résidus (d’1 résidu à 6) sont observés chaque fois au niveau d’un bloc
comprenant une partie d’hélice α. Ce décalage des sous-alignements est explicable : lors d’une
identification de bloc par le logiciel GOK, l’utilisateur doit choisir un sous-alignement structural qui
représente une trajectoire commune à tous les templates, parmi plusieurs sous-alignements possibles.
Cette sélection s’effectue graphiquement via l’interfaçage du logiciel de visualisation Midas (UCSF,
Université de Californie), couplé à GOK. Les nombreux sous-alignements structuraux proposés sont
souvent chevauchant entre eux, et se distinguent alors les uns par rapports aux autres par un décalage
au niveau de l’initiation (et par conséquent de la terminaison) du sous-alignement, d’une structure ou
plus, parmi toutes les structures présentes dans le jeu. La Figure 3-2 présente justement un exemple de
ce cas de figure où un décalage d’1 résidu et un décalage de 6 résidus sont observés pour le bloc 4
(voir numérotation des blocs, chapitre 5.2). Dans cet exemple, les structures des P450cam (pdb 1oxa),
P450BM3 (pdb 2hpd) et CYP 2C5 (pdb 1dt6) sont présentes dans les 3 jeux de templates. Visuellement,
et en ne prenant en considération que les alignements correctement superposés (cf. légende de la
138 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
Figure 3-2), les sous-alignements structuraux de chaque région correspondent bien à une trajectoire
similaire sous GOK : il s’agit ici d’un morceau d’hélice G. En revanche, en s’intéressant de plus près
aux séquences des sous-alignements de ce bloc, un décalage est observé entre les deux jeux de blocs
(entre A et B) de 6 résidus pour la séquence du P450BM3 et de 1 résidu pour la séquence du CYP 2C5
par rapport à la séquence du P450eryF. Pour trancher entre ces deux résultats, il a donc fallu comparer
ce bloc avec celui de mon jeu de blocs, en prenant également en considération les autres structures de
ce même bloc non montrées ici : dans les trois jeux, lorsque les sous-alignements d’un même bloc sont
en accord dans au moins deux jeux, c’est ce sous-alignement qui est choisi. Dans certains cas,
l’utilisation d’un autre logiciel d’alignement structural a été nécessaire (Matras).
Figure 3-2 Décalage observée pour le bloc 4 entre le jeu de N. Loiseau (A) et celui de M. Cottevieille (B).
L’hélice G correspondant au bloc 4 dans les structures 1oxa (en vert) 2hpd (en rouge) et 1dt6 (en bleu) est
représenté en trace sous VMD. Dans (B), la représentation est volontairement calée sur le même alignement
structural que dans (A) pour mettre en évidence le décalage de sous-alignement. En pratique, sous Midas (couplé à
GOK), les 3 fragments d’hélices seraient bien sûr superposés pour former un bloc. L’alignement en séquence
correspondant est montré. Dans cet exemple, un décalage de 6 résidus est observé sur 2hpd et un décalage de 1
résidu sur 1dt6. Comme une hélice a une même trajectoire dans l’espace, un décalage de 1 résidu ou de 3 n’est pas
observable sous Midas. À noter que le bloc trouvé par M. Cottevieille est plus court que celui trouvé par NL.
Ce décalage de 1 à 6 résidus au niveau des blocs n’est pas surprenant en soi, c’est une limite de
principe de la détection par les angles α : la trajectoire d’une hélice est décalable d’un ½ tour (1 à 2
résidus décalés dans les sous-alignements), ou même d’un tour (3 à 4 résidus). Sachant qu’il faut 3,6
résidus pour faire un tour d’hélice, un décalage de 3 à 4 résidus en alignement séquetiel est
compréhensible pour un décalage d’un pas d’hélice. Dans certains cas, lors de la recherche, GOK
propose comme sous-alignement une région d’une hélice pour cinq structures, et une région d’une
Recherche des éléments structuraux conservés 139
autre hélice pour la sixième structure. Comme les trajectoires des hélices se ressemblent dans l’espace,
GOK a pu considérer des morceaux d’hélices différents comme une même trajectoire commune.
Au final, l’évaluation de la « bonne » trajectoire commune n’est pas facilitée par la lisibilité du
programme de visualisation et il n’est pas rare, notamment au niveau des hélices α d’observer des
décalages d’un résidu ou plusieurs résidus. En prenant connaissance de cette analyse, j’ai pu
finalement constituer un jeu de blocs communs aux trois jeux de templates (cf. Figure 5-4 et Figure
5-5 dans la partie des résultats) qui couvre plus de 60% de la séquence des P450s alignés. À noter
que les deux structures du CYP 2C5 (1nr6 et 1dt6) ont été conservées dans le jeu de bloc général car
les séquences sont légèrement différentes en raison de mutations introduites pour la cristallisation.
peut penser que sur un ensemble plus grand de structures de référence, des blocs en nombre et de
longueur moins importante seraient identifiés. Comme l’alignement sous GOK des 29 templates
n’était pas envisageable (lié à la limitation de calcul des machines), il fallait trouver un autre logiciel
au fonctionnement similaire à celui de GOK. GAKUSA est un autre logiciel développé à l’ABI
(Atelier de Bioinformatique, Institue Curie) basé sur une approche comparable à GOK dans sa
représentation des structures. En revanche, (voir section 2.4.5.2), son algorithme est totalement
différent. Contrairement à GOK, GAKUSA ne dispose pas d’interface graphique, mais est compensé
par son automatisation : il identifie en un temps rapide tous les CSBs des structures. L’utilisateur peut
de plus imposer une longueur minimale de recherche de blocs : GAKUSA détermine alors
itérativement chaque position de CSBs trouvés avec un score associé. À chaque itération, les positions
trouvées sont cachées pour l’itération suivante, forçant le logiciel à identifier de nouveaux blocs
(comme dans GOK). Lors des premiers essais sur un jeu de structures restreintes de P450s, GAKUSA
paraissait non seulement beaucoup plus rapide que GOK, mais permettait également de traiter un plus
grand nombre de structures simultanément. J’ai donc utilisé ce logiciel afin de comparer les blocs
obtenus sur l’ensemble des 29 templates de P450 par rapport aux jeux de blocs dont je disposais déjà.
Pour constituer le jeu des 29 templates (cf. Tableau 3.2), seules les structures les mieux résolues
ont été retenues en cas de redondance (substrats, mutants, etc.). Dans le Tableau 3.2, on peut
remarquer que les structures bactériennes sont plus représentées, mais le jeu dispose quand même de
10 templates de P450s microsomaux de plus en plus diversifés alors qu’ils étaient dominés par des
structure de P450s de la famille 2C en 2004.
Lorsque les blocs structuraux sont identifiés, la seconde étape de la méthode consiste à rechercher
la meilleure correspondance entre les sous-alignements en séquences de ces blocs (définis
structuralement et indépendamment de la nature des acides aminés), avec la séquence cible qui elle-
même peut être alignée avec d’autres séquences à fort taux de similarité. Pour cela, tous les CSBs sont
transformées en « profils » (ou PSSM) puis sont alignés sur la séquence de la P450 de structure
inconnue ou contre un pré-alignement de séquences de plusieurs P450s homologues. Ce pré-
alignement permet de tenir compte de la dégénérescence de séquence au sein d’une sous-famille de
P450, ce qui peut aider à compenser la faible identité en séquence entre les différents P450s. Cette
étape de recherche de positionnement des CSBs est par ailleurs très importante : la qualité
Positionnement des CSBs sur la séquence cible 141
d’alignement des blocs sur la séquence cible est cruciale pour la reconstruction du modèle,
l’alignement de la partie N-terminale pouvant conduire à de nombreuses incertitudes et ambiguïtés.
Tableau 3.2 Liste des structures ayant servi pour constituer le set de templates général.
Rés Date de Nombre de structures
CYP PDBID Espèce
(A) publication disponibles
N. Loiseau et M. Cottevieille, ont tous deux utilisé un même logiciel pour aligner leur jeu de
blocs : SmartConsAlign, développé à l’ABI (Jean et al., 1997). Ce logiciel été écrit pour trouver la
meilleure correspondance possible entre le profil de chaque CSBs et la séquence à aligner. Pour ce
faire, à chaque bloc structural était associé une matrice dite consensus (ou profil/PSSM) donnant la
répartition des différents acides aminés pour chaque position dans ce bloc (cf. Figure 3-3). Dans
142 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
SmartConsAlign, la dimension de cette matrice est de 20 lignes, et d’un nombre de colonnes égale à la
longueur de la séquence correspondante. Chaque ligne correspond à un symbole de l’alphabet utilisé,
généralement à un type d’acide aminé. D’autre part, les coefficients de la matrice sont pondérés par un
facteur tenant compte des similarités entre acides aminés : en pratique la matrice finalement utilisée
est le produit de la matrice consensus par la matrice de similarité BLOSUM 62. Un score de similarité
est alors défini pour chaque position de la matrice le long de la séquence de la protéine à modéliser. La
recherche du meilleur score par déplacement de la matrice consensus considérée sur l’alignement
préétabli de séquences, permet donc de déterminer la portion la plus similaire. Il est à noter que les
matrices consensus sont construites sans insertions ni délétions, mais la position correspondante sur la
séquence peut en comporter.
1 2 3 4 5 6 7 8
A D T V D V R G Bloc structural
E D T G F L G G
S D Y F E F H G
A 0 0 0
B 0 0 0
C 0 0 0
D 1 1/3 0
E 0 1/3 0
F 0 1/3 0 PSSM
G 0 0 1
. . . .
. . . .
– 0 0 0
Calcul du score
Figure 3-3 Construction et schéma d'utilisation d'une matrice consensus dans SmartConsAlign
Pour chaque bloc, SmartConsAlign propose différentes solutions classées suivant le score et
calcule également pour chaque solution la probabilité (p-value) que le score obtenu soit égal au score
obtenu avec une séquence quelconque (Goldstein et Waterman, 1994). Cette probabilité permettait
d’estimer la fiabilité d’une solution : plus la valeur donnée était proche de 1, plus la fiabilité était
faible. Ainsi, le positionnement final des blocs sur la séquence cible résulte d’une prise en compte à la
fois des scores d’alignement, mais aussi des positions relatives des CSBs en cas d’ambiguïté.
La principale faiblesse de ce programme vient justement de ces ambiguïtés : chaque bloc est traité
indépendamment des autres, sa position peut alors chevaucher celle d’un autre bloc, voire être inversée
par rapport à l’ordre initial des blocs structuraux identifiés dans les templates. Ces erreurs peuvent être
corrigées en utilisant des informations biochimiques ou issues de la littérature.
Positionnement des CSBs sur la séquence cible 143
En réponse aux problèmes d’ambiguïté du positionnement des blocs, il fallait mettre en place un
nouveau logiciel permettant le traitement simultané de tous les blocs, d’une part qui tienne compte de
l’ordre logique des blocs structuraux, d’autre art qui empêche le chevauchement des blocs. L’idée était
de reprendre le principe de « matrice consensus » pour représenter chaque bloc, de les traiter en un
seul passage et surtout de permettre à ces blocs de « glisser » librement sur la séquence cible jusqu’à
leur positionnement définitif. La prise en compte de tous les blocs en un passage ainsi que ce
glissement de blocs sur la séquence cible permettrait d’éviter le chevauchement des blocs entre eux et
surtout prendrait en compte l’ordre des blocs tels qu’ils ont été identifiés sur les structures de
références. Selon ces critères, j’ai donc été amené à développer une nouvelle extension pour le logiciel
SmartConsAlign, un module qui a été baptisé Caliseq pour Consensus Alignement of Sequences. Les
caractéristiques de cet outil seront détaillées dans le chapitre 4.
En sortie de Caliseq, on obtient un alignement du jeu de blocs sur une séquence (ou sur un
alignement de séquence). Cette forme actuelle d’alignement n’est pas immédiatement exploitable par
les logiciels de reconstruction 3D par homologie : il faut supprimer les séquences alignées avec la
séquence de P450 à reconstruire lorsqu’elles sont présentes, et surtout compléter les parties entre les
blocs par les séquences respectives. En effet, les logiciels de reconstruction requièrent la séquence
complète des structures de référence. Selon la méthode utilisée pour la reconstruction du modèle, le
« remplissage » de ces parties « inter-blocs » a plus ou moins son importance.
Il n’en est pas de même lorsqu’on opte pour une autre stratégie utilisant des outils
bioinformatiques automatiques de reconstruction par homologie. En effet, la précédente stratégie est
très efficace mais nécessite des manipulations manuelles pour un bon nombre d’étapes. Dans un souci
de simplification, d’automatisation et de production à grande échelle de modèles, il a été convenu de
changer de stratégie, à savoir utiliser des logiciels disponibles de reconstruction par homologie. Cette
stratégie devait néanmoins incorporer la « philosophie » des reconstructions par blocs avec priorité
absolue des calculs de contraintes dans les blocs. Le logiciel Modeller pouvait répondre au cahier des
charges : un fichier d’alignement ainsi qu’un fichier de directives étaient pris en entrée et la
construction d’un (ou de plusieurs) modèle pouvait être effectué en tenant compte des contraintes
spatiales déterminées par l’alignement.
Avec Modeller, deux approches ont pu être exploitées ici : soit en respectant l’esprit de la
première stratégie, utiliser seulement l’automatisation et la rapidité de reconstruction de Modeller, soit
en tirant profit des avantages de Modeller pour reconstruire les régions inter-blocs grâce à l’utilisation
de sa banque de repliement pour imposer des contraintes spatiales dans les zones inter-blocs. Dans le
premier cas, il suffit de ne mettre aucune séquence de templates en correspondance avec les régions
inter-blocs tel que cela est montré en Figure 3-4. La seule contrainte dans le second cas est la nécessité
de fournir un alignement aussi précis que possible des régions inter-blocs.
template aaaaaaaaaaaaaaaaaaaaaaaa-----bbbbbbbbcccccccccccccccccccccccccccccc
target ddddddddddddddddddddddddeeeee--------ffffffffffffffffffffffffffffff
Figure 3-4 Méthodes pour neutraliser le calcul de contraintes dans les régions inter-blocs sous Modeller : les
régions hors blocs du template ne sont pas alignées avec la séquence. Dans l’exemple, aucune contrainte spatiale
dérivée de la séquence template ne sera utilisée pour construire la région ‘eeeee’ de la cible, et la région
‘bbbbbbbb’ du template n’est pas prise en compte dans le calcul.
longueur très hétérogènes entre les templates, puis aligner ces régions sur la séquence cible. Plusieurs
stratégies ont été essayées pour réaliser cet alignement inter-bloc.
Alignement visuel. La première stratégie est celle de l’approche manuelle. Dans un premier
temps, j’ai effectué manuellement tous les alignements inter-blocs des séquences des P450s de
référence (cf. Figure 5-5 page 194). Pour cela, j’ai essayé de maximiser les correspondances d’acides
aminés en fonction de leur identité ou de leurs propriétés (polarité, hydrophobicité). Cette stratégie est
manipulateur-dépendant.
Utilisation de l’information des SSE. Il est possible d’améliorer les résultats d’un alignement en
séquence en tenant compte des structures secondaires des templates. Dans l’alignement des régions
inter-blocs, j’ai utilisé à la fois les informations de SSE décrites dans les fichiers PDB de chaque
structure de référence, mais j’ai également eu recours à des logiciels comme le serveur MATRAS (cf.
section 2.4.3.3) pour l’alignement des structures secondaires entre elles. La principale difficulté
rencontrée ici vient de fait que les régions inter-blocs correspondent la plupart du temps à des régions
non structurées. Or et les alignements de structures secondaires proposés sont en désaccord avec les
alignements de GOK : n’étant déjà pas en accord sur les régions considérés comme structuralement
conservée par GOK, l’alignement inter-bloc est difficilement réalisable.
Utilisation de Clustalw adapté. Finalement, une dernière stratégie a été expérimentée en ayant
recours à Clustalw dans un mode de fonctionnement un peu détourné. En effet, il est possible de
fournir à Clustalw sa propre matrice de similarité afin d’adapter l’alignement produit en fonction des
correspondances indiquées dans la matrice. Pour forcer le calage des blocs (et donc des débuts et fin
de zones inter-blocs), j’ai introduit un nouveau caractère dans la matrice (cf. Figure 3-5) pénalisé
fortement lorsqu’il se retrouve aligné face à un autre résidu et favorisé fortement lorsqu’il est aligné
face à lui-même.
146 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
Figure 3-5 Matrice BLOSUM 62 modifiée : le caractère X est fortement pénalisé (-9) lorsqu’il se retrouve en
face d’un autre résidu et fortement favorisé (+999) lorsqu’il se retrouve en face de lui-même.
En utilisant ce caractère pour remplacer les résidus à l’intérieur des blocs, le résultat escompté est
un alignement où Clustalw force les blocs à s’aligner entre eux, et traite normalement les résidus
inter-blocs. Cette méthode n’est pas toujours adaptée : certains blocs ne pourront pas être utilisés dans
Clustalw, principalement ceux qui ne sont pas trouvés dans toutes les structures. En effet, n’ayant pas
de correspondance dans les autres séquences des templates, ils viendraient à fausser le résultat par un
décalage des blocs. Par exemple, dans l’alignement de la Figure 5-5 page 194, le premier bloc (CSB0)
n’est présent que sur 5 des 11 structures. En remplaçant tous les résidus des blocs par le symbole X,
certaines séquences du CSB0 sont venus s’aligner sur les séquences du CSB1* provoquant ainsi
quelques décalages dans l’alignement comme le montre la Figure 3-6. Par ailleurs, même en
supprimant des jeux les blocs non trouvés dans toutes les structures, Clustalw n’a pas été en mesure
d’aligner correctement les blocs entre eux à l’aide de ce caractère : des décalages sont toujours
observés, et dans certains cas, les décalages se prolongent dans tout l’alignement.
Positionnement des CSBs sur la séquence cible 147
Figure 3-6 Problème lié aux blocs non présents sur tous les templates: lorsque les résidus à l’intérieur de ces
blocs sont remplacés par le symbole X, Clustal a du mal à les aligner correctement. Un code de couleur a été
utilisé pour représenter les résidus de chaque bloc. Dans les templates où le bloc 0 est absent, des résidus X du
bloc suivant (CSB 1*) se sont détachés pour s’aligner sur CSB0 des autres templates.
La stratégie initiale par calcul de jeu de contraintes uniquement dans les blocs de type RMN
n’accordait pas de valeur à l’alignement inter-bloc : les régions variables inter-blocs étaient censées ne
contenir aucune information structurale et donc être reconstruite sans information a priori. En
reproduisant cette stratégie par la première approche de Modeller, les régions inter-blocs sont
généralement mal reconstruites, Modeller étant incapable de construire ces régions de façon ab initio.
C’est pourquoi, c’est finalement la seconde approche (par utilisation de la banque de repliements de
Modeller) qui a été utilisée pour produire les modèles de P450s. Dans cette approche, on pouvait se
contenter de produire un alignement grossier inter-bloc pour satisfaire Modeller, et optimiser les
régions inter-blocs une fois le modèle obtenu. Il était cependant préférable de produire le meilleur
alignement inter-bloc possible : aucune stratégie hormis l’alignement manuel n’a pu donner de
résultats convaincants. Il a été vu en effet que ni l’utilisation d’autres informations (SSE par exemple)
ni l’alignement Clustalw « adapté » pour les zones inter-blocs n’ont pu être exploitables. Au final,
pour construire les modèles de P450s obtenus sous Modeller, l’alignement des zones inter-blocs a
été réalisé manuellement.
148 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
Pour la troisème étape, après l’alignement des templates sur la séquence cible, deux procédures
ont été mises au point pour construire les modèles : (i) la procédure initiale mettant en jeu des logiciels
et des concepts issus de la détermination structurale par RMN, utilisée par N. Loiseau et
M. Cottevieille, et (ii) la procédure que j’ai appliquée, plus automatisée et plus commune pour la
construction de modèles par homologie.
L’alignement structural obtenu par GOK distingue deux types de régions : (i) les blocs
structuralement conservés et (ii) les segments d’acides aminés qui les séparent et qui ne fournissent
aucune information structurale. Les premiers servent de support à la reconstruction du P450 désiré, les
seconds sont quant à eux sans importance. Dans les régions alignées (blocs), les atomes conservés
pour le calcul des contraintes dépendent des chaînes latérales des résidus alignés. S’il n’y a pas de
glycine à une position donnée de l’alignement, les Cβ sont conservés. Les atomes de rang γ peuvent
également être conservés s’ils existent dans tout le bloc (cf. Figure 3-7). La conservation des atomes
de rang δ et au-delà est plus rare, sauf dans le cas d’identité absolue dans le bloc.
H
N
χ1
Cβ
Cγ
Cα
H
E L A
O K I G
N C D L G
Figure 3-7 Exemple de conservation des atomes pour le calcul des contraintes de distances.
Si Cβ et Cγ sont conservés dans le bloc, ces atomes du résidu cible sont imposés et le χ1 fixé.
En revanche, si seuls les Cβ sont conservés et que le résidu cible comporte un Cγ (ou plus),
il faut alors choisir un rotamère χ1. Sur cette figure sont également représentées (en flèches
rouges) les distances calculées pour les contraintes (distances au plus proche voisin, ne
prenant pas en compte les atomes covalemment liés).
Construction des modèles de Cytochrome P450 149
L’une des premières étapes de cette méthode consiste en la sélection des atomes conservés dans
les chaînes latérales des résidus du bloc, puis à sélectionner les rotamères quand il manque de
l’information. Les angles de torsion des chaînes latérales, χ1, χ2, etc… des acides aminés d’une
protéine adopte généralement trois orientations préférentielles : +60°, –60° ou +180°. Au sein de la
protéine, la distribution de ces angles de torsion dépend de l’élément de structure secondaire auquel
participe l’acide aminé et donc de la conformation locale de son squelette. L’équipe de Karplus
(Dunbrack et Karplus, 1993) a établi une librairie de rotamères à partir de l’étude de 132 structures,
qui permettait de corréler la position d’un couple (φ,ψ) dans le plan de Ramachandran avec un
rotamère particulier (cf. Figure 3-8). Ces tables permettent de sélectionner le rotamère le plus probable
pour chacun des acides aminés des blocs conservés à partir des angles (ϕ,ψ) « expérimentaux ».
180 3 3 3 2 8
160 5 9 9 8 9 8
140 5 5 5 5
χ2=–60 ± 60 χ2=0 ± 30 χ2=–60 ± 30 120 5 5 5 5 5
100 5 8 4
80 5 5 7
60 9
χ1=–60 ± 60 3,5 (1) 8,8 (2) 4,7 (3) 40 2 2 8 2
20 2 8 8
χ1=180 ± 60 6,8 (4) 9,8 (5) 11,8 (6) 0 7 8 8
-20 9 8 7
χ1= 60 ± 60 29,6 (7) 18,7 (8) 5,3 (9) -40 8 9 8
-60
-80
Pourcentage de chacune des combinaison (χ1,χ2) sur la population d’asparagine -100
-120
de 132 protéines sélectionnées à la PDB. Chaque rotamère est désigné par un -140
numéro entre parenthèse. -160 2
-180 3 3 2 2
-180
-160
-140
-120
-100
-80
-60
-40
-20
0
ψ/ϕ
Figure 3-8 Exemple de distribution des rotamères les plus probables en fonction des angles (ϕ,ψ) : cas de
l’asparagine (d’après Dunbrack et Karplus, 1993). Le tableau de gauche montre une liste des 9 rotamères possible
de l’asparagine et le pourcentage de précesne de ces rotamères dans la PDB. Le tableau de droite correspond à une
table de correspondance des rotamères les plus probables en fonction de la configuration locale (ϕ,ψ).
hème-résidus pour ancrer l’hème, (iii) les distances entre chaînes latérales (par exemple Cβ,– Cβ de 2
résidus voisins dans l’espace ou dans la séquence) sont intégrées pour conserver l’agencement des
différentes blocs entre eux, en particulier entre blocs non contigus. Les distances ainsi conservées
permettent de décrire l’environnement local de chacun des atomes. Chaque contrainte est définie par
deux valeurs (moyenne ± écart type).
Dans cette étape d’optimisation géométrique, les boucles (ou régions inter-blocs) sont
reconstruites sans contraintes. Il peut en résulter des configurations anormales dans l’espace des ϕ, ψ
au sens des régions autorisées de l’espace de Ramachandran. Pour rendre ces structures plus
acceptables au sens de Ramachandran, un programme établissant des contraintes angulaires est
appliqué pour le squelette des acides aminés dans les régions hors blocs. Il consistait à déplacer un
point (ϕ,ψ) d’une zone interdite vers une zone autorisée la plus proche. Les modèles ainsi travaillés
étaient ensuite soumis à un recuit simulé sous contrainte par le logiciel X-Plor (Brunger, 1992),
permettant de relâcher les modèles obtenus parfois trop compacts après minimisation par DYANA.
Cette première méthode globale procurait en son temps des modèles de très bonne faction aussi
bien d’un point vue géométrique qu’énergétique. Elle nécessitait hélas une succession importante
d’étapes, longues et lourdes en calcul avec manipulations de nombreux fichiers au format différent.
Aucune automatisation n’était envisageable dans ce cadre, c’est pourquoi j’ai choisi une autre
approche pour la construction des modèles, approche réalisée en grande partie par un seul logiciel :
Modeller (cf. section 2.5.1.2).
7
DYANA a succédé au logiciel DIANA (Distance geometry Alogrithm for NMR Applications) et n’est plus
supporté actuellement. La dernière version en date est DYANA v1.5
Construction des modèles de Cytochrome P450 151
Une petite remarque peut être formulée pour l’attachement de l’hème lors de la reconstruction du
P450. En fait, Modeller n’est pas en mesure de reconnaître de nouveaux résidus (par exemple une
cystéine modifiée) ou construire des cofacteurs (comme l’hème par exemple), et se contente de copier
les coordonnées de l’hème d’une des structures de référence au modèle. En conséquence, il n’y a pas
d’attachement de l’hème à la cystéine proximale du P450. Il devra être effectué a posteriori par
l’utilisateur.
152 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
L’utilisateur doit donc informer au programme au moyen de ce script, les régions qu’il considère
comme des boucles à reconstruire (voir annexe 4.2). Afin de conserver l’arrangement spatial des blocs
les uns par rapport aux autres au cours de ce processus, un jeu de contraintes entre chaque Cα des
résidus de fin de bloc avec celui de début du bloc suivant, est également défini dans le fichier de
directives. Ces contraintes spatiales sont appliquées au niveau de la distance, des angles de torsions,
des angles impropres et dièdres. Une fois toutes ces informations déclarées, le fichier de directives
commande Modeller qui va déplacer aléatoirement les coordonnées cartésiennes des Cα de chaque
boucle, puis procéder à une optimisation locale par recuit simulé de chaque boucle, et ce de façon
itérative. C’est un peu l’équivalent du recuit simulé effectué par le programme Xplor pour reconstruire
les boucles dans la première stratégie, mais cette fois-ci, de manière automatisée.
Quelles que soient les méthodes utilisées pour la reconstruction, un nombre important de modèles
doit être généré. En effet, les méthodes de reconstruction donnent rarement une solution unique
puisque tous les modèles générés sont triés par le seul critère de la fonction énergétique. Pour explorer
au mieux l’espace des solutions les plus énergétiquement favorables, il faut multiplier le nombre de
modèles et sélectionner selon les critères d’évaluation définis par l’utilisateur.
Évaluation, sélection et raffinement des modèles 153
Les différents outils et critères d’évaluation ont été déjà abordés lors de la section 2.5.4. Selon les
méthodes utilisées pour la reconstruction, les critères d’évaluation n’ont pas été les mêmes. Ainsi,
pour les premières méthodes basées sur des outils RMN, le critère essentiel était celui de la géométrie
au niveau du plan de Ramachandran. Le logiciel de référence pour ce genre d’évaluation est
PROCHECK. Il permet entre autres de vérifier si les couples (ϕ,ψ) sont bien situés dans les zones
autorisées du diagramme de Ramachandran, de contrôler de la distorsion géométrique des chaînes
latérales, la planéité des cycles aromatiques etc. Les meilleurs modèles PROCHECK étaient alors
sélectionnés pour une relaxation, et une seconde sélection se fait ensuite sur le critère de l’énergie
totale de chaque modèle après relaxation.
Pour les modèles issus de Modeller, un processus assez similaire a été appliqué. Modeller dispose
de son propre score, appelé fonction objective, qu’il calcule pour tous les modèles qu’il génère. Ce
score est une combinaison de plusieurs paramètres aussi bien statistiques qu’énergétiques. Plus ce
score est bas, meilleure est la structure. Cependant, la meilleure fonction objective n’est pas toujours
synonyme de meilleure solution. En effet, la notion de « meilleur modèle » est variable selon les
logiciels d’évaluation utilisés. De ce fait, chaque fois que j’ai eu à sélectionner un modèle parmi
l’ensemble de ceux générés par Modeller, j’ai dû chercher un compromis entre les différentes
méthodes d’évaluation. Avec l’expérience, certains programmes ont été privilégiés : ainsi, je n’ai pas
eu à utiliser PROCHECK dans la mesure où tous les modèles sortis par Modeller étaient « propres »
au niveau du plan Ramachandran. J’ai en revanche utilisé ANOLEA, PROQ ainsi que Prosa II pour
évaluer les modèles (cf. Tableau 2.3 à la page 120). Il n’a pas été possible pour moi d’établir un script
pour le choix des modèles par ces outils : les scores étant calculés différemment, un consensus n’est
pas réalisable. La recherche d’un meilleur compromis entre les scores calculés par ces différents
programmes est encore manuelle.
Une fois le modèle choisi, vient l’étape d’affinement. Le modèle est dans un premier temps
soumis au logiciel SCWRL (http://bioserv.cbs.cnrs.fr/HTML_BIO/frame_scwrl.html) (Canutsecu et
al., 2003) qui réattribue les chaînes latérales de façon à minimiser les « clashes » entre chaînes
latérales, et entre chaînes latérales et squelette peptidique. SCWRL dispose pour cela d’une
bibliothèque de rotamère et propose une liste de valeurs de χ1-χ2-χ3-χ4 en fonction des valeurs ϕ et ψ
154 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
du squelette peptidique. Lorsque les chaînes latérales sont correctement positionnées, une
minimisation est opérée suivie d’une dynamique pour « relâcher » la molécule. C’est d’ailleurs au
cours de cette étape que l’on procède à la « fixation » de l’hème sur la cystéine proximale, et ce quel
que soit le logiciel utilisé pour la dynamique. Au cours de ma thèse, j’ai été conduit à tester différents
champs de force sur les modèles que j’obtenais : GROMOS, CHARMM et AMBER. J’ai d’abord
travaillé avec le champ de force GROMOS en raison de la simplicité du programme GROMACS pour
le paramétrage et sa robustesse. Dans ses premières versions (V3.1.4) il était très aisé d’attacher
l’hème à l’apoprotéine : GROMACS disposait en effet des fichiers nécessaires à la reconnaissance de
l’hème et sa fixation à la cystéine la plus proche. Cette procédure de fixation se faisait
automatiquement, sans intervention de l’utilisateur. Dans les versions plus récentes, la présence de
l’hème dans le site actif, empêche l’encapsulation de la protéine entière dans une boîte d’eau. Comme
je n’ai pas réussi à trouver l’origine du problème, je suis passé à une version plus ancienne de
GROMACS et plus tard à une nouvelle suite de logiciels. J’ai adopté par la suite le programme
NAMD pour réaliser les simulations, car c’est un outil qui offre la possibilité d’utiliser aussi bien le
champ de force CHARMM qu’AMBER. Les différentes simulations opérées sur les modèles ont
montré qu’il n’y avait pas de différences notables entre ces deux champs de force, au niveau des
résultats. Pour la suite des expériences, c’est finalement le champ de force AMBER que j’ai utilisé.
Quels que soient les outils utilisés pour la simulation, les paramétrages des simulations ont été à
peu près équivalents. Dans tous les cas, le modèle à relaxer a été placé dans une boîte d’eau périodique
–on parle alors de simulations en solvant explicite– dont les bords sont situés à 10 Å du bord des
résidus de surface de la protéine. En fait, la taille de la boîte est définie par l’utilisateur, et peut être
plus petite. Par sécurité, la marge de 10 Å autour de la protéine a toujours été appliquée, conduisant à
des boîtes périodiques parallèlipédiques de l’ordre de 95x85x75 Å3. La forme de la boîte n’est quant à
elle pas importante (cubique, octaédrique …), seule sa périodicité l’est. En effet, les conditions
périodiques (correspondant à une duplication de la boîte le long des trois axes du référentiel)
permettent le maintient du nombre de molécules total, de volume et de pression dans les ensembles
NVT ou NPT. Une des conséquences indirecte lors de l’utilisation de ces conditions périodiques est
de s’affranchir d’un nombre trop important de molécules dans le système et donc soulager le temps de
calcul pour chaque simulation. Ainsi, si une molécule d’eau par exemple sort de la boîte par une face,
elle est générée systématiquement aussitôt sur la face opposée, permettant au système de conserver le
même nombre d’atomes. Dans un souci de neutralité du système, des contre-ions sont ajoutés au
système (Na+ ou Cl–). Une fois la solvatation réalisée, le système peut alors être minimisé, équilibré et
soumis à une simulation de MD pour des temps variables allant de la picoseconde à la nanoseconde,
Évaluation, sélection et raffinement des modèles 155
qui se traduisent en temps de calcul de quelques jours à quelques semaines. En fin de dynamique,
l’énergie du système est évaluée pour vérifier si le modèle obtenu est stable ou non. Après cette ultime
étape, je dispose alors d’un support de travail pour analyser les mécanismes de reconnaissance des
P450s in silico.
3.5.3 Traitement additionnel (et optionnel) des régions inter-blocs sur les
modèles obtenus
Il fallait donc trouver une alternative à cette étape ultime d’affinement sous Xplor. Cela m’a
conduit à prendre contact avec K. Zimmermann du MIG (Mathématique, Informatique et Génome) à
l’INRA de Jouy-en-Josas. Je cherchais un minimisateur efficace et seul ORAL (Zimmermann, 1991)
semblait adapté à l’esprit de la minimisation par blocs : il relaxe uniquement des portions d’une
molécule bordées par deux blocs rigides (ou semi-rigides) déterminés par l’utilisateur. Son concept
plutôt novateur était cependant limité par la génération de champ de force qu’il intègre : AMBER4.
Avec mes simulations conduites sous AMBER6, les topologies n’étaient pas compatibles. Il a donc
fallu reconstruire toutes les topologies sous AMBER4. Par ailleurs, ORAL utilise le package
d’AMBER, qui est sous licence. Je ne disposais pas de licence sur mes propres machines.
156 Chapitre 3. Modélisation comparative adaptée pour les superfamilles
3.6 Conclusion
On dit souvent qu’un beau dessin vaut mieux qu’un long discours, aussi, je terminerai ce chapitre
par un schéma récapitulatif présentant la méthodologie générale de reconstruction de P450s utilisée au
laboratoire sous ses deux aspects : avant et après mon arrivée. La dualité sera alors plus visible pour
chaque étape de la reconstruction.
Le prochain chapitre est consacré au logiciel que j’ai développé pour automatiser de façon non
ambiguë le positionnement des blocs sur la séquence cible : Caliseq. Ce logiciel prend donc place à
l’une des étapes les plus importantes de la méthodologie, à savoir fournir au logiciel de construction
de modèle par homologie, l’alignement le plus fiable.
Conclusion 157
Etape 2 :
Alignement des CSBs
. Programme Clustalw
. Utilisation des SSE
. Alignement manuel
Etape 3 :
Construction des modèles
. Gromacs
. NAMD
Figure 3-9 Schéma récapitulatif de la méthodologie appliquée à la reconstruction à bas taux d'identité des
P450s
CHAPITRE 4
159
160 Chapitre 4. Voyage au centre de Caliseq
Ce chapitre présente le programme qui réalise non seulement l’alignement des blocs sur la
séquence cible pour la reconstruction ultérieure du modèle, mais qui offre une autre possibilité: celle
de scanner les banques de séquences à la recherche de nouveaux P450s. Caliseq est donc un outil à
deux facettes, auquel j’ai consacré une grande partie de ma thèse, pour son développement, puis pour
son optimisation à la suite de résultats obtenus lors de son utilisation. À l’origine, Caliseq a été conçu
comme une extension au programme SmartConsAlign, utilisé par mes prédécesseurs pour réaliser le
positionnement des blocs indépendamment les uns des autres. En réponse à des attentes liées à la
méthodologie, comme par exemple l’alignement simultané de tous les blocs (représentés par un
ensemble de PSSMs séquentielles), un nouveau cahier des charges précis a été défini. Celui-ci imposa
de nouvelles contraintes au programme si bien que son mode de fonctionnement ainsi que son
algorithme se sont progressivement éloignés de ceux du programme d’origine, conduisant Caliseq à
une « entité » à part dans SmartConsAlign. Du programme SmartConsAlign, Caliseq n’en utilise plus
que « l’interfaçage » et partage encore quelques fonctions d’ouverture, de lecture et d’écriture de
fichiers de séquences. Toutes les parties d’alignement, de calcul de scores et de calcul de seuils sont
propres à Caliseq. L’interfaçage de SmartConsAlign est des plus simples, sans représentation
graphique : SmartConsAlign, de même que Caliseq, ont en effet été tous deux écrits en langage C et
sont utilisables sur différentes plateformes (Linux, Unix et MacOSX).
Au cours de ce chapitre, je décrirai dans une première partie les grands points du logiciel ainsi que
ses paramètres, puis dans une seconde partie, je discuterai des différentes évolutions apportées au
programme pour l’adapter au mieux à l’étude des P450s. Le manuel d’utilisation du programme est
présenté en Annexe 3, avec une description succincte des fonctions principales qui composent le
programme.
Bien que reprenant le principe d’alignement de blocs du programme SmartConsAlign, les fichiers
d’entrées du nouveau programme devaient être redéfinis pour prendre en compte un ensemble de blocs
à la place d’un bloc unique. Tous les blocs (donnés sous forme de sous-alignements de séquences par
GOK) sont donnés en entrée dans un même fichier. Le format d’entrée regroupe chaque sous-
Fonctionnement de Caliseq 161
alignement de séquences les uns à la suite des autres, séparées par un délimiteur (cf. Annexe 2). Ce
fichier d’entrée n’est alors plus adapté à une transformation en matrice consensus effectuée lors d’une
étape préalable dans la version originale de SmartConsAlign : la construction des profils (profile en
anglais) liés à ces alignements se fait désormais directement dans le programme Caliseq.
Par ailleurs, deux autres fichiers étaient présentés en entrée standard au programme
SmartConsAlign : i) la séquence de la protéine inconnue à reconstruire (ou son alignement avec
d’autres P450s de la même famille) et ii) optionnellement, une matrice de similarité BLOSUM ou
PAM pour rajouter du « flou » à la recherche. Dans Caliseq, le fichier d’alignement « cible » ne
nécessite pas de transformation préalable. La matrice de similarité pour sa part n’est plus utilisée dans
la dernière version de Caliseq, pour des raisons expliquées plus loin.
Il est à noter que contrairement à SmartConsAlign, le programme Caliseq autorise la présence des
gaps (‘–‘) (insertion ou délétions) dans les profils des blocs : certains blocs n’ayant pas été trouvés sur
toutes les structures, leur séquence dans le sous-alignement correspondant sera remplacée par des gaps.
En raison du traitement simultané de tous les blocs, le procédé initial de recherche par
déplacement des matrices position par position le long de la séquence cible comme le faisait
SmartConsAlign (cf. section 3.3.1) n’était plus envisageable. Ce procédé a donc cédé la place dans
Caliseq à une méthode d’alignement plus adaptée : la programmation dynamique de type NWS (cf.
section 2.4.1.3). J’ai dû toutefois adapter cette méthode à nos besoins : d’une part le programme devait
prendre en considération des profils au lieu de séquences, et d’autre part il devait autoriser le
« glissement » libre –sans pénalité– des blocs sur la séquence cible.
profil, donc deux valeurs différentes) ou encore le poids gap contre gap. Dans Caliseq, le poids
attribué à une insertion à une position donnée dépend de la fréquence des gaps à cette position du
profil du jeu des blocs (des « PSSMs séquentielles ») ainsi que du poids d’ouverture de gap. Cet aspect
est abordé plus en détail dans la section 3.4.6 de l’Annexe 3. Concernant le « glissement » libre des
profils sur la séquence cible, l’astuce a consisté à ne pas pénaliser les gaps entre les blocs (en fait, sur
la première ou la dernière colonne de chaque PSSM). L’utilisation de cette astuce impliquera toutefois
certaines contraintes, notamment d’ « accrochage » de certains blocs sur la séquence cible comme il
sera vu plus tard. L’alignement proprement dit est affiché en sortie de programme au format clustal ou
fasta.
Caliseq a été développé initialement pour aligner un jeu de blocs sur une séquence cible à
reconstruire, et ce de façon simultanée et automatique. Par son fonctionnement, Caliseq est capable de
lire une séquence cible ou un alignement de séquences comprenant la séquence cible, pour le
confronter à un ensemble de blocs. Dans la mesure où il peut lire des alignements de séquences, rien
ne l’empêche a priori de lire individuellement chaque séquence de l’alignement comme des séquences
d’une banque 8 . Le but était d’utiliser le jeu de blocs comme une signature spécifique aux P450s
contenant l’information de conservation structurale pour identifier de façon fiable les séquences de
P450s inconnues (non annotées) ou encore, mettre en évidence des P450s dans des génomes
nouvellement séquencés. Cette recherche a alors un intérêt double : non seulement elle permet d’avoir
à disposition une banque de séquences de P450s, mais également, en combinant avec la méthodologie
de reconstruction par blocs, d’obtenir une banque de structures et/ou sites actifs de P450s reconstruits
à partir des séquences identifiées. La banque de modèles 3D pourrait ainsi servir comme base d’études
de criblage virtuel à haut débit9.
L’identification de P450s sur les banques de séquences par Caliseq se fait au moyen du score
d’alignement des blocs sur la séquence traitée, obtenu en fin de programmation dynamique : ce score
servant de critère de sélection, est évalué à un seuil d’acceptation imposé par l’utilisateur. Dans les
premières versions de Caliseq, ce score ne pouvait pas être utilisé tel quel, et nécessitait une
8
Il s’agit de banques de séquences enregistrées au format fasta, au sein d’un même fichier. C’est le genre de
fichier qui est généralement récupérable à partir des FTP de banques de données telles que Swiss-Prot, TrEmbl,
Pfam, etc.
9
Ces criblages se font généralement avec des méthodes de docking sur site rigide. Les approches virtuelles à
haut débit sont utilisées dans le domaine pharmaceutique pour tester des banques de composés contre une cible
thérapeutique (ADN ou protéine)
Les différentes évolutions de Caliseq 163
normalisation préalable. Les scores normalisés étaient alors comparés au seuil d’acceptation basé sur
un calcul de ratio. Cette première version du seuil n’étant pas suffisamment rigoureuse pour détecter
les nouveaux P450s, un nouveau seuil a été ensuite implémenté, basé cette fois-ci sur un calcul
de z-score. L’évolution de ce seuil, ainsi que la nécessité de son remplacement sont expliquées dans le
paragraphe qui suit.
Depuis son développement initial, l’outil Caliseq a été décliné en plusieurs versions, chacune
apportant son lot de nouveautés. Initialement, Caliseq était prévu pour remplacer le programme
SmartConsAlign en réalisant les alignements d’un ensemble de blocs –correspondant à des sous-
alignements de séquences de structures de P450s cristallisés– sur une séquence ou un pré-alignement
de séquences cibles dans le but de reconstruire un modèle 3D de la protéine cible. Caliseq apportait
par rapport à SmartConsAlign la possibilité de traiter en une seule fois l’ensemble des blocs, en
conservant l’information de leur ordre, et en évitant ainsi leur chevauchement possible observé
lorsqu’ils étaient traités séparément. Autrement dit, l’information contenue dans l’ensemble de blocs
était renforcée par rapport à celle de chaque CSB pris séparément : l’information de repliement
commun à tous les P450s n’est plus morcelée par blocs, mais au contraire, présente sur toute la
protéine. Partant de ce constat, on a attribué au programme la possibilité de scanner les banques de
séquences : celui-ci utilise alors cette information contenue dans les ensembles de blocs pour détecter
et identifier des séquences de P450s. L’outil Caliseq offrait donc un intérêt nouveau dans le domaine
de la génomique, en cherchant de nouvelles séquences de P450s dans les génomes récents. Ce
« deuxième mode » de Caliseq, celui de recherche sur banque, a donné lieu à la première évolution de
l’outil Caliseq. De nombreuses modifications dans la structure même du programme ont alors dû être
opérées : de nouvelles fonctions ont été conçues, et certains algorithmes, repensés.
Ainsi, par rapport à la version initiale, le calcul de la matrice de substitution a été complètement
revu pour mieux répondre au besoin du « scoring » d’alignement sur banque, score qui a servi de
critère de sélection des CYPs. Par ailleurs, un système de seuil a été mis en place, testé puis affiné.
L’ensemble de tous ces ajustements avait pour objectif principal d’améliorer la sensibilité et la fiabilité
de l’outil. Un comparatif des résultats obtenus pour chaque version sera exposé en résultat dans le
paragraphe 5.5.
164 Chapitre 4. Voyage au centre de Caliseq
N
20
∑ (M ( a k , a ni ) )
W ( j , i ) = ∑ n =1 × f (a )
k =1
N pre kj
Où ak est l’un des 20 acides aminés, ani l’un des acides aminés à la position i de la « PSSMs
séquentielles », M(ak,ani) le coefficient de l’acide aminé ak contre l’acide aminé ani dans la matrice de
similarité (PAM/BLOSUM), N le nombre de séquence dans un CSB donné des « PSSMs
séquentielles » et fpre(akj) la fréquence de l’acide aminé ak à la position j des séquences pré-alignées.
Un exemple de calcul de profil à partir de cette formule est présenté dans la Figure 4-1.
Comme il sera vu dans le chapitre des résultats, la construction de la matrice d’alignement par
cette formule a permis au final d’obtenir un alignement de blocs sur la séquence cible similaire à celui
de N. Loiseau et M. Cottevieille et ce, sans avoir à replacer manuellement les blocs dont les positions
attribuées par SmartConsAlign étaient incertaines. L’alignement par programmation dynamique a donc
donné directement le résultat optimal, sans avoir recours à l’intervention humaine, prouvant ainsi
l’apport de l’outil Caliseq par rapport à SmartConsAlign.
Néanmoins, l’utilisation des scores de la matrice de similarité était moins bien adaptée pour la
recherche sur banque. En effet, lorsqu’on se penche à nouveau sur la matrice de score (Figure 4-1),
force est de constater que les scores attribués aux résidus présents dans l’alignement (marqués en gras
dans la matrice) ne correspondent pas toujours aux scores les plus élevés. Ceci est lié en fait à
l’utilisation d’une matrice de similarité.
Les différentes évolutions de Caliseq 165
1 2 3 4 5 6 7 8 9
A 4.00 -2.00 -2.00 -0.67 -2.00 -0.33 -1.00 0.00 -1.33
B -2.00 4.00 -3.00 -3.67 0.00 -3.33 -2.00 -3.00 -2.33
C 0.00 -3.00 -2.00 -1.00 -3.00 -1.00 -3.00 9.00 -1.67
D -2.00 6.00 -3.00 -3.67 -1.00 -3.33 -1.00 -3.00 -2.33
E -1.00 2.00 -3.00 -2.67 0.00 -2.33 -1.00 -4.00 -2.33
F -2.00 -3.00 6.00 -0.33 -1.00 -0.67 -4.00 -2.00 3.33
G 0.00 -1.00 -3.00 -3.67 -2.00 -3.33 -2.00 -3.00 -2.67
H -2.00 -1.00 -1.00 -3.00 8.00 -3.00 -2.00 -3.00 -1.33
I -1.00 -3.00 0.00 2.33 -3.00 2.67 -3.00 -1.00 -0.33
J -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00
K -1.00 -1.00 -3.00 -2.00 -1.00 -2.00 -1.00 -3.00 -2.33
L -1.00 -4.00 0.00 3.00 -3.00 2.00 -3.00 -1.00 -0.33
M -1.00 -3.00 0.00 1.67 -2.00 1.33 -2.00 -1.00 -0.33
N -2.00 1.00 -3.00 -3.00 1.00 -3.00 -2.00 -3.00 -2.00
O -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00
P -1.00 -1.00 -4.00 -2.67 -2.00 -2.33 7.00 -3.00 -3.00
Q -1.00 0.00 -3.00 -2.00 0.00 -2.00 -1.00 -3.00 -2.33
R -1.00 -2.00 -3.00 -2.33 0.00 -2.67 -2.00 -3.00 -2.33
S 1.00 0.00 -2.00 -2.00 -1.00 -2.00 -1.00 -1.00 -1.00
T 0.00 -1.00 -2.00 -0.67 -2.00 -0.33 -1.00 -1.00 0.33
U -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00 -4.00
V 0.00 -3.00 -1.00 2.00 -3.00 3.00 -2.00 -1.00 -0.67
W -3.00 -4.00 1.00 -2.33 -2.00 -2.67 -4.00 -2.00 0.00
X 0.00 -1.00 -1.00 -1.00 -1.00 -1.00 -2.00 -2.00 -0.67
Y -2.00 -3.00 3.00 -1.00 2.00 -1.00 -3.00 -2.00 1.33
Z -1.00 1.00 -3.00 -2.67 0.00 -2.33 -1.00 -3.00 -2.33
- -7.00 -7.00 -7.00 -7.00 -7.00 -7.00 -7.00 -7.00 -7.00
@ 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
$ 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
? 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
! 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
& 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
3 Blocs : Exemple de calcul des scores de la matrice :
Figure 4-1 Exemple de « PSSMs séquentielles » générées à partir de l’ancienne formule. La matrice du haut
donne les scores obtenus pour le set des trois blocs présentés en bas à gauche. Chaque colonne de la matrice
correspond à une position dans l’alignement des blocs, allant de 1 à 9. Des exemples de calcul de scores sont
donnés en bas à droite, où M(X,Y) correspond au poids de similarité BLOSUM62 (cf. Figure 2-9, page 85)
entre les deux résidus X et Y. Il n’y a que trois séquences dans les blocs, donc N est égale à 3.
C’est le cas de la dernière colonne de l’exemple (Figure 4-1) pour la thréonine dont la valeur est
de 0.33. Il est vrai que ce genre de substitution (F↔T) n’est pas usuel, et le remplacement d’une
phénylalanine (F) par une tyrosine (Y) (d’un score 1.33) est davantage favorisé. Toutefois, comme il a
été remarqué lors de la recherche de CSBs par le logiciel GOK, certains blocs présentent un
alignement en séquences non conventionnel, avec de nombreux mésappariements (cf. l’exemple de
bloc de la Figure 3-2, page 138). L’existence d’un grand nombre de résidus différents à une même
position de l’alignement, entraînerait alors une création de scores assez homogènes à cette position,
masquant ainsi l’information qui pouvait y être présente. Ce constat m’a donc conduit à réviser la
formule pour obtenir les scores de substitution, mettant plus en valeur les résidus présents dans les
alignements des blocs, tout en conservant toutefois une certaine « flexibilité » à l’aide d’une matrice
de similarité.
166 Chapitre 4. Voyage au centre de Caliseq
f (ai a j )
S ij = log 2
2 × f (a i ) f (a j )
Où f(aiaj) correspond à la fréquence observée du couple (aiaj) à une position donnée de
l’alignement (voir plus bas) et f(ai), f(aj) les fréquences attendues (dues à la composition) –
« background frequencies» récupérées des statistiques de SwissProt– des résidus ai et aj
respectivement. Ce score de type « log-odd » est alors multiplié par deux et arrondi à l’entier le plus
proche pour obtenir le score BLOSUM définitif pour le couple (aiaj). Le calcul de la fréquence
observé du couple (aiaj) s’effectue quant à lui de la manière suivante :
Nai × Na j
f (ai a j ) = 2 ×
L( L − 1)
Où Nai et Naj sont respectivement le nombre de résidus ai et aj dans une colonne d’alignement de
longueur L. Il est à noter que cette formule dérive de celle utilisée pour connaître le nombre total de
couples dans un ensemble L d’objets.
Le score de substitution W(j,i), pour aligner la position i des « PSSMs séquentielles » avec la
position j dans le pré-alignement de séquence est alors calculé selon la nouvelle formule qui suit :
20
f (a )
W ( j , i ) = ∑ log 2 CSB ki × f pre (a kj )
k =1 f bck ( a k )
Où ak est l’un des 20 acides aminés, fCSB(aki) est la fréquence de l’acide aminé ak à la position i
dans les « PSSMs séquentielles », calculée avec des pseudo-comptes (voir plus bas), fbck(ak) est la
fréquence « background » de l’acide aminé ak dans le set de données et fpre(akj) est la fréquence de
l’acide aminé ak à la position j dans les séquences pré-alignées. Pour la position i dans les « PSSMs
séquentielles », la fréquence fCSB(aki) pour l’acide aminé ak est calculée de la manière suivante :
N CSB (a ki ) + eak
f CSB (a ki ) =
N+E
NCSB(aki) est le nombre d’acides aminés ak à la position i dans les « PSSMs séquentielles », N est
le nombre de séquences dans la CSB donnée des « PSSMs séquentielles », eak donne les pseudo-
Les différentes évolutions de Caliseq 167
comptes (Lawrence et al., 1993) pour un acide aminé ak où eak=E*fbck(ak). Les pseudo-comptes,
comme expliqué précédemment, ont été mis en place pour pallier l’apparition d’une fréquence nulle
pour un acide aminé ak (qui aurait pour effet d’invalider le score). L’idée est d’ajouter au compte réel,
une proportion de pseudo-comptes calculés à partir d’une « probabilité attendue » de l’acide aminé ak.
La valeur de E, à l’image de N, donne le poids entre les pseudo-comptes et les comptes réels (E est
habituellement fixé à \/‾N). Une matrice de score obtenue par cette nouvelle formule et à partir des
trois mêmes blocs que dans l’exemple de la Figure 4-1 est présentée dans la Figure 4-2.
1 2 3 4 5 6 7 8 9
3 Blocs : A 3.09 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
B -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99
C -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 5.35 -1.45
ADF LHV PCF D -1.45 3.62 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
ADF LHV PCT E -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
ADF VHL PCF F -1.45 -1.45 4.01 -1.45 -1.45 -1.45 -1.45 -1.45 3.44
G -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
H -1.45 -1.45 -1.45 -1.45 4.82 -1.45 -1.45 -1.45 -1.45
123 456 789 I -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
J -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99
K -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
L -1.45 -1.45 -1.45 2.25 -1.45 1.36 -1.45 -1.45 -1.45
M -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
N -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
O -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99
P -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 3.75 -1.45 -1.45
Q -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
R -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
S -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
T -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 2.08
U -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99
V -1.45 -1.45 -1.45 1.81 -1.45 2.74 -1.45 -1.45 -1.45
W -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
X -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
Y -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
Z -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99 -99.99
- -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45 -1.45
@ 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
$ 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
? 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
! 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
& 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
Figure 4-2 Exemple de « PSSMs séquentielles » générées à partir de la nouvelle formule de score basé sur une
« BLOSUM like ». La matrice du haut donne les scores obtenus pour le jeu des trois mêmes blocs que la Figure
4-1 et rappelés en bas à gauche. La matrice de score est cette fois-ci construite à la manière d’une matrice
BLOSUM en utilisant les acides aminés présents dans les séquences des blocs.
Cette matrice n’est pas très variée en raison des séquences utilisées pour la construire : je voulais
juste montrer les différences entre les matrices au niveau des scores des acides aminés présents dans
l’alignement. Bien entendu, cette matrice aurait été plus « riche » si les séquences dans les blocs
étaient plus variées : comme on construit une « BLOSUM like » à partir des séquences contenues dans
les CSBs, les mésappariements « exceptionnels » ne seront plus « dilués ».
168 Chapitre 4. Voyage au centre de Caliseq
Il est à noter que la matrice peut être plus diversifiée, donnant un caractère plus « flexible » aux
« PSSMs séquentielles », si on ajoute aux séquences dans les blocs d’autres séquences proches d’elles.
Le « nouveau mode » de Caliseq, celui de recherche de P450s dans les banques, nécessitait la
détermination d’un critère ainsi que la mise en place d’un système de seuil pour sélectionner les
séquences identifiées par les CSBs comme étant des cytochromes P450 avec un bon taux de confiance.
Dans l’outil Caliseq, l’unique critère spécifique à chaque séquence est le score d’alignement entre
cette séquence et le jeu de blocs. Un seuil a été mise en place, en dessous duquel l’alignement n’est
pas considéré comme significatif. Ce seuil, contrôlable par l’utilisateur en paramètre d’entrée au
programme, a également connu diverses modifications dans les différentes versions de Caliseq.
Pour la recherche sur banque, cette méthode de sélection offre des résultats assez satisfaisants
(détaillés au chapitre des résultats). Le problème de cette méthode vient du fait que le seuil n’est
Les différentes évolutions de Caliseq 169
calculé qu’à partir du jeu de blocs et des statistiques sur la banque, et non de l’information qu’apporte
l’alignement des blocs sur chacune des séquence de la banque de séquences (c'est-à-dire le score
individuel de chacune de ces séquences).
Par ailleurs, une deuxième vérification a été implémentée dans le programme : lorsque la taille de
la séquence à aligner est inférieure à la taille totale des séquences contenues dans les blocs. En effet,
l’outil Caliseq réalise l’alignement d’un ensemble de blocs sur une séquence, et il n’a pas été prévu
que cette dernière soit plus petite que l’ensemble des blocs. Cette condition est vraie pour les deux
modes de fonctionnement de Caliseq.
correspond à une mesure statistique permettant de quantifier la distance (mesurée en écart type) à
laquelle une donnée individuelle se trouve par rapport à la moyenne du jeu de données dont est issue la
donnée à traiter. Le z-score s’obtient par un processus appelé standardisation donnée par la formule
suivante :
score − µ
z=
σ
Score correspond ici au score d’alignement, µ correspond à la moyenne des scores et σ l’écart
type à la moyenne. L’écart type est donné par la formule suivante :
N
∑ (score − µ score )
1
σ= i
2
N i =1
N est le nombre total de séquences que Caliseq a pu aligner et pour lesquelles il a pu fournir un
score (ce nombre dépend des contraintes imposées sur la longueur des séquences à aligner ou de la
longueur total de l’alignement), scorei le score d’alignement pour une séquence i donnée, et µscore la
moyenne des scores d’alignement. Il est à noter que je n’ai pas utilisé la formule de l’écart type sans
biais, dans la mesure où je ne traitais pas un échantillon, mais l’ensemble des séquences contenues
dans la base. Le z-score peut être représenté par une distribution normale comme le montre la Figure
4-3.
Figure 4-3 Diagramme d’écarts-type. La partie bleu foncée correspond à un écart type de la moyenne. Pour une
distribution normale, cela correspond à une quantité de 68,27% de l’ensemble des données, tandis que deux écarts
(bleu foncé et marron) comptent pour 95,45% et trois écarts-types (bleu foncé, marron et vert) compte pour
99,73%. (source : http://en.wikipedia.org/wiki/Standard_score)
L’ensemble des « grandes valeurs » de scores d’alignement, ceux qui sont significatifs, est présent
dans la partie droite de la distribution. Ainsi, le seuil donné par l’utilisateur en paramètre d’entrée
correspondra au seuil d’écart type au dessous duquel le score d’alignement n’est pas significatif. Plus
grand sera ce seuil, plus on sera sélectif et moins il y aura de séquences récupérées.
Les différentes évolutions de Caliseq 171
Pour le calcul du z-score, il était nécessaire de « scanner » une première fois la banque de
séquences afin de pouvoir mesurer la moyenne et l’écart type des scores d’alignement de toutes les
séquences. En raison de la complexité et du nombre important de séquences à traiter dans une seule
banque (pouvant atteindre l’ordre du million de séquences) les séquences présentant les meilleurs
scores d’alignement étaient gardées lors du premier scan. Ainsi, la sélection ne s’opérait plus que sur
un sous-ensemble, allégeant fortement le temps de calcul. Pour réaliser ce sous-ensemble, une
structure en « arbre » a été implémentée dans le programme, retenant les séquences présentant les
meilleurs scores d’alignement avec le jeu de blocs. Ainsi, c’est lors du second passage de Caliseq que
le z-score est calculé pour chaque séquence. Les meilleures séquences sont alors filtrées sur le critère
du seuil de leur z-score : elles correspondent aux séquences identifiées comme P450s selon notre
critère.
Lorsqu’il y a dans les alignements, aussi bien pour les séquences des structures de référence que
pour le pré-alignement de séquences cibles, des séquences présentant une identité trop importante, ces
dernières peuvent « biaiser » le profil en favorisant l’alignement final vers des séquences proches
d’elles. C’est le cas par exemple de mon set de templates : sur les six structures de référence que j’ai
choisies pour identifier les CSBs puis les positionner sur des séquences de P450s inconnus, trois
d’entre elles sont de mammifère, de la sous famille 2C. Ces trois structures ont des séquences très
proches, si bien qu’elles conduisent à la création d’un profil en leur faveur. Pour éviter de donner un
poids trop important à ces séquences proches et donc pour favoriser les séquences peu représentées, un
système de pondération a été mis en place. Comment cette pondération a-t-elle été implémentée ? La
méthode de pondération résulte d’une discussion collective avec J. Pothier et AL. Abraham
(Université Paris VI) dont le travail conduisait à un problème similaire au mien. Cette méthode est la
suivante : sur un ensemble de N séquences, on calcule pour chaque séquence la fréquence moyenne
d’identité entre cette séquence et les autres de l’ensemble. Le complémentaire de cette fréquence
moyenne permettra alors d’accentuer le poids des séquences « sous représentées » et d’amoindrir celui
des séquences présentant une identité trop importante avec les autres. La formule de la pondération
Weight(i) pour une séquence i d’un alignement de N séquences, peut s’écrire de la manière suivante :
1 N −1
Weight (i ) = 1 − ∑ % id (i, j )
N − 1 j =1; j ≠i
172 Chapitre 4. Voyage au centre de Caliseq
Dans la formule, j est une autre séquence de l’ensemble, différente de i, et %id(i,j) est le taux
d’identité entre les séquences i et j. Un exemple de calcul de pondération est présenté dans le Tableau
4.1.
Tableau 4.1 Exemple de calcul de pondération sur un ensemble de trois séquences A, B et C. A et B sont très proches tandis que C est
plus éloignée des deux autres séquences.
4.4 Conclusion
L’outil Caliseq a brièvement été présenté le long des paragraphes de ce chapitre. Une description
plus détaillée du programme figure en Annexe 3. Certains paragraphes de cette annexe pourraient
sembler obscurs à des personnes non habituées au vocabulaire de la programmation, mais j’ai essayé
de rendre cette partie annexe du manuscrit la plus claire possible pour mettre en valeur les différents
mécanismes et principes sous-jacents à l’outil Caliseq, les différents problèmes auxquels j’ai été
confronté lors de son développement, ou lors de son utilisation, et quelles solutions j’ai pu apporter.
Au final, l’outil Caliseq n’est pas qu’une simple amélioration du programme SmartConsAlign : en
plus de réaliser un alignement de jeux de blocs sur une séquence cible, il offre la possibilité d’utiliser
l’information contenue dans les CSBs pour explorer les banques de données de séquences ou les
génomes nouvellement séquencés à la recherche de P450s. Cette nouvelle caractéristique du
programme met en jeu un nombre important de paramètres, ajustables par l’utilisateur, qui influent sur
les filtres de sélections. L’intérêt au-delà d’une simple identification de P450s ou même de création
d’une banque « propre » de séquences de P450s serait à long terme la combinaison de la recherche sur
banque et de la reconstruction tridimensionnelle des P450s non résolus sur le plan structural : Caliseq
offrirait-il un moyen de constituer une banque de sites actifs de P450s ? L’existence d’une telle banque
serait un support précieux pour l’étude des mécanismes de reconnaissance des P450s : à l’aide d’une
chimiothèque, on pourrait tester les différents ligands potentiels dans les sites actifs de ces modèles et
au travers des résultats de docking (molécules reconnues ou non reconnues, en face de l’hème ou sur
Conclusion 173
un site distant) commencer à formuler des hypothèses sur le mode de reconnaissance des différents
P450 de microorganismes ou microsomaux. Avant de pouvoir se lancer dans une telle fiction, il faut
bien sûr estimer la fiabilité de l’outil Caliseq pour identifier les séquences de P450s, et maîtriser
l’alignement des blocs pour l’obtention du modèle le plus fiable. C’est là le sujet du prochain chapitre
qui portera sur la place de nos nouvelles méthodes par rapport à celles déjà existantes. Apportent-elles
oui ou non une réelle innovation, une valeur ajoutée ?
Troisième Partie
Résultats
175
CHAPITRE 5
5.1 Introduction
Les propriétés structurales des P450s, ainsi que les problématiques que ces enzymes soulèvent,
ont été décrites dans les précédents chapitres. La plupart des études conduites sur ces protéines in
silico par des méthodes conventionnelles se sont heurtées à des limites liées à la complexité de ces
P450s. La première d’entre elles est certainement l’obtention d’un modèle, rendu difficile en raison de
la grande variabilité en séquence de cette superfamille. Plusieurs solutions ont été proposées pour
contourner ces limites, en particulier, la construction fiable des modèles de cytochromes P450 qui
passe selon nous par une recherche préalable de motifs structuralement conservés sur l’ensemble des
P450s. L’idée sous-jacente est de nous appuyer sur le repliement extrêmement conservé dans cette
superfamille comme information 3D à utiliser pour la reconstruction de modèles de P450s. Dans le but
de vérifier et de valider cette hypothèse, des expériences de modélisation de P450 à basse identité de
séquences ont été menées selon la méthode développée au laboratoire. Puis, elles ont été comparées à
d’autres méthodes existantes. Ce nouveau chapitre présentera donc les résultats de comparaison des
différentes méthodes, aussi bien sur la détection des informations 3D au sein de cette superfamille, que
leur utilisation pour améliorer l’alignement en séquences. Le chapitre comporte également les
comparaisons de modèles issus des différents alignements. Ce n’est qu’à partir de cette comparaison
entre modèles qu’il sera possible de juger de l’intérêt apporté par l’information 3D (sous forme de
blocs structuraux conservés) pour améliorer les alignements. Cette information 3D semblait en outre
caractéristique des P450s : elle a été utilisée pour la recherche de P450s nouveaux dans des banques de
séquences dans le cadre de la génomique exploratoire. Les résultats de ces recherches correspondent
au dernier point traité dans ce chapitre.
Dans le cadre de ma thèse, j’avais pour premier objectif d’améliorer cette méthodologie
préexistante de reconstruction à l’aide de blocs structuraux conservés, en vue de construire le modèle
d’un CYP d’intérêt : le CYP 3A4. À mon arrivée au laboratoire, aucune structure n’était disponible et
de nombreuses équipes de par le monde tentaient de produire un modèle par homologie. Hélas, la
structure du CYP 3A4 a finalement été publiée sur la PDB au cours de ma première année de thèse.
Cette structure est alors devenue ma structure de référence pour valider la méthodologie que notre
équipe mettait au point. En la validant avec cette structure, peu commune par rapport aux autres CYP,
cette méthode devait pouvoir s’appliquer à n’importe quel P450 inconnu dont l’identité en séquence
avec les structures disponibles est faible.
Les CSBs, une utilisation innovante ? 179
Partant sur le dogme qu’au cours de l’évolution, la structure d’une protéine est mieux conservée
que sa séquence, nous avons choisi d’utiliser l’information de repliement conservé des P450s pour
améliorer l’alignement de séquences, nécessaire à la reconstruction d’un modèle. Il est en effet
intéressant de se demander pourquoi, en dépit d’une forte variabilité en séquence notamment dans la
région N-terminale (et à degré moindre C-terminale) de l’enzyme, le repliement reste inchangé pour
tous les P450s. Lors des alignements structuraux par les outils bioinformatiques disponibles (cf.
sections 2.4.3 et 2.4.4) certaines régions semblaient mieux conservées que d’autres, ce qui a conduit à
la recherche de blocs structuralement conservés (CSB) à travers toutes les structures disponibles.
L’hypothèse formulée fut la suivante : ces CSBs pouvaient servir d’empreinte ou de signature
caractéristique des P450s, et donc présents sur tous les CYPs, un peu à la manière de la signature
héminique dite « cys-pocket » des P450s.
10
Il est rappelé que les contraintes spatiales pour la construction du modèle sont calculées prioritairement au
niveau de ces zones.
180 Chapitre 5. Comparaison des méthodes
Tableau 5.1 Position des 22 blocs structuraux obtenus avec GOK pour le jeu de 6 templates (d’après la thèse de N. Loiseau, 2002). En
première colonne, la nomenclature de P. Jean, basée sur l’alignement structural de 3 structures bactériennes, et que nous avons suivie dans un
souci de continuité. Dans la deuxième colonne, la nomenclature de Poulos, utilisée depuis 1985, basée sur la structure du P450cam.
1* A 16 – 23 23 – 32 38 – 45 20 – 27 50 – 57 27 – 34 08 0,37 15/2
2A C 96 – 109 94 – 107 106 – 119 92 – 105 118 – 131 108 – 121 14 1,53 15/2
2B D 114 – 132 115 – 133 127 – 145 113 – 131 141 – 159 129 – 147 19 1,00 15/3
3 E 138 – 160 139 – 161 148 – 170 138 – 160 164 – 186 151 – 173 23 3,15 20/2
4 F 161 – 175 172 – 186 171 – 185 161 – 175 192 – 206 174 – 188 15 1,94 20/3
5 G 185 – 205 205 – 225 193 – 213 184 – 204 233 – 253 212 – 232 21 0,84 10/2
6 H 210 – 217 232 – 239 218 – 225 209 – 216 262 – 269 237 – 244 08 0,08 15/3
7A I 227 – 259 250 – 282 234 – 266 225 – 257 280 – 312 253 – 285 33 1,23 15/3
7B J 260 – 269 283 – 292 267 – 276 258 – 267 313 – 322 286 – 295 10 0,13 15/1
8 K 272 – 288 312 – 328 279 – 295 270 – 286 343 – 359 298 – 314 17 1,06 15/3
9 ß1–4 + ß2–1 292 – 303 332 – 343 298 – 309 291 – 302 364 – 375 318 – 329 12 0,96 20/2
ß2–2 +
10 304 – 326 345 – 367 310 – 332 303 – 325 376 – 398 330 – 352 23 1,85 15/1
ß1–3 + K’
11 Meander 327 – 334 369 – 376 333 – 340 326 – 333 399 – 406 353 – 360 08 0,40 20/2
12A Cys Pocket 341 – 347 390 – 396 347 – 353 342 – 348 422 – 428 367 – 373 07 0,30 20/3
12B L 348 – 372 397 – 421 354 – 378 349 – 373 429 – 453 374 – 398 25 0,61 15/2
13A ß3–3 374 – 378 422 – 426 381 – 385 375 – 379 454 – 458 400 – 404 05 1,17 20/3
13B ß4–1 383 – 391 429 – 437 387 – 395 384 – 392 464 – 472 406 – 414 09 4,86 25/3
13 ß4–2 + ß3–2 394 – 401 439 – 446 397 – 404 394 – 401 474 – 481 416 – 423 08 1,24 30/2
Note 1 : Les nouveaux blocs intermédiaires identifiés après P. Jean sont notés par une lettre complémentaire (A ou B)
après le numéro de blocs, et parfois par un asterisque (* ou **) lorsqu’une nouvelle subdivision est apparue.
Note 2 : Certains blocs identifiés par des structures secondaires peuvent en réalité englober qu’une partie de la structure,
ou parfois être plus large.
Les CSBs, une utilisation innovante ? 181
Tableau 5.2 Position des 27 blocs structuraux obtenus avec GOK pour le jeu des 4 templates proposés par M. Cottevieille (d’après le
rapport de DEA de M. Cottevieille, 2003). Pour les nomenclatures, voir la légende du Tableau 5.1. M. Cottevieille identifie cinq nouveaux
blocs par rapport à N. Loiseau.
1* A 14 – 28 23 – 37 24 – 38 48 – 62 15 0,70 20/2
2B D 114 – 132 115 – 133 110 – 128 141 – 159 19 1,36 15/2
2C Boucle D – E 133 – 135 134 – 136 129 – 131 160 – 162 03 – 100/1
3 E 137 – 157 138 – 158 133 – 153 163 – 183 21 3,04 20/2
5 G 182 – 205 202 – 225 191 – 214 230 – 253 24 0,51 10/1
6 H 210 – 217 232 – 239 224 – 231 262 – 269 08 0,07 10/2
7* Boucle H – I 219 – 223 241 – 245 232 – 236 270 – 274 05 2,58 30/2
7A I 226 – 259 249 – 282 241 – 274 279 – 312 34 4,57 15/3
7B J 260 – 269 283 – 292 275 – 284 313 – 322 10 0,12 10/1
7B* J(fin) – 293 – 298 285 – 290 323 – 328 06 0,15 40/1
8 K 272 – 290 312 – 330 305 – 323 343 – 361 19 1,12 15/2
9 ß1–4 + ß2–1 292 – 303 332 – 343 325 – 336 364 – 375 12 1,44 15/2
10A ß2–2 304 – 306 345 – 347 337 – 339 376 – 378 03 – 15/2
10B ß1–3 + K’ 307 – 326 348 – 367 340 – 359 379 – 398 20 2,02 15/1
11 Meander 327 – 335 369 – 377 360 – 368 399 – 407 09 0,85 20/2
12A Cys Pocket 337 – 345 386 – 394 380 – 388 418 – 426 09 3,48 30/2
12B L 347 – 372 396 – 421 390 – 415 428 – 453 26 0,48 20/2
13A ß3–3 374 – 380 422 – 428 416 – 422 454 – 460 07 1,21 20/2
13B ß4–1 383 – 389 429 – 435 425 – 431 464 – 470 07 1,85 25/3
13 ß4–2 + ß3–2 391 – 401 437 – 447 433 – 443 473 – 483 11 2,97 30/2
Note : Cinq nouveaux blocs ont été identifiés par rapport à ceux identifiés par N. Loiseau : il s’agit des CSB 2C, 7*,
7B*, 7C, et celui issu de la subdivision du CSB 10 en deux.
182 Chapitre 5. Comparaison des méthodes
Tableau 5.3 Positions des 24 blocs structuraux obtenus avec GOK pour le jeu de templates proposé dans ce travail de thèse. Pour les
nomenclatures, voir la légende du Tableau 5.1. Les blocs identifiés sont un compromis entre ceux identifiés par N. Loiseau et ceux identifiés
par M. Cottevieille.
0 A’ - 8 – 19 33 - 44 33 - 44 33 - 44 - 12 0,33 10/3
1* A 14 - 25 23 – 34 48 - 59 48 - 59 48 - 59 17 - 28 12 0,21 20/2
2A** B' – C 89 - 93 85 - 89 111 - 115 111 - 115 111 - 115 91 - 95 05 0,29 10/3
2A C 96 - 113 94 - 111 118 - 135 118 - 135 118 - 135 98 - 115 18 2,05 20/2
2B D 114 - 132 115 - 133 141 - 159 141 - 159 141 - 159 116 - 134 19 1,02 10/3
3 E 137 - 157 138 - 158 163 - 183 163 - 183 163 - 183 140 - 160 21 2,80 15/3
4 F 160 - 175 171 - 186 191 - 206 191 - 206 191 -206 163 - 178 16 1,49 20/2
5 G 182 - 205 202 - 225 230 - 253 230 - 253 230 - 253 184 - 207 27 0,65 10/2
6 H 210 - 216 232 - 238 262 - 268 262 - 268 262 - 268 212 - 218 07 0,03 10/2
7A I 227 - 259 250 - 282 283 - 315 283 - 315 280 - 312 228 - 260 33 0,87 10/3
7B J 260 - 268 283 - 291 316 - 324 316 - 324 313 - 321 261 -269 09 0,07 10/1
7C J' - 304 - 309 338 - 343 338 - 343 335 - 340 - 06 0,21 10/1
8 K 274 - 290 314 - 330 348 - 364 348 - 364 345 - 361 275 - 191 17 0,92 10/3
9 ß1-4 + ß2-1 292 - 303 332 - 343 367 - 378 367 - 378 364 - 375 294 - 305 12 1,04 15/2
ß2-2 +
10 304 - 327 345 - 368 379 - 402 379 - 402 376 - 399 306 - 329 24 3,81 15/3
ß1-3 + K’
11 Meander 328 - 335 370 - 377 403 - 410 403 - 410 400 - 407 331 - 338 08 0,31 20/2
12A Cys Pocket 339 - 346 388 - 395 423 - 130 423 - 430 420 - 427 - 08 1,47 20/3
12B L + turn 347 - 372 396 - 421 431 - 456 431 - 456 428 - 453 351 - 376 26 0,32 10/3
13A ß3-3 374 - 380 422 - 428 457 - 463 457 - 463 454 - 460 378 - 384 07 1,14 15/3
13B ß4-1 381 - 389 - 465 - 473 465 - 473 462 - 470 385 - 393 09 1,91 20/3
13 ß4-2 + ß3-2 390 - 401 436 - 447 475 - 486 475 - 486 472 - 483 394 - 405 12 3,21 30/2
Note 1: Un nouveau bloc a été identifié (CSB0) par rapport aux deux autres jeux de blocs. Les blocs identifiés sont plus
proches en nombre et en position de ceux de N. Loiseau (un seul bloc pour le CSB 10, pas de CSB 2C ni de
CSB 7* ou 7B*). En revanche, comme pour le jeu de M. Cottevieille, le CSB 7C a été ici aussi identifié.
Note 2 : Initalement, la structure du CYP 2B4 (1po5) était présente dans ce jeu. En raison de sa conformation ouverte,
elle empêchait la détection de blocs sous GOK : elle a donc été retirée du jeu
Les CSBs, une utilisation innovante ? 183
Figure 5-1 Représentation des CSB0 à CSB7 sur la structure du CYP 2C5 (1nr6). La protéine est en
représentation « cartoon » en gris et l’hème figure en orange. Les CSB sont représentés en vert. Les structures
secondaires correspondantes sont également annotées. Ceux-ci correspondent à des blocs postérieurs à la
nomenclature de P. Jean. Les images ont été générées par PYMOL
184 Chapitre 5. Comparaison des méthodes
Figure 5-2 Représentation des CSB8 à CSB13 sur la structure du CYP 2C5 (1nr6). Pour les légendes, se
reporter à ceux de la Figure 5-1.
Une moyenne de 24 blocs (CSBs) a été identifiée sur les trois jeux de templates. Ces CSBs ont été
initialement numérotés de 1 à 13 selon la nomenclature de P. Jean (Jean et al., 1997) dans la première
reconstruction d’un P450 utilisant cette méthode. Cette nomenclature a été conservée avec de légères
variations lorsque certains blocs étaient subdivisés en plusieurs fragments (par exemple CSB1, CSB2
ou encore CSB7), ou lorsqu’un nouveau bloc fut identifié. Cette évolution des blocs a été nécessaire
dès que les premières structures de P450 microsomaux ont été publiées. Le jeu initial de P. Jean avec
13 blocs historiquement identifiés s’appuyait en effet sur l’alignement de 3 structures bactériennes.
Les CSBs, une utilisation innovante ? 185
Ainsi, le bloc 0 (noté CSB0 sur la Figure 5-1) n’est trouvé que dans mon jeu de templates qui
comporte le plus de structures issues de mammifères. Ce bloc est relativement court et correspond à
une partie d’hélice placée en amont de l’hélice A, située au niveau de l’hélice d’ancrage à la
membrane chez les P450s microsomaux. Une particularité du CYP 154C1, d’origine bactérienne, peut
être soulignée : 1gwi présente un brin β à cette position, qui n’a été observé que sur cette structure X
de P450s. Cette structure confirme la règle observée pour les autres structures bactériennes : le bloc 0
ne pouvait pas être identifié sur cette structure. En revanche, il est surprenant d’identifier ce bloc dans
la structure du P450BM3 qui est d’origine bactérienne. Dans la littérature, rien ne semble pourtant
indiquer que ce P450 soit ancré à la membrane. On sait juste qu’il est le seul CYP naturel présentant
sur la même chaîne polypeptidique la partie hémoprotéique et la partie réductase, ce qui fait de lui un
P450 proche des P450s microsomaux.
Le bloc 1** contient le premier brin du feuillet β1. Il fait partie des blocs simples à identifier sous
GOK avec des valeurs faibles de mp-rms et de taille de maille.
Le bloc 1 contient quant à lui deux SSE : le deuxième brin du feuillet β1 (β1-2), l’hélice B ainsi que
la boucle qui les lie. C’est ici un exemple concret qui montre que les blocs ne sont pas uniquement
limités aux SSEs isolés.
Les blocs 2A* et 2A** appartiennent à la longue boucle B–C décrite comme une région
importante pour la reconnaissance du substrat, formant une face du site actif très mobile. Le bloc 2A*
correspond à la micro-hélice B’. Sachant que cette hélice est située dans un zone soumise à des
changements conformationnels de la protéine (cf. section 1.4.4.2) et de surcroît, est connue pour être
labile chez les CYPs de mammifères –on la trouve aussi bien structurée que déstructurée–, on peut se
demander si ce bloc est pertinent ou non. Il semble bien conservé localement sur les différents
templates, en dépit d’une grande variabilité aussi bien en séquence qu’en organisation spatiale (boucle
B-C). À noter que le mp-rms de ce bloc est plutôt bas dans les jeux de N. Loiseau et M. Cottevieille
(~0.5 Å), contrairement à celui de mon jeu de templates. Sachant que dans mon jeu, il y a davantage
de cristaux de P450s de mammifère, un mp-rms supérieur (~1,75 Å) pour ce bloc n’est pas surprenant :
dans la structure du CYP 2C5, l’hélice B’ disparaît presque en totalité pour laisser la place à une
186 Chapitre 5. Comparaison des méthodes
boucle présentant une allure d’hélice. Le bloc 2A** correspond à une portion de boucle B’–C. Celle-ci
est située à proximité de l’hème et contient des acides aminés impliqués dans la reconnaissance du
substrat (SRS-1, voir Figure 1-18 à la page 44). La boucle constituant le bloc 2A** correspond en
quelque sorte au levier qui permet à la boucle B–C sa grande mobilité. Étant donné sa petite taille, et
son rôle important, il est assez surprenant de l’identifier en tant que bloc : on s’attend en effet à une
boucle très variable pour rendre compte de la diversité des substrats reconnus. Pourtant, le repliement
dans l’espace des (α,τ) décrit cette région comme conservée.
Les blocs 2A et 2B sont contigus quels que soient les différents jeux de templates. La description
en SSEs de cette zone correspond aux trois hélices, C, C’ et D (dans cet ordre dans la séquence).
L’hélice C’ a déjà été observée par Hasemann (Hasemann et al., 1995) qui l’a décrite comme
désordonnée. Lors de l’identification des blocs par GOK, le logiciel décompose cette région en deux
blocs seulement, coïncidant au milieu de cette hélice C’. L’angle formé au niveau de C’ entre les
hélices C et D est variable. Chacune des parties de part et d’autre de C’ (hélice C et hélice D) est
localement bien conservée.
Le bloc 2C n’est qu’observé dans le jeu de M. Cottevieille. Il est extrêmement court (3 résidus) et
correspond à un morceau de la boucle D–E. Étant donné les paramètres de maille et de marge (100/1)
et un mp-rms non renseigné, ce bloc n’est probablement pas significatif.
Le bloc 3 est constitué de l’hélice E. L’hélice E’, trop courte et non adjacente à l’hélice E, n’a pas
pu être identifiée comme région structuralement conservée.
Le bloc 4 comprend une partie de l’hélice F. Cette hélice est de longueur variable sur tous les
templates utilisés. Dans la littérature, les hélices F et G formant le toit du site actif sont spécifiques
selon le P450 observé : elles sont à la fois de longueur variable – plus longues chez les bactériens que
chez les mammifères par exemple – et également de structuration variable (présence ou non de micro-
hélices dans la boucle F–G). L’identification de ce bloc fut par conséquent délicate : la plus petite
hélice (correspondant à une structure hélicoïdale dans l’espace des (α,τ)) pouvait se superposer à
plusieurs positions différentes sur les longues hélices F (également des structures hélicoïdale dans
l’espace des (α,τ)). À noter qu’en plus de la longueur variable de l’hélice, ce bloc est également très
mal conservé en séquence. M. Cottevieille n’a pas été en mesure de trouver la même longueur pour ce
bloc que N. Loiseau et moi-même, montrant ainsi la difficulté à obtenir ce bloc. Hasemann a
Les CSBs, une utilisation innovante ? 187
également rencontré des difficultés pour l’alignement structural de cette région et propose deux
alignements possibles selon qu’il considère la conservation structurale ou la conservation séquentielle.
Dans le cas du bloc 5 correspondant à l’hélice G, Hasemann a rencontré des problèmes identiques
au bloc précédent. A l’inverse, le logiciel GOK a pu identifier aisément une solution unique avec un
mp-rms très bas quel que soit le jeu de templates (0.84 Å pour le plus élevé chez N. Loiseau). Ce bloc
est par ailleurs relativement long par rapport aux autres blocs, il est l’un des trois plus longs dans tous
les jeux de templates. Cette observation est assez surprenante lorsque l’on sait que les hélices F et G
sont justement des hélices de longueur variable, relativement courtes chez les mammifères (ex : CYP
3A4)…
Le bloc 6, formé par l’hélice H est également identifié facilement par GOK. Il semblerait
d’ailleurs, au vu de tous les templates que l’ensemble des blocs 5 + 6 soit bien conservé spatialement :
la boucle qui les relie en revanche est très variable selon les structures, et est responsable notamment
de la scission du bloc en 2 parties : bloc 5 et bloc 6. Cette observation renforce l’idée d’utiliser les
blocs comme armature pour le P450 à reconstruire et de laisser les régions inter-blocs se reconstruire
sans contrainte apparente.
Le bloc 7 est sans nul doute le plus long de tous : il est constitué des hélices I (bloc 7A), J (bloc
7B) et une partie de l’hélice J’ (bloc 7C), observé chez les P450s de mammifères. Suivant les
paramètres de recherche, il peut être obtenu en une, deux, trois ou cinq parties. Les parties
correspondant à l’hélice J’ (bloc 7C), n’ont été observées que dans le jeu de templates de
M. Cottevieille et le mien, plus riche en P450s de mammifère, et il n’est pas identifié dans le jeu de
N. Loiseau très dominé par les P450s bactériens. Le bloc 7C qui n’est d’ailleurs pas présent dans
toutes les structures (P450eryF et CYP 154C1 en sont dépourvus) montre un mp-rms élevé de 7,4 Å,
laissant supposer que l’hélice J’ est certainement très fluctuante. De même, le bloc 7* correspondant à
la boucle H–I n’est présent que dans le jeu de M. Cottevieille. Il semble trop court pour être retenu
dans les blocs structuralement bien conservés de la famille.
Les quatre blocs suivants, du bloc 8 au bloc 11, constituent un ensemble structural continu et bien
conservé : les blocs y sont quasiment contigus. En fait, cet ensemble est obtenu en plusieurs parties en
raison des insertions ou délétions de quelques résidus dans un des templates, mais les quatre blocs sont
superposables simultanément. Il est à noter que seul le set de M. Cottevieille dispose de cinq blocs au
188 Chapitre 5. Comparaison des méthodes
lieu de quatre : le bloc 10 est séparé en deux dissociant le brin β2-2 du reste formé par l’hélice K’ et β1-3,
alors que ces structures sont trouvées dans un seul bloc pour le set de N. Loiseau et le mien.
Comme pour les blocs 2A et 2B, le bloc 12, correspondant à la Cys-Pocket et l’hélice L, est
constitué de deux parties jointives et « articulées » autour d’un acide aminé voisin de la cystéine liant
l’hème.
Le dernier bloc, bloc 13, est constitué principalement de brins β relié par des boucles. De façon
moins évidente que pour la boucle B-C, cette région formée par les brins β intervient généralement
dans l’obstruction du site actif. Bien que structuralement conservée, il est à noter que cette région est
extrêmement variable au niveau de sa séquence primaire.
5.2.2.2 Apport des structures de mammifères pour les CSBs par comparaison aux
structures bactériennes
Au fil des années dans la PDB, les structures bactériennes ont été complétées par des structures de
mammifères. Ainsi, pour mon jeu de blocs, il y a eu autant de structures bactériennes que de structures
de mammifères – uniquement de CYPs de la famille 2C rappelons-le – ayant servi comme templates.
Cet apport en structures microsomales a entraîné de légères variations dans la détermination et la
fiabilité des blocs (nombre de blocs, tailles des blocs, mp-rms de chaque bloc etc.). À première vue,
les structures microsomales présentent les mêmes éléments de structure secondaire que ceux présents
dans les P450s bactériens. Toutefois, une divergence visible de ces éléments avec ceux de l’enzyme
microbienne la plus proche (P450BM3) est observée. La plus grande différence entre ces structures avec
la structure microbienne est dans le positionnement relatif du feuillet β N-terminal vis-à-vis des
hélices de la partie centrale (cf. Figure 1-15 page 41) : un décalage spatial est constaté. On observe
également une différence au niveau des longueurs des brins β entre les structures de mammifères et les
structures bactériennes. Pourtant, pris individuellement, chacun des éléments structuraux se superpose
relativement bien.
Dans le jeu de NL, la structure du P450 bactérien qui se superpose le mieux à l’unique structure
de mammifère présente dans ce jeu (CYP 2C5) est celle du P450Terp. Les différences les plus
importantes entre le CYP 2C5 et le P450Terp se situent d’une part au niveau du positionnement des
hélices F et G qui couvrent le site actif et déterminent son accès, et d’autre part au niveau des boucles
entre les SSEs.
Les CSBs, une utilisation innovante ? 189
Dans mon jeu, c’est la structure du CYP 154C1 qui est la plus proche de celle du CYP 2C5. Ici
aussi, de faibles différences sont remarquées, notamment au niveau des hélices F’ et G’ uniquement
observables chez la structure du lapin (CYP 2C5), au niveau de l’hélice F plus courte chez le CYP
microsomal, mais également au niveau de certaines boucles (par exemple B–C), plus longue chez le
CYP 154C. À noter que le CYP 2C5 montre parfois au niveau de ces boucles des débuts de
structuration en hélice α, là où la structure bactérienne n’en montre pas. Cette caractéristique est
commune aux trois structures bactériennes par opposition aux trois structures microsomales. C’est
d’ailleurs une des raisons qui me pousse à considérer le bloc 4 comme un bloc assez peu significatif
(ou « flou ») : dans ce bloc, la courte hélice F de la structure microsomale a été identifiée à différentes
positions (plusieurs choix de superposition proposés par GOK) sur les hélices plus longues des
structures bactériennes, et il a fallu choisir visuellement et sans critère spécifique, la meilleure
superposition pour définir le bloc.
Il est surprenant toutefois qu’un bloc « flou » comme le bloc 4, puisse contenir un SRS dans son
intégralité. En revanche, le fait que le SRS-5 soit plutôt situé dans une région inter-bloc n’est pas
surprenant : il correspond à une région entre l’hélice K et le feuillet β1-4 qui varie significativement
d’une structure à l’autre, de bactérienne à microsomale (ex : entre les CYP 2C et le P450BM3, on relève
une différence de 3,3 Å de rmsd sur les Cα dans cette région).
Lorsqu’on compare en fait les SSEs (hélice F, G, et le feuillet C-terminal), qui portent les autres
SRS (SRS-2, SRS-3 et SRS-6 respectivement), il s’avère qu’une même divergence (structurale) est
également observée sur l’ensemble des structures, de même ordre de grandeur (par rapport au P450BM3
par exemple). Ces différences aux niveaux de ces SSEs bordant la poche du site actif, pourraient être
une cause de l’orientation et le positionnement du substrat dans le site actif et par conséquent la
sélectivité de l’enzyme pour les différents substrats.
Malgré le fait qu’il comporte moins de structures templates, c’est pourtant le jeu de M. Cotevieille
qui montre les valeurs les plus hautes. Il comporte des valeurs élevées pour les blocs 1, 2A, 2B, 3, 7*,
7C, 8, 9, 10, 12 et tous ceux de la série 13. Ces fortes valeurs résultent également du besoin de
rechercher des blocs plus longs et de nouveaux blocs en forçant les paramètres de maille et de marge,
pour couvrir la fraction maximale de la séquence en bloc. Ce jeu est constitué de quatre structures dont
trois bactériennes et une microsomale. Il se trouve que ces quatre structures sont plutôt divergentes,
conduisant à des détections de blocs par GOK à valeur élevée de mp-rms. En réalité, M. Cottevieille
n’est pas la seule à avoir identifié des blocs à valeur élevée de mp-rms : pris indépendamment, chaque
jeu en présente au moins au niveau d’un bloc.
Il est possible toutefois de classer ces valeurs élevées de mp-rms d’un jeu à l’autre. Ainsi, dans
mon jeu de templates, la région N-terminale est marqué par de hautes valeurs de mp-rms (blocs 1 et
2A*, structure β1-2 et hélice B, cf. Tableau 5.3). Une explication a déjà été fournie pour ce cas, où
l’hélice B’ est très « fluide » dans les structures microsomales. Dans le jeu de NL, au niveau de cette
région, seul le bloc 1** (brin β1-1) porte une forte valeur de mp-rms. Dans le jeu de M. Cottevieille,
Les CSBs, une utilisation innovante ? 191
pourtant marqué par de fortes valeurs de mp-rms, on trouve des tendances inversées : par exemple
dans les blocs 4 et 5 (hélices F et G) les valeurs de mp-rms (~0.5 Å) sont trouvées plus basses que
dans les deux autres jeux (~1,00 Å). Enfin, la série des blocs 13 présente des valeurs élevées de mp-
rms dans les trois jeux, le bloc le plus « flou » dans le jeu de N. Loiseau est trouvé au niveau de la
structure β4-1 tandis que dans les deux autres jeux, il est situé au niveau des structures β4-2 et β3-2.
Certains blocs à valeur élevée de mp-rms, sont trouvés en revanche en accord sur l’ensemble des
trois jeux : c’est le cas de l’hélice E (bloc 3) par exemple, mais également du bloc 10, comprenant 3
SSEs (brin β2-2, brin β1-3, K’). En dépit des valeurs élevées de mp-rms, ces blocs peuvent toutefois être
considérés comme des blocs « fiables » (ou « nets ») : les valeurs élevées de mp-rms peuvent être
expliquées par la divergence d’un seul template dans le jeu par rapport aux autres, qui se retrouve dans
les trois jeux, expliquant de ce fait une valeur élevée de mp-rms similaire pour les trois jeux de blocs.
Globalement, en dépit des différences observées sur les trois jeux, on peut établir une certaine
tendance pour des régions plus variables que d’autres (notion de blocs « flous ») en se basant sur les
constats précédemment décrits (utilisation des valeurs de mp-rms inter jeu) : la variabilité en séquence
au niveau de la région C-terminale est donc accentuée par une variabilité structurale, les blocs situés
dans cette partie étant marqués par des valeurs élevées de mp-rms, exprimées à des positions
différentes dans les blocs de la série 13. Pour ces mêmes raisons (variabilité entre les jeux des valeurs
élevées de mp-rms), les blocs du feuillet β en N-terminal peuvent être également considérés comme
des blocs « flous », très mal conservés structuralement (blocs de la série 1). Ces tendances ne sont pas
liées à l’apport des nouvelles structures de P450s microsomales, elles étaient déjà présentes dans les
structures bactériennes. Enfin, on peut également inclure parmi ces blocs « flous » ceux correspondant
à la boucle B–C comprenant l’hélice B’, et ceux comportant les hélices F et G. Le caractère « flou » de
ces blocs 4 et 5 est beaucoup plus marqué dans les alignements comportant plus de structures
microsomales.
Toutes ces remarques sur un plan structural, se retrouvent également observées dans l’alignement
réalisé par Caliseq, des blocs des trois différents jeux de templates sur la séquence du CYP 3A4,
comme présenté sur la Figure 5-3. Ainsi, les blocs de la série 1 (CSB1*, CSB1**, et CSB1) ne se
trouvent pas à la même position sur les trois différents jeux de blocs. Il en est de même pour les blocs
de la série 2 (CSB2A*, CSB2A** et CSB2A) et de la série 13 (CSB13A, CSB13B, CSB13). En
revanche, ni le CSB4 ni le CSB5 ne semblent poser de problème de positionnement dans les trois jeux,
ce qui est assez déroutant, compte tenu de ce qui a été dit précédemment. Cela dit, comme il sera vu
192 Chapitre 5. Comparaison des méthodes
plus tard, le positionnement de ces blocs à des endroits similaires sur d’autres séquences cibles n’est
pas toujours observé.
CYP3A4 A 81 VLAITDPDMI KTVLVKECYS VFTNRRPFGP VGFMKSAISI AEDEEWKRLR SLLSPTFTSG KLKEMVPIIA QYGDVLVRNL 160
CYP3A4 B 81 VLAITDPDMI KTVLVKECYS VFTNRRPFGP VGFMKSAISI AEDEEWKRLR SLLSPTFTSG KLKEMVPIIA QYGDVLVRNL 160
CYP3A4 C 81 VLAITDPDMI KTVLVKECYS VFTNRRPFGP VGFMKSAISI AEDEEWKRLR SLLSPTFTSG KLKEMVPIIA QYGDVLVRNL 160
CSB1 CSB2A* CSB2A** CSB2A CSB2B
CYP3A4 A 161 RREAETGKPV TLKDVFGAYS MDVITSTSFG VNIDSLNNPQ DPFVENTKKL LRFDFLDPFF LSITVFPFLI PILEVLNICV 240
CYP3A4 B 161 RREAETGKPV TLKDVFGAYS MDVITSTSFG VNIDSLNNPQ DPFVENTKKL LRFDFLDPFF LSITVFPFLI PILEVLNICV 240
CYP3A4 C 161 RREAETGKPV TLKDVFGAYS MDVITSTSFG VNIDSLNNPQ DPFVENTKKL LRFDFLDPFF LSITVFPFLI PILEVLNICV 240
CSB3 CSB4
CYP3A4 A 241 FPREVTNFLR KSVKRMKESR LEDTQKHRVD FLQLMIDSQN SKETESHKAL SDLELVAQSI IFIFAGYETT SSVLSFIMYE 320
CYP3A4 B 241 FPREVTNFLR KSVKRMKESR LEDTQKHRVD FLQLMIDSQN SKETESHKAL SDLELVAQSI IFIFAGYETT SSVLSFIMYE 320
CYP3A4 C 241 FPREVTNFLR KSVKRMKESR LEDTQKHRVD FLQLMIDSQN SKETESHKAL SDLELVAQSI IFIFAGYETT SSVLSFIMYE 320
CSB5 CSB6 CSB7A
CYP3A4 A 321 LATHPDVQQK LQEEIDAVLP NKAPPTYDTV LQMEYLDMVV NETLRLFPIA MRLERVCKKD VEINGMFIPK GWVVMIPSYA 400
CYP3A4 B 321 LATHPDVQQK LQEEIDAVLP NKAPPTYDTV LQMEYLDMVV NETLRLFPIA MRLERVCKKD VEINGMFIPK GWVVMIPSYA 400
CYP3A4 C 321 LATHPDVQQK LQEEIDAVLP NKAPPTYDTV LQMEYLDMVV NETLRLFPIA MRLERVCKKD VEINGMFIPK GWVVMIPSYA 400
CSB7B CSB7 CSB8 CSB9 CSB10
CYP3A4 A 401 LHRDPKYWTE PEKFLPERFS KKNKDNIDPY IYTPFGSGPR NCIGMRFALM NMKLALIRVL QNFSFKPCKE TQIPLKLSLG 480
CYP3A4 B 401 LHRDPKYWTE PEKFLPERFS KKNKDNIDPY IYTPFGSGPR NCIGMRFALM NMKLALIRVL QNFSFKPCKE TQIPLKLSLG 480
CYP3A4 C 401 LHRDPKYWTE PEKFLPERFS KKNKDNIDPY IYTPFGSGPR NCIGMRFALM NMKLALIRVL QNFSFKPCKE TQIPLKLSLG 480
CSB11 CSB12A CSB12B CSB13A CSB13B
Figure 5-3 Comparaison du positionnement des blocs pour les trois différents jeux de templates sur la
séquence cible du CYP 3A4. Les couleurs utilisées pour délimiter les blocs sont les mêmes sur les trois jeux. Le
jeu de templates de N. Loiseau figure sur la première ligne (A), celui de M. Cottevieille en seconde ligne (B) et le
mien en dernière ligne (C). Un décalage sur les trois jeux de blocs est observé aussi bien en région N-terminal au
niveau de la série des CSB1 (1*, 1**, 1) et en région C-terminale au niveau de la série des CSB13 (13A, 13B, 13).
En raison des divergences sur les positionnements relatifs des blocs entre les trois jeux de
templates, j’ai dû établir un jeu de blocs général correspondant à un compromis des sous-alignements.
Ce dernier a pour but de lever les ambiguïtés de positionnement des blocs qui posent des difficultés à
Caliseq, en particulier dans la série des blocs 1 en N-terminal ou encore de la série des blocs 13 en
C-terminal. Ce jeu de blocs global est présenté Figure 5-4 et Figure 5-5 : il symbolise l’ossature
générale conservée d’un P450.
Les CSBs, une utilisation innovante ? 193
Figure 5-4 Blocs structuraux en représentation carbones Cα, déterminés à partir d’un consensus des trois jeux
de blocs (11 structures au total). Les structures ont été superposées sur les atomes du squelette des hélices I et J
(blocs 7A et 7B) indiquées par les flèches noires. Le code couleur est le suivant : P450eryf en vert, P450BM3 en
cyan, CYP 2C8 en violet, CYP 2C9 en jaune, CYP 2C5 (1nr6) en rose clair, CYP 154C1 en gris, CYP 51 en bleu,
CYP 2C5 (1dt6) en orange, P450nor en vert clair, P450terp en vert kaki et enfin P450cam en rose foncé.
Le compromis des trois différents jeux de blocs (cf. méthode décrite à la section 3.2.3) fournit un
jeu global composé de blocs plus courts que ceux rencontrés dans les trois jeux de blocs initiaux.
Toutefois, pour certains blocs, aucune modification n’a été apportée : il s’agit de blocs généralement
robustes, comme les CSBs de la série 7 ou de la série 12. À l’inverse, ceux de la série 1 et surtout ceux
de la série 13 ont subi un raccourcissement drastique pour réaliser le consensus : ils étaient déjà à
l’origine des principaux désaccords entre les différents jeux de blocs. Par ailleurs, selon le
raccourcissement imposé aux blocs de la série 13, leur positionnement par le programme Caliseq sur
la séquence du CYP 3A4 par exemple, se voit perturbé dans cette région : c’est la preuve que les blocs
identifiés à cette région C-terminale sont plutôt peu fiables.
194 Chapitre 5. Comparaison des méthodes
1oxa 1 ---------- ---------- A-TV-----P D--LESDSFH ------VDWY STYAELRETA --PVTPVRF- LGQDAWLVTG YDEAKAALSD --L-RLSSDP 60
1gwi 1 ---------- -----ARIP- -LDPFV---- ---------- ------TDLD GESARLRAAG --PLAAVELP GGVPVWAVTH HAEAKALLTD P---RLVKDI 58
1rom 1 -----APSFP FSRASGPEPP ---------- ---------- --------AE FAKLRATN-- --PVSQVKLF DGSLAWLVTK HKDVCFVATS --E-KLSKVR 60
1cpt 1 MDARA----- --TIPEH--- --------IA R-TVILPQGY ADDEVIYPAF KWLRDEQ--P LAMAHIEGYD PMWIATKHAD VMQIGKQP-- --G-LFSNAE 74
3cpp 1 -----NLAPL PPHVPEHLVF DFDMYNPSNL SAG--V---- ------QEAW AVLQESNV-- P-DLVWTRCN G--GHWIATR GQLIREAYED --YRHFSSEC 76
1e9x 1 ---MSAVALP RVSGGHDEHG HLEEFR---- ---------- ------TDPI GLMQRVRDEC G-DVGTFQL- AGKQVVLLSG SHANEFFF-R AGDDDLDQAK 74
2hpd 1 ---------- ----TIKEMP QPKTFGELKN LPLLNT---- ------DKPV QALMKIADEL G-EIFKFEA- PGRVTRYLSS QRLIKEAC-D -ES-RFDK-- 69
1pq2 1 ---------- ------KLPP GPTPLPIIGN MLQIDV---- ------KDIC KSFTNFSKVY G-PVFTVYF- GMNPIVVFHG YEAVKEALID NGE-EFS--- 68
1og5 1 ---------- --------PP GPTPLPVIGN ILQIGI---- ------KDIS KSLTNLSKVY G-PVFTLYF- GLKPIVVLHG YEAVKEALID LGE-EFS--- 66
1nr6 1 ---------- -----GKLPP GPTPFPIIGN ILQIDA---- ------KDIS KSLTKFSECY G-PVFTVYL- GMKPTVVLHG YEAVKEALVD LGE-EFAGRG 72
1dt6 1 ---------- --------PP GPTPFPIIGN ILQIDA---- ------KDIS KSLTKFSECY G-PVFTVYL- GMKPTVVLHG YEAVKEALVD LGE-EFAGRG 69
CSB0 CSB1* CSB1** CSB1
1oxa 61 KK----KYPG VEV-EFP-AY LGFPEDVRN- -YF--AT--- ---------- NMGTSDP--P THTRLRKLVS QEFTVRR--- --VEAMRPRV EQITAELLDE 130
1gwi 59 NVWGAWRRGE IPADW----- ----PLIGLA -N--PGR--- ---------- SMLTVDG--A EHRRLRTLVA QALTVRR--- --VEHMRGRI TELTDRLLDE 126
1rom 61 TRQGFPEL-- -------S-- ----ASGKQA -AKAKP---- ---------- TFVDMDP--P EHMHQRSMVE PTFTPEAVKN --LQPYIQRT VDDLLEQMKQ 126
1cpt 75 GSEILY---- ---------- ---DQNNEA- --FMR--SIS GGCPH-VID- SLTSMDP--P THTAYRGLTL NWFQPASIRK --LEENIRRI AQASVQRLLD 146
3cpp 77 PFI------- ------P--- ----REAGEA ----Y----- --------DF IPTSMDP--P EQRQFRALAN QVVGMPVVDK --LENRIQEL ACSLIESLRP 135
1e9x 75 AY-------- ---------- ----PFMTPI -F--GE---- ---------- GVVFDAS--P ERRKEMLHNA ALRGEQ---- --MKGHAATI EDQVRRMIAD 127
2hpd 69 ---------- ----NLS--- ----QALKFV -RDFAGD--- ---------- GLFTSWTHEK NWKKAHNILL PSFSQQAMKG -YHAMMVDIA VQLVQKWERL 133
1pq2 68 ---------- ----GRGN-S ----PISQRI -T--KGL--- ---------- GIISSNG--K RWKEIRRFSL TTLRNFGMGK RSIEDRVQEE AHCLVEELRK 131
1og5 66 ---------- ----GRGI-F ----PLAERA -N--RGF--- ---------- GIVFSNG--K KWKEIRRFSL MTLRNFGMGK RSIEDRVQEE ARCLVEELRK 129
1nr6 72 ---------- ----SV---- ----PILEKV -S--KGL--- ---------- GIAFSNA--K TWKEMRRFSL MTLRNFGMGK RSIEDRIQEE ARCLVEELRK 132
1dt6 69 ---------- ----SV---- ----PILEKV -SKGL----- ---------- GIAFSNA--K TWKEMRRFSL MTLRNFGMGK RSIEDRIQEE ARCLVEELRK 129
CSB2A* CSB2A** CSB2A CSB2B
1oxa 131 VGDS--G-VV DIVDRFAHPL PIKVICELLG V--------D EAARGAFGRW SSEIL-V--- ---------- MDP-ER-A-- EQRGQAAREV VNFILDLVER 201
1gwi 127 L--PADGGVV DLKAAFAYPL PMYVVADLMG IE-------E ARLPRLKVLF EKFF---ST- --Q------- ------TPPE E-VVATLTEL ASIMTDTVAA 197
1rom 127 K--GCANGPV DLVKEFALPV PSYIIYTLLG VP-------F NDLEYLTQQN AIRTN--GSS ---------- -------TAR E-ASAANQEL LDYLAILVEQ 197
1cpt 147 F-----DGEC DFMTDCALYY PLHVVMTALG VP-------E DDEPLMLKLT QDFFG-VE-- ---------- -------AAR R-FHETIATF YDYFNGFTVD 213
3cpp 136 Q------GQC NFTEDYAEPF PIRIFMLLAG LP-------E EDIPHLKYLT DQMTR----- ---------- ----PDGSM- -TFAEAKEAL YDYLIPIIEQ 201
1e9x 128 W---GEAGEI DLLDFFAELT IYTSSACLIG -KKFRDQLDG RFAKLYHELE RGTD-----P -LAYVD--PY LPIESF---R R-RDEARNGL VALVADIMNG 211
2hpd 134 N--A--DEHI EVPEDMTRLT LDTIGLCGF- NYRFNSFYRD QPHPFITSMV RALDEAMNKL QRANPDDPAY DEN------K RQFQEDIKVM NDLVDKIIAD 222
1pq2 132 T--K--ASPC DPTFILGCAP CNVICSVVF- QKRFD-YK-D QNFLTLMKRF NENFRILNSP WIQVCNNFPL LID-CFPGTH NKVLKNVALT RSYIREKVKE 223
1og5 130 T--K--ASPC DPTFILGCAP CNVICSIIF- HKRFD-YK-D QQFLNLMEKL NENIEILSSP WIQVYNNFPA LLD-YFPGTH NKLLKNVAFM KSYILEKVKE 221
1nr6 133 T--N--ASPC DPTFILGCAP CNVICSVIF- HNRFD-YK-D EEFLKLMESL HENVELLGTP WLQVYNNFPA LLD-YFPGIH KTLLKNADYI KNFIMEKVKE 224
1dt6 130 T--N--ASPC DPTFILGCAP CNVICSVIF- HNRFD-YK-D EEFLKLMESL HENVELLGTP ---------- -LD-YFPGIH KTLLKNADYI KNFIMEKVKE 210
CSB3 CSB4 CSB5
1oxa 202 RRTEPGD--- --DLLSALIS VQD--D--DD -G-RLSADEL TSIALVLLLA GFEASVSLIG IGTYLLLTHP DQLALVRADP ---------- --------SA 272
1gwi 198 KRAAPGD--- --DLTSALIQ ASE--N--G- -D-HLTDAEI VSTLQLMVAA GHETTISLIV NAVVNLSTHP EQRALVLSGE ---------- --------AE 267
1rom 198 RLVEPKD--- --DIISKLCT EQV--K--P- -G-NIDKSDA VQIAFLLLVA GNATMVNMIA LGVATLAQHP DQLAQLKANP ---------- --------SL 267
1cpt 214 RRSCPKD--- --DVMSLLAN SKL--D--G- -N-YIDDKYI NAYYVAIATA GHDTTSSSSG GAIIGLSRNP EQLALAKSDP ---------- --------AL 283
3cpp 202 RRQKPGT--- --DAISIVAN GQV--N--G- -R-PITSDEA KRMCGLLLVG GLDTVVNFLS FSMEFLAKSP EHRQELIERP ---------- --------ER 271
1e9x 212 RIANPPTDKS DRDMLDVLIA -VKAET--G- TP-RFSADEI TGMFISMMFA GHHTSSGTAS WTLIELMRHR DAYAAVIDEL DELYGDGRSV SFHALRQIPQ 306
2hpd 223 RKASGEQSD- --DLLTHMLN GKDPET--G- -E-PLDDENI RYQIITFLIA GHETTSGLLS FALYFLVKNP HVLQKAAEEA ARVLV-DPVP SYKQVKQLKY 313
1pq2 224 HQASLDVNNP R-DFIDCFLI KMEQ-EKDN- QKSEFNIENL VGTVADLFVA GTETTSTTLR YGLLLLLKHP EVTAKVQEEI DHVIGRHRSP CMQDRSHMPY 320
1og5 222 HQESMDMNNP Q-DFIDCFLM KMEK-EKHN- QPSEFTIESL ENTAVDLFGA GTETTSTTLR YALLLLLKHP EVTAKVQEEI ERVIGRNRSP CMQDRSHMPY 318
1nr6 225 HQKLLDVNNP R-DFIDCFLI KMEQ-E--N- -NLEFTLESL VIAVSDLFGA GTETTSTTLR YSLLLLLKHP EVAARVQEEI ERVIGRHRSP CMQDRSRMPY 318
1dt6 211 HQKLLDVNNP R-DFIDCFLI KMEQ-E--N- -NLEFTLESL VIAVSDLFGA GTETTSTTLR YSLLLLLKHP EVAARVQEEI ERVIGRHRSP CMQDRSRMPY 304
CSB6 CSB7A CSB7B
1oxa 273 LPNAVEEILR YIAPPETT-T RFAAEEVEIG G-VAIPQYST VLVANGAANR DPSQF-PDPH RFDVTR---D -----T---R G-------HL SFGQGIHFCM 351
1gwi 268 WSAVVEETLR FSTPTSHVLI RFAAEDVPVG D-RVIPAGDA LIVSYGALGR DERAHGPTAD RFDLTR---T --SGNR---- --------HI SFGHGPHVCP 349
1rom 268 APQFVEELCR YHTASALAIK RTAKEDVMIG D-KLVRANEG IIASNQSANR DEEVF-ENPD EFNMNR---K WP-P------ -----QD-PL GFGFGDHRCI 349
1cpt 284 IPRLVDEAVR WTAPVKSF-M RTALADTEVR G-QNIKRGDR IMLSYPSANR DEEVF-SNPD EFDITRF--P ----NR---- --------HL GFGWGAHMCL 362
3cpp 272 IPAACEELLR RFSLVAD--G RILTSDYEFH G-VQLKKGDQ ILLPQMLSGL DEREN-ACPM HVDFSR-Q-K ----V----- S-------HT TFGHGSHLCL 349
1e9x 307 LENVLKETLR LHPPLIIL-M RVAKGEFEVQ G-HRIHEGDL VAASPAISNR IPEDF-PDPH DFVPARY-EQ -P---RQEDL LNRWT---WI PFGAGRHRCV 395
2hpd 314 VGMVLNEALR LWPTAPAF-S LYAKEDTVLG GEYPLEKGDE LMVLIPQLHR DKTIWGDDVE EFRPERF-EN -----PSA-- I---PQHAFK PFGNGQRACI 401
1pq2 321 TDAVVHEIQR YSDLVPTGVP HAVTTDTKFR N-YLIPKGTT IMALLTSVLH DDKEF-PNPN IFDPGHF-LD -KNGNFKK-- S---D--YFM PFSAGKRICA 409
1og5 319 TDAVVHEVQR YIDLLPTSLP HAVTCDIKFR N-YLIPKGTT ILISLTSVLH DNKEF-PNPE MFDPHHF-LD -EGGNFKK-- S---K--YFM PFSAGKRICV 407
1nr6 319 TDAVIHEIQR FIDLLPTNLP HAVTRDVRFR N-YFIPKGTD IITSLTSVLH DEKAF-PNPK VFDPGHF-LD -ESGNFKK-- S---D--YFM PFSAGKRMCV 407
1dt6 305 TDAVIHEIQR FIDLLPTNLP HAVTRDVRFR N-YFIPKGTD IITSLTSVLH DEKAF-PNPK VFDPGHF-LD -ESGNFKK-- S---D--YFM PFSAGKRMCV 393
CSB8 CSB9 CSB10 CSB11 CSB12A
1oxa 352 GRPLAKLEGE VALRALFGRF PALSLGI--- --DADDVVWR R-SLLLRGID HL-PVRLDG- -------- 403
1gwi 350 GAALSRMEAG VALPALYARF PHLDLAV--- --PAAELRNK P-VVTQNDLF EL-PVRLA-- -----HHH 403
1rom 350 AEHLAKAELT TVFSTLYQKF PDLKVAV--- --PLGKINYT P-LNRDVGIV D-LPVIF--- -------- 399
1cpt 363 GQHLAKLEMK IFFEELLPKL KSVELSG--- -----PPRLV A-TN-FVGGP KNVPIRFTKA -------- 412
3cpp 350 GQHLARREII VTLKEWLTRI PDFSIAP--- --GA-QIQHK S-G-IVSGVQ A-LPLVWDPA TTKAV--- 405
1e9x 396 GAAFAIMQIK AIFSVLLREY E-FEMAQ--- PP--ESYRND HSK-MVVQLA QPACVRYR-R RT------ 449
2hpd 402 GQQFALHEAT LVLGMMLKHF D-FEDHT--- NY---ELDIK E-T-LTLKPE GF-VVKAKSK KIPLGG-- 457
1pq2 410 GEGLARMELF LFLTTILQNF N-LKSVDDLK NL---NTTAV TKG-IVSLPP SY-QICFIPV -------- 463
1og5 408 GEALAGMELF LFLTSILQNF N-LKSLVDPK NL---DTTPV VNG-FASVPP FY-QLCFIPV -------- 461
1nr6 408 GEGLARMELF LFLTSILQNF K-LQSLVEPK DL---DITAV VNG-FVSVPP SY-QLCFIPI -----H-- 462
1dt6 394 GEGLARMELF LFLTSILQNF K-LQSLVEPK DL---DITAV VNGFVSVPPS Y--QLCFIPI -----HH- 449
CSB12B CSB13A CSB13B CSB13
Figure 5-5 Alignement structural des 11 structures templates : P450eryF (1oxa), CYP 154C1 (1gwi), P450nor
(1rom), P450terp (1cpt), P450cam (3cpp), CYP 51 (1e9x), P450BM3 (2hpd), CYP 2C8 (1pq2), CYP 2C9 (1og5),
CYP 2C5 (1nr6), CYP 2C5 (1dt6). L’ordre des structures dans l’alignement a été établi arbitrairement. Les blocs
structuraux (CSBs) sont indiqués en blanc sur fond noir. La partie inter-bloc a été alignée à la main. La partie
N-terminale est souvent tronquée en raison de son alignement incertain. Le bloc 0 détecté sur le jeu de templates
dominé par les protéines microsomales est surligné en gris.
Les CSBs, une utilisation innovante ? 195
L’élaboration de ce jeu de blocs global ne change pas le positionnement des blocs « robustes ». Ils
permettent en revanche de trancher sur les incertitudes et désaccords entre les alignements des trois
différents jeux de blocs. En revanche, comme ce jeu de blocs global se base sur un compromis
séquentiel, il n’est pas certain que les sous-alignements obtenus seraient identiques à ceux obtenus par
une recherche 3D par GOK. En raison de la limite du logiciel à identifier les CSBs sur un nombre de
templates trop important, je n’ai pas pu effectuer cette vérification sur le jeu complet à 11 templates, et
j’ai considéré que le jeu de bloc global retraduisait correctement l’information 3D des CSBs, sachant
que les sous-alignements mis en commun provenaient eux-mêmes d’une identification 3D de blocs.
Au cours de la thèse, avec l’émergence de nouvelles méthodes ainsi que la puissance croissante
des machines de calcul, il a été enfin possible de déterminer des blocs structuralement conservés sur
l’ensemble des templates des P450s. En Avril 2007, 29 structures de P450 non redondantes étaient
présentes dans la PDB. Cette identification a été rendue possible par l’utilisation de l’outil GAKUSA,
développé par M.Carpentier (Université Paris VI) au cours de sa thèse, dont le principe repose sur le
« Gibbs Sampling » (cf. section 2.4.5.2 à la page 110). Les structures utilisées pour la recherche de
blocs conservés sont présentées sur le Tableau 3.2 à la page 141. Des 29 structures présentées sur ce
tableau, une structure a été finalement retirée car elle comportait trop de régions non résolues dans sa
structure, empêchant GAKUSA de déterminer correctement les CSBs. Il s’agit de la structure du CYPs
P450Oxyb (1lfk) d’origine bactérienne. Les résultats de la recherche de CSBs par GAKUSA sur
l’ensemble des templates différents disponibles dans la PDB sont montrés sur le Tableau 5.4.
Les CSBs identifiés par GAKUSA sur l’ensemble des templates différents de P450 disponibles
dans la PDB devaient servir initialement à vérifier la solidité ou l’incertitude des blocs du jeu global
présenté à la Figure 5-5 : quelles étaient les différences observables avec l’apport de nouveaux
templates (publiés en 2006 et 2007), et où étaient situées ces différences ?
196 Chapitre 5. Comparaison des méthodes
Tableau 5.4 Positions des blocs structuraux obtenus avec GAKUSA sur un jeu de 28 templates : la structure du P450Oxyb a été retirée
du jeu initial car elle comportait trop de régions manquantes. En première colonne, la nomenclature de P. Jean, basée sur l’alignement de 3
structures bactériennes, dans la deuxième colonne, la nomenclature de Poulos.
Initialement, je pensais que l’utilisation d’un jeu de templates plus important (28 structures contre
11 dans le jeu global) conduirait à l’obtention de blocs moins nombreux et plus courts. Les résultats
montrent que les blocs identifiés sous GAKUSA sont effectivement moins nombreux que dans le jeu
Les CSBs, une utilisation innovante ? 197
global (8 blocs identifiés contre 23 blocs sur le jeu global) mais de taille moyenne plus importante : la
plupart des blocs identifiés sous GOK se retrouvent agglomérés lors de l’identification par GAKUSA.
Ainsi, les blocs de la série 1 sont à présents réunis en un seul bloc de 25 résidus. Il en de même pour
les blocs de la série 7 et 13. À noter que les blocs identifiés par GAKUSA bouleversent un peu la
nomenclature mise en place par P. Jean : certains blocs correspondent à une réunification de blocs de
séries voisines. C’est le cas par exemple du second bloc déterminé par GAKUSA dans le tableau, qui
réunit le bloc CSB2B et le bloc CSB3 (d’autres exemples sont observés, voir Tableau 5.4).
Toutefois, l’utilisation de GAKUSA est limitée dans la recherche exhaustive de tous les blocs
identifiés sous GOK : la version actuelle du programme ne permet pas d’identifier les blocs de la
boucle B–C (incluant l’hélice B’) et les hélices F, G, H. À l’instar de GOK, GAKUSA identifie
chaque bloc pas à pas. Lorsqu’un résultat de bloc n’est pas convenable, il faut recommencer la
recherche depuis la toute première étape, et modifier les paramètres de recherche une fois à l’étape
précédant celle qui aboutissait à un résultat non convenable11. Schématiquement, lorsque le résultat de
bloc n’est pas satisfaisant à l’étape 5, il faut repartir de l’étape 1 et modifier les paramètres une fois à
l’étape 4. Ces blocs jugés non convenables, correspondent en fait à ceux présentant des morceaux
d’hélices de certains templates qui devraient constituer un bloc X, et qui se retrouvent finalement
attribués avec les hélices des autres structures au niveau d’un bloc Y. Par exemple, l’hélice F de la
structure du P450OxyC est identifiée dans le bloc des hélices H pour les autres structures. Cet exemple
illustre d’ailleurs la dernière étape où il n’a plus été possible d’aller plus loin pour identifier de
nouveaux blocs sans avoir ce cas de figure (autrement dit, il est possible d’identifier d’autres blocs
mais ils comprennent des erreurs d’attribution). La difficulté à identifier correctement les blocs dans
ces régions est probablement liée à la similarité des trajectoires en coordonnées internes (α,τ) –hélices
principalement– ainsi que la variabilité des éléments de structures secondaires au niveau de ces
régions (hélice B’ parfois déstructurée et à des positions variables le long de la boucle B–C, et les
hélices F et G sont variables).
11
À la différence de GOK qui utilise des paramètres de maille et de marge, GAKUSA utilise un paramètre de
longueur de bloc à ajuster.
198 Chapitre 5. Comparaison des méthodes
Best score for this pattern scaled to len= 21 F=1116.82132 G/free param= 1.29120
1CPT OXIDOREDUCTASE(OXYGENASE) ALADTEVRGQNIKRGDRIMLS 321 341
1IO7 OXIDOREDUCTASE TKERVKLGDQTIEEGEYVRVW 261 281
1N40 OXIDOREDUCTASE ATADIQVGDVLVRKGELVLVL 288 308
1N97 ELECTRON TRANSPORT LERPLLLGEDRLPPGTTLVLS 275 295
1IZO OXIDOREDUCTASE VKKDFVWNNCEFKKGTSVLLD 297 317
1GWI OXIDOREDUCTASE AAEDVPVGDRVIPAGDALIVS 297 317
1Q5D OXIDOREDUCTASE ARQDLEYCGASIKKGEMVFLL 309 329
1RE9 OXIDOREDUCTASE LTSDYEFHGVQLKKGDQILLP 291 311
1S1F OXIDOREDUCTASE ALEDVEIKGVRIRAGDAVYVS 297 317
2IAG ISOMERASE AMPMADGREFNLRRGDRLLLF 366 386
1UE8 STRUCTURAL GENOMICS, UNKNOWN FUNCTION TKEKVKIRDQVIDEGELVRVW 261 281
1UED OXIDOREDUCTASE AIKDVVIDGQLIKAGDYVLCS 300 320
1X8V OXIDOREDUCTASE AKGEFEVQGHRIHEGDLVAAS 328 348
1Z8O OXIDOREDUCTASE AAEEVEIGGVAIPQYSTVLVA 295 315
2CD8 OXIDOREDUCTASE PVEPVDLDGTVIPAGDTVLVV 298 318
2OJD OXIDOREDUCTASE TSEDAVVRGYSIPKGTTVITN 383 403
2FR7 OXIDOREDUCTASE TTRDVELAGATIGEGEKVLMF 305 325
1ODO OXIDOREDUCTASE VTDIALPDGRTIARGEPILAS 298 318
2IJ2 OXIDOREDUCTASE KEDTVLGGEYPLEKGDELMVL 336 356
1JFB OXIDOREDUCTASE AKEDVMIGDKLVRANEGIIAS 294 314
2FDU OXIDOREDUCTASE VKKDTKFRDFFLPKGTEVYPM 374 394
1SUO OXIDOREDUCTASE VTKDTQFRGYVIPKNTEVFPV 371 391
1PQ2 OXIDOREDUCTASE VTTDTKFRNYLIPKGTTIMAL 370 390
1R9O OXIDOREDUCTASE VTCDIKFRNYLIPKGTTILIS 370 390
1NR6 OXIDOREDUCTASE VTRDVRFRNYFIPKGTDIITS 367 387
2F9Q OXIDOREDUCTASE TSRDIEVQGFRIPKGTTLITN 378 398
2HI4 OXIDOREDUCTASE TTRDTTLNGFYIPKKCCVFVN 390 410
1TQN OXIDOREDUCTASE CKKDVEINGMFIPKGVVVMIP 377 397
Figure 5-6 Exemple de sortie de GAKUSA pour le bloc 9-10A (β1-4/β2-1/β2-2). La première partie du résultat (en
haut) correspond à la description des templates, leurs séquences respectives au niveau du bloc identifié ainsi que
les positions du bloc sur les templates. La partie du bas correspond à l’alignement des angles α à chaque position
du bloc (valeurs discrètes de 0 à 35 par tranches de 10° d’angle). Dans cet exemple, on peut voir l’effet de
« moyenne » exercé dans la sélection des blocs, par exemple la dixième structure (2iag) montre à la position 5 un
angle α très écarté de la moyenne de la colonne, de même dans d’autres positions du début de bloc. Pourtant, ce
bloc est sélectionné parce que le score global sur tout le bloc reste favorable. Dans GOK, une position divergente
comme cet exemple suffirait à provoquer une rupture de blocs, ce qui explique le morcellement et la taille des
blocs dans les deux méthodes.
Ce qui est nouveau par rapport aux blocs identifiés par GOK, c’est la longueur trouvée pour
chaque bloc : est-ce un artefact du logiciel (lié aux paramètres trop « permissifs » fournis par
l’utilisateur) ? Peut-on attribuer une interprétation possible à cette observation ? Il existe en effet sous
Les CSBs, une utilisation innovante ? 199
GAKUSA des paramètres semblables à la maille de GOK mais ces paramètres sont réglés par défaut
pour être « stringent » et GAKUSA ne permet pas la détection de nombreux blocs. Dans la version
actuelle du programme, il n’est possible d’attribuer ce paramètre qu’une seule fois, au lancement du
programme. Ainsi, j’ai dû utiliser un paramètre moins « stringent » que ceux définis par défaut, ce qui
a permis de détecter plus de blocs, de taille plus importante. Par ailleurs, la similarité des trajectoires
communes semble plus marquée lorsque l’on dispose de plus de templates : avec seulement deux
templates, les différences dans les trajectoires sont facilement décelées tandis qu’avec un jeu plus
conséquent de templates, il y a un effet de « moyenne » (lié au calcul de score) qui tend à atténuer les
écarts des valeurs des angles (α,τ) trouvées (cf. Figure 5-6). Les templates pris séparément peuvent
être un peu divergents au niveau de ces blocs, mais pris ensemble, présentent des régions
structuralement conservées au niveau des blocs.
Ainsi, les blocs obtenus par GAKUSA soulèvent de nombreux points de discussion : les matrices
PSSMs générées à partir de ces blocs seront-elles plus informatives que celles issues préalablement
sous GOK ? On peut le penser dans la mesure où elles sont issues d’un jeu de templates global, à
savoir toutes les structures non redondantes. Cependant, une telle longueur de bloc supposerait
implicitement une même longueur de la zone concernée pour toutes les structures inédites de P450
(non référencées encore dans la PDB). Le problème de longueur ne pose en pratique aucun problème :
Caliseq repose sur une programmation dynamique et cherche le meilleur positionnement pour les
blocs, quitte à introduire des gaps dans la séquence cible. Ainsi, la réunion des blocs présente
l’avantage d’éviter les alignements « imprécis » pour les blocs en N- et C-terminal par exemple. Le
positionnement d’un long bloc sur la séquence cible pourrait être plus robuste que le positionnement
de trois petits blocs. En effet, les trois blocs se positionneront au mieux sur la séquence cible, sachant
que les gaps ne sont pas pénalisés pour leur glissement, pouvant conduire à de mauvais placements des
blocs. Au contraire, pour positionner le bloc long, il faudra introduire des gaps dans la séquence cible,
qui ont un coût et la longueur du bloc impose une délimitation naturelle de positionnement pour le
bloc. Par exemple, lorsque deux blocs identifiés par GOK sont contigus au niveau d’une SSE, ces
blocs peuvent être séparés entraînant la perte de la SSE présent à cheval sur les deux blocs. Ce
problème n’existera pas en revanche sous GAKUSA, qui intègrera les deux blocs identifiés par GOK
en un seul bloc.
200 Chapitre 5. Comparaison des méthodes
Tableau 5.5 Liste des logiciels d’alignement structuraux utilisés pour évaluer les CSBs identifiés par GOK. Excepté le logiciel Matras
qui n’accepte qu’une comparaison de 9 templates, les alignements structuraux par ces logiciels ont été opérés sur les 11 structures template
du jeu global.
Logiciel Description Année Descriptif Référence Lien internet
utilisé
MultiProt Multiple Alignment of Protein 2004 Géométrie Shatsky et al., 2004 http://bioinfo3d.cs.tau.ac.il/MultiProt
Structures
SSM Secondary Structure Matching 2003 SSE Krissinel et Henrick, 2004 http://www.ebi.ac.uk/msd-srv/ssm/
Structure
Vorolign Fast structure alignment using 2007 Cellules de Birzele et al., 2007 http://www.bio.ifi.lmu.de/Vorolign/
NC : Non communiqué
Contrairement à l’outil GOK qui ne fournit que les fragments de séquences structuralement
conservées sur un ensemble de templates, la plupart des autres logiciels utilisés montre le résultat de
l’alignement structural sous forme d’un alignement global de séquences. Pour effectuer des
comparaisons avec les résultats de GOK, des blocs structuralement conservés ont été prélevés de ces
alignements multiples résultants : on peut en effet assimiler à des blocs CSB les régions de
l’alignement dépourvues de gap sur l’ensemble des templates issus des autres logiciels (du Tableau
5.5).
Les CSBs, une utilisation innovante ? 201
1oxa 1 ---------- ---------A -TV-----PD ---LE--SDS FHV--D---- -WYSTYAELR ET-A---PVT PV-R-FL-G- QDAWLVTGYD EAKAAL-SD- 53
1gwi 1 ---------- ---------- -AR-----IP ---LD--PF- -VT--D---- -LDGESARLR AA-G---PLA AV-E-LPGG- VPVWAVTHHA EAKALL-TD- 51
1rom 1 ---------- ---------- --A-----PS ---FP--FS- -RA--S---- GPE-PPAEFA KL-RATNPVS QV-K-LFDG- SLAWLVTKHK DVCFVA-TS- 53
1cpt 1 ---MDARA-- ---------T IPEH---IAR -TVIL--PQG YADDEV---- -IYPAFKWLR DE-Q---PLA MAHIE---GY DPMWIATKHA DVMQIG-KQ- 66
3cpp 1 --------NL APLPPHVPEH -LV-----FD ---FDMYNPS NLS--AGVQE -AWAVLQE-- SNVP---DLV WT-R-CN--- GGHWIATRGQ LIREAY-ED- 68
1e9x 1 MS-AVALP-- ---------R VSGGHDEHGH L-EEFR--TD PIG---L--- -MQRVRDE-- -C-G---DVG TFQLA---G- KQVVLLSGSH ANEFF-FRAG 66
2hpd 1 --TIKEMP-- ---------Q PKTFGELKNL PLLNT--DKP VQ---A---- -LMKIADE-- -L-G---EIF KFEAP---G- RVTRYLSSQR LIKEA--CD- 63
1og5 1 ------PP-- ---------G PTPLPVIGNI LQIGI--KDI SK---S---- -LTNLSKV-- -Y-G---PVF TLYFG---L- KPIVVLHGYE AVKEA-LIDL 61
1nr6 1 ---GKLPP-- ---------G PTPFPIIGNI LQIDA--KDI SK---S---- -LTKFSEC-- -Y-G---PVF TVYLG---M- KPTVVLHGYE AVKEA-LVDL 64
MCSB1* MCSB1** MCSB1
1oxa 53 -L-RLSSDPK K---KYPGVE V--EFP---A --Y---L--- GF--PEDVRN YF----A-TN MGTSDPPT-- HTRLRKLVSQ EFTVRRV--E AMRPRVEQIT 124
1gwi 51 -P-RLVKDIN VWGAWRRGEI PADWPL-IGL --A------- --------N- -P----G-RS MLTVDGAE-- HRRLRTLVAQ ALTVRRV--E HMRGRITELT 120
1rom 53 -E-KLSKVRT R-QGF----- --PELS-ASG --K------- --------Q- -A--AKAKPT FVDMDPPE-- HMHQRSMVEP TFTPEAV--K NLQPYIQRTV 117
1cpt 67 PG-LFSNA-- ---------- E--GSE---I -LYDQNN-EA FMRSISGGCP HV----I-DS LTSMDPPT-- HTAYRGLTLN WFQPASI--R KLEENIRRIA 137
3cpp 68 -YRHFSSEC- ---------- ----P----F --I---PR-- EA--GE--A- -Y----D-FI PTSMDPPE-- QRQFRALANQ VVGMPVV--D KLENRIQELA 126
1e9x 67 DD-DL----- ---------- ---DQAK--A -YP------- -F-------M TPIF--G-EG VV-FDASP-- ERRKEMLHNA ALRGEQM--K GHAATIEDQV 121
2hpd 64 ES-RFDK--- ---------- ---NLSQ--A -LK------- -F-------V RDFA--G-DG LFTSWTHEKN WKKAHNILLP SFSQQAM--K GYHAMMVDIA 123
1og5 62 GE-EFS---- ---------- ---GRGI--- -FP------- -L-------A ERAN-RG-FG IVFSNGKK-- WKEIRRFSLM TLRNFGMGKR SIEDRVQEEA 120
1nr6 65 GE-EFA---- ---------- ---GRGS--- -VP------- -I-------L EKVS-KG-LG IAFSNAKT-- WKEMRRFSLM TLRNFGMGKR SIEDRIQEEA 123
MCSB2A** MCSB2A MCS2B
1oxa 125 AELLDEV--- GD--S--GVV DIVDRFAHPL PIKVICE-LL GVDE-A---- -A---RGAFG RWSSE-IL-- V--------- ---------M DP-ERAE-QR 184
1gwi 121 DRLLDEL--- PA-DG--GVV DLKAAFAYPL PMYVVAD-LM GIEE-A---- -RLPRLKVLF EKFFS----- T--------- ---------- Q--TPPE-EV 180
1rom 118 DDLLEQM-KQ KGCAN--GPV DLVKEFALPV PSYIIYT-LL GVPF-N---- -DLEYLTQQN AIRTN----- G--------- ---------- S--STAR-EA 180
1cpt 138 QASVQRLL-- DF--D--GEC DFMTDCALYY PLHVVMT-AL GVPE-D---- -D---EPLML KLTQDFFG-- V--------- ---------- -E---AARR- 195
3cpp 127 CSLIESL--- RP--Q--GQC NFTEDYAEPF PIRIFML-LA GLPE-E---- -D---IPHLK YLTDQ-MT-- R--------- ---------P D--GSM--TF 184
1e9x 122 RRMIA----- DW--GEAGEI DLLD-FFAEL TIYTSSACLI GKKFR----D QL---DGRFA KLYHELER-G TDPLAYVDP- ---YL--PI- --E--SFRR- 193
2hpd 124 VQLVQKWE-- RL--NADEHI EVPE-DMTRL TLDTIGL-CG FNYRFNSFYR DQ---PHPFI TSMVRALDEA MN---KLQ-R A-NPDDPAY- -DE--NKRQ- 204
1og5 121 RCLVEELR-- KT--K-ASPC DPTF-ILGCA PCNVICS-II FHKRFD-YKD QQ---FLNLM EKLNENIEIL SSPWIQVYNN FPALLD-YF- -PG--THNK- 203
1nr6 124 RCLVEELR-- KT--N-ASPC DPTF-ILGCA PCNVICS-VI FHNRFD-YKD EE---FLKLM ESLHENVELL GTPWLQVYNN FPALLD-YF- -PG--IHKT- 206
CSB3A CSB3B CSB3C CSB4
1oxa 185 G--QAAREVV NFILDLVERR RTE-----PG DDLLSALISV QD--D--DD- G-RLSADELT SIALVLLLAG FEASVSLIGI GTYLLLTHPD QLALVRADP- 270
1gwi 181 V--ATLTELA SIMTDTVAAK RAA-----PG DDLTSALIQA SE--N--G-- D-HLTDAEIV STLQLMVAAG HETTISLIVN AVVNLSTHPE QRALVLSGE- 265
1rom 181 S--AANQELL DYLAILVEQR LVE-----PK DDIISKLCTE QV--K--P-- G-NIDKSDAV QIAFLLLVAG NATMVNMIAL GVATLAQHPD QLAQLKANP- 265
1cpt 196 FHET-IATFY DYFNGFTVDR RSC-----PK DDVMSLLANS KL--D--G-- N-YIDDKYIN AYYVAIATAG HDTTSSSSGG AIIGLSRNPE QLALAKSDP- 281
3cpp 185 A--EAKEALY DYLIPIIEQR RQK-----PG TDAISIVANG QV--N--G-- R-PITSDEAK RMCGLLLVGG LDTVVNFLSF SMEFLAKSPE HRQELIERP- 269
1e9x 194 RDEA-RNGLV ALVADIMNGR IANPPTDKSD RDMLDVLIA- VKAET-GT-- PR-FSADEIT GMFISMMFAG HHTSSGTASW TLIELMRHRD AYAAVIDELD 287
2hpd 205 FQED-IKVMN DLVDKIIADR KASG-E--QS DDLLTHMLNG KDPET--G-- E-PLDDENIR YQIITFLIAG HETTSGLLSF ALYFLVKNPH VLQKAAEEAA 295
1og5 204 LLKN-VAFMK SYILEKVKEH QESM-DMNNP QDFIDCFLMK MEK-EKHN-Q PSEFTIESLE NTAVDLFGAG TETTSTTLRY ALLLLLKHPE VTAKVQEEIE 299
1nr6 207 LLKN-ADYIK NFIMEKVKEH QKLL-DVNNP RDFIDCFLIK MEQ-E--N-- NLEFTLESLV IAVSDLFGAG TETTSTTLRY SLLLLLKHPE VAARVQEEIE 299
MCSB5 MCSB6 MCSB7
1oxa 270 ---------- --------SA LPNAVEEILR YIAPPETT-T -RFAAEEVEI G-GVAIPQYS TVLVANGAAN RDPSQFP--D PHRFDVTR-- -D-----T-- 337
1gwi 265 ---------- --------AE WSAVVEETLR FSTPTSHV-L IRFAAEDVPV G-DRVIPAGD ALIVSYGALG RDERAHG-PT ADRFDLTR-- -T-----S-- 334
1rom 265 ---------- --------SL APQFVEELCR YHTASALA-I KRTAKEDVMI G-DKLVRANE GIIASNQSAN RDEEVFE--N PDEFNMNR-- -KW----P-- 334
1cpt 281 ---------- --------AL IPRLVDEAVR WTAPVKSF-M -RTALADTEV R-GQNIKRGD RIMLSYPSAN RDEEVFS--N PDEFDITR-- FP-----N-- 349
3cpp 269 ---------- --------ER IPAACEELLR RFSLV-AD-G -RILTSDYEF H-GVQLKKGD QILLPQMLSG LDERENA--C PMHVDFSR-Q -K-----V-- 336
1e9x 288 ELYGDGRSVS -FHALRQIPQ LENVLKETLR LHPPLIIL-M -RVAKGEFEV Q-GHRIHEGD LVAASPAISN RIPEDFP--D PHDFVPARY- EQ-P---RQE 376
2hpd 296 RVLV-DPVPS YKQ-VKQLKY VGMVLNEALR LWPTAPAF-S -LYAKEDTVL GGEYPLEKGD ELMVLIPQLH RDKTIWGD-D VEEFRPERF- EN-----PS- 383
1og5 300 RVIGRNRSPC MQD-RSHMPY TDAVVHEVQR YIDLLPTSLP -HAVTCDIKF R-NYLIPKGT TILISLTSVL HDNKEFP--N PEMFDPHHF- LD-EGGNFK- 391
1nr6 300 RVIGRHRSPC MQD-RSRMPY TDAVIHEIQR FIDLLPTNLP -HAVTRDVRF R-NYFIPKGT DIITSLTSVL HDEKAFP--N PKVFDPGHF- LD-ESGNFK- 391
MCSB8 MCSB9 MCSB10 MCSB11
1oxa 337 ---R-G---- HLSFGQGIHF CMGRPLAKLE GEVALRALFG RFPALSLGI- ----DAD-DV VWRR-SLLLR GID-HLPVRL D--G------ ------ 403
1gwi 334 --GN-R---- HISFGHGPHV CPGAALSRME AGVALPALYA RFPHLDLAV- ----PAA-EL RNKP-VVTQN DLF-ELPVRL A--H-H-H-- ------ 403
1rom 334 --PQ-D---- PLGFGFGDHR CIAEHLAKAE LTTVFSTLYQ KFPDLKVAV- ----PLG-KI NYTP-LNRDV GIV-DLPVIF ---------- ------ 399
1cpt 349 -----R---- HLGFGWGAHM CLGQHLAKLE MKIFFEELLP KLKSVELSG- --------PP RLVA-TNFVG GPK-NVPIRF T--KA----- ------ 412
3cpp 336 -----S---- HTTFGHGSHL CLGQHLARRE IIVTLKEWLT RIPDFSIAP- ----GA--QI QHKS-G-IVS GVQ-ALPLVW DPAT--TKAV ------ 405
1e9x 377 DL--LNRW-T WIPFGAGRHR CVGAAFAIMQ IKAIFSVLLR EYE-FEMAQ- --PP---ESY RNDHSK---M VVQLAQPACV RYR--RR--- --T--- 449
2hpd 383 -A---IPQHA FKPFGNGQRA CIGQQFALHE ATLVLGMMLK HFD-FEDHT- --NY----EL DIKE-T-LTL KPE-GFVVKA K--SK----- KIPLGG 457
1og5 391 -K---SK--Y FMPFSAGKRI CVGEALAGME LFLFLTSILQ NFN-LKSLVD PKNL----DT TPVVNG-FAS VPP-FYQLCF I--PV----- ------ 461
1nr6 391 -K---SD--Y FMPFSAGKRM CVGEGLARME LFLFLTSILQ NFK-LQSLVE PKDL----DI TAVVNG-FVS VPP-SYQLCF I--PI----- H----- 462
MCSB12 MCSB13A MCSB13B MCSB13 MCSB13C
Figure 5-7 Identification des « blocs » conservés (MCSB) sur un alignement effectué sous Matras de 9
templates similaires à celui de la Figure 5-5 sans la structure du CYP 2C8 (1pq2) et du CYP 2C5 (1dt6) en raison
de la limitation de nombre de structures à aligner sous Matras. La numérotation des MCSBs suit la nomenclature
de P. Jean. Les structures retirées ont été choisies de façon à ne pas supprimer trop d’informations structurales : le
CYP 2C9 (1og5) et le CYP 2C5 (1nr6) figurent encore dans l’alignement. Les MCSBs correspondent aux régions
de l’alignement sans gap à l’exception du MCSB1*, où j’ai autorisé la présence d’un gap dans la structure du
P450nor (1rom). Les régions identifiées sont situées non loin des CSBs identifiés par GOK, à quelques décalages
près : elles portent en conséquence les mêmes désignations. Dans certains cas, il a fallu ajouter des numérotations,
comme pour le MCSB3 qui est en trois « blocs » ici au lieu de un dans l’alignement sur la Figure 5-5.
Les templates utilisés sont les mêmes que ceux du jeu de blocs global à 11 templates. En raison de la
limitation du serveur Matras à 10 templates12, les structures 1dt6 (CYP 2C5) et 1pq2 (CYP 2C8) ont
été écartées de l’alignement. Le choix s’est porté sur ces deux structures en raison de l’existence d’une
autre structure de CYP 2C5 (1nr6) incluse dans l’alignement structural, ainsi que la présence d’une
structure de CYP 2C9, très similaire à la structure du CYP 2C8.
En 2005, J. Mestres (Mestres, 2005) a publié un alignement séquentiel pour les P450s basés sur
leurs informations structurales. L’information de similarité structurale a été évaluée cette fois-ci par
une approche Gaussienne, implémentée par un programme maison d’alignement structural GAPS
(pour Gaussian-based Alignment of Protein Structures) (Mestres, 2000). Dans ses travaux, J. Mestres a
utilisé un total de 12 templates de P450s, dont 10 sont communs avec ceux du jeu global (à 11
templates) : cela facilite la comparaison avec notre alignement en comparant les « blocs » prélevés de
son alignement multiple aux CSBs issus de GOK. Les templates utilisés par J. Mestres sont présentés
au Tableau 5.6 et l’alignement est présenté en Figure 5-8.
Tableau 5.6 Liste des Cytochromes P450 utilisés par J. Mestres pour ses analyses (source Mestres, 2005).
Note : Les classes utilisées ici, sont ceux de la nomenclature à 4 classes (cf. section 1.2.2.1, page 25)
12
Seuls 9 templates sur les 10 autorisés par le serveur Matras ont été utilisés. Une place de réserve a été laissée à
une dixième structure pouvant servir à « caler » l’alignement des templates sur la structure d’une séquence
proche de la séquence cible, ou même, celle de la séquence cible, lorsqu’elle était disponible. Je reviendrai sur ce
point ultérieurement.
Les CSBs, une utilisation innovante ? 203
Figure 5-8 Alignement séquentiel de J. Mestres, basé sur des informations de structures de 9 P450s (source
Mestres, 2005). Les noms des SSEs sont reportés au dessus des séquences et les SRS en dessous. Les
surlignements correspondent à des valeurs de RMSD inférieures à 2 Å. Les caractères en minuscule correspondent
à une valeur de RMSD > 3 Å, et en majuscule < 3 Å. Ainsi, les zones surlignées et en majuscule peuvent être
assimilées à des blocs CSBs
204 Chapitre 5. Comparaison des méthodes
On retrouve ces caractéristiques dans l’alignement de J. Mestres (cf. Figure 5-8). Dans ce dernier
sont indiquées les régions à forte valeur de RMSD (séquence écrite en minuscule) et les régions à
faible valeur de RMSD (séquence écrite en majuscule) qui correpondent donc à des régions
structuralement conservées, comparables aux blocs identifiés sous GOK. Ainsi, la région
correspondant au bloc CSB1* (hélice A) ne peut pas être assimilée à un bloc (RMSD > 3Å). En
revanche, la région correspondant au bloc CSB1** est trouvée pour un RMSD de moins de 3Å dans le
jeu de structures de J. Mestres, et peut donc être assimilée à un bloc, relativement court. La région
comprenant les CSB2A (boucle B–C) n’est pas identifiable dans son alignement. Il en est de même
pour les CSB correspondant aux hélices F, G et H ainsi que les régions C-terminales. On voit donc que
les blocs qui posaient des problèmes de désaccord entre les différentes méthodes, ne sont pas
assimilables à des blocs dans cet alignement. À noter que l’hélice H aussi n’est pas conservée dans cet
alignement, comme dans le cas de GAKUSA, tandis que les autres méthodes parviennent à identifier
cette hélice comme un bloc dont les sous-alignements sont assez en accord entre les différentes
méthodes.
Encore une fois, les mêmes régions, sources de désaccord, posent problème : aucune des
méthodes utilisées n’a donné le même sous-alignement pour ces régions. Pourtant, les éléments
structuraux dans ces régions semblent conservés, puisque toutes les méthodes (même celle de
J. Mestres) proposent un sous-alignement dépourvu de gap dans ces zones. Il est délicat ici de
déterminer le meilleur alignement, dans la mesure où les alignements dépendent d’algorithmes
différents.
Caliseq et les autres méthodes d’alignement 205
En conclusion, mis à part GAKUSA, les logiciels d’alignement structuraux (présenté au Tableau
5.5) permettent d’identifier les mêmes CSBs que GOK, quel que soit le descriptif utilisé pour
l’alignement de séquences. Avec environ 10 ans d’antériorité, GOK montre qu’il n’est pas contredit :
la notion de CSBs (du moins chez les P450s) est donc maintenue et valide quelle que soit la méthode
sollicitée. Ainsi, les logiciels disponibles aujourd’hui en ligne pourraient servir de méthodes
alternatives à GOK dans la détection de CSBs, notamment pour valider un sous-alignement d’un CSB
(dans le cas bien sûr où les blocs proposés sont en accord entre les méthodes, ce qui n’est pas le cas
pour certaines régions des P450s).
Une fois les blocs structuraux définis, Caliseq réalise le positionnement des sous-alignements de
ces blocs sur une séquence cible ou son pré-alignement avec des séquences homologues à fort taux
d’identité. Il est d’ailleurs préférable d’utiliser un pré-alignement de séquences à une séquence cible
unique13 : en effet, même si les séquences de ce pré-alignement sont très semblables, une variabilité
des résidus alignés à certaines positions peut exister. Cette variabilité est importante pour
l’enrichissement des profils dans le programme Caliseq. Ainsi, Caliseq ne conduit pas toujours à un
même positionnement des blocs selon qu’ils ont été alignés sur une séquence cible unique ou sur un
pré-alignement de séquences. Il est d’ailleurs intéressant de constater que les blocs dont le
positionnement diffère selon l’utilisation d’une séquence cible unique ou d’un pré-alignement,
correspondent à certains blocs précédemment cités qui étaient source de désaccord entre les différentes
méthodes d’alignement structural. Cette remarque souligne le caractère « flottant » de ces blocs.
L’étape de positionnement des blocs n’est en réalité qu’une étape préalable à l’obtention d’un
alignement multiple final, qui servira de point de départ pour la reconstruction du modèle. En effet, le
positionnement des blocs sur la séquence cible n’est qu’un alignement partiel : toute la partie inter-
bloc doit être complétée par la suite, et ce, sans information spécifique. Selon l’importance que
l’utilisateur portera sur ces régions inter-blocs, cette manipulation peut s’avérer délicate. D’ailleurs,
c’est la principale contrainte de la modélisation par blocs.
13
Sauf lors de la recherche de P450s dans les banques de séquences où les blocs sont positionnés sur une seule
séquence, permettant ainsi de déterminer (selon le score d’alignement) si elle est reconnue ou non comme un
P450. Voir la section 4.2.3.
206 Chapitre 5. Comparaison des méthodes
5.3.2.1 Nomenclature
En vue de valider les alignements produits par Caliseq, on se propose de les évaluer par rapport à
des alignements produits par d’autres logiciels académiques, pouvant servir eux aussi à la
reconstruction de modèles de CYP. Pour des raisons de commodité d’explication, il convient d’établir
une nomenclature pour tous les jeux de templates, qui sera utilisée jusqu’à la fin de ce chapitre.
Chaque jeu diffère par la méthode d’alignement utilisée, méthodes qui seront présentés dans la section
suivante. La nomenclature est présentée dans le Tableau 5.7.
Tableau 5.7 Nomenclature pour désigner les jeux de templates utilisés pour construire les modèles. Pour certains logiciels (Matras ou
HHpred) il n’a pas été possible de reprendre exactement les templates de référence de la thèse (A,B,C ou D) : un sous ensemble a été alors
utilisé ou même un nouveau jeu (jeu G pour HHpred)
A 6 Templates de N. Loiseau GOK (3D) / Clustalw (1D) P450eryF, P450BM3, P450cam, P450nor, P450terp, CYP 2C5
B 4 Templates de M. Cottevieille GOK (3D) / Clustalw (1D) P450eryF, P450BM3, CYP 51, CYP 2C5
C 6 Templates TA. NGUYEN GOK (3D) / Clustalw (1D) P450eryF, P450BM3, CYP 154C1, CYP 2C5, CYP 2C8, CYP 2C9
E 28 Templates représentatifs des P450s GAKUSA (3D) P450eryF, P450BM3, P450cam, P450nor, P450terp, P450OxyC,
P450epok, P450st, P450PIKC, CYP 51, CYP 119, CYP 121,
CYP 152A1, CYP 154A1, CYP 154C1, CYP 158A2, CYP 175A1,
CYP 199A2, CYP 2A6, CYP 2B4, CYP 2C5, CYP 2C8, CYP 2C9,
CYP 2D6, CYP 3A4, CYP 8A1, CYP 2R1, CYP 1A2
F 4 Templates (sous ensemble du jeu C) HHpred (HMM) Jeu C – {CYP 2C5, CYP 2C8}
H 10 Templates (variante de F∪G) Hhpred (HMM) CYP 2B4, CYP 2C9, CYP 51, CYP 154C1, CYP 154 A1,
CYP 175A1, P450BS, P450BM3, P450eryF, P450terp
Note 1 : Le jeu D’ correspond au 11 templates du jeu D privé de la structure du 1pq2 (CYP 2C8) et 1dt6 (CYP 2C5) en raison
de la limitation des templates utilisables par le serveur pour produire l’alignement. Un 10ème template peut être utilisé
pour permettre l’alignement sur la séquence cible (le template pouvant être soit la structure d’une séquence proche
de la séquence cible, soit le structure de la séquence cible, lorsqu’elle est disponible)
Note 2 : Le jeu E est différent de celui présenté au Tableau 3.2, page 141. La structure du P450OxyB a été retirée car elle
comportait trop de régions non résolues.
Note 3 : Le jeu H est une variante du jeu commun F et G. Il correspond à l’union des templates de F et G et comprend
également 6 autres structures proposées par HHpred. Ce jeu H offrait la possibilité d’avoir les alignements avec tous
les templates de l’époque (2005). Il s’agit du cas où le CYP 3A4 a été soumis en requête.
Caliseq, en le comparant à ceux obtenus avec les autres méthodes. Parmi celles que nous avons
retenues, il y a les méthodes simples d’alignement de séquences comme Clustalw, des méthodes plus
complexes basées sur les HMM comme HHpred, et des méthodes d’alignements basées sur
l’information structurale, comme Matras. Pour tous les logiciels d’alignement, les templates de nos
jeux de blocs ont été utilisés à chaque fois que cela était possible pour comparer l’alignement par
Caliseq aux alignements effectués par les autres méthodes. Pour certains logiciels en revanche
(HHpred ou Matras), il n’a pas été possible d’utiliser la totalité des templates d’un jeu donné (jeu D’,F,
ou G) : à la place, un sous ensemble a été utilisé (respectivement, D, C, ou B), et parfois même un jeu
original a été créé (jeu G).
Le logiciel Clustalw (cf. section 2.4.2.2 sur les méthodes heuristique, à la page 92), réalise un
alignement basé exclusivement sur les informations de séquences primaires des templates. Sa grande
simplicité et son accessibilité se révèlent suffisants et adaptés pour des analyses d’évolution et de
construction d’arbres phylogénétiques.
Matras (section 2.4.3.3) correspond à une méthode d’alignement structural (à descriptif SSE) qui
fournit en résultat un alignement de séquences. L’inconvénient lors de l’utilisation de Matras est d’une
part sa limitation du nombre de structures templates utilisables pour l’alignement (10 templates au
maximum), et d’autre part l’impossibilité d’incorporer dans l’alignement la séquence cible du P450 à
reconstruire lorsque sa structure est inconnue. En effet, Matras utilise les structures disponibles dans la
PDB pour réaliser l’alignement structural, il est donc normal que la structure à modéliser n’en fasse
pas partie. Pour contourner cette contrainte, nous avons exploité l’alignement de Matras de deux
manières : i) lorsque la structure de la séquence cible (ou la structure d’une séquence vraiment proche,
à plus de 70% d’identité) était disponible, cette dernière était incorporée aux jeux C’ ou D’, au niveau
du 10ème template autorisé par le serveur14 et ii) lorsqu’aucune structure pouvant aider l’alignement sur
la séquence cible n’était disponible, des blocs (les MCSBs) ont été prélevés de l’alignement structural
de Matras des 9 templates et soumis à Caliseq. Cette deuxième manière « hybride » permet non
seulement de contourner le problème de réalignement sur la séquence cible de l’alignement structural
Matras, mais présente aussi l’avantage par rapport aux blocs provenant de GOK, d’avoir tout de suite à
disposition les alignements inter-blocs entre les templates.
14
Dans ce premier cas d’utilisation de Matras, l’alignement produit par Matras sur la séquence cible est
largement favorisé, puisque que la structure de cette dernière a été alignée structuralement avec les autres
templates
208 Chapitre 5. Comparaison des méthodes
Évaluer une méthode d’alignement et déterminer si elle est meilleure qu’une autre n’est pas une
tâche aisée. Il faut pour cela disposer d’un critère fiable, permettant la comparaison des alignements
entre eux. On peut considérer qu’une fois les structures connues, le bon alignement correspond à celui
qui relie au mieux la séquence à la structure quand celle-ci est connue. Ce critère doit être néanmoins
utilisé avec précaution : il a été vu précédemment que les logiciels d’alignement structuraux ne
fournissent pas toujours des résultats d’alignement en accord. Un moyen d’évaluer et de comparer les
méthodes de reconstruction consiste donc à reconstruire des modèles d’une structure connue qui
servira de référence pour la comparaison avec les modèles générés. Cette évaluation est donc
postérieure à la reconstruction. Comme cette évaluation fait l’objet d’une section ultérieure, la
comparaison des alignements dans cette section sera purement descriptive. Les alignements sont
sensibles à plusieurs paramètres : l’algorithme de la méthode et le choix des templates utilisés pour
l’alignement. Ainsi, un alignement différent peut être obtenu en ne retirant qu’une seule séquence du
jeu de templates à aligner sur la séquence cible. Différentes séquences cibles à reconstruire ont été
utilisées pour la comparaison : CYP 3A4, CYP 2C9, CYP 119, P450cam et CYP 1A2 (toutes sont
présentes dans la PDB). Ce sont les alignements sur la structure la plus emblématique de la
superfamille, le CYP 3A4 qui seront comparés dans cette section.
5.3.3.1 Caliseq : comparaison des alignements issus des différents jeux de templates
Examinons d’abord les alignements obtenus par Caliseq avec des jeux de templates différents.
Ces alignements dépendent fortement du positionnement des blocs sur la séquence cible. La première
comparaison a donc été effectuée sur les trois jeux de blocs A, B et C (cf. résultats des alignements à la
section 5.2.2.4). Cette comparaison est facilitée par le fait que chacun de ces jeux comporte au moins
deux templates en commun avec les autres jeux de blocs.
La Figure 5-3 de la page 192, présente un exemple de résultat de positionnement des trois jeux de
blocs par Caliseq sur la séquence cible CYP 3A4. Les sous-alignements, montrant déjà des
divergences, ont résulté en un désaccord sur certaines positions de blocs sur la séquence cible, lequel
entraîne un désaccord pour certaines régions inter-blocs. Les alignements séquentiels finaux diffèrent
donc par suite d’un enchaînement : au premier niveau, des décalages présents (selon le jeu choisi A, B
ou C) dans les sous-alignements lors de l’identification des blocs par GOK, entraînent au second
niveau des désaccords de positionnement de ces sous-alignements sur la séquence cible, eux-mêmes se
répercutant sur l’alignement inter-bloc.
210 Chapitre 5. Comparaison des méthodes
Pour les premiers jeux historiques de templates (A, B et C), Caliseq conduit à des alignements
légèrement différents (en comparant les templates communs aux trois jeux avec la séquence cible). À
noter que pour les jeux A et B, il faut tronquer la séquence cible de 20 à 30 résidus en N-terminal
lorsque celle-ci est microsomale, afin d’améliorer le positionnement des blocs dans cette région. Les
régions conservées (au sens « d’absence de gap ») sont principalement observées au niveau des blocs.
Parmi elles, celles qui sont localisées au niveau des blocs « fiables » correspondent à des zones fixes,
retrouvées toujours aux mêmes endroits de la séquence cible sur les alignements des trois jeux. Il
existe également des régions conservées qui sont décalées d’un alignement à l’autre : ces régions
correspondent aux blocs « flous » sur lesquels aucune autre méthode d’alignement (ni Matras, ni
Clustalw) n’a été en mesure de trancher. Concernant les régions variables, elles sont généralement
localisées au niveau des zones inter-blocs. Différentes méthodes ont été essayées pour optimiser les
alignements à ces endroits (cf. section 3.3.3.2) sans pour autant donner de résultat satisfaisant : elles
ont été finalement alignées à la main, Clustalw n’étant pas en mesure de les réaliser sur des fragments
isolés et trop divergents.
Lorsque le jeu de blocs global (jeu D) a été conçu, un alignement nouveau a été observé par
rapport à ceux obtenus à partir des jeux A, B et C. De manière similaire, il existe des régions en accord
avec au moins deux des autres alignements. Comme toujours, ces régions « fixes » correspondent aux
blocs « fiables ». Concernant la partie inter-bloc, les différences sont moindres, mais cela résulte d’un
travail d’alignement manuel. Bien qu’étant nouveau, l’alignement à partir du jeu D est pourtant celui
qui présente le moins de différences avec chacun des trois autres alignements pris séparément, ce qui
est rassurant dans la mesure où les blocs de ce jeu global de templates résultent d’un compromis avec
ceux des autres jeux.
Pour la méthode « hybride » (jeu C’ ou D’) où les blocs ont été prélevés dans l’alignement
structural fourni par Matras, il existe déjà une différence dans les sous-alignements des blocs par
rapport à ceux identifiés par GOK (jeu C et D), qui se répercute ensuite sur tout l’alignement. Au final,
on n’obtient pas un même alignement que ceux produits à partir des jeux C et D. Néanmoins des
régions fixes de l’alignement sont toujours observables, localisées aux mêmes endroits de la séquence
cible que celles des alignements précédemment évoqués. Comme toujours, elles correspondent à des
régions à haute conservation structurale (bloc « fiable »).
L’alignement des 28 templates (jeu E) sur la séquence cible du CYP3 A4 n’a pas été effectué car
la structure du CYP 3A4 figure parmi ces 27 templates. En revanche, le positionnement des blocs a été
Caliseq et les autres méthodes d’alignement 211
réalisé, et semble correct : dans les sous-alignements des blocs, les « morceaux » de séquence
correspondant à la structure du 1tqn (CYP 3A4) s’aligne parfaitement avec la séquence cible du CYP
3A4. Ce même constat de positionnement a été observé lorsque j’ai aligné sur une séquence cible de
P450 bactérienne, le CYP 119, dont le template correspondant est le 1io7 et également sur une autre
séquence cible de P450 microsomal, le CYP 1A2, dont le template est le 2hi4.
Pour les jeux de templates A à E alignés par Caliseq, on retiendra que des régions conservées
fixes par rapport à la séquence cible sont observées sur tous les alignements, quel que soit le jeu utilisé
(sauf le jeu E qui n’a pas été testé et qui comporte de surcroît des blocs plus longs). Ces régions
correspondent systématiquement aux blocs « fiables », déjà discutés.
conservées fixes (par rapport aux jeux F, H et G), qui sont placées aux mêmes endroits selon la
séquence requête demandée.
On retiendra donc pour les alignements d’HHpred que les régions conservées fixes sont les
mêmes que celles précédemment repérées sur les alignements par Caliseq à partir des jeux A, B, C, D,
C’ et D’. En changeant de séquence cible, les régions conservées « fixes » ne sont pas trop perturbées.
Par extrapolation, il est possible de penser que ces régions conservées fixes sont localisées sur tous les
P450s aux mêmes endroits. Comme ces régions conservées fixes coïncident avec les positionnements
des blocs « fiables », nous avons là un nouvel argument en faveur de l’utilisation des CSBs.
15
Cette manipulation pour améliorer l’alignement n’a été possible qu’une fois en possession des structures de la
séquence cible : l’alignement structural fournissait alors des informations sur l’alignement en N-terminale. Sans
ce dernier, dans le cas d’un cytochrome P450 inconnu, il n’est pas aisé de décider si les premiers résidus doivent
être supprimés ou non (tout dépend du nombre de templates d’origine microsomale dans les jeux d’alignement).
Caliseq et les autres méthodes d’alignement 213
semblerait donc, en dépit d’une certaine variabilité, que les régions centrales, correspondant à l’hélice
I et J, soient aussi bien conservées structuralement que séquentiellement, comme il a été remarqué sur
les alignements des autres méthodes mais également celui fourni par Clustalw.
Avec les templates du jeu global (jeu D), Clustalw produit des alignements proches de ceux des
autres méthodes (aussi bien Caliseq, que des logiciels d’alignement structural) sans avoir à ajuster les
paramètres de Clustalw. L’alignement par Clustalw des 11 templates du jeu D sur la séquence cible est
nettement plus en accord avec ceux des autres méthodes que ne le sont les alignements des 4 ou 6
templates des jeux A, ou B et C respectivement. Il existe toujours des désaccords dans les
appariements en N- et C-terminal et dans certaines régions correspondant aux SSE des hélices B’, F et
G.
Enfin, avec un jeu de tous les templates disponibles de P450s (jeu E), un alignement
étonnamment « propre » est observable, en accord avec les alignements structuraux et permettant de
bien séparer les séquences de templates d’origine bactérienne des séquences de templates d’origine
microsomale. Cet alignement (jeu E) est légèrement différent de ceux qu’on pourrait obtenir par
Caliseq, mais plus en accord avec ceux des autres méthodes comme Matras ou HHpred par exemple.
Un tel résultat est assez choquant, et remet en question le travail d’alignement par Caliseq : à quoi bon
développer une méthode aussi complexe lorsqu’un simple alignement par Clustalw fournit un
alignement plus proche de ceux obtenus par des logiciels d’alignement structuraux ? Une hypothèse a
été formulée : la qualité de cet alignement fourni par Clustalw résulte en fait du nombre important de
templates utilisés (actuellement disponibles dans la PDB). Ce nombre a augmenté rapidement ces cinq
dernières années (cf. Figure 1-14, page 39). L’alignement Clustalw remet en question l’intérêt de
l’outil spécifique pour l’alignement à bas taux d’identité.
Afin de confirmer cette hypothèse, la manipulation suivante a été opérée : plusieurs alignements
ont été réalisés itérativement sous Clustalw (dans son fonctionnement par défaut), avec le jeu de 28
templates, où des séquences sont chaque fois retirées de façon aléatoire. Après quelques itérations, le
nombre de séquences retirées est augmenté, et le processus d’alignement itératif, relancé. J’ai procédé
ainsi jusqu’à observation d’un changement radical dans l’alignement. L’idée de cette manipulation est
de connaître le nombre minimal de séquences nécessaire pour l’obtention d’un alignement de
séquences proche de l’alignement structural. Comme je l’ai fait remarquer précédemment, pour
chaque suppression de séquences de templates, un léger changement dans l’alignement est observé.
Celui-ci est d’ailleurs plus important lorsque la séquence retirée correspond à certaines structures de
214 Chapitre 5. Comparaison des méthodes
P450 d’origine bactérienne. Il semblerait selon cette observation que c’est la présence de structures
issues de mammifère qui imposeraient une certaine pression sur l’alignement. Néanmoins, au fur et à
mesure que des templates sont retirés, il est possible d’observer l’évolution des alignements par
Clustalw. Il fut très difficile de délimiter un seuil minimal, sachant que la comparaison d’alignement
est relativement difficile : à quel moment dit-on qu’un alignement est différent du précédent ? J’ai dû
faire le choix de considérer que l’alignement devenait réellement différent lorsque les régions censées
conservées n’étaient plus homogènes avec celles observées sur les alignements structuraux. Selon ce
critère, les alignements des P450s ne semblent pas fiables à moins de huit templates. C’est d’ailleurs
pour cette raison qu’avec le jeu global (jeu D) aucun paramétrage de Clustalw n’a été nécessaire pour
proposer un alignement relativement proche de ceux des autres méthodes.
La première méthode n’est pas applicable lorsque la séquence à modéliser est de structure
inconnue. Lorsqu’aucun template n’est proche en identité de la séquence à modéliser, il s’avère
difficile d’exploiter l’alignement des templates obtenus par Matras. C’est ainsi que j’ai eu l’idée
d’utiliser les régions conservées dans l’alignement de Matras comme des blocs, que j’ai positionnés
sur la séquence cible à l’aide de Caliseq. Il s’agit donc d’une méthode « hybride » utilisant
l’information structurale fournie par Matras et l’alignement par profils réalisé par Caliseq. Une
expérience intéressante a consisté justement à comparer l’alignement obtenu par la méthode
« hybride » avec celui obtenu uniquement par Matras, lorsque la structure de la séquence cible est
Caliseq et les autres méthodes d’alignement 215
disponible (pour le cas du CYP 3A4 par exemple, j’ai pris la structure d’1tqn). Pour cela, après avoir
aligné les structures templates (jeu D’) avec la structure du CYP 3A4 (1tqn), les « blocs
d’alignement » des régions conservées ont été récupérés pour être positionnés par Caliseq, en
supprimant préalablement les séquences du 1tqn de tous les sous-alignements. Les différences de
positionnements des « MCSB » par les deux logiciels sont montrées en Figure 5-9.
Les différences de positionnements des MCSBs ne sont pas nombreuses. En considérant que
Matras fourni un alignement structural fiable, sur les 18 MCSBs Caliseq ne s’est trompé que sur 4 :
deux d’entres eux sont en C-terminal et ne correspondent pas à des décalages significatifs, en revanche,
les deux autres (MCSB2A* et MCSB4) ne sont pas du tout bien positionnés. À noter que les blocs en
N-terminal n’ont pas été identifiés par l’alignement de Matras comme régions conservées. Du fait des
décalages sur le positionnement de ces blocs initiaux, il y a donc également quelques décalages dans
l’alignement global, principalement aux niveaux des régions inter-blocs. Enfin, comme les MCSBs ne
correspondent pas tout à fait aux CSBs identifiés par GOK, au niveau des sous-alignements,
l’alignement par la méthode « hybride » diffère légèrement de ceux obtenus par Caliseq avec le jeu D.
CYP3A4(c) 81 VLAITDPDMI KTVLVKECYS VFTNRRPFGP VGFMKSAISI AEDEEWKRLR SLLSPTFTSG KLKEMVPIIA QYGDVLVRNL 160
CYP3A4(m) 81 VLAITDPDMI KTVLVKECYS VFTNRRPFGP VGFMKSAISI AEDEEWKRLR SLLSPTFTSG KLKEMVPIIA QYGDVLVRNL 160
MCSB1 MCSB2A* MCSB2A** MCSB2A MCSB2B
CYP3A4(c) 161 RREAETGKPV TLKDVFGAYS MDVITSTSFG VNIDSLNNPQ DPFVENTKKL LRFDFLDPFF LSITVFPFLI PILEVLNICV 240
CYP3A4(m) 161 RREAETGKPV TLKDVFGAYS MDVITSTSFG VNIDSLNNPQ DPFVENTKKL LRFDFLDPFF LSITVFPFLI PILEVLNICV 240
MCSB3A MCSB3B MCSB3C MCSB4
CYP3A4(c) 241 FPREVTNFLR KSVKRMKESR LEDTQKHRVD FLQLMIDSQN SKETESHKAL SDLELVAQSI IFIFAGYETT SSVLSFIMYE 320
CYP3A4(m) 241 FPREVTNFLR KSVKRMKESR LEDTQKHRVD FLQLMIDSQN SKETESHKAL SDLELVAQSI IFIFAGYETT SSVLSFIMYE 320
MCSB5 MCSB6 MCSB7
CYP3A4(c) 321 LATHPDVQQK LQEEIDAVLP NKAPPTYDTV LQMEYLDMVV NETLRLFPIA MRLERVCKKD VEINGMFIPK GWVVMIPSYA 400
CYP3A4(m) 321 LATHPDVQQK LQEEIDAVLP NKAPPTYDTV LQMEYLDMVV NETLRLFPIA MRLERVCKKD VEINGMFIPK GWVVMIPSYA 400
MCSB8 MCSB9 MCSB10
CYP3A4(c) 401 LHRDPKYWTE PEKFLPERFS KKNKDNIDPY IYTPFGSGPR NCIGMRFALM NMKLALIRVL QNFSFKPCKE TQIPLKLSLG 480
CYP3A4(m) 401 LHRDPKYWTE PEKFLPERFS KKNKDNIDPY IYTPFGSGPR NCIGMRFALM NMKLALIRVL QNFSFKPCKE TQIPLKLSLG 480
MCSB11 MCSB12 MCSB13A MCSB13B
Figure 5-9 Positionnement des MCSBs sur la séquence du CYP 3A4 par Caliseq (c) et par Matras (m). Dans
cet alignement, quatre blocs sont en désaccord, dont deux importants : MCSB2A* et MCSB4 correspondant aux
SSE B’ et F respectivement.
216 Chapitre 5. Comparaison des méthodes
Comparer les alignements provenant de différentes méthodes a été assez délicat, surtout pour
juger de la fiabilité relative de chaque alignement, étant donné qu’ils sont tous différents. A priori, les
alignements structuraux sont censés être les plus « fiables » selon les concepts de la biologie
structurale. Néanmoins, comme il a été vu précédemment, les alignements structuraux – qu’ils soient
multiples ou « pairwise » – dépendent énormément de la méthode utilisée ainsi que des paramètres
choisis par l’utilisateur. Ainsi, aucune des méthodes utilisées n’a donné exactement le même
alignement. De ce fait, il est difficile de savoir réellement la place occupée par Caliseq parmi les
autres méthodes à la seule vue de l’alignement. Seule la reconstruction d’un modèle peut aider à
déterminer si Caliseq produit des alignements de qualité.
En revanche, pour chaque méthode, des régions conservées fixes et des régions variables sont
observées dans les alignements, quelle que soit la nature de la méthode, aussi bien séquentielle que
structurale. Il existe également des régions que j’appellerai « semi-conservées », à savoir celles ne
présentant aucun gap dans l’alignement, mais jamais positionnées à un même endroit selon les
alignements (généralement un décalage de quelques résidus) : elles correspondent aux SSE des
boucles B’, F, G et la boucle B–C et le feuillet en C-terminale. Dans tous les alignements, ces trois
types de régions sont observés, quelle que soit la nature de la méthode. Elles semblent d’ailleurs
renseigner sur les propriétés structurales des P450s. En effet, les régions « semi-conservées », celles
qui ont posé problème à la fois pour leur identification structurale et leur positionnement, se situent
dans des régions SRS identifiées par Gotoh en 1992 (cf. Figure 1-18 de la page 44) : SRS-1, SRS-2,
SRS-3 et SRS-6, correspondant respectivement aux hélices B’, F, G et au feuillet C-terminal. Sur la
structure des P450s, ces SSEs bordent la cavité du site actif16. Dans la littérature, ces SSEs de P450 ont
été décrits comme super variables : l’hélice B’ par exemple, supposée flexible pour laisser passer les
substrats, a été observée aussi bien structurée que déstructurée (Poulos et al., 1987). Il n’est pas
surprenant que séquentiellement, des problèmes de positionnement apparaissent dans ces régions. La
bonne nouvelle concerne les régions « vraiment » conservées dans tous les alignements qui reflètent
bien cette caractéristique de conservation de repliement sur toutes les structures de CYP. Celles-ci ont
bien été identifiées dans les alignements par Caliseq, Matras, et HHpred à un niveau moindre, et
16
En fait, ce n’est pas exactement le feuillet 3 qui borde le site actif, mais plutôt la structure en « beta hairpin ».
Il s’agit du coude plus ou moins long selon des P450s qui est formé par les deux brins β4 antiparallèles et relié à
la base par le feuillet 3
Construction de modèles de P450s, quelle méthode adopter ? 217
difficilement sous Clustalw, sauf pour ce dernier en augmentant le nombre de séquences dans
l’alignement.
Tableau 5.8 Comparaison des modèles de CYP 3A4, construits selon différentes méthodes. Le RMSD a été calculé par rapport au
squelette peptidique de la structure X (1tqn) par le logiciel Profit. Pour les modèles générés à partir de notre stratégie, un RMSD au niveau
des blocs a été également calculé. Le modèle par le serveur SwissModel n’a pas pu être obtenu car son logiciel d’alignement n’était pas en
mesure d’aligner les structures imposées au programme. Modeller n’a pas pu construire le modèle Clustalw avec le jeu C en raison
également d’un alignement trop mauvais. Pour le dernier cas, on a utilisé des blocs tirés de l’alignement structural de Matras. Pour HHpred,
un psi-blast est utilisé : il n’a pas toujours été possible d’utiliser tous les templates d’un jeu donné.
RMSD (Å)
Nombre de Sur la base
Année Modèle RMSD (Å) au niveau
templates du jeu
des blocs
Le Tableau 5.8 retrace l’historique des principaux modèles construits au cours de ma thèse pour la
construction du CYP 3A4. La structure de ce cytochrome P450 ayant été publiée pendant ma première
année de thèse, les expériences de modélisation avaient pour but unique de valider la méthode mise au
point au laboratoire. Plusieurs méthodes ont été utilisées pour le comparatif : l’une d’elle est une
version améliorée des méthodes d’enfilage (Fugue/Orchestrar), une autre correspond à un serveur
automatique de reconstruction (SwissModel), mais la plupart des méthodes propose uniquement des
alignements, qui nécessitent l’utilisation du logiciel Modeller pour la reconstruction 3D. Ces dernières
sont celles présentés à la section précédente. Concernant la méthode Fugue/Orchestrar, il s’agit d’une
méthode très proche de notre méthode dans sa façon de construire les modèles, puisque Fugue effectue
d’abord une recherche sur la base HOMSTRAD des structures qui serviront de templates, en
comparant pour cela la séquence cible (ou un pré-alignement cible) à des profils structuraux de chaque
famille dans la banque de données. Orchestrar, une suite d’applications, prend ensuite le relais,
commence à déterminer les régions structuralement conservées entre les templates et la séquence cible
et construit le modèle (uniquement le squelette peptidique) en fonction de ces informations. Les
Construction de modèles de P450s, quelle méthode adopter ? 219
boucles sont ensuite reconstruites à partir d’une banque de repliement et les chaînes latérales sont
enfin ajoutées en accord avec une banque de rotamères. Cette méthode ressemble beaucoup à la
méthode de reconstruction utilisée au laboratoire par N. Loiseau et M. Cottevieille.
Les RMSDs ont été calculés en utilisant l’algorithme de McLachlan (McLachlan, 1982) par le
logiciel Profit (Martin, A.C.R., http://www.bioinf.org.uk/software/profit/), sur les atomes du squelette
peptidique pour centrer la comparaison sur les repliements. Ainsi, pour le CYP 3A4, aucune méthode
n’a pu produire de modèle à moins de 3 Å de la structure 1tqn utilisée. Il faut néanmoins garder en
mémoire que pour deux structures d’une même isoforme, une différence de RMSD existe. Ainsi, rien
qu’en comparant la structure nue du CYP 3A4 (1tqn) avec une structure disposant d’un substrat
comme l’érythromycine (2j0d) ou le ketaconazole (2v0m), des RMSD de 1,21 et 1,74 Å
respectivement sont observés. Plus impressionnant encore, le RMSD entre la conformation fermée
(1suo) et la conformation ouverte (1po5) du CYP 2B4 est trouvé à 5,53 Å montrant l’énorme
flexibilité de la molécule. De ce fait, une différence de 0,5 à 1 Å pour les modèles n’est pas réellement
significative, et peut être considérée comme un bruit de fond.
Ainsi, un modèle proche de 3 Å de RMSD peut être considéré comme un modèle relativement
correct. De tous les modèles produits, seuls ceux obtenus par Matras (avec utilisation de la séquence
d’1tqn pour guider l’alignement structural ce qui introduit le biais en faveur de Matras) et par la
nouvelle méthode de reconstruction (combinaison de GOK, Caliseq et Modeller) avec les templates de
M. Cottevieille (jeu B) s’en approchent le plus, avec respectivement des RMSDs de 3,33 Å et 3,58 Å.
Ce dernier constat est plutôt surprenant dans la mesure où le jeu B comporte peu de templates. Les
plus « mauvais » modèles ont été obtenus par Sybyl, selon la méthode Fugue/Orchestrar, avec des
RMSD de 7,30 Å à 9,99 Å. Les méthodes « hybrides » (C’ et D’) n’ont pas donné d’excellents
modèles non plus, avec 6,76 Å et 5,07 Å respectivement. À noter qu’une légère amélioration du
modèle est perceptible lors de l’utilisation d’un nombre plus important de templates dans l’alignement.
Aucun modèle de CYP 3A4 n’a été obtenu par le serveur SwissModel en raison des templates
imposés au serveur (ceux du jeu C) : SwissModel n’était pas en mesure d’aligner les templates fournis.
Toutefois, ce résultat doit être considéré avec précaution : il n’est désormais plus possible d’imposer
ses propres templates sur le serveur. Par ailleurs, il n’est plus possible d’utiliser ce programme à des
fins de comparaison avec notre méthode dans la mesure où il imposera forcément la structure de la
séquence cible (1tqn dans le cas du CYP 3A4) dans son alignement.
220 Chapitre 5. Comparaison des méthodes
À l’image des modèles obtenus par Fugue/Orchestrar, les alignements de Clustalw conduisent à
de mauvais modèles lorsque peu de templates sont utilisés (jeu B et C, avec respectivement 4 et 6
templates dans chaque jeu). Dans un cas notamment (lors de l’utilisation des templates du jeu C)
Modeller n’a pas réussi à produire de modèle tant les distances entre les résidus des séquences de
l’alignement étaient importantes, et ce en raison d’un mauvais alignement. En revanche, avec un
nombre de templates plus important, une amélioration notable du modèle est observée, à peu près
équivalent (voire sensiblement meilleur) au modèle obtenu par l’alignement effectué par Caliseq avec
le même nombre de templates.
Justement, qu’en est-il des modèles produits par la méthode de reconstruction à bas taux d’identité
développée au laboratoire ? Le modèle obtenu par N. Loiseau avec l’ancienne méthode (Combinaison
de GOK, SmartConsAlign et Dyana/X-plor) a un RMSD plutôt élevé (5,83 Å) par rapport à la vraie
structure du CYP 3A4 lorsqu’il est calculé sur toute la longueur de l’enzyme, et descend à 4,95 Å, soit
un gain de près de 1 Å lorsque le RMSD n’est calculé qu’au niveau des CSBs. Cette observation
souligne le fait que la reconstruction des régions inter-blocs posait déjà un sérieux problème et n’était
pas si bien résolue par le recuit simulé opéré par Xplor. Concernant les modèles obtenus par la
nouvelle méthode (combinaison GOK, Caliseq et Modeller), outre le modèle produit à partir du jeu B,
les RMSDs semblent corrects, situés aux alentours de 4-5 Å. Au niveau des blocs, un gain de 1 Å
environ est aussi observé.
Pour des jeux de templates plus réduits, HHpred donne également des modèles assez proches de
ceux obtenus par notre méthode, aux alentours de 5 Å.
119, CYP 1A2) excepté le modèle du CYP 2C9. Une explication probable est la présence en nombre
trop important de templates de la famille des 2C dans ce jeu, qui orienterait toutes les reconstructions
vers un modèle proche des structures de CYP de la famille 2C. En revanche, cette information pourrait
être diluée lorsque d’autres templates sont ajoutés au jeu, comme dans le cas du jeu global D.
Les alignements proposés par Clustalw et par Caliseq, desquels dépend la reconstruction du
modèle, sont d’ailleurs meilleurs avec un nombre de templates plus important dans l’alignement
(chose qui avait été déjà démontré pour Clustalw) : un gain d’au moins 1 Å est observé ainsi. En outre,
les imprécisions de reconstruction des régions inter-blocs semblent également s’amoindrir avec la
nouvelle méthode et lorsque le nombre de templates est plus important. En dépit des problèmes
rencontrés pour aligner les régions inter-blocs, il s’avère au final que Modeller est parvenu à
« corriger » les régions approximativement alignées en partie inter-bloc. Ainsi, toutes les méthodes
visant à optimiser l’alignement inter-bloc n’ont finalement pas été exploitées comme évoqué plus haut,
et les méthodes visant à optimiser structuralement les parties inter-blocs, comme la méthode de
minimisation par blocs développée par K. Zimmermann ou la reconstruction ab initio de boucles par
Modeller, non plus. Dans aucun cas, ces dernières méthodes n’ont permis de diminuer le RMSD du
modèle à la structure 1tqn du CYP 3A4.
Il est difficile d’expliquer en revanche le bon RMSD attribué au modèle issu de la nouvelle
méthode à partir du jeu B qui n’a nécessité qu’un alignement inter-bloc manuel. Est-ce en raison du
nombre de blocs plus important dans ce jeu, ou encore de la nature des templates utilisés dans ce jeu ?
Nous n’avons pour le moment pas d’explication à proposer (à noter que ce même alignement produit
des modèles de qualité reproductible, avec une variation de quelques dixièmes d’Angström).
Partant d’un bon concept, Fugue/Orchestrar n’a pu fournir de modèles réellement convaincants.
Le principal problème est survenu lors du choix des templates proposés par Fugue : le logiciel
conseillait de ne prendre que deux structures (d’origine bactérienne qui plus est) pour pouvoir par la
suite identifier les régions structuralement conservés (nommé SCR dans le programme). À la place j’ai
imposé au programme le jeu des 12 templates disponibles dans le programme pour un essai de
reconstruction du CYP 3A4. Autant les SCRs ont été simples à identifier pour Orchestrar dans le jeu
de 2 templates, autant le programme a eu du mal pour le jeu des 12 templates. Cela s’est ressenti lors
de la production du modèle : un modèle déstructuré à 9,99 Å de la véritable structure du CYP3A4.
Une cause possible peut être liée à la banque de structure HOMSTRAD, peut être trop obsolète.
222 Chapitre 5. Comparaison des méthodes
Néanmoins, je doute qu’avec plus de structures le programme ne s’en serait mieux sorti, étant donné
les difficultés qu’il a eues pour identifier des SCRs sur les 12 templates.
Le serveur HHpred qui fournit des alignements pour Modeller a généré des modèles de qualité
moindre que ceux générés par notre méthode, avec moins de templates. Il nécessite également moins
de manipulations pour le modélisateur. Néanmoins, les templates utilisés n’ont pas été nécessairement
les mêmes que ceux utilisés dans notre méthode. Parmi les templates utilisés, surtout pour le jeu H, de
nombreuses structures n’étaient pas disponibles lors de l’analyse sous GOK. Idéalement, il aurait fallu
refaire une analyse GOK avec les templates du jeu H pour pouvoir réellement comparer les modèles.
5.4.2.2 Verdict
Au final, quelle serait la méthode la plus adaptée pour la reconstruction d’un CYP inconnue à
basse identité de séquence ? En fait, tout dépend du moment de la reconstruction sur l’échelle de
temps. Il semble évident qu’à ce jour, le nombre de templates disponibles dans la PDB est tel qu’un
alignement simple sous Clustalw permet de produire des modèles convenables et meilleurs que ceux
qu’on pourrait obtenir avec un enfilage. HHpred semble être également un bon candidat dans la
mesure où les modèles obtenus sont généralement de qualité constante quel que soit le nombre de
templates utilisés. D’autant plus qu’HHpred fournit directement le fichier d’alignement pour Modeller.
En revanche, lorsque peu de structures sont disponibles et donc exploitables en tant que templates, il
semblerait bien qu’HHpred et la méthodologie mise au point au laboratoire soient à égalité. HHpred
serait plus rapide et moins complexe d’utilisation. Néanmoins, il n’est pas sûr que l’alignement produit
avec moins de templates soit aussi fiable : celui-ci dépend du profil HHM qui a été calculé en prenant
en compte toutes les séquences des structures de P450s disponibles au moment où j’ai effectué le test
de comparaison. En bref, la nouvelle méthode semble aujourd’hui un peu dépassée, mais demeure
probablement une bonne méthode de reconstruction par homologie à basse identité de séquence, et
lorsque les templates disponibles sont en nombre limité. Pour vérifier cette hypothèse, il faudrait donc
dans l’idéal expérimenter la méthode sur une autre famille de protéines à repliement très conservé.
Vers l’obtention d’une banque de P450s 223
Ainsi, Prosite (cf. section 2.3.4.1) est une base construite sur une méthode qui reconnaît un motif
(ou pattern) particulier présent sur la séquence des protéines. Dans le cas des P450s, ce motif est
appelé « Cytochrome P450 cysteine heme-iron signature ». Pfam (cf. section 2.3.4.3) est une banque
de domaines. Dans cette base, les domaines de P450 correspondent à des alignements de P450s, codés
dans des profils HMM. Par commodité, je ferai dans la suite de ce chapitre l’amalgame entre le nom
de la base et la méthode associée.
224 Chapitre 5. Comparaison des méthodes
J’ai utilisé ces deux méthodes pour construire des bases spécifiques de séquences de P450s qui me
serviront d’éléments de comparaison avec la base que j’ai construite avec Caliseq et un jeu de blocs.
Pour les trois méthodes à comparer, les banques de P450s sont obtenues à partir des bases de
séquences SptrEmbl (supposées non redondantes) de 2005 et de 2007. À noter que les premiers essais
de Caliseq avec l’ancien système de score ont été opérés sur la base de 2005, tandis que le nouveau
score a été expérimenté sur la dernière version 2007 de SptrEmbl. Le nombre de séquences de P450s
identifiées par les deux méthodes sur les bases de séquences SptrEmbl2005 et SptrEmbl2007, est
présenté en Tableau 5.9
Tableau 5.9 Nombre de séquences de P450s identifiées sur SptrEmbl par Pfam et Prosite.
Nombre de séquences Nombre de CYPs Nombre de CYPs
Année
dans SptrEmbl identifiés par Pfam1 identifiés par Prosite2
1
les données de Pfam ont été récupérées à partir d’un unique fichier SptrEmblPfam distribué par Pfam
2
les données de Prosite ont été récupérées à partir de deux fichiers (uniprot_swissprot et uniprot_trEmbl) distribuées par la banque Uniprot
À première vue, la méthode Pfam permet d’identifier plus de P450s que la méthode Prosite. En
revanche, entre 2005 et 2007, Prosite semble avoir subi une légère amélioration : alors que Pfam
identifie 1312 nouvelles séquences, Prosite en identifie 1487. La différence, soit 175 séquences,
correspond aussi bien à des nouvelles séquences dans SptrEmbl2007 que Pfam n’a pas identifiées,
mais également des séquences préexistantes dans SptrEmbl2005, présentes dans Pfam et que Prosite
n’avait pas identifiées à l’époque. En réalité, il semblerait qu’entre ces deux années, l’algorithme de
Prosite ait légèrement évolué, et la sélection ne se fait plus exclusivement sur un motif séquentiel.
Caliseq a été lancé sur les deux bases SptrEmbl2005 et SptrEmbl2007, en faisant varier à chaque
essai un paramètre différent : l’idée était alors de déterminer les paramètres idéaux pour la détection de
séquences de P450. Chaque criblage sur banque complète par Caliseq prend environ une heure de
calcul17. Ces résultats sont montrés au Tableau 5.10.
17
La mesure a été réalisée en utilisant seulement un processeur Xeon 3 Ghz d’un seul nœud d’un cluster de PC.
Vers l’obtention d’une banque de P450s 225
À partir d’un seuil de 0,30, la sélection passe un palier significatif, du dixième de la SptrEmbl
récupérée au cinquantième. Passé le seuil de 0,35 pour ce ratio (toujours avec le jeu A) Caliseq
commence à donner des résultats plus proches de Pfam et Prosite, dans les 3000 séquences identifiées
comme P450s.
Tableau 5.10 Comparatif des méthodes de sélection de P450s par Caliseq/Pfam/Prosite. Pour tous les calculs, le poids de gap dans Caliseq a été fxé à 2. Dans certain cas (lorsque la limite L a été mise à 350), un jeu
de 10 blocs a été utilisé à la place de la vingtaine de blocs des jeux A, B ou C. Les meilleurs paramètres (pour l’ancien seuil et le nouveau seuil) sont indiqués en gras.
Jeu de base Méthode seuil limite nb séquences Exclusif à Exclusif à Pfam Exclusif à Exclusif à Exclusif Caliseq Exclusif Pfam Commun % faux
bloc récupérées Caliseq Prosite Caliseq et Pfam et Prosite et Prosite positif
A sptrEmb2005 T-ratio 0,05 1000 926721 922313 654 0 1296 98 202 3014 99,52
A sptrEmb2005 T-ratio 0,05 800 874849 870480 673 0 1277 90 214 3002 99,50
A sptrEmb2005 T-ratio 0,10 1000 907779 903376 659 0 1291 98 202 3014 99,51
A sptrEmb2005 T-ratio 0,10 800 855908 851544 678 0 1272 90 214 3002 99,49
A sptrEmb2005 T-ratio 0,15 1000 807466 803106 688 0 1262 92 210 3006 99,46
A sptrEmb2005 T-ratio 0,15 800 755596 751275 707 0 1243 84 222 2994 99,43
A sptrEmb2005 T-ratio 0,20 1000 612523 608225 728 0 1222 81 221 2995 99,30
A sptrEmb2005 T-ratio 0,20 800 560669 556410 747 0 1203 73 233 2983 99,24
A sptrEmb2005 T-ratio 0,25 1000 301691 297543 837 0 1113 56 237 2979 98,63
A sptrEmb2005 T-ratio 0,25 800 249985 245876 856 0 1094 48 249 2967 98,36
A sptrEmb2005 T-ratio 0,30 1000 42760 38790 936 0 1014 19 279 2937 90,72
A sptrEmb2005 T-ratio 0,30 800 16428 12491 955 0 995 17 291 2925 76,03
A sptrEmb2005 T-ratio 0,35 1000 3680 34 1141 0 809 11 390 2826 0,22
A sptrEmb2005 T-ratio 0,35 800 3633 15 1157 0 793 11 402 2814 0,00
A sptrEmb2005 T-ratio 0,40 1000 2558 5 1488 0 462 4 1129 2087 0,00
A sptrEmb2005 T-ratio 0,35 350 2845 14 1282 0 668 9 1062 2154 0,00
A sptrEmb2005 T-ratio 0,40 350 2057 3 1514 0 436 5 1603 1613 0,00
B sptrEmb2005 T-ratio 0,35 1000 2280 0 1566 0 384 0 1320 1896 0,00
C sptrEmb2005 T-ratio 0,35 1000 1610 1 1708 0 242 0 1849 1367 0,00
A sptrEmb2005 T-ratio 1,50 1000 3123 10 1344 0 606 7 716 2500 0,00
A sptrEmb2005 T-ratio 1,25 1000 3489 13 1208 0 742 8 490 2726 0,00
A sptrEmb2005 T-ratio 0,50 1000 3664 23 1144 0 806 11 392 2824 0,14
A sptrEmb2005 T-ratio 0,25 1000 3664 23 1144 0 806 11 392 2824 0,14
A sptrEmb2005 T-ratio 0,05 1000 3664 23 1144 0 806 11 392 2824 0,14
A sptrEmb2005 T-ratio 0,05 1200 3713 58 1133 0 817 11 389 2827 0,78
A sptrEmb2007 Z-score 0,05 1000 4508 22 1262 264 636 15 745 3835 0,02
A sptrEmb2007 Z-score 0,05 1200 4534 36 1260 264 638 15 735 3845 0,20
D sptrEmb2007 Z-score 0,05 1000 4417 16 1272 266 626 13 818 3762 0,00
D sptrEmb2007 Z-score 0,05 1200 4436 24 1269 266 629 13 810 3770 0,09
E sptrEmb2007 Z-score 0,05 1000 4906 28 1158 252 740 27 469 4111 0,00
E sptrEmb2007 Z-score 0,05 1200 4914 28 1156 252 742 27 463 4117 0,00
faux positifs). En revanche, lorsque le Z-score a été utilisé, la limitation a pu être augmentée
légèrement, pour récupérer plus de séquences : la méthode combinant le Z-score et la nouvelle
fonction de score étant plus sélective, il fut possible de récupérer plus sélectivement des séquences qui
ne pouvaient être récupérées par l’ancienne méthode sans entraîner avec elles des faux positifs.
Sur le Tableau 5.10, sont présentés également les recouvrements des séquences récupérées avec
ceux de Prosite et ceux de Pfam. Pour obtenir ces recouvrements, les numéros d’accession de chaque
séquence ont été utilisés : il devenait alors possible de vérifier si une séquence était identifiée par
toutes les méthodes. Ainsi, pour chaque ligne du tableau, la composition des séquences récupérées par
Caliseq est renseignée, à savoir combien de séquences sont exclusives à i) Caliseq, ii) à Pfam, iii) à
Prosite, iv) combien sont trouvées uniquement dans Caliseq et Pfam, v) Caliseq et Prosite, vi) Pfam et
Prosite, et enfin vii) combien sont trouvées en commun par les trois méthodes. Une information
supplémentaire a été indiquée pour les séquences identifiées comme P450s exclusivement par Caliseq :
il s’agit du taux de faux positifs comptabilisés dans cet ensemble (exclusif à Caliseq). Le
dénombrement des faux positifs résultent d’une expertise manuelle des séquences quand cela est
possible (nombre de séquences exclusif à Caliseq < 200). Dans les cas où les séquences identifiées par
Caliseq sont trop nombreuses, toutes ont étés considérées comme faux positifs (vérification manuelle
impossible). Pour les séquences récupérées de la SptrEmbl2005, il était en effet possible d’avoir une
idée sur la nature de ces séquences grâce à la SptrEmbl2007. En revanche, dans le cas de la
SptrEmbl2007, j’ai été amené à vérifier l’annotation de la séquence (annotée comme CYP, putatif ou
hypothétique, etc.). J’ai également eu recours à d’autres serveurs comme SMART ou ProDom qui
pouvaient m’indiquer selon leurs critères si ces séquences sont des P450s. En dernier recours, il était
possible de vérifier après une recherche PSIBLAST si des séquences de P450s proches apparaissent en
résultat.
Vers l’obtention d’une banque de P450s 229
Par ailleurs, Prosite semble avoir connu une amélioration entre sa version 2005 et sa version en
2007 : sur la colonne des séquences uniquement identifiés par Prosite, aucune séquence n’a été trouvée
exclusivement par Prosite dans la SptrEmbl2005 par rapport aux deux autres méthodes, tandis
qu’environ 260 séquences sont exclusives à Prosite dans la SptrEmbl2007. Même avec les meilleurs
paramètres pour Caliseq et l’utilisation du meilleur jeu de blocs, une dizaine seulement de ces
séquences ont pu être détectées par Caliseq, et environs 250 séquences restent propres à Prosite.
Un détail amusant pour Caliseq est que même en récupérant la moitié des séquences de
SptrEmble2005 (première ligne du tableau), il n’a pas été en mesure de récupérer 856 séquences
présentes dans Pfam, dont 202 en commun avec Prosite. Ce constat est donc fort surprenant
Partant du principe qu’il est préférable d’avoir des faux négatifs que des faux positifs, un
paramétrage de T-ratio=0,35 et L=1000 avec le jeu A, fut un bon compromis (cf. Figure 5-10 A) :
3680 séquences ont été ainsi détectées par Caliseq, et seulement 1531 séquences (1147 de Pfam + 390
de Pfam et Prosite) identifiés par les deux autres méthodes n’ont pu être détectées par Caliseq. Parmi
les 3680 séquences, 34 sont trouvés exclusivement par Caliseq, avec seulement 8 faux positifs
(détecter comme étant des transporteurs et des kinases par les autres serveurs), soit un taux de faux
230 Chapitre 7. Comparaison des méthodes
positifs égal à 0,22% (en considérant que les 3646 autres séquences détectées en accord avec les deux
autres méthodes sont des vrais P450s). De manière encourageante, parmi ces 26 séquences (34 –8 faux
positifs), l’une d’elles est inconnue de Prosite et de Pfam sur la StprEmbl2005, mais identifiée comme
P450 par Pfam sur la SptrEmbl2007.
(A) (B)
Caliseq (3680) Caliseq (4914)
34 28
809 11 742 27
2826 4117
390 463
1147 0 1156 252
Figure 5-10 Représentation en diagramme de Venn des séquences de P450s de la SptrEmbl, identifiées selon
les trois méthodes (Caliseq, Pfam et Prosite). En (A) figurent les résultats pour la SptrEmbl2005 où Caliseq a été
utilisé avec le jeu de blocs de N. Loiseau avec le premier système de scoring (T-ratio) et en (B) sont présentés les
résultats pour la SptrEmbl2007 où Caliseq a été utilisé avec le jeu de blocs déterminé par GAKUSA avec le
nouveau système de scoring (Z-score).
Le T-ratio permet donc de trouver le bon seuil d’élimination quasi-totale des faux positifs,
tandis que le paramètre L permet d’ajuster la sélection. Par exemple, si on resserre le paramètre L
de 1000 à 800, le nombre total de séquences passe de 34 à 15, et ces 15 séquences sont incluses dans
les 34. De plus, il existe dans la base Prosite de P450s des faux positifs connus, issus des séquences de
la Swissprot (une sous partie de la SptrEmbl). Ces séquences annotées par Prosite comme faux positifs
ne font pas partie des 3680 séquences récupérées par Caliseq. Les jeux B et C n’ont pas donné de
meilleurs résultats, ce qui n’est pas surprenant pour le jeu C, mais plus pour le jeu B qui contient
moins de templates. Une plus grande diversité du jeu A par rapport au jeu B pourrait éventuellement
être un élément de réponse. Quoiqu’il en soit, Caliseq semblerait être une bonne méthode à l’interface
entre Pfam et Prosite : les CSBs sont parfaitement adaptés pour servir de signature structurale dans des
expériences de génomique exploratoire.
Vers l’obtention d’une banque de P450s 231
Tableau 5.11 Identité des séquences identifiées par Caliseq comme CYP sur la SptrEmbl2007 avec le jeu de bloc issu de GAKUSA.
Toutes ces séquences sont en réalité des P450s non identifiées par les autres méthodes.
Numéro
Désignation de la séquence
d’accession
Q27DW3 Conserved hypothetical heme-thiolate monooxygenase.
Q28N78 Cytochrome P450 family protein.
Q25S09 Hypothetical protein.
Q3GYB6 Probable cytochrome P450 125 Cyp125.
Q3W4R4 Putative cytochrome P450.
Q3W4R5 Putative cytochrome P450-family protein.
Q70AR6 Putative cytochrome P450 (EC 144).
Q93PA6 MS125, putative cytochrome P450.
Q9F840 TDP-4-keto-6-deoxyhexose 3,4-isomerase.
P95746 Hypothetical NDP hexose 3,4 isomerase.
Q2P9Y8 Cytochrome P450-like.
Q3WMN4 Similar to Cytochrome P450.
Q3WV35 Fatty acid alpha hydroxylase.
Q4NF21 Fatty acid alpha hydroxylase.
Q5SFA9 Putative NDP-hexose 3,4-isomerase.
Q67G14 CvhE.
Q9RN55 SnogN.
Q5YNS9 Cytochrome P450 monooxygenase.
Q93RT1 Putative cytochrome P450.
Q9L141 Putative cytochrome P450-family protein.
Q73XP8 Hypothetical protein.
Q82GL6 Cytochrome P450 hydroxylase.
Q9RJQ6 Putative cytochrome P450.
Q2J4W2 Putative cytochrome P450.
Q3J3U8 Putative fatty acid beta hydroxylase (Cytochrome P450) (EC 14.-.- ).
Q47KL4 Putative cytochrome P450.
Q47L36 Putative cytochrome P450-family protein.
Q2G529 Cytochrome P450 family protein.
232 Chapitre 7. Comparaison des méthodes
Ainsi, le meilleur paramétrage de Caliseq pour identifier des P450s sur la SptrEmbl2007 fut
Z=0.05, L=1200 avec le jeu E (cf. Figure 5-10 B et deuxième ligne en gras du Tableau 5.10). Caliseq
détermine 4914 séquences comme étant des P450s, et ne détecte pas un total de 1871 séquences
identifiées par les deux autres méthodes. Comme pour la première version de Caliseq, ces 4914
séquences ne contiennent aucun faux positif connu de Prosite, et comprennent également 28 séquences
inconnues des deux autres méthodes. Ces 28 séquences sont montrées dans le Tableau 5.11.
Après vérification de ces séquences sur les autres serveurs (SMART ou ProDom) il s’avère que
100% sont des séquences de P450s. Caliseq se montre donc très sensible et très spécifique (mais peut
être trop sélectif…) pour l’identification de séquences de P450s dans les banques de séquences.
Sur cette figure, on peut constater qu’un pic de P450 non reconnu par Caliseq est observé pour
des séquences courtes de moins de 200 résidus. Par nature, ce genre de séquence n’est pas repérable
par Caliseq : les blocs recouvrent environs 60 à 70% de la longueur totale d’un P450. Sachant qu’un
P450 fait en moyenne une longueur de 400 à 500 résidus, la longueur minimale de séquences
identifiables par Caliseq est donc d’environ 300 résidus. En effet, Caliseq n’est pas en mesure de
positionner des blocs de séquences sur une séquence cible plus courte que la longueur totale des blocs.
Ainsi, une grande partie des séquences situées en dessous de ce seuil limite n’est pas identifiable par
Caliseq. Il en est de même pour les séquences trop longues en raison de la limite imposée par le
paramètre L.
Ces séquences courtes n’ont pas de pertinence dans le cadre d’un projet de reconstruction de
modèle 3D et d’une banque de sites actifs de CYP.
Vers l’obtention d’une banque de P450s 233
Figure 5-11 Statistique des longueurs de séquences non identifiées par Caliseq sur SptrEmbl2005 et
SptrEmbl2007. Le jeu de blocs de N. Loiseau a été utilisé sur la SptrEmbl2005 avec une limite de distance de
1000 résidus, et le jeu de blocs issu de GAKUSA a été utilisé sur la SptrEmbl2007 avec une limite de distance de
1200 résidus. En bleu, le nombre de P450s identifiés seulement par Pfam et non trouvé par Caliseq ni Prosite, en
mauve, le nombre de P450s identifiés uniquement dans Pfam et Prosite à la fois, et en rouge le nombre de P450s
exclusifs à Prosite. Beaucoup de faux positifs pour Caliseq correspondent en fait à des fragments de P450s.
À la suite de ces expériences de génomique exploratoire avec les CSBs identifiés par GOK ou
GAKUSA, deux autres manipulations ont été effectuées.
La première a consisté à utiliser à la place des blocs de GOK ou GAKUSA, des « blocs »
(autrement dit, les régions conservées de l’alignement) issus d’un alignement de Clustalw ou de
Matras. Quels que soient les paramétrages utilisés, le nombre de séquences récupérées avec ces deux
jeux de blocs n’ont pu dépasser celui obtenu avec le jeu E. Néanmoins, il est toutefois possible de
récupérer sur la SptrEmbl plus de 4000 séquences, ce qui n’est pas négligeable. À noter également que
les blocs (MCSB) de Matras donnent de meilleurs résultats que ceux prélevés de Clustalw.
L’information structurale contenue dans les blocs n’est donc pas négligeable dans la génomique
exploratoire.
234 Chapitre 7. Comparaison des méthodes
La deuxième expérience a consisté à utiliser le logiciel PSI-BLAST en utilisant les blocs pour
construire le profil pour PSI-BLAST. La construction de cette matrice a de plus été bien pensée, dans
la mesure où il est possible de restreindre la construction de la matrice à certaines positions et utiliser
une matrice de similarité de type BLOSUM à d’autres positions de l’alignement fourni pour construire
la matrice consensus. L’expérience a été lancée sur la base NR (Non Redondante). Deux inconvénients
ont été trouvés pour cette méthode : i) la recherche des séquences ne dépend pas uniquement du profil,
mais également (et surtout) de la séquence requête utilisée (la méthode est donc trop « requête
dépendante » et la séquence « pivot » influence le résultat) et ii) beaucoup de faux positifs sont
récupérés lors de cette recherche. PSI-BLAST, ne semble donc pas adapté pour utiliser l’information
des CSBs en génomique exploratoire.
Cette information structurale peut être exploitée sous forme de blocs structuraux conservés (CSBs)
dans une approche qui associe justement la reconstruction de modèle protéique à bas taux d’identité, et
la recherche sur banque par utilisation des CSBs comme signatures structurales spécifiques de la
protéine dont sont issus les CSBs. Cette méthode à double fonction a su donner des résultats
convenables et encourageants, dans ces deux champs d’études pour les P450s. Bien qu’étant conduites
uniquement pour le moment sur la superfamille des P450s, il serait fort intéressant d’appliquer cette
méthode sur d’autres familles de protéines à repliement conservé.
Les alignements obtenus suite aux positionnements des CSBs par Caliseq, ne semblent pas à
première vue se démarquer de ceux obtenus par des méthodes plus classiques, ou plus complexes,
compte tenu de l’état des connaissances actuelles. Néanmoins, placé dans le contexte historique, il
s’agit pourtant d’une méthode fiable et innovante pour produire des alignements satisfaisants pour la
construction de « bons » modèles lorsque l’information structurale, à savoir le nombre de structures
qu’il est possible d’utiliser en templates, est limitée.
Conclusion et perspectives 235
Concernant l’exploration génomique, les CSBs ont montré leur capacité à être utilisés en tant que
signature structurale spécifique de P450s. Même si la méthode identifie moins de séquences que les
méthodes homologues, elle montre en revanche une sensibilité et une spécificité très surprenante :
aucun faux positif n’a été comptabilisé parmi les séquences identifiées par l’association des CSBs et
de Caliseq. Par ailleurs, il a été également vu que seule une utilisation de l’information de type
structurale est en mesure de proposer un tel résultat.
Par ailleurs, au cours de ces expériences d’exploration génomique, des phénomènes de palier ont
été observés lors du filtrage par le z-score : des sous-ensembles de la banque sont en effet récupérés
« par paquet » en fonction de l’ajustement du seuil de sélection. Il serait alors intéressant de vérifier si
ces sous-ensembles sont identiques selon le jeu de blocs utilisé (qui sont fonction des templates qui le
composent). Des expériences de clustérisassions pourraient peut être mettre en évidence une relation
entre ces sous-ensembles et le jeu de blocs utilisés, conduisant au choix des meilleurs templates à
utiliser pour la construction d’un modèle d’une cible donnée.
Cette méthode offrira donc une réelle innovation à partir du moment où la reconstruction par
homologie, à savoir, toutes les étapes comprises entre le positionnement des blocs et l’obtention des
modèles, sera effectuée de manière automatisée, sans intervention humaine. En effet, il deviendra alors
envisageable d’exploiter en même temps les deux aspects différents et pourtant complémentaire de la
méthode : en combinant efficacement l’exploration génomique à la reconstruction par homologie aux
moyens des CSBs, il sera éventuellement possible de mettre en place une banque de modèles, voire
seulement de sites actifs à disposition de la communauté scientifique. Une telle base peut servir d’outil
pour des tests de pharmacologie et de prédiction d’interactions substrat-P450. En outre, par
comparaison globale du devenir d’un même substrat utilisé sur tous les sites actifs de P450s de la
banque, il sera peut être possible de fournir des éléments nouveaux dans la compréhension des
mécanismes de reconnaissance des substrats.
CHAPITRE 6
237
238 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
6.1 Introduction
C’est au cours de ma seconde année de thèse que l’équipe de l’INSERM UMR517 (I. de Waziers
et P. Beaune) en étroite collaboration avec P. Dansette (CNRS UMR8601), a fait appel à nos
compétences en modélisation moléculaire. Cette équipe travaille dans le domaine de la pharmacologie
dont les sujets d’études sont étroitement liés à la cancérologie et l’oncologie. L’une des méthodes
expérimentales qu’ils ont développées, consistant à utiliser les CYP comme des activateurs de
prodrogues, implique un cytochrome P450 non cristallisée à ce jour : le CYP 2B6. Ce cytochrome,
comme la plupart de ses homologues impliqués dans la dégradation des composées exogènes, se
retrouve principalement concentré au niveau du foie humain. Il est entre autre responsable du
métabolisme spécifique d’un composé, le cyclophosphamide (CPA) dont le produit de dégradation
(gaz moutarde) est cytotoxique pour les cellules en s’attaquant directement à leur ADN. En raison de
ces propriétés cytotoxiques, le CPA est largement utilisé en tant qu’agent chimiothérapique, mais la
difficulté majeure de son utilisation réside dans le non contrôle de son ciblage. En effet, lorsque le
CPA est administré aux patients, ce dernier est dégradé au niveau du foie. Le produit de cette
dégradation, très cytotoxique, se propage alors dans le corps à travers le flux sanguin. Il n’atteint pas
que la tumeur, mais également des tissus non tumoraux. Afin de limiter son champ d’action, une
stratégie particulière, la GDEPT (pour gene-directed enzyme prodrug therapy) a été adoptée. Celle-ci
consiste à introduire dans un vecteur le gène d’un CYP 2B6, et à l’exprimer dans les cellules
tumorales avant d’ajouter le CPA. Cette stratégie souffre toutefois d’un inconvénient majeur :
l’affinité faible du CPA pour le CYP 2B6. La collaboration entre nos deux équipes avait donc pour
objectif d’expliquer et d’améliorer l’affinité du CPA pour le CYP 2B6, par diverses approches
prédictives de la modélisation moléculaire. L’équipe d’I. de Waziers nous a contactés pour produire un
modèle fiable du CYP 2B6 afin de repérer les résidus du site actif candidats à des mutations
susceptibles de modifier l’affinité du substrat à l’enzyme.
Disposant des outils nécessaires à leur traitement in silico, nous avons également proposé de
construire virtuellement les mutants du CYP 2B6 et de conduire des simulations de dynamiques
moléculaires sans contrainte de quelques nanosecondes, pour étudier, comprendre et expliquer le
comportement du CPA dans le site nouvellement modifié. Cette approche a donné des résultats forts
prometteurs, avec de bonnes convergences entre prédictions et expériences. L’ensemble de résultats
fait l’objet d’un article en cours de soumission, ayant pour titre : « Analysis of CYP 2B6
Différentes approches exploitées pour un seul modèle final 239
Dans ce chapitre, je ne décrirai pas toutes les techniques déjà présentées dans l’article. Au
contraire, j’aborderai des points qui n’ont pas été détaillés, ou qui ont été réalisés après la rédaction de
l’article.
La construction d’un modèle de CYP 2B6 était l’occasion d’expérimenter les différentes
stratégies de reconstruction par homologie disponibles, et de les comparer à la méthodologie mise en
place au laboratoire. À part SwissModel, qui propose un modèle final à partir de références de
structures de P450s, les méthodes ne proposent que des alignements : c’est à l’utilisateur d’exploiter
cet alignement, en le fournissant à des logiciels de reconstruction comme Modeller. Dans tous les cas,
la première tâche consiste en la sélection des structures de référence.
La soumission de la séquence du CYP 2B6 à BLASTP sur les séquences des protéines contenues
dans la PDB donne les résultats présentés au Tableau 6.1, par ordre d’identité (requête d’octobre 2005).
Tableau 6.1 Résultats de la recherche d’homologues du CYP 2B6 par un BLASTP sur la PDB
Taux d’identité Recouvrement
PDB Nom du CYP
avec CYP 2B6 avec CYP 2B6
1
.1SUO et 1PO5 ne présentent pas tout à fait les mêmes valeurs, dans la mesure où 1P05 comporte des résidus non résolus. Par ailleurs,
1PO5 est une forme sans substrat et ouverte.
Dans ce tableau, les structures des CYP 2B4 présentent une identité de 78% avec le CYP 2B4. A
ce niveau d’identité, il est admis qu’une reconstruction en monotemplate (une seule structure de
référence utilisée) est suffisante, voire même fortement conseillée. Comme mon idée était de tester les
240 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
différentes méthodes, j’ai quand même entrepris l’essai des autres méthodes, juste par curiosité :
allaient-ils me donner un modèle équivalent à celui obtenu en monotemplate ?
Les structures de référence et les méthodes employées pour aligner les séquences des structures de
références sur la séquence cible ont été les suivantes :
a) Pour la reconstruction du CYP 2B6 en monotemplate, la forme fermée de la structure du CYP
2B4 a été choisie (1SUO) : comme détaillé dans l’article, l’avantage que présentait la structure
1SUO du CYP 2B4 est de comporter un substrat, le 4-(4-chlorophenyl)imidazole (CPI)
co-cristallisé dans son site actif. De plus, ce dernier étant structuralement proche du CPA, sa
position dans le site actif du CYP 2B4 pouvait fournir un bon point de départ pour le
positionnement du CPA. L’alignement quant à lui est aisément réalisé à l’aide du logiciel
Clustalw.
b) Le serveur SwissModel a choisi pour sa part, les structures 1SUO, 1PO5, 1Z11 et 1Z10
(respectivement CYP 2B4 et CYP 2A6) pour construire le modèle. Il est en effet possible
d’imposer ses propres structures de référence, mais par défaut, SwissModel effectue un
BLASTP et choisit les meilleures séquences des structures présentant la meilleure identité
avec la séquence cible soumise.
c) Sous le serveur Matras (cf. 2.4.4.3), j’ai fourni le même set de structures que celui de
SwissModel : Matras se charge alors de retourner un alignement de ces quatre structures de
référence entre eux. Il me reste alors à aligner les séquences de ces quatre structures sur la
séquence du CYP 2B6. La réalisation de cet alignement est triviale dans la mesure où la
séquence du CYP 2B4 est très proche de celle du CYP 2B6.
d) Un autre serveur, HHPred (Söding et al., 2005) a été utilisé à l’occasion. Pour mémoire, ce
serveur utilise un programme basé sur les HMM pour réaliser l’alignement de séquences en
recherchant les homologues du CYP 2B6. L’avantage que présente ce serveur est de fournir en
résultat un alignement pré formaté pour le logiciel Modeller : il ne reste alors plus qu’à
préparer le fichier de commande. Les structures retenues en référence par HHPred sont le
1X8V (CYP 51), 1PO5 (CYP 2B4), 1R9O (CYP 2C9), 1Z10 (CYP 2A6), 1IZO (P450BSbeta),
1UE8 (P450st), 1IO7 (CYP 119), 1N4O (CYP 121), IUED (P450OxyC) et 1LFK (P450OxyB).
Mises à part les structures des CYP 2C9 et du CYP 2A6, toutes les autres structures sont celles
de bactéries. Ce résultat est assez surprenant dans la mesure où HHPred a proposé pour
templates de nombreuses structures en dessous du seuil d’identité de 26%, indiqué par le
BLASTP (non présentées dans le Tableau 6.1).
Différentes approches exploitées pour un seul modèle final 241
Tableau 6.2 RMSD calculé sur le backbone entre les modèles de CYP 2B6 générés par les différentes méthodes d’alignement. La
structure de référence pour le calcul de RMSD est le modèle obtenu en monotemplate. Pour information, le modèle du CYP 2B6
monotemplate a un RMSD de 1,77 Å de la structure RX du CYP 2B4
Modèle obtenu par la méthode d’alignement RMSD avec le modèle obtenu en monotemplate
Matras 0,38 Å
1
SwissModel 0,63 Å
Caliseq 1,85 Å
HHpred 2,69 Å
1
SwissModel est la seule méthode entièrement automatisée, pour les 3 autres, nous avons utilisé Modeller 7
Sur ce tableau, les deux modèles qui semblent diverger le plus par rapport à celui construit à partir
de 1SUO sont ceux générés par l’alignement HHPred et Caliseq. Encore une fois, ce résultat n’est pas
surprenant : les méthodes HHPred et Caliseq comportent en effet plus de structures de référence
bactériennes, alors que les autres n’en disposent pas. À constater également qu’à partir d’un jeu
identique de templates, la méthode Matras et SwissModel ne donnent pas tout à fait le même résultat :
le programme de reconstruction utilisé est différent (Modeller pour Matras, PromodII pour
SwissModel), mais la différence n’est pas significative. D’ailleurs, à une simple minimisation près, les
modèles obtenus pour SwissModel, Matras et en monotemplate sont équivalents.
Le choix final de la méthode pour reconstruire le CYP 2B6 s’est porté sur la stratégie en
monotemplate pour les raisons évoquées précédemment (~78% d’identité en séquence). Les autres
constructions ont été réalisées en vue de comparer les différentes méthodes. À noter enfin que de
toutes les méthodes, la méthode de recontruction par blocs structuraux est la plus défavorisée pour
l’alignement : elle est la seule qui ne comporte pas la séquence d’un CYP 2B4. Toutefois, ce
désavantage est compensé par la structure du CYP 2B4 utilisée par les autres méthodes comme
templates pour la reconstruction : 1PO5 est une forme ouverte du CYP 2B4, à 5 Å de RMSD de la
structure du 1SUO –le RMSD est calculé sur les atomes des squelettes peptidiques–. Utiliser cette
forme ouverte du CYP 2B4 pourrait ainsi expliquer (en plus du nombre de structures bactériennes
utilisées) la divergence avec le modèle construit en monotemplate.
qui pourraient être présents sur la structure X initiale. Cette opération peut sembler inutile, dans la
mesure où Modeller est censé relaxer les structures templates avant d’utiliser leurs contraintes
spatiales. Mais la relaxation par MD pendant une longue durée (2 ns) et dans une boîte de solvatation
explicite permet de rechercher une meilleure structure à l’équilibre. Cette étape permet en outre de
préparer le protocole GROMACS qui sera appliqué sur le modèle final du CYP 2B6.
Le modèle, une fois construit et validé par les logiciels d’évaluation de structures (Prosa II, ProQ
et Anolea), a été comparé à la structure du CYP 2B4. De l’évolution des structures lors de la
dynamique, aux canaux d’accès suggérés par le logiciel CAVER (Petrek et al., 2006) en passant par le
volume du site actif déterminé par le logiciel Voidoo (Kleywegt et al., 2006), tout a été passé en revue
comme cela est décrit dans l’article. Le but de ces manœuvres était de vérifier si le modèle du CYP
2B6 n’était pas une simple copie de la structure du CYP 2B4 et d’observer de vraies variations dans le
site actif. Le RMSD final entre le modèle du CYP 2B6 relaxé et équilibré et la structure du CYP 2B4
est de 1,77 Å, ce qui suggère que ces deux protéines sont structuralement distantes.
La seconde étape a consisté à placer le substrat dans le site actif du CYP 2B6 afin de déterminer
les résidus en contact étroit avec le CPA. Ceux-ci seront alors proposés à des mutations en vue de
modifier le comportement du CPA envers son enzyme.
Le composé est chiral au niveau du phosphore, or PRODRG ne propose qu’un seul des deux
énantiomères : le S. Sachant que l’équipe d’I. de Wazier utilisait un mélange racémique pour les
mésures d’activités, il fallait donc construire son énantiomère R pour disposer d’une reproduction
244 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
complète des données expérimentales en machine. Pour cela, j’ai utilisé le logiciel SYBYL (Tripos inc,
St Louis, USA) (fonction « invert chirality »).
Cl
O
O
P N
N
H Cl
18
VMD est un logiciel de visualisation de structures, qui peut recevoir des directives au moyen de scripts écrits
en langage TCL. C’est l’outil dont je me suis le plus servi pour visualiser mes résultats, mais pas pour générer
les images : elles ont été réalisées sous PYMOL.
Docking manuel et mutations in silico 245
Le placement du CPA dans le site actif du CYP 2B6 a permis de repérer les résidus en contact
étroit avec le CPA (cf. article). Ces derniers ont été alors proposés pour des expériences de mutations
ponctuelles, en vérifiant préalablement si ces mutants avaient déjà été signalés dans la littérature. Les
premiers mutants opérés par l’équipe d’I. de Waziers ont porté principalement sur le remplacement
des résidus proposés par des résidus à caractère polaire : I. de Waziers et coll. pensaient en effet
exploiter le caractère polaire du groupement P=O du CPA en remplaçant des résidus hydrophobes du
site actif par des résidus polaires. Ces résultats n’ont pas été convaincants comme on peut le constater
sur le Tableau 6.3, dérivé du Tableau 5 de l’article avec les caractéristiques des résidus en plus. Avec
l’appui du modèle du site actif, d’autres combinaisons ont été essayées portant sur le caractère
« encombrement stérique» des résidus. Trois mutants (V477F, I114V, V477W) ont révélé des résultats
intéressants au niveau de l’affinité (Km) et de la vitesse de réaction (Vmax). Ces trois mutants ont été
testés in silico afin d’observer le comportement du CPA placé à l’intérieur. L’analyse des simulations
des trois mutants a conduit à la réalisation d’un double mutant (I114V/V477W) qui a montré en ex
vivo des résultats très encourageants, interprettables par le comportement du substrat dans les
simulations de MD in silico.
Pour la réalisation de chaque mutant, le modèle du CYP 2B6 vide, équilibré et relaxé par 2 ns de
simulation de MD a été repris comme point de départ, et soumis au logiciel SYBYL. Pour chaque
mutant, une série de rotamères pour les chaînes latérales est proposée : ceux-ci résultent d’une
observation statistique de rotamères dans la PDB. Ainsi, on choisira le rotamère le plus « naturel » à
savoir celui dont la fréquence est la plus importante dans la PDB. Afin de supprimer les « bumps »
éventuels (ou contacts non désirés) survenus lors de la mutation, une minimisation locale est appliquée.
Le CPA est ensuite soumis à une minimisation locale, toujours conduit sous SYBYL. Suite à cet
ajustement, une simulation de 2 ns de MD a été réalisée. Les résultats de la simulation sont ensuite
analysés.
246 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
Tableau 6.3 Analyse cinétique du métabolisme du CPA par les levures exprimant les CYP 2B6 wt et mutant. Les mutants sont répartis en
trois groupes : polymorphisme, mutations canines et mutations du site actif des résidus prédits in silico. (source : I. de Wazier)
taille de la
min-1 % of wt mM % of wt % of wt
muté
chaîne
latérale
CYP 2B6wt 63 100 5 100 13 100
Q172H 33 53 4 86 8 62
G366E NQ - NQ - - -
+V367L +
V367L + 90 144 9 181 10 80
V367F ++ 27 43 13 264 2 16
V367S 5 8 NQ - - -
V367T 24 39 6 131 4 30
V367H 2 2 NQ - - -
V477S - NQ - NQ - - -
V477T 37 59 9 182 4 33
V477Y ++ 29 46 6 121 5 38
V477N +++ NQ - NQ - - -
V477D 3 4 NQ - - -
V477E 2 3 NQ - - -
V477I ++ 77 124 3 66 24 189
V477F ++ 81 130 3 68 25 191
V477W +++ 100 160 3 57 36 278
G478A + 28 45 6 129 4 35
G478V ++ 36 58 3 53 14 110
G478S 7,51 12,0 NQ - - -
G478E 5,4 8,6 NQ - - -
-
I114V 58,47 93,6 1,11 22,793 52,6757 411
+V477W +++
6.4 Simulation de MD
Les simulations de dynamique moléculaire ont été réalisées sous deux champs de force différents :
GROMOS87 pour toutes les simulations présentées dans l’article, et AMBER7 pour quelques
simulations postérieures à l’article. L’idée sous-jacente était de vérifier la conformité des résultats
selon deux méthodes différentes. Le choix de GROMOS87 (ou plus exactement, GMX, un champ de
force dérivé de GROMOS87) a été guidé d’une part par l’utilisation du serveur PRODRG2 qui
fournissait des topologies pour logiciel GROMACS exclusivement, et d’autre part par le fait que
GROMACS incorporait la topologie de l’hème et permettait sa fixation à l’enzyme sans instructions
supplémentaires particulières. La différence majeure entre les deux champs de force vient de leur
traitement des atomes d’hydrogène : le champ de force GROMOS est de type « tout uni » et non tout
atome, accélérant énormément les temps de calculs. Ainsi, en réalisant des simulations avec NAMD,
qui utilise le champ de force AMBER (tout atome), je voulais vérifier si les résultats obtenus sous
GROMACS étaient reproductibles.
L’avantage de cette méthodologie est multiple : il n’y a pas besoin de créer le fichier de topologie
pour le substrat, puisque c’est le serveur PRODRG qui s’en occupe, ni de définir la topologie de
l’hème déjà présente dans le champ de force GMX, ni de l’attacher au CYP 2B6 car la ligation est
réalisée automatiquement lors de l’utilisation du script pdb2gmx. Néanmoins, dans cette stratégie, la
commande #include présente l’inconvénient de traiter l’enzyme et le substrat dans deux fichiers
séparés : l’application d’une contrainte de distance entre l’hème présent dans un des fichiers de
topologie et le substrat présent dans l’autre fichier de topologie n’était pas réalisable, car le
programme ne peut pas gérer les interactions entre les deux systèmes de coordonnées. L’utilisation de
contraintes de distance est pourtant intéressante lorsque l’on désire favoriser une interaction
particulière (par exemple maintenir le CPA dans l’environnement de l’hème). Sous GROMACS, cette
contrainte de distance correspond en fait à une pénalité énergéique ajoutée à l’énergie potentielle,
lorsque la distance entre deux atomes d’une paire spécifiée excède un certain seuil. Pour pouvoir
utiliser les contraintes de distances dans mes simulations, j’ai été amené à modifier le protocole de
J.E. Kerrigan, en réalisant une fusion des informations topologiques du CPA et de celles l’enzyme,
dans un seul et même fichier de topologie. Deux scripts python ont été écrits à cet effet :
Addgro2gro.py permet la renumérotation et la fusion des fichiers gro, Additp2top.py permet de
fusionner le fichier itp de topologie du substrat au fichier top de topologie de l’enzyme. Non
seulement la troisième étape de la stratégie devenait désormais automatisée, mais aussi les contraintes
de distances ont pu être appliquées.
site actif. Enfin, pour des contraintes de temps de calcul, j’ai réalisé le docking des deux énantiomères
uniquement pour le CYP 2B6wt, le double mutant I144V/V477W et le mutant V477Y. Pour ce dernier
mutant, il s’agissait d’expliquer par la dynamique la différence observée lors du remplacement de la
valine en position 477 par un résidu encombrant : une meilleure efficacité catalytique est observée lors
d’un remplacement par une phénylalanine ou un tryptophane, tandis que le remplacement par une
tyrosine entraîne une chute de l’activité (cf. Tableau 6.3). Pour chaque simulation, la trajectoire de
celle-ci est alors observée puis analysée.
Outre l’observation de la trajectoire de la simulation sous VMD, le logiciel GROMACS offre une
panoplie d’outils d’analyse des simulations, permettant de détecter d’éventuelles anomalies
énergétiques au cours de la dynamique, ou vérifier si la durée de cette dernière est suffisante pour que
le système atteigne une position d’équilibre. Ces outils permettent également d’analyser des distances,
ou l’évolution des liaisons hydrogène créée entre le substrat et l’enzyme au cours de la trajectoire.
Stabilité du modèle. Toutes les simulations sous GROMACS ont été construites dans l’ensemble
NPT (Nombre de molécule constant, Pression constante et Température constante). Pour s’assurer du
respect de ces conditions, la fonction g_energy de GROMACS a été utilisée pour fournir des
renseignements sur la pression, température, l’énergie du système à chaque « frame » (ou temps19) de
la simulation. En dehors de l’énergie potentielle qui évolue logiquement selon la qualité du modèle du
complexe de départ, les courbes sont similaires pour toutes les simulations réalisées.
19
Dans les simulations de MD conduites sous GROMACS, chaque frame correspond à 2 femtosecondes.
250 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
Figure 6-2 Exemple de contrôle de la pression durant la dynamique du double mutant CYP 2B6
(I114V/V477F). La courbe de pression montre une oscillation normale du comportement de la pression autour de
1 bar. Pour plus de clarté, un frame sur 20 est montré.
Figure 6-3 Exemple de contrôle de la température durant la dynamique du double mutant CYP 2B6
(I114V/V477F). La courbe de température montre une oscillation normale du comportement de la température
autour d’une moyenne de 300K, la température de consigne.
Simulation de MD 251
Figure 6-4 Évolution de de l’énergie potentielle pour le complexe double mutant (I114V/V477W) / CPA.
Dans le cas présent, l’équilibration du système a été obtenue rapidement (~ –761 500 kJ/mol).
Mouvements des atomes durant la simulation. Pour contrôler les fluctuations du squelette du
modèle ainsi que de son substrat, la fonction g_rms a été utilisée. Celle-ci calcule à chaque temps, le
RMSD entre le squelette peptidique du modèle (ou les atomes lourds du CPA) à un temps t et sa (leurs)
position(s) à l’instant initial t0. L’ensemble de ces RMSD forme une courbe comme celles montrées en
figures 1 et 7 de l’article. Ces courbes permettent de voir à partir de quel moment le modèle a atteint
un point d’équilibration, et si la dynamique est suffisamment longue. La plupart du temps, cette
position d’équilibre était atteinte aux environs de 500 ps. Les premières simulations atteignent cette
« limite » des 500 ps : elles ont donc été étendues à 2 ns (soit 4 fois le temps d’atteinte à l’équilibre).
Par ailleurs, la courbe de RMSD du CPA (figure 7 de l’article) rend compte des mouvements du CPA,
observés lors de la simulation. En effet, au cours de la trajectoire dynamique, il a été observé que le
CPA était moins mobile dans le site du double mutant, ou dans le site du mutant V477F par rapport au
CYP 2B6wt. L’évolution du RMSD au cours du temps est un moyen commode de rendre compte des
mouvements observés sur la vidéo.
Liaisons H formées entre le substrat et l’enzyme. Afin de connaître les interactions impliquées
entre le CPA et le CYP2B6, nous avons cherché à caractériser le nombre de liaisons hydrogènes
formées entre les deux molécules au cours de la dynamique. La fonction g_hbond dans GROMACS a
252 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
permis cette analyse. Par défaut, cette fonction prend une distance de rDA = 2,5 Å entre l’atome
donneur D et l’atome accepteur A, ainsi qu’un angle de α=60° autour des atomes pour trouver leurs
partenaires potentiels (cf. Figure 6-5). Étonnamment, aucune liaison H n’a été observée (même
transitoirement) entre le CPA et le CYP2B6 quelle que soit la dynamique et quel que soit le mutant
considéré, et ce même en modifiant les paramètres par défaut du programme. Ce résultat peut
expliquer l’absence d’effets positifs sur l’affinité pour le CPA dans la série des différents mutants
testés sur la base de la polarité.
rDA
D A
Figure 6-5 Relations géométriques utilisé par g_hbond. D correspond à l’atome Donneur et A à l’atome
Accepteur. H représente l’atome d’hydrogène. Par défaut, la distance entre les deux atomes est réglée à rDA = 2,5 Å
et α = 60°.
Recherche des interactions dans le site actif. Une autre fonction de GROMACS qui a été très
utile lors de l’étude d’interaction CPA-CYP 2B6, est la fonction g_dist. Cette dernière permet de
calculer la distance entre deux atomes tout le long de la dynamique. Cette information de distance
s’est révélée intéressante lorsque j’ai cherché à connaître l’évolution de la distance entre l’atome
d’oxygène du groupe P=O du CPA avec les résidus polaires les plus proches dans le site actif. Même
si aucune liaison H ne se formait, il y avait peut-être une interaction possible avec les résidus
avoisinant en dehors de la répulsion stéarique exercée par la mutation de la valine 477 par un résidu
« encombrant ». Sous VMD20, cinq résidus polaires intéressants ont été trouvés à environ 10 Å du
CPA : la serine 294, le glutamate 301, la thréonine 302 et les phénylalanines 206 et 297 (cf. Figure
6-6). L’évolution de ces distances est montrée sur la Figure 6-7.
20
La Figure 6-6 a été obtenue à l’aide du logiciel Pymol.
Simulation de MD 253
Figure 6-6 Représentation du site actif avec les 5 résidus à 10 Å du groupe P=O du CPA : Ser294 (noir),
Glu301 (rouge), Thr302 (vert), Phe206 (jaune) et Phe297 (bleu). Les résidus, l’hème et le CPA sont représentés en
bâtonnet, tandis que le reste de la protéine est représenté en rubans (logiciel Pymol). Les hélices I, G, F et B’ sont
mentionnées à titre indicatif.
Figure 6-7 Distances entre l’atome d’oxygène du groupe P=O du CPA avec un atome des résidus avoisinants :
Ser294 (noir), Glu301 (rouge), Thr302 (vert), Phe206 (jaune) ou Phe297 (bleu).
254 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
Cette information nous a permis de révéler l’existence d’un contact polaire (défavorable) entre le
groupe P=O du CPA et l’un des oxygènes du carboxylate du résidu Glu301. Comme montré sur la
Figure 6-7, la distance entre les atomes d’oxygène reste relativement constante durant toute la
simulation, et tend même à diminuer en fin de simulation. La présence de ce contact polaire
défavorable est liée au contexte environnemental du Glu301 qui se retrouve encapsulé entre des
résidus à caractère hydrophobe (cf. article, section discussion). C’est pourquoi, l’atome d’oxygène du
P=O s’oriente plus volontiers vers le Glu301, plus favorable que son voisinage. Cette interaction peut
par ailleurs être favorisée en présence d’une molécule d’eau au voisinage (cf. Figure 6-8), qui n’a
malheureusement pas été observée au cours de la dynamique.
O
δ+ δ- –
C
P=O
H H O
Figure 6-8 Interaction CPA – GLU301 favorisé par la présence d’une molécule d’eau. Les formules du CPA et
du GLU 301 sont partiellement représentées. Les interactions sont représentées par des traits en pointillés.
En résumé, GROMACS a été utilisé pour les expériences de MD dans l’article, en raison de sa
facilité d’utilisation, sa rapidité d’exécution par rapport aux autres outils disponibles, et aussi pour
l’ensemble des outils qu’il propose pour l’étude des simulations. Néanmoins, GROMACS reste
sensible à la stabilité du modèle de départ. Le programme peut diverger à la suite de « clashs »
survenant lors des processus d’équilibration ou de dynamique moléculaire, et ce, en dépit d’une
minimisation préalable.
Souvent, il a fallu modifier légèrement la position initiale du CPA dans le site actif avant de
pouvoir relancer correctement l’ensemble de la dynamique. J’avais d’ailleurs écrit un script pour
générer différentes positions initiales pour le substrat : mais l’étroitesse du site rend cette approche
souvent non productive, il n’a que peu de marge possible dans le placement initial du substrat dans le
site actif, non rattrapable dans GROMACS.
Simulation de MD 255
NAMD ne possède pas de serveur automatique dédié au calcul de topologie des petites molécules.
À la place, il faut utiliser antechamber, un package dédié à la création de topologies pour le champ de
force AMBER. Il existe deux méthodes pour créer la topologie des petites molécules sous
antechamber selon la manière de calculer et d’attribuer les charges à la molécule (cf. Figure 6-9). La
première méthode est réalisée par RESP qui effectue un calcul quantique pour reproduire des
potentiels électrostatiques afin d’attribuer les charges à la molécule. La seconde méthode dite
AM1BCC est de nature semi-empirique : elle consiste à calculer les charges partielles dérivées de la
fonction d’onde AM1, qui sont ensuite corrigées par BCC afin de générer et d’attribuer les charges
partielles.
256 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
Figure 6-9 Organigramme de la procédure à suivre pas à pas pour générer une topologie AMBER d’une
molécule sous antechamber. Les procédures basiques de calcul des charges sont montrées dans les rectangles en
pointillés (AM1-BCC à gauche et RESP à droite) (Source : Manuel d’antechamber)
Nous avons appliqué la méthode AM1-BCC pour construire la topologie du CPA. Par ailleurs,
NAMD ne connaît pas non plus la topologie de l’hème, contrairement à GROMACS. Une création de
topologie de l’hème sous antechamber se voyait donc également nécessaire. À la suite d’une
publication parue en 2005 (Oda et al., 2005), il a été possible d’utiliser une topologie déjà existante et
disponible sur le net.
Lorsque les deux fichiers de topologies (.prep ou .frcmod) sont construits, ils peuvent être utilisés
pour créer les fichiers de topologies et de coordonnées du complexe entier (fichier .top et .crd). Ces
derniers sont construits à l’aide de l’utilitaire Leap, utilisable sous forme de ligne de commandes.
Ainsi, c’est sous Leap que l’utilisateur demande l’attachement de l’hème à la protéine (en précisant sur
Simulation de MD 257
quels atomes cette liaison doit s’opérer) mais aussi la création de la boîte de solvatation périodique et
son remplissage par de l’eau et des contre-ions.
Lorsque les fichiers de topologie et de coordonnées sont générés, NAMD peut effectuer la
simulation de MD. Contrairement à GROMACS, rien n’est automatisé ici : l’utilisateur doit définir
lui-même comment les forces vont être appliquées au système, renseigner sur la taille de la boîte ainsi
que les conditions périodiques (par calcul du volume sous VMD) etc. NAMD impose donc un contrôle
complet des paramètres de la simulation. Les étapes de la simulation sont les mêmes que celles
adoptées sous GROMACS : d’abord une étape de minimisation, puis d’équilibration (principalement
en fonction de la température dans un premier temps) et une phase de dynamique moléculaire. Les
paramètres sont également identiques à ceux utilisés lors des simulations de MD sous GROMACS :
température identique à l’équilibre (300K), solvant explicite, pression constante (1 bar), nombre de pas
et durée de simulation (2 ns) etc. NAMD travaillant en « tout atome » le temps de calcul pour une
même trajectoire est plus long. Pour cette raison, seules 3 trajectoires ont été simulées sous NAMD
pour comparer avec les résultats de simulations sous GROMACS (avec les deux énantiomères) : le
modèle sauvage du CYP2B6, le simple mutant V477Y, et le double mutant, I114V/V477F.
Ces manipulations une fois réalisées, on obtient alors les résultats présentés dans les Figure 6-10
et Figure 6-11.
258 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
Figure 6-10 Évolution du RMSD du CYP 2B6 wild type (en rouge) et CYP 2B6 I114V/V477W (en noir)
durant les 2ns de MD sous NAMD. Dans les deux simulations, un plateau aux alentour de 2 Å est atteint après 1 ns
de simulation. Ce plateau est plus haut par rapport à celui obtenu sous GROMACS, et est atteint également plus
tard.
Sous le champ de force AMBER, les modèles semblent atteindre une conformation stable après
seulement 1,2 ns, ce qui est nettement plus tardif par rapport aux simulations sous GROMACS où les
modèles atteignaient leurs conformations stables à 500 ps (cf. Figure 1 de l’article). Par ailleurs, sous
AMBER, le plateau semble moins bien marqué, aux alentours de 2,3 Å, alors que sous GROMOS, il
était de 1,7 Å. Néanmoins, les simulations sont relativement similaires, dans la mesure où les modèles
atteignent au final une conformation stable, quel que soit le champ de force utilisé. En fin de
simulation de MD, le RMSD calculé sur le squelette peptidique pour le CYP 2B6wt est de 2,44 Å par
rapport à son homologue sous GROMACS, tandis que celui du CYP 2B6dm est de 2,41 Å : on obtient
à peu près les mêmes structures d’arrivée pour les deux méthodes.
Ce premier résultat est très encourageant, puisqu’il confirme que l’approche par dynamique
moléculaire en solvant explicite est fiable, et indépendamment du champ de force utilisé. Le fait aussi
que les simulations s’équilibrent autour de la même configuration dénote aussi d’une certaine
reproductibilité des modèles construits pour le CYP2B6 et ses mutants.
Simulation de MD 259
Après avoir vérifié la stabilité des modèles, la seconde vérification porte sur le comportement du
CPA dans le site actif du CYP 2B6 sauvage et du CYP 2B6 double mutant I114V/V477W. La Figure
7 de l’article montre justement par l’évolution des RMSDs du CPA lors de la simulation de MD la
restriction de mobilité du CPA dans le site actif du double mutant par rapport au site actif sauvage.
Cette perte de mobilité pouvait alors expliquer l’augmentation de l’efficacité de son métabolisme dans
le double mutant.
Figure 6-11 Comportement lors de la dynamique sous NAMD du CPA (énantiomère S dans cet exemple) dans
le site actif du CYP 2B6 wt (en rouge) et CYP 2B6 I114V/V477W (en noir). Comme sous GROMACS, la
tendance des amplitudes est en faveur d’une restriction de mobilité du CPA dans le site actif du double mutant.
Cette tendance est cependant moins marquée que sous GROMACS.
Sous NAMD, les mêmes fluctuations du RMSD sont retrouvées, avec différence entre le double
mutant et le sauvage un peu moins marquée que dans l’expérience sous GROMACS. L’allure générale
est conservée : le CPA semble également dans ces simulations plus contraint, moins mobile dans le
CYP 2B6 I114V/V477W que dans le CYP 2B6 sauvage. Comme pour les simulations sous
GROMACS, le « décrochage » observé en début de simulation dans le cas du CYP 2B6 double mutant
et les niveaux de RMSD correspondent au repositionnement du CPA. Les différents paliers dans le
RMSD du CPA (S) du CYP 2B6 sauvage (à 700 ps et à 1800 ps) correspondent à des changements
d’orientations du groupe P=O du CPA : par moment pointant vers l’hélice I, par moment pointant vers
260 Chapitre 6. Du virtuel au concret : applications sur le CYP2B6
le côté opposé. Ceci peut trouver une explication dans le fait qu’à part le glutamate en position 301, les
résidus voisins de l’hélice I sont à caractère hydrophobe, sans affinité particulière pour le groupe
polaire P=O du CPA : le groupe P=0 subit donc moins de répulsion en face de l’O du carboxyle du
GLU 301 que lorsqu’il fait face aux groupements hydrophobes voisins. De ce fait, ce dernier peut se
trouver soit en position défavorable (sauf lorsqu’une molécule d’eau se trouve dans le voisinage, mais
cela n’a pas été observé non plus sous NAMD), tourné vers le GLU 301 soit dans une position
opposée à l’hélice I où il se trouve la plus grande partie du temps. Dans les deux cas, aucun des deux
positionnements ne semble favoriser une position particulière du métabolisme (Carbone près du
groupement NH) plus que l’autre. À noter enfin que ce basculement du CPA est moins prononcé sur
l’énantiomère R, mais la simulation n’est peut être pas suffisamment longue pour pouvoir observer ce
phénomène.
6.5 Conclusion
Dans le cas particulier de cette collaboration entre l’équipe d’I. de Waziers et la nôtre, les
méthodes de la bioinformatique structurale ont pu apporter des réponses concrètes aux préoccupations
des cliniciens impliqués dans cette approche de prodrogue activée sous thérapie génique. La
confrontation des simulations et des paramètres cinétiques mesurés a permis en particulier de fournir
des éléments prédictifs pour la conception de nouveaux mutants. L’issue la plus notable de cette
collaboration fut l’obtention d’un double mutant du CYP 2B6 qui, selon les expériences ex vivo de
cytotoxicité sur des cellules cancéreuses humaines, présente une meilleure affinité ou du moins une
meilleure efficacité sur le CPA : le CYP 2B6 double mutant est donc un candidat à fort potentiel pour
des expériences de thérapie génique qui utilisent le CPA comme agent chimiothérapique.
Par ailleurs, d’autres simulations ont été opérées sur les modèles, visant à confirmer les premiers
résultats. Celles-ci ont été effectuées sous un champ de force et un environnement très différents. Les
résultats obtenus sont en accord avec ceux décrits dans l’article, prouvant la fiabilité des premiers
résultats obtenus.
le mutant L199M, la boucle B–C pour les mutants F107V et I114V, et enfin le long coude en β hairpin
formé de part et d’autre du feuillet C-terminal (β4) pour les mutations de la série 477. Ces informations
viennent donc compléter les observations et remarques formulées dans les chapitres antérieurs
concernant ces fameuses régions où il était difficile aussi bien de déterminer que de positionner les
blocs structuraux lors de la reconstruction d’un modèle de CYP. Ainsi, même si les mécanismes mis
en jeu dans la reconnaissance des substrats ne sont pas encore élucidés, ces résultats apportent des
renseignements supplémentaires sur les régions impliquées dans la reconnaissance du substrat.
Par ailleurs, le façonnage du site actif du CYP 2B6 a abouti à de meilleurs résultats par voie
stérique, en respectant les polarités d’origine du site pour ne pas disperser les positions stables du CPA
dans le site actif : la stratégie « polaire » (mutation par des résidus polaires) s’est en effet conclue par
des échecs, probablement en raison d’une dissipation (ou à l’inverse, multiplicité) des positions
d’interactions établies avec le CPA, entrainant une diminution de la statistique de positionnement
favorable au métabolisme.
Enfin, le GLU 301 semble jouer un rôle important vis-à-vis du CPA. Ainsi, par remplacement de
ce résidu par une Arginine, une Glutamine ou par un groupement hydrophobe, pourrait supprimer le
basculement du CPA et orienter le groupe P=0 vers une position unique à l’opposé de l’hélice I. Le cas
d’un triple mutant a donc été soulevé avec nos collaborateurs, mais aucune expérience n’a été entamée
encore.
6.6 Article
Conclusion
Conclusion et perspectives
263
CHAPITRE 7
265
266 Chapitre 7. Bilan et nouvelles idées
Je pense néanmoins avoir développé et mis en place les bases d’une méthode suffisamment
précise qui peut apporter quelques éléments de réponse à cette problématique : cette méthode allie à la
fois la recherche et la sélection de séquences de P450s, à leur reconstruction par homologie, même à
bas taux d’identité. Dans les deux cas, la méthode se base sur des informations structurales, contenues
dans des éléments particuliers et innovants : les CSBs. Afin d’exploiter l’information contenue dans
ces CSBs, l’ensemble de la méthode s’articule autour d’un programme que j’ai développé au cours de
mes trois années de thèse : le programme Caliseq. C’est ce dernier qui va permettre le positionnement
optimal des CSBs sur une séquence cible, soit vers un but de production d’alignement de séquences
(pour une construction de modèle par exemple), soit pour une identification de P450s à l’aide de ces
CSBs utilisés comme signature structurale des P450s.
blocs, à savoir, ceux des templates de P450s : cela avait pour but d’aider l’alignement de ces profils
sur la séquence cible avec une fonction de score spécifique aux P450s.
De nombreuses méthodes ont été proposées pour améliorer l’alignement inter-blocs, mais aucune
en revanche n’a été suggérée pour favoriser le positionnement des blocs sur la séquence cible, en
dehors d’un calcul d’une matrice de similarité spécifique aux P450s. Il est donc intéressant en
perspective de faire un tour rapide des informations à « mi-chemin » entre la 3D et la 1D qui n’ont pas
été encore exploitées pour améliorer le positionnement des blocs sur la séquence cible par Caliseq, et
pouvoir trancher sur les incertitudes rencontrées au cours de la thèse pour les blocs « flous ».
La première idée qui vient à l’esprit est l’utilisation des éléments de structures secondaires dans
les alignements. Ceux-ci ne seraient pas exploités à la manière de Matras, comme base pour
l’alignement structural, mais plutôt comme une information supplémentaire qui seraient incluse ou
non dans le profil. Il conviendrait alors d’appliquer le logiciel DSSP sur les templates, pour avoir les
informations de structures secondaires de ces templates. Concernant la séquence cible, il n’est pas
possible d’attribuer les SSEs dans la mesure où la structure est censée être inconnue, mais il est en
revanche possible de les prédire grâce à des logiciels comme PSIPRED (Jones, 1999) par exemple.
Lors d’essais de PSIPRED sur les séquences de P450s (dont les structures sont connues) j’ai obtenus
des résultats d’une fiabilité de 50 à 60% en moyenne, où des décalages d’hélices sont observés par
exemple, entre les SSEs de la structure réelle et ceux prédits par PSIPRED. Au vu de ces résultats, il
paraît donc dangereux d’enrichir l’information des blocs par cette information de structure secondaire
prédite sur la structure cible par PSIPRED et fournie des templates à partir de DSSP. Il serait
néanmoins intéressant d’essayer en attendant une amélioration de PSIPRED ou d’un logiciel
équivalent.
L’équipe de JP. Mornon (CNRS UMR 7590) a beaucoup travaillé sur la présence de résidus
hydrophobes cruciaux, à certaines positions spécifiques dans des alignements structuraux, formant des
« amas hydrophobes » lors du repliement. La conservation de repliement des protéines serait liée à la
présence et à la position dans la séquence de ces résidus hydrophobes qui constitueraient le cœur de la
protéine. Ces amas hydrophobes se formeraient dans les tout premiers stades de repliement de la
protéine et guideraient la formation ultérieure des structures secondaires (Papandreou et al., 2004). La
méthode HCA, ou Hydrophobic Cluster of Analysis (Gaboriaud et al., 1987), repose sur la détection et
l’analyse de ces amas hydrophobes et permet entre autres, la comparaison de séquences, même très
divergentes. Comme il s’agit ici de comparer des séquences à basse identité de séquence (< 30%), on
268 Chapitre 7. Bilan et nouvelles idées
pourrait envisager d’utiliser cette information d’amas hydrophobe dans le positionnement des CSBs
sur la séquence cible. En effet, ces CSBs sont censés contenir l’information de repliements conservés
spécifiques des P450s : l’utilisation des amas hydrophobes renforcerait peut être l’information de
conservation de repliement contenue dans les CSBs.
Ces deux approches (prise en compte des SSEs et des amas hydrophobes) pour améliorer le
positionnement des blocs sur la séquence cible seraient déjà intéressantes à étudier. Le positionnement
correct des blocs étant la clef vers la reconstruction de modèles plus précis, il est crucial de trouver des
approches pour l’améliorer.
Lorsque les deux approches seront réellement au point, il sera alors temps de les combiner pour
fournir des éléments de réponse à la problématique posée. En effet, la force de la méthode ne se situe
pas dans les deux approches prises indépendamment –d’autant plus que depuis le début du mois
d’Août, une banque spécifique des P450s, appelée CYPED est disponible (Fischer et al., 2007)– mais
dans leur utilisation complémentaire : à terme, l’objectif consiste à construire une véritable banque de
sites actifs de P450s, à partir des séquences identifiées et reconstruites à partir des CSBs. Cette banque
qui sera mise à disposition de la communauté scientifique (idéalement au travers d’un serveur) peut
servir de base de cibles structurales pour le criblage virtuel des divers composés chimiques ou
médicamenteux, avec dans l’idéal, la possibilité de faire un tri grossier entre P450 affins et non affins
pour une molécule donnée. Une telle banque peut permettre des comparaisons pour tester des
méthodes rapides de docking en soumettant des molécules connues dont les cibles sont identifiées.
Elle peut aussi fournir des éléments de réponse sur les mécanismes de reconnaissance des substrats par
les P450s. Enfin des expériences de mutations in silico comme ceux opérés dans le modèle du CYP
2B6 pour des expériences de thérapie génique, pourront être effectuées à partir des modèles de cette
banque.
Pour le moment, je n’en suis pas encore là, dans la mesure où il faudrait préalablement doter la
méthode d’une automatisation qui réaliserait toutes les étapes entre le positionnement des blocs sur la
séquence cible et la reconstruction et la validation du modèle obtenu à partir de l’alignement.
Par ailleurs, la banque de sites actifs présenterait une valeur ajoutée si elle était conçue de manière
à ce que l’utilisateur puisse soumettre en requête un composé chimique et récupérer en résultat les
modèles de P450s qui présenteraient la meilleure affinité pour ce ligand. Pour cela, il faudrait donc
doter la banque d’un moyen « d’apprentissage » qui en fonction du ligand soumis, décidera quels
Conclusion et Perspectives 269
P450s retourner. L’idée que je propose pour répondre à ce problème est l’utilisation combinée des
méthodes d’apprentissage (comme les SVM pour Support Vector Machine) aux méthodes de
Screening Virtuels à Haut débit. Pour chaque modèle de P450 de cette banque, il faudrait rassembler
dans un premier temps, l’ensemble des ligands du P450 étudié dont les données biochimiques sont
disponibles, puis les séparer en deux groupes (généralement 2/3-1/3), les premiers pour l’apprentissage
et les seconds pour le test. Ces ligands seraient utilisés dans des essais de criblage et le score attribué à
chaque arrimage serait appris par le SVM. Cette étape est importante, dans la mesure où il faudra
indiquer au SVM s’il a bien appris avec les donnés du premier groupe (distinguer les ligands reconnus
par le P450 des ligands non reconnus en fonction du score). Une fois l’apprentissage effectué, les
ligands du jeu de test seraient alors « dockés » dans chaque P450 et selon le score d’arrimage (et ce
qu’il a appris), le SVM serait en mesure de déterminer si le ligand testé devrait être reconnu ou non
par le P450 concerné. Par cette méthode, c’est le score d’arrimage qui servira à déterminer les CYPs
qui reconnaissent le ligand soumis.
Ne disposant pas encore de cette banque, j’ai tout de même fait appel à M. Montes (INSERM
U648), pour des essais de criblage virtuel à haut débit sur certaines structures de P450s disposant d’un
ligand co-cristallisé. L’idée était de vérifier la faisabilité des expériences de docking automatisé sur ce
genre de protéine. Les premiers résultats de docking par divers logiciels de docking (FRED, GOLD,
FLEX, AutoDock) obtenus avec le CYP 2C921 et son ligand (8-bromo-adenosine-5'-monophosphate)
co-cristallisé (pdb 1ro9) n’ont pas abouti aux résultats espérés : un positionnement similaire du ligand
dans le site actif, à celui du cristal X a été observé, mais inversé au niveau de la polarité (l’atome à
métaboliser se retrouvant à l’opposé du fer de l’hème). Nous n’avons pas eu le temps d’explorer
davantage ces méthodes pour le moment. Dans tous les cas, il faudra nécessairement réussir à
reproduire un positionnement de ligand observé dans les cristaux à partir de ces logiciels de docking
dans un premier temps, avant d’envisager un criblage à plus grande échelle. Une fois les premiers tests
avec des données structurales concluants, il sera alors le moment d’expérimenter des données
biochimiques dont on ne dispose d’aucune information structurale. Pour cela, différents
positionnements des ligands seront retenus, et ce n’est plus un score unique d’arrimage qui est appris
pour un complexe (P450-substrat) donné, mais une répartition ou plutôt, un intervalle de confiance. Ce
n’est qu’une fois ces expériences validées, que la méthode pourra être applicable sur une banque de
sites actifs de P450s.
21
Nous avons commencé par le CYP 2C9 dans la mesure où c’était le P450 qui disposait le plus de données
expérimentales (aussi bien structurales que biochimiques).
270 Chapitre 7. Bilan et nouvelles idées
Il reste donc beaucoup à faire, et l’issue de la méthode proposée (élaboration de la banque de sites
actifs, couplée avec un système d’apprentissage) ne fournira qu’un outil de travail pour la
problématique posée : les mécanismes de reconnaissances moléculaire par les P450s sont loin d’être
élucidés. Finalement, mon travail de thèse a été réellement insignifiant par rapport à la masse de
travail qui reste encore à fournir pour comprendre ces enzymes. Ma pierre posée à l’édifice de la
connaissance des P450s me parait si fragile et anodine. Je suppose que c’est l’état d’esprit de la plupart
des étudiants qui arrivent au terme de leur thèse, frustrés de n’avoir pu en faire plus. Je me console
tant bien que mal en me disant que je ne suis pas seul à travailler sur ce sujet, et que cela fait déjà plus
d’un demi-siècle que les chercheurs se concentrent sur cette superfamille.
Bibliographies
271
273
A
AHO, A. et CORASICK, H. (1975). "Efficient string matching: an aid to bibliographic search." Comm. ACM 18(6):
333-340.
ALBERTS, B., BRAY, D., LEWIS, J., RAFF, M., TOBERTS, K. et WATSON, J. (1994). Molecular Biology of the Cell.
New York, London, Arland Publishing, Inc.
ALTSCHUL, S. F., GISH, W., MILLER, W., MYERS, E. W. et LIPMAN, D. J. (1990). "Basic local alignment search
tool." J Mol Biol 215(3): 403-10.
ALTSCHUL, S. F., MADDEN, T. L., SCHAFFER, A. A., ZHANG, J., ZHANG, Z., MILLER, W. et LIPMAN, D. J. (1997).
"Gapped BLAST and PSI-BLAST: a new generation of protein database search programs." Nucleic Acids
Res 25(17): 3389-402.
ANFINSEN, C. B. (1973). "Principles that govern the folding of protein chains." Science 181(96): 223-30.
APWEILER, R., BAIROCH, A., WU, C. H., BARKER, W. C., BOECKMANN, B., FERRO, S., GASTEIGER, E., HUANG,
H., LOPEZ, R., MAGRANE, M., et al. (2004). "UniProt: the Universal Protein knowledgebase." Nucleic Acids
Res 32(Database issue): D115-9.
APWEILER, R., GATEAU, A., CONTRINO, S., MARTIN, M. J., JUNKER, V., O'DONOVAN, C., LANG, F.,
MITARITONNA, N., KAPPUS, S. et BAIROCH, A. (1997). "Protein sequence annotation in the genome era: the
annotation concept of SWISS-PROT+TREMBL." Proc Int Conf Intell Syst Mol Biol 5: 33-43.
ARTYMIUK, P. J., RICE, D. W., MITCHELL, E. M. et WILLETT, P. (1990). "Structural resemblance between the
families of bacterial signal-transduction proteins and of G proteins revealed by graph theoretical
techniques." Protein Eng 4(1): 39-43.
B
BACHMANN, K. A. (1996). "The Cytochrome P450 Enzymes of Hepatic Drug Metabolism: How are their
Activities Assessed In Vivo, and what is their Clinical Relevance?" Am J Ther 3(2): 150-171.
BAINS, W. (1986). "MULTAN: a program to align multiple DNA sequences." Nucleic Acids Res 14(1): 159-77.
BAIROCH, A. (1993). "The PROSITE dictionary of sites and patterns in proteins, its current status." Nucleic
Acids Res 21(13): 3097-103.
BAIROCH, A. et BOECKMANN, B. (1993). "The SWISS-PROT protein sequence data bank, recent developments."
Nucleic Acids Res 21(13): 3093-6.
BATEMAN, A., COIN, L., DURBIN, R., FINN, R. D., HOLLICH, V., GRIFFITHS-JONES, S., KHANNA, A., MARSHALL,
M., MOXON, S., SONNHAMMER, E. L., et al. (2004). "The Pfam protein families database." Nucleic Acids
Res 32(Database issue): D138-41.
BAUM, L., PETRIE, T., SOULES, G. et WEISS, N. (1970). "A maximization technique occuring in the statistical
analysis of probabilistic functions of markov chains." Ann. Math. Stat. 41: 164-171.
BERNHARDT, R. (1996). "Cytochrome P450: structure, function, and generation of reactive oxygen species." Rev
Physiol Biochem Pharmacol 127: 137-221.
BOWIE, J. U., LUTHY, R. et EISENBERG, D. (1991). "A method to identify protein sequences that fold into a
known three-dimensional structure." Science 253(5016): 164-70.
BRANDON, C. et TOOZE, J. (1999). Introduction to Protein Structure. New York, 2nd edition, Garland Plubishing
Inc.
BROOKS, B. R., BRUCCOLERI, R. E., OLAFSON, B. D., STATES, D. J., SWAMINATHAN, S. et KARPLUS, M. (1983).
"CHARMM: A program for macromolecular energy, minimization, and dynamics calculations." J. Comp.
Chem. 4: 187–217.
BRUNGER, T. A. (1992). "X-PLOR 3.1: A system for X-ray crystallography and NMR." Yale University Press,
New Haven, CT.
BRYANT, S. H. et AMZEL, L. M. (1987). "Correctly folded proteins make twice as many hydrophobic contacts."
Int J Pept Protein Res 29(1): 46-52.
BRYANT, S. H. et LAWRENCE, C. E. (1991). "The frequency of ion-pair substructures in proteins is quantitatively
related to electrostatic potential: a statistical model for nonbonded interactions." Proteins 9(2): 108-19.
274 Bibliographies
C
CAMPROUX, A. C., GAUTIER, R. et TUFFERY, P. (2004). "A hidden markov model derived structural alphabet for
proteins." J Mol Biol 339(3): 591-605.
CANUTESCU, A. A., SHELENKOV, A. A. et DUNBRACK, R. L., JR. (2003). "A graph-theory algorithm for rapid
protein side-chain prediction." Protein Sci 12(9): 2001-14.
CARPENTIER, M. (2005). Méthodes de détection des similarités structurales: caractérisation des motifs conservés
dans les familles de structures pour l'annotation des génomes, Université Pierre et Marie Curie.
CARPENTIER, M., BROUILLET, S. et POTHIER, J. (2005). "YAKUSA: a fast structural database scanning method."
Proteins 61(1): 137-51.
CHAPPLE, C. (1998). "Molecular-Genetic Analysis Of Plant Cytochrome P450-Dependent Monooxygenases."
Annu Rev Plant Physiol Plant Mol Biol 49: 311-343.
CHICHE, L., GREGORET, L. M., COHEN, F. E. et KOLLMAN, P. A. (1990). "Protein model structure evaluation
using the solvation free energy of folding." Proc Natl Acad Sci U S A 87(8): 3240-3.
CHOTHIA, C. et LESK, A. M. (1986). "The relation between the divergence of sequence and structure in proteins."
Embo J 5(4): 823-6.
COJOCARU, V., WINN, P. J. et WADE, R. C. (2007). "The ins and outs of cytochrome P450s." Biochim Biophys
Acta 1770(3): 390-401.
COLOVOS, C. et YEATES, T. O. (1993). "Verification of protein structures: patterns of nonbonded atomic
interactions." Protein Sci 2(9): 1511-9.
COOPER, D. Y., LEVIN, S., NARASIMHULU, S. et ROSENTHAL, O. (1965). "Photochemical Action Spectrum Of
The Terminal Oxidase Of Mixed Function Oxidase Systems." Science 147: 400-2.
CORPET, F. (1988). "Multiple sequence alignment with hierarchical clustering." Nucleic Acids Res 16(22):
10881-90.
COSME, J. et JOHNSON, E. F. (2000). "Engineering microsomal cytochrome P450 2C5 to be a soluble, monomeric
enzyme. Mutations that alter aggregation, phospholipid dependence of catalysis, and membrane binding." J
Biol Chem 275(4): 2545-53.
CRESPI, C. L., PENMAN, B. W., GELBOIN, H. V. et GONZALEZ, F. J. (1991). "A tobacco smoke-derived
nitrosamine, 4-(methylnitrosamino)-1-(3-pyridyl)-1-butanone, is activated by multiple human cytochrome
P450s including the polymorphic human cytochrome P4502D6." Carcinogenesis 12(7): 1197-201.
CROCHEMORE, M. et RYTTER, W. (1994). Text Algorithm, Oxford University Press.
CROFTS, F., COSMA, G. N., CURRIE, D., TAIOLI, E., TONIOLO, P. et GARTE, S. J. (1993). "A novel CYP1A1 gene
polymorphism in African-Americans." Carcinogenesis 14(9): 1729-31.
CUPP-VICKERY, J. R. et POULOS, T. L. (1995). "Structure of cytochrome P450eryF involved in erythromycin
biosynthesis." Nat Struct Biol 2(2): 144-53.
D
DAVYDOV, R., MAKRIS, T. M., KOFMAN, V., WERST, D. E., SLIGAR, S. G. et HOFFMAN, B. M. (2001).
"Hydroxylation of camphor by reduced oxy-cytochrome P450cam: mechanistic implications of EPR and
ENDOR studies of catalytic intermediates in native and mutant enzymes." J Am Chem Soc 123(7): 1403-15.
DAYHOFF, M. O., ECK, R. V. et PARK, C. M. (1972). "A Model of Evolutionary Changes In Proteins." Atlas of
Protein Sequence and Structure 5: 89-99.
DAYHOFF, M. O., SCHWARTZ, R. M. et ORCUTT, B. C. (1978). "A Model of Evolutionary Changes In Proteins."
Atlas of Protein Sequence and Structure 5: 345-352.
DEANE, C. M. et BLUNDELL, T. L. (2001). "CODA: a combined algorithm for predicting the structurally variable
regions of protein models." Protein Sci 10(3): 599-612.
DEGTYARENKO, K. N. et ARCHAKOV, A. I. (1993). "Molecular evolution of P450 superfamily and P450-
containing monooxygenase systems." FEBS Lett 332(1-2): 1-8.
DEPREZ, E., GERBER, N. C., DI PRIMO, C., DOUZOU, P., SLIGAR, S. G. et HUI BON HOA, G. (1994). "Electrostatic
control of the substrate access channel in cytochrome P-450cam." Biochemistry 33(48): 14464-8.
275
E
ESPOSITO, L., DE SIMONE, A., ZAGARI, A. et VITAGLIANO, L. (2005). "Correlation between omega and psi
dihedral angles in protein structures." J Mol Biol 347(3): 483-7.
ESTABROOK, R. W. (1996). "The remarkable P450s: a historical overview of these versatile hemeprotein
catalysts." Faseb J 10(2): 202-4.
ESTABROOK, R. W., COOPER, D. Y. et ROSENTHAL, O. (1963). "The Light Reversible Carbon Monoxide
Inhibition Of The Steroid C21-Hydroxylase System Of The Adrenal Cortex." Biochem Z 338: 741-55.
ESTABROOK, R. W., MASON, J. I., SIMPSON, E. R., PETERSON, J. A. et WATERMAN, M. R. (1991). "The
heterologous expression of the cytochromes P450: a new approach for the study of enzyme activities and
regulation." Adv Enzyme Regul 31: 365-83.
EVANS, W. E. et RELLING, M. V. (1999). "Pharmacogenomics: translating functional genomics into rational
therapeutics." Science 286(5439): 487-91.
F
FALICOV, A. et COHEN, F. E. (1996). "A surface of minimum area metric for the structural comparison of
proteins." J Mol Biol 258(5): 871-92.
FINCH, S. A. E. et STIER, A. (1991). "Rotational diffusion of homo- and hetero-oligomers of cytochrome P450,
the functional significance of cooperativity and the membrane structure." Frontiers in Biotransformation 5:
34-70.
FISCHER, M., KNOLL, M., SIRIM, D., WAGNER, F., FUNKE, S. et PLEISS, J. (2007). "The Cytochrome P450
Engineering Database: a navigation and prediction tool for the cytochrome P450 protein family."
Bioinformatics 23(15): 2015-7.
FISER, A., DO, R. K. et SALI, A. (2000). "Modeling of loops in protein structures." Protein Sci 9(9): 1753-73.
FLEISCHMANN, R. D., ADAMS, M. D., WHITE, O., CLAYTON, R. A., KIRKNESS, E. F., KERLAVAGE, A. R., BULT, C.
J., TOMB, J. F., DOUGHERTY, B. A., MERRICK, J. M., et al. (1995). "Whole-genome random sequencing and
assembly of Haemophilus influenzae Rd." Science 269(5223): 496-512.
FLORY, P. J. (1969). Statistical Mechanics of Chain Molecules. New York, Wiley.
FRAUSTO DA SILVA, J. J. R. et WILLIAMS, R. J. P. (1991). The Biological Chemistry of the Elements. Oxford,
Clarendo Press.
G
GABORIAUD, C., BISSERY, V., BENCHETRIT, T. et MORNON, J. P. (1987). "Hydrophobic cluster analysis: an
efficient new way to compare and analyse amino acid sequences." FEBS Lett 224(1): 149-55.
276 Bibliographies
GALAKTIONOV, S., NIKIFOROVICH, G. V. et MARSHALL, G. R. (2001). "Ab initio modeling of small, medium, and
large loops in proteins." Biopolymers 60(2): 153-68.
GARFINKEL, D. (1958). "Studies on pig liver microsomes. I. Enzymic and pigment composition of different
microsomal fractions." Arch Biochem Biophys 77(2): 493-509.
GEORGE, D. G., BARKER, W. C. et HUNT, L. T. (1986). "The protein identification resource (PIR)." Nucleic Acids
Res 14(1): 11-5.
GEORGE, D. G., BARKER, W. C. et HUNT, L. T. (1990). "Mutation data matrix and its uses." Methods Enzymol
183: 333-51.
GERBER, N. C. et SLIGAR, S. G. (1994). "A role for Asp-251 in cytochrome P-450cam oxygen activation." J Biol
Chem 269(6): 4260-6.
GERSTEIN, M. et ALTMAN, R. B. (1995). "Using a measure of structural variation to define a core for the
globins." Comput Appl Biosci 11(6): 633-44.
GERSTEIN, M. et LEVITT, M. (1996). "Using iterative dynamic programming to obtain accurate pairwise and
multiple alignments of protein structures." Proc Int Conf Intell Syst Mol Biol 4: 59-67.
GERSTEIN, M. et LEVITT, M. (1998). "Comprehensive assessment of automatic structural alignment against a
manual standard, the scop classification of proteins." Protein Sci 7(2): 445-56.
GIBRAT, J. F., MADEJ, T. et BRYANT, S. H. (1996). "Surprising similarities in structure comparison." Curr Opin
Struct Biol 6(3): 377-85.
GIBSON, G. G. et SKETT, P. (1994). Introduction to Drug Metabolism. London, Champman & Hall.
GOLDSTEIN, L. et WATERMAN, M. S. (1994). "Approximations to profile score distributions." J Comput Biol 1(2):
93-104.
GOMEZ, D. Y., WACHER, V. J., TOMLANOVICH, S. J., HEBERT, M. F. et BENET, L. Z. (1995). "The effects of
ketoconazole on the intestinal metabolism and bioavailability of cyclosporine." Clin Pharmacol Ther 58(1):
15-9.
GONZALEZ, F. J. (1988). "The molecular biology of cytochrome P450s." Pharmacol Rev 40(4): 243-88.
GONZALEZ, F. J. et KORZEKWA, K. R. (1995). "Cytochromes P450 expression systems." Annu Rev Pharmacol
Toxicol 35: 369-90.
GOODSELL, D. S. et OLSON, A. J. (1990). "Automated docking of substrates to proteins by simulated annealing."
Proteins 8(3): 195-202.
GORMAN, N., WALTON, H. S., SINCLAIR, J. F. et SINCLAIR, P. R. (1998). "CYP1A-catalyzed uroporphyrinogen
oxidation in hepatic microsomes from non-mammalian vertebrates (chick and duck embryos, scup and
alligator)." Comp Biochem Physiol C Pharmacol Toxicol Endocrinol 121(1-3): 405-12.
GOTOH, O. (1992). "Substrate recognition sites in cytochrome P450 family 2 (CYP2) proteins inferred from
comparative analyses of amino acid and coding nucleotide sequences." J Biol Chem 267(1): 83-90.
GOTOH, O. et FUJII-KURIYAMA, Y. (1989). "Evolution, structure and gene regulation of cytochrome P450."
Frontiers in Biotransformation 1: 195-243.
GREGORET, L. M. et COHEN, F. E. (1991). "Protein folding. Effect of packing density on chain conformation." J
Mol Biol 219(1): 109-22.
GRIBSKOV, M., MCLACHLAN, A. D. et EISENBERG, D. (1987). "Profile analysis: detection of distantly related
proteins." Proc Natl Acad Sci U S A 84(13): 4355-8.
GRINDLEY, H. M., ARTYMIUK, P. J., RICE, D. W. et WILLETT, P. (1993). "Identification of tertiary structure
resemblance in proteins using a maximal common subgraph isomorphism algorithm." J Mol Biol 229(3):
707-21.
GUENGERICH, F. P. (1989a). "Characterization of human microsomal cytochrome P-450 enzymes." Annu Rev
Pharmacol Toxicol 29: 241-64.
GUENGERICH, F. P. (1989b). "Structure and function of cytochrome P450." Frontiers in Biotransformation 1:
101-150.
GUENGERICH, F. P. (1991a). "Molecular advances for the cytochrome P-450 superfamily." Trends Pharmacol Sci
12(8): 281-3.
GUENGERICH, F. P. (1991b). "Reactions and significance of cytochrome P-450 enzymes." J Biol Chem 266(16):
10019-22.
GUENGERICH, F. P. (1992a). "Metabolic activation of carcinogens." Pharmacol Ther 54(1): 17-61.
GUENGERICH, F. P. (1992b). "Cytochrome P450: advances and prospects." Faseb J 6(2): 667-8.
GUENGERICH, F. P. (1992c). "Characterization of human cytochrome P450 enzymes." Faseb J 6(2): 745-8.
GUENGERICH, F. P. (1992d). "Human cytochrome P-450 enzymes." Life Sci 50(20): 1471-8.
277
GUENGERICH, F. P. (1997). "Comparisons of catalytic selectivity of cytochrome P450 subfamily enzymes from
different species." Chem Biol Interact 106(3): 161-82.
GUENGERICH, F. P. (2001). "Common and uncommon cytochrome P450 reactions related to metabolism and
chemical toxicity." Chem Res Toxicol 14(6): 611-50.
GUENGERICH, F. P. (2005). Human Cytochrome P450 Enzymes. Cytochrome P450: Structure, Mechanism and
Biochemistry. P. R. E. r. E. (Ortiz de Montellano, Plenum. New York: 377-530.
GUENGERICH, F. P., HOSEA, N. A., PARIKH, A., BELL-PARIKH, L. C., JOHNSON, W. W., GILLAM, E. M. et
SHIMADA, T. (1998). "Twenty years of biochemistry of human P450s: purification, expression, mechanism,
and relevance to drugs." Drug Metab Dispos 26(12): 1175-8.
GUENGERICH, F. P. et JOHNSON, W. W. (1997). "Kinetics of ferric cytochrome P450 reduction by NADPH-
cytochrome P450 reductase: rapid reduction in the absence of substrate and variations among cytochrome
P450 systems." Biochemistry 36(48): 14741-50.
GUENGERICH, F. P., SHIMADA, T., RANEY, K. D., YUN, C. H., MEYER, D. J., KETTERER, B., HARRIS, T. M.,
GROOPMAN, J. D. et KADLUBAR, F. F. (1992). "Elucidation of catalytic specificities of human cytochrome
P450 and glutathione S-transferase enzymes and relevance to molecular epidemiology." Environ Health
Perspect 98: 75-80.
GUNTERT, P., MUMENTHALER, C. et WUTHRICH, K. (1997). "Torsion angle dynamics for NMR structure
calculation with the new program DYANA." J Mol Biol 273(1): 283-98.
GUYON, F., CAMPROUX, A. C., HOCHEZ, J. et TUFFERY, P. (2004). "SA-Search: a web tool for protein structure
mining based on a Structural Alphabet." Nucleic Acids Res 32(Web Server issue): W545-8.
H
HAKKOLA, J., PASANEN, M., HUKKANEN, J., PELKONEN, O., MAENPAA, J., EDWARDS, R. J., BOOBIS, A. R. et
RAUNIO, H. (1996). "Expression of xenobiotic-metabolizing cytochrome P450 forms in human full-term
placenta." Biochem Pharmacol 51(4): 403-11.
HAKKOLA, J., PELKONEN, O., PASANEN, M. et RAUNIO, H. (1998). "Xenobiotic-metabolizing cytochrome P450
enzymes in the human feto-placental unit: role in intrauterine toxicity." Crit Rev Toxicol 28(1): 35-72.
HALLAHAN, D. L., CHERITON, A. K., HYDE, R., CLARK, I. et FORDE, B. G. (1993). "Plant cytochrome P-450 and
agricultural biotechnology." Biochem Soc Trans 21(4): 1068-73.
HALLAHAN, D. L. et WEST, J. M. (1995). "Cytochrome P-450 in plant/insect interactions: geraniol 10-
hydroxylase and the biosynthesis of iridoid monoterpenoids." Drug Metabol Drug Interact 12(3-4): 369-82.
HANNEMANN, F., BICHET, A., EWEN, K. M. et BERNHARDT, R. (2007). "Cytochrome P450 systems--biological
variations of electron transport chains." Biochim Biophys Acta 1770(3): 330-44.
HARRISON, A., PEARL, F., SILLITOE, I., SLIDEL, T., MOTT, R., THORNTON, J. et ORENGO, C. (2003). "Recognizing
the fold of a protein structure." Bioinformatics 19(14): 1748-59.
HASEMANN, C. A., KURUMBAIL, R. G., BODDUPALLI, S. S., PETERSON, J. A. et DEISENHOFER, J. (1995).
"Structure and function of cytochromes P450: a comparative analysis of three crystal structures." Structure
3(1): 41-62.
HELLMOLD, H., RYLANDER, T., MAGNUSSON, M., REIHNER, E., WARNER, M. et GUSTAFSSON, J. A. (1998).
"Characterization of cytochrome P450 enzymes in human breast tissue from reduction mammaplasties." J
Clin Endocrinol Metab 83(3): 886-95.
HENIKOFF, S. et HENIKOFF, J. G. (1991). "Automated assembly of protein blocks for database searching."
Nucleic Acids Res 19(23): 6565-72.
HENIKOFF, S., HENIKOFF, J. G. et PIETROKOVSKI, S. (1999). "Blocks+: a non-redundant database of protein
alignment blocks derived from multiple compilations." Bioinformatics 15(6): 471-9.
HIGGINS, D. G., BLEASBY, A. J. et FUCHS, R. (1992). "CLUSTAL V: improved software for multiple sequence
alignment." Comput Appl Biosci 8(2): 189-91.
HIGGINS, D. G. et SHARP, P. M. (1988). "CLUSTAL: a package for performing multiple sequence alignment on a
microcomputer." Gene 73(1): 237-44.
HIROYA, K., MURAKAMI, Y., SHIMIZU, T., HATANO, M. et ORTIZ DE MONTELLANO, P. R. (1994). "Differential
roles of Glu318 and Thr319 in cytochrome P450 1A2 catalysis supported by NADPH-cytochrome P450
reductase and tert-butyl hydroperoxide." Arch Biochem Biophys 310(2): 397-401.
278 Bibliographies
HOLM, L., OUZOUNIS, C., SANDER, C., TUPAREV, G. et VRIEND, G. (1992). "A database of protein structure
families with common folding motifs." Protein Sci 1(12): 1691-8.
HOLM, L. et SANDER, C. (1992). "Evaluation of protein models by atomic solvation preference." J Mol Biol
225(1): 93-105.
HOLM, L. et SANDER, C. (1996). "Mapping the protein universe." Science 273(5275): 595-603.
HOLM, L. et SANDER, C. (1997). "Dali/FSSP classification of three-dimensional protein folds." Nucleic Acids Res
25(1): 231-4.
HOOFT, R. W. W., SANDER, C. et VRIEND, G. (1996). "Verification of protein structures: side-chain planarity." J.
Appl. Crystallog 29: 714-716.
HULO, N., BAIROCH, A., BULLIARD, V., CERUTTI, L., DE CASTRO, E., LANGENDIJK-GENEVAUX, P. S., PAGNI, M.
et SIGRIST, C. J. (2006). "The PROSITE database." Nucleic Acids Res 34(Database issue): D227-30.
I
INGELMAN-SUNDBERG, M. (2002). "Polymorphism of cytochrome P450 and xenobiotic toxicity." Toxicology
181-182: 447-52.
IOANNIDES, C. (1999). "Effect of diet and nutrition on the expression of cytochromes P450." Xenobiotica 29(2):
109-54.
J
JEAN, P., POTHIER, J., DANSETTE, P. M., MANSUY, D. et VIARI, A. (1997). "Automated multiple analysis of
protein structures: application to homology modeling of cytochromes P450." Proteins 28(3): 388-404.
JONES, D. T., TAYLOR, W. R. et THORNTON, J. M. (1992). "The rapid generation of mutation data matrices from
protein sequences." Comput Appl Biosci 8(3): 275-82.
JONES, G., WILLETT, P. et GLEN, R. C. (1995). "Molecular recognition of receptor sites using a genetic algorithm
with a description of desolvation." J Mol Biol 245(1): 43-53.
JUDSON, R. S., JEAGER, E. P. et TREASURYWALA, A. M. (1994). "A Genetic Algorithm-Based Method for
Docking Flexible Molecules." Journal of Molecular Strcture: Theochem 114: 191-206.
JUNG, J. et LEE, B. (2000). "Protein structure alignment using environmental profiles." Protein Eng 13(8): 535-
43.
K
KABSCH, W. (1976). "A solution for the best rotation to relate two sets of vectors." Acta Crystallographica
Section A 32: 922-923.
KABSCH, W. (1978). "A discussion of the solution for the best rotation to relate two sets of vectors." Acta
Crystallographica Section A 34(5): 827-828.
KABSCH, W. et SANDER, C. (1983). "Dictionary of protein secondary structure: pattern recognition of hydrogen-
bonded and geometrical features." Biopolymers 22(12): 2577-637.
KAMATAKI, T., NUNOYA, K., SAKAI, Y., KUSHIDA, H. et FUJITA, K. (1999). "Genetic polymorphism of CYP2A6
in relation to cancer." Mutat Res 428(1-2): 125-30.
KARP, R., MILLER, R. E. et ROSENBERG, A. (1972). "Rapid Identifaction of repeated patterns in strings, tree and
arrays." Fourth ACM Symposium on Theory of Computing: 125-136.
KAWABATA, T. (2003). "MATRAS: A program for protein 3D structure comparison." Nucleic Acids Res 31(13):
3367-9.
KAWABATA, T. et NISHIKAWA, K. (2000). "Protein structure comparison using the markov transition model of
evolution." Proteins 41(1): 108-22.
KEARSLEY, S. (1989). "On the orthongonal transformation used for strctural comparisons." Acta
Crystallographica Section A 45(2): 208-210.
KEARSLEY, S. K. (1990). "An algorithm for the simultatneaous superposition of a structural series." Journal of
Computational Chemestry 11(10): 1187-1192.
279
KENDREW, J. C., BODO, G., DINTZIS, H. M., PARRISH, R. G., WYCKOFF, H. et PHILLIPS, D. C. (1958). "A three-
dimensional model of the myoglobin molecule obtained by x-ray analysis." Nature 181(4610): 662-6.
KINCH, L. N., WRABL, J. O., KRISHNA, S. S., MAJUMDAR, I., SADREYEV, R. I., QI, Y., PEI, J., CHENG, H. et
GRISHIN, N. V. (2003). "CASP5 assessment of fold recognition target predictions." Proteins 53 Suppl 6:
395-409.
KLEYWEGT, G. J., ZHOU, J.-Y., KJELDGAARD, M. et JONES, T. A. (2006). International Tables for
Crystallography.
KLINGENBERG, M. (1958). "Pigments of rat liver microsomes." Arch Biochem Biophys 75(2): 376-86.
KOLARS, J. C., AWNI, W. M., MERION, R. M. et WATKINS, P. B. (1991). "First-pass metabolism of cyclosporin by
the gut." Lancet 338(8781): 1488-90.
KOSIOL, C. et GOLDMAN, N. (2005). "Different versions of the Dayhoff rate matrix." Mol Biol Evol 22(2): 193-9.
KOYMANS, L., DONNE-OP DEN KELDER, G. M., KOPPELE TE, J. M. et VERMEULEN, N. P. (1993). "Cytochromes
P450: their active-site structure and mechanism of oxidation." Drug Metab Rev 25(3): 325-87.
KRISSINEL, E. et HENRICK, K. (2004). "Secondary-structure matching (SSM), a new tool for fast protein structure
alignment in three dimensions." Acta Crystallogr D Biol Crystallogr 60(Pt 12 Pt 1): 2256-68.
KRUSKAL, J. B. et SANKOFF, D. (1983). "An anthology of algorithms and concepts for sequence comparison. in
Time warps, string edits, and macromolecules: the theory and practice of sequence comparison." Addison-
Wesley, Reading, Mass.: 265-310.
KUNTZ, I. D., BLANEY, J. M., OATLEY, S. J., LANGRIDGE, R. et FERRIN, T. E. (1982). "A geometric approach to
macromolecule-ligand interactions." J Mol Biol 161(2): 269-88.
KUPFERSCHMIDT, H. H., FATTINGER, K. E., HA, H. R., FOLLATH, F. et KRAHENBUHL, S. (1998). "Grapefruit juice
enhances the bioavailability of the HIV protease inhibitor saquinavir in man." Br J Clin Pharmacol 45(4):
355-9.
L
LAFITE, P. (2007). Etude du Cytochrome P450 2J2 Humain: Recherche de substrats et d'inhibiteurs sélectifs;
Détermination de la topologie de son site actif, Université Paris Descartes.
LANDER, E. S., LINTON, L. M., BIRREN, B., NUSBAUM, C., ZODY, M. C., BALDWIN, J., DEVON, K., DEWAR, K.,
DOYLE, M., FITZHUGH, W., et al. (2001). "Initial sequencing and analysis of the human genome." Nature
409(6822): 860-921.
LASKOWSKI, R. A., MACARTHUR, M. W., MOSS, D. S. et THORNTON, J. M. (1993). "PROCHECK: A program to
check the stereochemical quality of protein structures." J. Appl. Cryst. 26: 283-291.
LASKOWSKI, R. A., RULLMANNN, J. A., MACARTHUR, M. W., KAPTEIN, R. et THORNTON, J. M. (1996). "AQUA
and PROCHECK-NMR: programs for checking the quality of protein structures solved by NMR." J Biomol
NMR 8(4): 477-86.
LAWRENCE, C. E., ALTSCHUL, S. F., BOGUSKI, M. S., LIU, J. S., NEUWALD, A. F. et WOOTTON, J. C. (1993).
"Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment." Science 262(5131):
208-14.
LEVITT, M. (1976). "A simplified representation of protein conformations for rapid simulation of protein
folding." J Mol Biol 104(1): 59-107.
LEVITT, M. et WARSHEL, A. (1975). "Computer simulation of protein folding." Nature 253(5494): 694-8.
LEWIS, D. F. (2001). Guide to Cytochromes P450: Structure and Function. New York, Taylor & Francis.
LEWIS, D. F., IOANNIDES, C. et PARKE, D. V. (1998). "Cytochromes P450 and species differences in xenobiotic
metabolism and activation of carcinogen." Environ Health Perspect 106(10): 633-41.
LEWIS, D. F. et PRATT, J. M. (1998). "The P450 catalytic cycle and oxygenation mechanism." Drug Metab Rev
30(4): 739-86.
LOISEAU, N. (2002). Conception d'analogues structuraux d'un cyclopeptide modèle: Etude du mode de
reconnaissance moléculaire par trois systèmes enzymatiques membranaires, Université Paris XI.
LUDEMANN, S. K., LOUNNAS, V. et WADE, R. C. (2000). "How do substrates enter and products exit the buried
active site of cytochrome P450cam? 2. Steered molecular dynamics and adiabatic mapping of substrate
pathways." J Mol Biol 303(5): 813-30.
LUTHY, R., BOWIE, J. U. et EISENBERG, D. (1992). "Assessment of protein models with three-dimensional
profiles." Nature 356(6364): 83-5.
280 Bibliographies
M
MACARTHUR, M. W. et THORNTON, J. M. (1996). "Deviations from planarity of the peptide bond in peptides and
proteins." J Mol Biol 264(5): 1180-95.
MACKERELL, A. D. J., BROOKS, B., BROOKS, C. L., III, NILSSON, L., ROUX, B., WON, Y. et KARPLUS, M. (1998).
CHARMM: The Energy Function and Its Parameterization with an Overview of the Program. The
Encyclopedia of Computational Chemistry. P. v. R. e. a. C. J. W. S. Ed. Schleyer. 1: 271-277.
MADEJ, T., GIBRAT, J. F. et BRYANT, S. H. (1995). "Threading a database of protein cores." Proteins 23(3): 356-
69.
MAKRIS, T. M., DENISOV, I. G., SCHLICHTING, I. et SLIGRAR, S. G. (2005). "Activation of molecular oxygen by
cytochrome P450." Cytochrome P450: Structure, Mechanism and Biochemistry: 149-182.
MANSUY, D. (1998). "The great diversity of reactions catalyzed by cytochromes P450." Comp Biochem Physiol
C Pharmacol Toxicol Endocrinol 121(1-3): 5-14.
MANSUY, D. et BATTIONI, P. (2000). "Diversity of reactions catalyzed by heme-thiolate proteins." Biochemistry
and binding: activation of small molecules 4: 1-15.
MANSUY, D., BATTIONI, P. et BATTIONI, J. P. (1989). "Chemical model systems for drug-metabolizing
cytochrome-P-450-dependent monooxygenases." Eur J Biochem 184(2): 267-85.
MANSUY, D. et RENAUD, J.-P. (1995). Heme-thiolate proteins different from the cytichromes P450 catalysing
monooxygenations. New York, Plenum.
MARTI-RENOM, M. A., STUART, A. C., FISER, A., SANCHEZ, R., MELO, F. et SALI, A. (2000). "Comparative
protein structure modeling of genes and genomes." Annu Rev Biophys Biomol Struct 29: 291-325.
MCLACHLAN, A. D. (1979). "Gene duplication in the evolution of the yeast hexokinase active site." Eur J
Biochem 100(1): 181-7.
MCLACHLAN, A. D. (1982). "Rapid comparison of protein structures." Acta Crystallographica Section A 38(6):
871-873.
MELO, F. et FEYTMANS, E. (1998). "Assessing protein structures with a non-local atomic interaction energy." J
Mol Biol 277(5): 1141-52.
MEYER, V. (2007). Detection d'homologies lointaines à faibles identités de séquences: Application aux protéines
de la signalisation des dommages de l'ADN, Université Paris VII Denis Diderot.
MICHALSKY, E., GOEDE, A. et PREISSNER, R. (2003). "Loops In Proteins (LIP)--a comprehensive loop database
for homology modelling." Protein Eng 16(12): 979-85.
MITCHELL, E. M., ARTYMIUK, P. J., RICE, D. W. et WILLETT, P. (1990). "Use of techniques derived from graph
theory to compare secondary structure motifs in proteins." J Mol Biol 212(1): 151-66.
MIZUGUCHI, K., DEANE, C. M., BLUNDELL, T. L. et OVERINGTON, J. P. (1998). "HOMSTRAD: a database of
protein structure alignments for homologous families." Protein Sci 7(11): 2469-71.
MONTOLIU, C., SANCHO-TELLO, M., AZORIN, I., BURGAL, M., VALLES, S., RENAU-PIQUERAS, J. et GUERRI, C.
(1995). "Ethanol increases cytochrome P4502E1 and induces oxidative stress in astrocytes." J Neurochem
65(6): 2561-70.
MORAWIECKA, I. (2000). "Cisapride (Prepulsid): interactions with grapefruit and drugs." Cmaj 162(1): 105-6,
109-10.
MOULT, J. (2005). "A decade of CASP: progress, bottlenecks and prognosis in protein structure prediction." Curr
Opin Struct Biol 15(3): 285-9.
MOULT, J., FIDELIS, K., ROST, B., HUBBARD, T. et TRAMONTANO, A. (2005). "Critical assessment of methods of
protein structure prediction (CASP)--round 6." Proteins 61 Suppl 7: 3-7.
MUELLER, E., LOIDA, P. et SLIGAR, S. G. (1995). "Twentyfive years of P450cam Research: Mechanistic Insights
into Oxygenase Catalysis." Cytochrome P450: 83-124.
MURATA, M., RICHARDSON, J. S. et SUSSMAN, J. L. (1985). "Simultaneous comparison of three protein
sequences." Proc Natl Acad Sci U S A 82(10): 3073-7.
MURZIN, A. G., BRENNER, S. E., HUBBARD, T. et CHOTHIA, C. (1995). "SCOP: a structural classification of
proteins database for the investigation of sequences and structures." J Mol Biol 247(4): 536-40.
281
N
NEBERT, D. W. et GONZALEZ, F. J. (1987). "P450 genes: structure, evolution, and regulation." Annu Rev Biochem
56: 945-93.
NEBERT, D. W., MCKINNON, R. A. et PUGA, A. (1996). "Human drug-metabolizing enzyme polymorphisms:
effects on risk of toxicity and cancer." DNA Cell Biol 15(4): 273-80.
NEBERT, D. W., NELSON, D. R., ADESNIK, M., COON, M. J., ESTABROOK, R. W., GONZALEZ, F. J., GUENGERICH,
F. P., GUNSALUS, I. C., JOHNSON, E. F., KEMPER, B., et al. (1989a). "The P450 superfamily: updated listing
of all genes and recommended nomenclature for the chromosomal loci." Dna 8(1): 1-13.
NEBERT, D. W., NELSON, D. R., COON, M. J., ESTABROOK, R. W., FEYEREISEN, R., FUJII-KURIYAMA, Y.,
GONZALEZ, F. J., GUENGERICH, F. P., GUNSALUS, I. C., JOHNSON, E. F., et al. (1991). "The P450
superfamily: update on new sequences, gene mapping, and recommended nomenclature." DNA Cell Biol
10(1): 1-14.
NEBERT, D. W., NELSON, D. R. et FEYEREISEN, R. (1989b). "Evolution of the cytochrome P450 genes."
Xenobiotica 19(10): 1149-60.
NEDELCHEVA, V. et GUT, I. (1994). "P450 in the rat and man: methods of investigation, substrate specificities
and relevance to cancer." Xenobiotica 24(12): 1151-75.
NEEDLEMAN, S. B. et WUNSCH, C. D. (1970). "A general method applicable to the search for similarities in the
amino acid sequence of two proteins." J Mol Biol 48(3): 443-53.
NELSON, D. R. (1998). "Metazoan cytochrome P450 evolution." Comp Biochem Physiol C Pharmacol Toxicol
Endocrinol 121(1-3): 15-22.
NELSON, D. R. (1999). "Cytochrome P450 and the individuality of species." Arch Biochem Biophys 369(1): 1-10.
NELSON, D. R., KAMATAKI, T., WAXMAN, D. J., GUENGERICH, F. P., ESTABROOK, R. W., FEYEREISEN, R.,
GONZALEZ, F. J., COON, M. J., GUNSALUS, I. C., GOTOH, O., et al. (1993). "The P450 superfamily: update
on new sequences, gene mapping, accession numbers, early trivial names of enzymes, and nomenclature."
DNA Cell Biol 12(1): 1-51.
NELSON, D. R., KOYMANS, L., KAMATAKI, T., STEGEMAN, J. J., FEYEREISEN, R., WAXMAN, D. J., WATERMAN, M.
R., GOTOH, O., COON, M. J., ESTABROOK, R. W., et al. (1996). "P450 superfamily: update on new
sequences, gene mapping, accession numbers and nomenclature." Pharmacogenetics 6(1): 1-42.
NELSON, D. R. et STROBEL, H. W. (1987). "Evolution of cytochrome P-450 proteins." Mol Biol Evol 4(6): 572-93.
NOVOTNY, J., BRUCCOLERI, R. et KARPLUS, M. (1984). "An analysis of incorrectly folded protein models.
Implications for structure predictions." J Mol Biol 177(4): 787-818.
NOVOTNY, J., RASHIN, A. A. et BRUCCOLERI, R. E. (1988). "Criteria that discriminate between native proteins
and incorrectly folded models." Proteins 4(1): 19-30.
O
ODA, A., YAMAOTSU, N. et HIRONO, S. (2005). "New AMBER force field parameters of heme iron for
cytochrome P450s determined by quantum chemical calculations of simplified models." J Comput Chem
26(8): 818-26.
OESTERHELD, J. R. (1998). "A review of developmental aspects of cytochrome P450." J Child Adolesc
Psychopharmacol 8(3): 161-74.
OKITA, R. T. et MASTERS, B. S. S. (1992). Biotransformations: the cytochromes P450. Textbook of Biochemistry
with Clinical Correlations. T. M. D. Wiley-Liss. New York: 981-999.
OLDFIELD, T. J. (1992). "SQUID: a program for the analysis and display of data from crystallography and
molecular dynamics." J Mol Graph 10(4): 247-52.
OLDFIELD, T. J. et HUBBARD, R. E. (1994). "Analysis of C alpha geometry in protein structures." Proteins 18(4):
324-37.
OLIVA, B., BATES, P. A., QUEROL, E., AVILES, F. X. et STERNBERG, M. J. (1997). "An automated classification of
the structure of protein loops." J Mol Biol 266(4): 814-30.
OMURA, T., ISHIMURA, Y. et FUJII-KURIYAMA, Y. (1993). Cytochrome P450. Tokyo, Kodensha.
OMURA, T. et SATO, R. (1962). "A new cytochrome in liver microsomes." J Biol Chem 237: 1375-6.
282 Bibliographies
ORENGO, C. A., MICHIE, A. D., JONES, S., JONES, D. T., SWINDELLS, M. B. et THORNTON, J. M. (1997). "CATH--
a hierarchic classification of protein domain structures." Structure 5(8): 1093-108.
ORTIZ DE MONTELLANO, P. R. (1986). Cytochrome P450. New York, Plenum.
ORTIZ DE MONTELLANO, P. R. (1995). Cytochrome P450. New York, 2nd edition, Plenum.
ORTIZ DE MONTELLANO, P. R. (2005). Cytochrome P450: Structure, Mechanism and Biochemistry. New York,
3rd edition, Plenum.
OSHIRO, C. M., KUNTZ, I. D. et DIXON, J. S. (1995). "Flexible ligand docking using a genetic algorithm." J
Comput Aided Mol Des 9(2): 113-30.
OTYEPKA, M., SKOPALIK, J., ANZENBACHEROVA, E. et ANZENBACHER, P. (2007). "What common structural
features and variations of mammalian P450s are known to date?" Biochim Biophys Acta 1770(3): 376-89.
OVERINGTON, J., JOHNSON, M. S., SALI, A. et BLUNDELL, T. L. (1990). "Tertiary structural constraints on protein
evolutionary diversity: templates, key residues and structure prediction." Proc Biol Sci 241(1301): 132-45.
P
PAINE, M. F., SCRUTTON, N., MUNRO, A., GUTIERREZ, A., ROBERTS, G. et WOLF, C. R. (2005). "Electron
transfert partners of cytochromes P450." Cytochrome P450: Structure, Mechanism and Biochemistry: 115-
148.
PAINE, M. F., SHEN, D. D., KUNZE, K. L., PERKINS, J. D., MARSH, C. L., MCVICAR, J. P., BARR, D. M., GILLIES,
B. S. et THUMMEL, K. E. (1996). "First-pass metabolism of midazolam by the human intestine." Clin
Pharmacol Ther 60(1): 14-24.
PAPANDREOU, N., BEREZOVSKY, I. N., LOPES, A., ELIOPOULOS, E. et CHOMILIER, J. (2004). "Universal positions
in globular proteins." Eur J Biochem 271(23-24): 4762-8.
PARK, B. H., HUANG, E. S. et LEVITT, M. (1997). "Factors affecting the ability of energy functions to
discriminate correct from incorrect folds." J Mol Biol 266(4): 831-46.
PARKE, D. V. et IOANNIDES, C. (1994). "The effects of nutrition on chemical toxicity." Drug Metab Rev 26(4):
739-65.
PATARD, L., STOVEN, V., GHARIB, B., BONTEMS, F., LALLEMAND, J. Y. et DE REGGI, M. (1996). "What function
for human lithostathine? structural investigations by three-dimensional structure modeling and high-
resolution NMR spectroscopy." Protein Eng 9(11): 949-57.
PEARSON, W. R. (1991). "Searching protein sequence libraries: comparison of the sensitivity and selectivity of
the Smith-Waterman and FASTA algorithms." Genomics 11(3): 635-50.
PEARSON, W. R. et LIPMAN, D. J. (1988). "Improved tools for biological sequence comparison." Proc Natl Acad
Sci U S A 85(8): 2444-8.
PERNECKY, S. J., LARSON, J. R., PHILPOT, R. M. et COON, M. J. (1993). "Expression of truncated forms of liver
microsomal P450 cytochromes 2B4 and 2E1 in Escherichia coli: influence of NH2-terminal region on
localization in cytosol and membranes." Proc Natl Acad Sci U S A 90(7): 2651-5.
PESSAYRE, D. (1995). "[Mechanism of drug-induced hepatitis. A consequence of superposition of two xenobiotic
systems]." Gastroenterol Clin Biol 19(5 Pt 2): B47-56.
PETREK, M., OTYEPKA, M., BANAS, P., KOSINOVA, P., KOCA, J. et DAMBORSKY, J. (2006). "CAVER: a new tool
to explore routes from protein clefts, pockets and cavities." BMC Bioinformatics 7: 316.
PINOT, F., BENVENISTE, I., SALAUN, J. P., LOREAU, O., NOEL, J. P., SCHREIBER, L. et DURST, F. (1999).
"Production in vitro by the cytochrome P450 CYP94A1 of major C18 cutin monomers and potential
messengers in plant-pathogen interactions: enantioselectivity studies." Biochem J 342 (Pt 1): 27-32.
PONTIUS, J., RICHELLE, J. et WODAK, S. J. (1996). "Deviations from standard atomic volumes as a quality
measure for protein crystal structures." J Mol Biol 264(1): 121-36.
PORTER, T. D. et COON, M. J. (1991). "Cytochrome P-450. Multiplicity of isoforms, substrates, and catalytic and
regulatory mechanisms." J Biol Chem 266(21): 13469-72.
POULOS, T. L., FINZEL, B. C., GUNSALUS, I. C., WAGNER, G. C. et KRAUT, J. (1985). "The 2.6-A crystal structure
of Pseudomonas putida cytochrome P-450." J Biol Chem 260(30): 16122-30.
POULOS, T. L., FINZEL, B. C. et HOWARD, A. J. (1987). "High-resolution crystal structure of cytochrome
P450cam." J Mol Biol 195(3): 687-700.
POULOS, T. L. et JOHNSON, E. F. (2005). Structures of cytochromes P450 enzymes. Cytochrome P450: Structure,
Mechanism and Biochemistry. O. d. Montellano. New York, Plenum: 87-114.
283
PRICE-EVANS, D. A. (1993). Genetic Factors in Drug Therapy. Cambridge, Cambridge University Press.
PROJEAN, D., MORIN, P. E., TU, T. M. et DUCHARME, J. (2003). "Identification of CYP3A4 and CYP2C8 as the
major cytochrome P450 s responsible for morphine N-demethylation in human liver microsomes."
Xenobiotica 33(8): 841-54.
PUGA, A., NEBERT, D. W., MCKINNON, R. A. et MENON, A. G. (1997). "Genetic polymorphisms in human drug-
metabolizing enzymes: potential uses of reverse genetics to identify genes of toxicological relevance." Crit
Rev Toxicol 27(2): 199-222.
R
RAMACHANDRAN, G. N., RAMAKRISHNAN, C. et SASISEKHARAN, V. (1963). "Stereochemistry of polypeptide
chain configurations." J Mol Biol 7: 95-9.
RAO, S. T. et ROSSMANN, M. G. (1973). "Comparison of super-secondary structures in proteins." J Mol Biol
76(2): 241-56.
RENDIC, S. (2002). "Summary of information on human CYP enzymes: human P450 metabolism data." Drug
Metab Rev 34(1-2): 83-448.
RENDIC, S. et DI CARLO, F. J. (1997). "Human cytochrome P450 enzymes: a status report summarizing their
reactions, substrates, inducers, and inhibitors." Drug Metab Rev 29(1-2): 413-580.
RICHARDSON, J. S. (1981). "The anatomy and taxonomy of protein structure." Adv Protein Chem 34: 167-339.
RISLER, J. L., DELORME, M. O., DELACROIX, H. et HENAUT, A. (1988). "Amino acid substitutions in structurally
related proteins. A pattern recognition approach. Determination of a new and efficient scoring matrix." J
Mol Biol 204(4): 1019-29.
ROSE, G. D. (1979). "Hierarchic organization of domains in globular proteins." J Mol Biol 134(3): 447-70.
ROWLAND, P., BLANEY, F. E., SMYTH, M. G., JONES, J. J., LEYDON, V. R., OXBROW, A. K., LEWIS, C. J.,
TENNANT, M. G., MODI, S., EGGLESTON, D. S., et al. (2006). "Crystal structure of human cytochrome P450
2D6." J Biol Chem 281(11): 7614-22.
RUCKPAUL, K. et REIN, H. (1984). Cytochrome P450. Berlin, Akademie-Verlag.
RUFINO, S. D., DONATE, L. E., CANARD, L. H. et BLUNDELL, T. L. (1997). "Predicting the conformational class of
short and medium size loops connecting regular secondary structures: application to comparative
modelling." J Mol Biol 267(2): 352-67.
RUSSELL, R. B. et BARTON, G. J. (1992). "Multiple protein sequence alignment from tertiary structure
comparison: assignment of global and residue confidence levels." Proteins 14(2): 309-23.
S
SALI, A. et BLUNDELL, T. L. (1990). "Definition of general topological equivalence in protein structures. A
procedure involving comparison of properties and relationships through simulated annealing and dynamic
programming." J Mol Biol 212(2): 403-28.
SALI, A. et BLUNDELL, T. L. (1993). "Comparative protein modelling by satisfaction of spatial restraints." J Mol
Biol 234(3): 779-815.
SANGER, F., COULSON, A. R., HONG, G. F., HILL, D. F. et PETERSEN, G. B. (1982). "Nucleotide sequence of
bacteriophage lambda DNA." J Mol Biol 162(4): 729-73.
SANKOFF, D., CEDERGREN, R. J. et LAPALME, G. (1976). "Frequency of insertion-deletion, transversion, and
transition in the evolution of 5S ribosomal RNA." J Mol Evol 7(2): 133-49.
SCHAFFER, A. A., ARAVIND, L., MADDEN, T. L., SHAVIRIN, S., SPOUGE, J. L., WOLF, Y. I., KOONIN, E. V. et
ALTSCHUL, S. F. (2001). "Improving the accuracy of PSI-BLAST protein database searches with
composition-based statistics and other refinements." Nucleic Acids Res 29(14): 2994-3005.
SCHENKMAN, J. B., FREY, I., REMMER, H. et ESTABROOK, R. W. (1967). "Sex differences in drug metabolism by
rat liver microsomes." Mol Pharmacol 3(6): 516-25.
SCHENKMANN, J. B. et GRIEM, H. (1993). Cytochrome P450. Berlin, Springer-Verlag.
SCHLEINKOFER, K., SUDARKO, WINN, P. J., LUDEMANN, S. K. et WADE, R. C. (2005). "Do mammalian
cytochrome P450s show multiple ligand access pathways and ligand channelling?" EMBO Rep 6(6): 584-9.
284 Bibliographies
SCHLICHTING, I., BERENDZEN, J., CHU, K., STOCK, A. M., MAVES, S. A., BENSON, D. E., SWEET, R. M., RINGE,
D., PETSKO, G. A. et SLIGAR, S. G. (2000). "The catalytic pathway of cytochrome p450cam at atomic
resolution." Science 287(5458): 1615-22.
SCHUETTELKOPF, A. W. et VAN AALTEN, D. M. F. (2004). "PRODRG - a tool for high-throughput
crystallography of protein-ligand complexes." Acta Crystallographica Section A D60: 355-1363.
SCHWARTZ, R. M. et DAYHOFF, M. O. (1979). "Matrices for detecting distant relationships." Atlas of Protein
Structure 5(3): 353-358.
SCHWARZ, D. (1991). "Rotational motion and membrane topology of the microsomal cytochrome P450 system
as analyzed by saturation transfer EPR." Frontiers in Biotransformation 5: 94-137.
SCHWEDE, T., KOPP, J., GUEX, N. et PEITSCH, M. C. (2003). "SWISS-MODEL: An automated protein homology-
modeling server." Nucleic Acids Res 31(13): 3381-5.
SCOTT, E. E., HE, Y. A., WESTER, M. R., WHITE, M. A., CHIN, C. C., HALPERT, J. R., JOHNSON, E. F. et STOUT, C.
D. (2003). "An open conformation of mammalian cytochrome P450 2B4 at 1.6-A resolution." Proc Natl
Acad Sci U S A 100(23): 13196-201.
SCOTT, E. E., WHITE, M. A., HE, Y. A., JOHNSON, E. F., STOUT, C. D. et HALPERT, J. R. (2004). "Structure of
mammalian cytochrome P450 2B4 complexed with 4-(4-chlorophenyl)imidazole at 1.9-A resolution:
insight into the range of P450 conformations and the coordination of redox partner binding." J Biol Chem
279(26): 27294-301.
SCOTT, J. G., LIU, N. et WEN, Z. (1998). "Insect cytochromes P450: diversity, insecticide resistance and tolerance
to plant toxins." Comp Biochem Physiol C Pharmacol Toxicol Endocrinol 121(1-3): 147-55.
SCOTT, W. R. P., HÜNENBERGER, P. H., TIRONI, I. G., MARK, A. E., BILLETER, S. R., FENNEN, J., TORDA, A. E.,
HUBER, T., KRÜGER, P. et VAN GUNSTEREN, W. F. (1999). "The GROMOS biomolecular simulation
program package." J. Phys. Chem. 103: 3596–3607.
SHAPIRO, A., BOTHA, J. D., PASTORE, A. et LESK, A. M. (1992). "A method for multiple superposition of
structures." Acta Crystallogr A 48 (Pt 1): 11-4.
SHAPIRO, J. et BRUTLAG, D. (2004). "FoldMiner and LOCK 2: protein structure comparison and motif discovery
on the web." Nucleic Acids Res 32(Web Server issue): W536-41.
SHATSKY, M., NUSSINOV, R. et WOLFSON, H. J. (2002). "Flexible protein alignment and hinge detection."
Proteins 48(2): 242-56.
SHATSKY, M., NUSSINOV, R. et WOLFSON, H. J. (2004). "FlexProt: alignment of flexible protein structures
without a predefinition of hinge regions." J Comput Biol 11(1): 83-106.
SHINDYALOV, I. N. et BOURNE, P. E. (1998). "Protein structure alignment by incremental combinatorial extension
(CE) of the optimal path." Protein Eng 11(9): 739-47.
SINGH, A. P. et BRUTLAG, D. L. (1997). "Hierarchical protein structure superposition using both secondary
structure and atomic representations." Proc Int Conf Intell Syst Mol Biol 5: 284-93.
SIPPL, M. J. (1990). "Calculation of conformational ensembles from potentials of mean force. An approach to the
knowledge-based prediction of local structures in globular proteins." J Mol Biol 213(4): 859-83.
SIPPL, M. J. (1993). "Recognition of errors in three-dimensional structures of proteins." Proteins 17(4): 355-62.
SIPPL, M. J., LACKNER, P., DOMINGUES, F. S., PRLIC, A., MALIK, R., ANDREEVA, A. et WIEDERSTEIN, M. (2001).
"Assessment of the CASP4 fold recognition category." Proteins Suppl 5: 55-67.
SIPPL, M. J. et STEGBUCHNER, H. (1991). "Superposition of three-dimensioal objects: A fast and numerically
stable algorithm for the calculation fo the matrix of optimal rotation." Computers Chemestry 15(1): 73-78.
SMITH, D. A. (1991). "Species differences in metabolism and pharmacokinetics: are we close to an
understanding?" Drug Metab Rev 23(3-4): 355-73.
SMITH, T. F. et WATERMAN, M. S. (1981). "Identification of common molecular subsequences." J Mol Biol
147(1): 195-7.
SODING, J., BIEGERT, A. et LUPAS, A. N. (2005). "The HHpred interactive server for protein homology detection
and structure prediction." Nucleic Acids Res 33(Web Server issue): W244-8.
SOUCEK, P. et GUT, I. (1992). "Cytochromes P-450 in rats: structures, functions, properties and relevant human
forms." Xenobiotica 22(1): 83-103.
STEGEMAN, J. J. et LIVINGSTONE, D. R. (1998). "Forms and functions of cytochrome P450." Comp Biochem
Physiol C Pharmacol Toxicol Endocrinol 121(1-3): 1-3.
STIER, A. (1976). "Lipid structure and drug metabolizing enzymes." Biochem Pharmacol 25(2): 109-13.
STRYER, L. (1994). Biochemestry. New York, W.H. Freeman and Company.
285
T
TAKAYA, N., SUZUKI, S., KUWAZAKI, S., SHOUN, H., MARUO, F., YAMAGUCHI, M. et TAKEO, K. (1999).
"Cytochrome p450nor, a novel class of mitochondrial cytochrome P450 involved in nitrate respiration in
the fungus Fusarium oxysporum." Arch Biochem Biophys 372(2): 340-6.
TAYLOR, W. R. (1987). "Multiple sequence alignment by a pairwise algorithm." Comput Appl Biosci 3(2): 81-7.
TAYLOR, W. R. (1999). "Protein structure comparison using iterated double dynamic programming." Protein Sci
8(3): 654-65.
TAYLOR, W. R. et ORENGO, C. A. (1989a). "A holistic approach to protein structure alignment." Protein Eng 2(7):
505-19.
TAYLOR, W. R. et ORENGO, C. A. (1989b). "Protein structure alignment." J Mol Biol 208(1): 1-22.
THOMPSON, J. D., HIGGINS, D. G. et GIBSON, T. J. (1994). "CLUSTAL W: improving the sensitivity of
progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and
weight matrix choice." Nucleic Acids Res 22(22): 4673-80.
THOMPSON, J. D., PLEWNIAK, F. et POCH, O. (1999). "BAliBASE: a benchmark alignment database for the
evaluation of multiple alignment programs." Bioinformatics 15(1): 87-8.
THORNTON, J. M., JONES, D. T., MACARTHUR, M. W., ORENGO, C. M. et SWINDELLS, M. B. (1995). "Protein
folds: towards understanding folding from inspection of native structures." Philos Trans R Soc Lond B Biol
Sci 348(1323): 71-9.
TOPHAM, C. M., SRINIVASAN, N., THORPE, C. J., OVERINGTON, J. P. et KALSHEKER, N. A. (1994). "Comparative
modelling of major house dust mite allergen Der p I: structure validation using an extended environmental
amino acid propensity table." Protein Eng 7(7): 869-94.
TSUTSUMI, M., MATSUDA, Y. et TAKADA, A. (1993). "Role of ethanol-inducible cytochrome P-450 2E1 in the
development of hepatocellular carcinoma by the chemical carcinogen, N-nitrosodimethylamine."
Hepatology 18(6): 1483-9.
V
VAN AALTEN, D. M., BYWATER, R., FINDLAY, J. B., HENDLICH, M., HOOFT, R. W. et VRIEND, G. (1996).
"PRODRG, a program for generating molecular topologies and unique molecular descriptors from
coordinates of small molecules." J Comput Aided Mol Des 10(3): 255-62.
VENCLOVAS, C. (2003). "Comparative modeling in CASP5: progress is evident, but alignment errors remain a
significant hindrance." Proteins 53 Suppl 6: 380-8.
VENTER, J. C., ADAMS, M. D., MYERS, E. W., LI, P. W., MURAL, R. J., SUTTON, G. G., SMITH, H. O., YANDELL,
M., EVANS, C. A., HOLT, R. A., et al. (2001). "The sequence of the human genome." Science 291(5507):
1304-51.
VON RICHTER, O., GREINER, B., FROMM, M. F., FRASER, R., OMARI, T., BARCLAY, M. L., DENT, J., SOMOGYI, A.
A. et EICHELBAUM, M. (2001). "Determination of in vivo absorption, metabolism, and transport of drugs by
the human intestinal wall and liver with a novel perfusion technique." Clin Pharmacol Ther 70(3): 217-27.
VON WACHENFELDT, C., RICHARDSON, T. H., COSME, J. et JOHNSON, E. F. (1997). "Microsomal P450 2C3 is
expressed as a soluble dimer in Escherichia coli following modification of its N-terminus." Arch Biochem
Biophys 339(1): 107-14.
VRIEND, G. (1990). "WHAT IF: a molecular modeling and drug design program." J Mol Graph 8(1): 52-6, 29.
VRIEND, G. et SANDER, C. (1991). "Detection of common three-dimensional substructures in proteins." Proteins
11(1): 52-8.
286 Bibliographies
W
WADE, R. C., WINN, P. J., SCHLICHTING, I. et SUDARKO (2004). "A survey of active site access channels in
cytochromes P450." J Inorg Biochem 98(7): 1175-82.
WALKER, C. H. (1998). "Avian forms of cytochrome P450." Comp Biochem Physiol C Pharmacol Toxicol
Endocrinol 121(1-3): 65-72.
WANG, M., ROBERTS, D. L., PASCHKE, R., SHEA, T. M., MASTERS, B. S. et KIM, J. J. (1997). "Three-dimensional
structure of NADPH-cytochrome P450 reductase: prototype for FMN- and FAD-containing enzymes."
Proc Natl Acad Sci U S A 94(16): 8411-6.
WANG, Y. J., YU, C. F., CHEN, L. C., CHEN, C. H., LIN, J. K., LIANG, Y. C., LIN, C. H., LIN, S. Y., CHEN, C. F. et
HO, Y. S. (2002). "Ketoconazole potentiates terfenadine-induced apoptosis in human Hep G2 cells through
inhibition of cytochrome p450 3A4 activity." J Cell Biochem 87(2): 147-59.
WATERMAN, M. R. (1992). "Cytochrome P450: cellular distribution and structural considerations." Current
Opinion in Structural Biology 2: 384-387.
WELTMAN, M. D., FARRELL, G. C. et LIDDLE, C. (1996). "Increased hepatocyte CYP2E1 expression in a rat
nutritional model of hepatic steatosis with inflammation." Gastroenterology 111(6): 1645-53.
WESTER, M. R., JOHNSON, E. F., MARQUES-SOARES, C., DANSETTE, P. M., MANSUY, D. et STOUT, C. D. (2003a).
"Structure of a substrate complex of mammalian cytochrome P450 2C5 at 2.3 A resolution: evidence for
multiple substrate binding modes." Biochemistry 42(21): 6370-9.
WESTER, M. R., JOHNSON, E. F., MARQUES-SOARES, C., DIJOLS, S., DANSETTE, P. M., MANSUY, D. et STOUT, C.
D. (2003b). "Structure of mammalian cytochrome P450 2C5 complexed with diclofenac at 2.1 A resolution:
evidence for an induced fit model of substrate binding." Biochemistry 42(31): 9335-45.
WICKRAMASINGHE, R. H. et VILLE, C. A. (1975). "Early role during chemical evolution for cytochrome P450 in
oxygen detoxification." Nature 256: 509-511.
WILLIAMS, J. A., MARTIN, F. L., MUIR, G. H., HEWER, A., GROVER, P. L. et PHILLIPS, D. H. (2000a). "Metabolic
activation of carcinogens and expression of various cytochromes P450 in human prostate tissue."
Carcinogenesis 21(9): 1683-9.
WILLIAMS, P. A., COSME, J., SRIDHAR, V., JOHNSON, E. F. et MCREE, D. E. (2000b). "Microsomal cytochrome
P450 2C5: comparison to microbial P450s and unique features." J Inorg Biochem 81(3): 183-90.
WILLIAMS, P. A., COSME, J., SRIDHAR, V., JOHNSON, E. F. et MCREE, D. E. (2000c). "Mammalian microsomal
cytochrome P450 monooxygenase: structural adaptations for membrane binding and functional diversity."
Mol Cell 5(1): 121-31.
WILLIAMS, P. A., COSME, J., WARD, A., ANGOVE, H. C., MATAK VINKOVIC, D. et JHOTI, H. (2003). "Crystal
structure of human cytochrome P450 2C9 with bound warfarin." Nature 424(6947): 464-8.
WINN, P. J., LUDEMANN, S. K., GAUGES, R., LOUNNAS, V. et WADE, R. C. (2002). "Comparison of the dynamics
of substrate access channels in three cytochrome P450s reveals different opening mechanisms and a novel
functional role for a buried arginine." Proc Natl Acad Sci U S A 99(8): 5361-6.
WOJCIK, J., MORNON, J. P. et CHOMILIER, J. (1999). "New efficient statistical sequence-dependent structure
prediction of short to medium-sized protein loops based on an exhaustive loop classification." J Mol Biol
289(5): 1469-90.
WOLFF, T. et STRECKER, M. (1992). "Endogenous and exogenous factors modifying the activity of human liver
cytochrome P-450 enzymes." Exp Toxicol Pathol 44(5): 263-71.
Y
YU, C. et GUNSALUS, I. C. (1970). "Crystalline cytochrome P-450cam." Biochem Biophys Res Commun 40(6):
1431-6.
Z
ZHANG, Y. et SKOLNICK, J. (2005). "TM-align: a protein structure alignment algorithm based on the TM-score."
Nucleic Acids Res 33(7): 2302-9.
287
ZHAO, Q., MODI, S., SMITH, G., PAINE, M., MCDONAGH, P. D., WOLF, C. R., TEW, D., LIAN, L. Y., ROBERTS, G.
C. et DRIESSEN, H. P. (1999). "Crystal structure of the FMN-binding domain of human cytochrome P450
reductase at 1.93 A resolution." Protein Sci 8(2): 298-306.
ZHAO, Y., WHITE, M. A., MURALIDHARA, B. K., SUN, L., HALPERT, J. R. et STOUT, C. D. (2006). "Structure of
microsomal cytochrome P450 2B4 complexed with the antifungal drug bifonazole: insight into P450
conformational plasticity and membrane interaction." J Biol Chem 281(9): 5973-81.
ZIMMERMANN, K. (1991). "ORAL: All Purpose Molecular Mechanics Simulator and Energy Minimizer." J.
Comput. Chem. 12: 310-319.
Annexes
289
ANNEXE 1
1.1 Généralités
Les protéines sont parmi les principaux types de molécules du vivant (les autres étant les acides
nucléiques, les lipides et les glucides). Dans la cellule elles assurent la grande majorité des fonctions
enzymatiques, et une bonne part des fonctions de maintien de la structure et de transport. Ces protéines
disposent d’une organisation à quatre niveaux :
Au nombre de 20 (si on ne compte que les acides aminés naturels terrestres), les acides aminés
sont les constituants de la protéine (ou du peptide). Ils sont composés d’un atome de carbone central
(Cα) chiral le plus souvent (exception de la glycine), lié à un groupe aminé (NH2), à un groupe
carboxylique (COOH), à un atome d’hydrogène (Hα) et à un des 20 groupements chimiques différents
appelés chaînes latérales (cf. Figure A 1-1 et Figure A 1-2).
Figure A 1-1 Schéma simplifié d'une séquence primaire d’une protéine. R correspond à n’importe quelle
chaîne latérale parmi les 20 existantes. Les acides aminés sont reliés entre eux par des liaisons peptidiques.
(source : http://www2.lifl.fr/~touzet/BI/TP2)
Les composants de la protéine : les acides aminés 293
Les résidus et leurs fonctions chimiques différentes confèrent aux protéines leur diversité
fonctionnelle. Les protéines sont des chaînes polypeptidiques où le groupe α-carboxylique d’un acide
aminé est relié au groupe α-aminé de l’amino-acide suivant par une liaison peptidique (–CO–NH–).
Les protéines naturelles sont généralement constituées de 50 à 2000 résidus d’acide aminé (Stryer,
1994). La chaîne non ramifiée des résidus est polarisée de l’extrémité aminée (extrémité NH2
terminale) à l’extrémité carboxy-terminale (COOH). La chaîne d’atome répétant régulièrement les
liaisons peptidiques se nomme le squelette peptidique (ou carboné si seuls les Cα sont pris en compte).
La liaison peptidique est rigide et plane en raison du caractère partiel de double liaison –CO–NH–,
mais des rotations sont possibles autour des autres liaisons (Cα–CO et NH– Cα).
294 Annexe 1. Le monde merveilleux des protéines
1.2.2.1 Solubilité
La plupart des acides aminés subissent facilement la solvatation par les solvants polaires tels que
l'eau, ou l'alcool (particulièrement proline et hydroxyproline) dans lesquels ils sont solubles. D'autre
part, les acides α-aminés sont solubles, mais à moindre degré dans les solvants non polaires. Il est
important de retenir que cette solubilité est largement dépendante des propriétés de la chaîne latérale:
la solubilité diminue avec le nombre d'atomes de carbone du radical, mais inversement augmente si ce
radical R est porteur de fonctions polaires (NH2, COOH) ou hydrophiles (OH).
Les acides aminés sont appelés pour cette structure diionique amphotères. L'ionisation varie avec
le pH : les acides aminés existent, en solution aqueuse, sous 3 formes possibles :
Les composants de la protéine : les acides aminés 295
De part et d'autre du pHi, on définit des pH qui correspondent à une demi-dissociation de COOH
et de NH3+, ce sont les pKs. Il existe donc 2 pK :
• le pK de COOH (environ 2 – 3)
• le pK de NH3+ (environ 10)
Le point (ou pH) isoélectrique ou isoionique est égal à la demi somme des pKs. Le radical R,
lorsqu'il renferme un groupe ionisable, participe à la valeur du point isoélectrique. Un pK
supplémentaire apparaît alors. Par exemple pour l'histidine :
• pK1 acide
• pK2 demi dissociation du groupe imidazole
• pK3 amine
Enfin, l’encombrement stérique joue également un rôle dans la structure des protéines car lorsque
la chaîne protéique s’enroule, une chaîne latérale encombrante peut empêcher une courbure forte. La
répulsion des atomes est provoquée par le recouvrement des nuages électroniques lorsque les atomes
se rapprochent. Les liaisons covalentes inter-résidus – sous forme de points disulfures entre les résidus
cystéines – permettent une meilleure stabilité pour les protéines qui sortent de l’environnement
cellulaire (Brandon et Tooze, 1999).
1.3.2.1 Le repliement
En théorie, une protéine pourrait adopter plusieurs conformations mais concrètement, la plupart se
replie spontanément dans une forme stable particulière et unique. Cette forme particulière provient du
fait que les groupes polaires du squelette peptidique et les chaînes latérales interagissent entre eux et
aussi avec l’eau. Ainsi, certaines conformations ont plus d’interactions stabilisantes que d’autres et
sont donc favorisées (Alberts et al., 1994). Le paradigme du rapport entre la séquence protéique et sa
structure tridimensionnelle provient des études de C. Anfinsen sur la ribonucléase (Anfinsen, 1973). Il
a déterminé qu’une protéine repliée aléatoirement est inactive et que les protéines isolées en solution
peuvent retrouver leur conformation active originale après dénaturation. La conclusion était donc que
toute l’information nécessaire au repliement d’une protéine devait être inhérente à l’ordre des acides
aminés (Alberts et al., 1994). D’autres études ont également tiré les mêmes conclusions, menant à la
théorie générale que la séquence des acides aminés d’une protéine spécifie sa conformation (Stryer,
1994). Il est intéressant de noter que sur l’ensemble des séquences possibles, la population des
différents repliements est limitée, 9 repliements représentent 46% des protéines d’une base de données
non redondante (Thornton et al., 1995). Pour résumer, en environnement aqueux, le repliement des
protéines est conduit par la tendance des résidus hydrophobes à être exclus de l’eau. Les résidus et les
groupes polaires du squelette peuvent interagir entre eux dans le cœur hydrophobe et avec l’eau à
l’extérieur. Le repliement des protéines destinées aux environnements non aqueux, par exemple les
protéines membranaires, diffère car les résidus non polaires ne doivent plus forcément se trouver dans
un cœur hydrophobe.
Figure A 1-4 A et B). D’autres hélices droites existent telles les hélices 3-10 et les hélices pi.
Les hélices gauches sont très peu fréquentes. Dans le feuillet β, les liaisons hydrogènes
établies mettent en jeu des régions distantes. Les brins β sont donc généralement organisés en
feuillets β parallèles ou antiparallèles (cf. Figure A 1-4 C), mais des coudes « bêta » peuvent
aussi se former. Les résidus qui n’appartiennent pas à une structure locale de ces types sont
dits organisés en boucle. Tous ces termes (hélices α, brins/feuillets β) sont par la suite
regroupés sous le terme de Secondary Structure Elements (SSE).
Figure A 1-4 Structures secondaires – Pour les trois figures, les traits pointillés indiquent les liaisons
hydrogènes. (A) hélice α (source : http://pages.usherbrooke.ca/bcm-514-bl/2b.html); (B) trois types d’hélice α
(source : http://www.imb-jena.de/IMAGE.html); (C) Brins et feuillets β. Les chaînes latérales (R) se répartissent
de part et d’autre du feuillet. (source : http://sti-bio.scola.ac-paris.fr/pedago/proteines/html/structure_prot.html)
- Les structures super-secondaires (Rao et Rossmann, 1973 ; Richardson, 1981) sont des
organisations de structures secondaires récurrentes dans les protéines. Elles se situent donc
entre les niveaux de structure secondaire et tertiaire. Certaines des plus connues sont les
Propriétés structurales des protéines 299
motifs βαβ où deux brins β parallèles sont reliés par une hélice α et les motifs en épingle à
cheveux (β hairpin et α hairpin).
- Entre ce denier niveau et les structures tertiaires se trouvent également les domaines. La
définition du terme domaine est délicate et n’est pas consensuelle. Un domaine structural est
défini comme étant une unité compacte qui pourrait être stable indépendamment même si cela
n’a pas été prouvé expérimentalement (Rose, 1979). Néanmoins, les résidus d’un domaine
structural partagent plus de contact entre eux qu’avec d’eux d’un autre domaine. Le terme de
domaine fonctionnel est lié à la notion de site fonctionnel (par exemple site de fixation d’une
molécule). Les domaines fonctionnels sont plus restreints en terme d’étendue et de nombre de
résidus et peuvent être localisés à l’interface des domaines structuraux.
ANNEXE 2
A l’image des banques, il existe une multitude de format utilisé pour présenter les données
sources. Certains sont bien entendu plus utilisés que d’autres suivant le besoin : ils ne sont pas égaux
en termes d’informations. Durant ma thèse, j’ai principalement utilisé trois types de format : deux pour
les séquences et la dernière pour les structures.
GenBank gi|gi-number|gb|accession|locus
EMBL Data Library gi|gi-number|emb|accession|locus
DDBJ, DNA Database of Japan gi|gi-number|dbj|accession|locus
NBRF PIR pir||entry
Protein Research Foundation prf||name
SWISS-PROT sp|accession|name
Brookhaven Protein Data Bank (1) pdb|entry|chain
Brookhaven Protein Data Bank (2) entry:chain|PDBID|CHAIN|SEQUENCE
Patents pat|country|number
GenInfo Backbone Id bbs|number
General database identifier gnl|database|identifier
NCBI Reference Sequence ref|accession|locus
Local Sequence identifier lcl|identifier
Le format le plus couramment observé pour les structures est le format pdb, format original de la
banque. Le guide de ce format a été révisé à plusieurs reprises ; la version actuelle est la version 2.2,
qui existe depuis 1996. Les fichiers au format pdb contiennent différentes informations telles que les
coordonnées cartésiennes des atomes, la bibliographie, les informations structurales, les facteurs de la
structure cristallographique et les données expérimentales de la RMN. A l’origine, le format pdb a été
dicté par l’utilisation et la largeur de cartes perforées pour ordinateur. En conséquence, chaque ligne
contient exactement 80 caractères. Un fichier au format pdb est un fichier texte où chaque colonne
possède sa signification : chaque paramètre est positionné de façon immuable. Ainsi, les 6 premières
colonnes, c’est-à-dire les 6 premiers caractères pour une ligne donnée, déterminent le champ du fichier.
On retrouve par exemple les champs « TITLE_ » (c'est-à-dire le titre de la macromolécule étudiée),
« KEYWDS » (les mots-clé de l’entrée), « EXPDTA » qui donne des informations sur la méthode
expérimentale employée, « SEQRES » (la séquence de la protéine étudiée), « ATOM__ » ou
« HETATM », champs comprenant toutes les informations liées à un atome particulier. Dernier
exemple, dans ces derniers champs, le nom de l’atome est décrit par les colonnes 13 à 16 (soit du
treizième au seizième caractère de la ligne). Les lignes « ATOM__ » concernent les acides aminés ou
les acides nucléiques, et les lignes « HETATM » sont dédiées aux autres molécules (solvant, substrat,
ion, détergent…). Il y a autant de lignes « ATOM__ » et « HETATM » que d’atomes observés par
l’expérimentateur, pour une macromolécule ou un complexe donné.
La longue histoire du format pdb a abouti sur des données non uniformes. Ce format laisse
également la place à de nombreuses erreurs, qui ne sont pas systématiquement éliminées lors des
contrôles accompagnant le dépôt des structures. Il peut s’agir de désaccords entre la séquence et les
résidus représentés, ou de problèmes liés à la nomenclature des atomes des acides aminés ou des
ligands. Par ailleurs, ce format présente des limites liées à sa conception même : le fait même qu’il ne
puisse contenir que 80 colonnes fait de lui un format relativement restrictif. Le nombre maximum
d’atomes d’un fichier pdb est de 99999, vu qu’il n’y a que 5 colonnes allouées pour les numéros des
atomes. De même le nombre de résidus par chaîne est au maximum de 9999 : il n’y a que 4 colonnes
autorisées pour ce chiffre. Le nombre de chaînes, lui, est limité à 62 : une seule colonne est disponible,
et les valeurs possibles sont une des lettres des 26 lettres de l’alphabet, en minuscule ou en majuscule,
ou un des chiffres de 0 à 9. Quant ce format a été défini, ces limitations ne semblaient pas restrictives,
mais elles ont plusieurs fois été franchies lors du dépôt de structures extrêmement grandes, comme des
virus, des ribosomes ou des complexes multienzymatiques.
Format standard des fichiers de séquences et de structures 305
Figure A 2-4 Exemple de fichier PDB (Source 1TQN). Le fichier a été sectionné en raison de son volume.
306 Annexe 2. Fichier, Format et Exemples
À noter que certains logiciels qui ont été utilisés dans ce travail de thèse, comme SYBYL,
admettent également un autre type de format pour les structures : le format MOL2. Il s’agit d’un
format de coordonnées beaucoup plus complète et précise que celle de PDB. Toutefois, comme les
structures de la PDB sont données au format PDB, les formats MOL2 n’ont pas été utilisés.
Les formats de fichier présentés précédemment sont les plus utilisés en bioinformatique. La
plupart des logiciels sont en mesure de lire et d’interpréter les séquences ou les structures écrites sous
ces formats. Toutefois, certains programmes nécessitent des informations supplémentaires qui doivent
être renseignées dans un même fichier que les séquences ou les structures. Pour cela, de nouveaux
formats spécifiques à certains programmes sont dérivés des formats standards. C’est le cas par
exemple pour le logicielle Modeller qui utilise un format particulier de séquence, dérivé du format
FASTA.
ligne. Par exemple 1suo comporte les résidus 28 (une glycine) à 492 (une histidine). Le fait d’avoir
ajouté « /h » informe à Modeller de prendre en compte les hétéroatomes présents dans le fichier
1suo.pdb. Comme je n’ai laissé qu’un seul hétéroatome, l’hème, il a fallu inscrire 493 au lieu de 492
(cf. Figure A 2-5). Pour la séquence, il y a moins d’information à donner, sauf le fait qu’il reçoit des
hétéroatomes, c’est pourquoi la balise « /h » est placé en fin de séquence.
>P1;1suo
structureX:1suo:28:A:493:::::
----GKLPPGPSPLPVLGNLLQMDRKGLLRSFLRLREKYGDVFTVYLGSRPVVVLCGTDA
IREALVDQAEAFSGRGKIAVVDPIFQG---YGVIFA--NGERWRALRRFSLATMRDFGMG
KR-------SVEERIQEEARCLVEELRKSKGAL--LDNTLLFHSITSNIICSIVFGKRFD
YKDPVFLRLLDLFFQSFSLISSFSSQVFELFSGFLKYFPGTHRQIYRNL-QEINTFIGQS
VEKHRATLDPSNP-RDFIDVYLLRMEKDKSDPSSEFHHQNLILTVLSLFFAGTETTSTTL
RYGFLLMLKYPHVTERVQKEIEQVIGSHRPPALDDRAKMPYTDAVIHEIQRLGDLIPFGV
PHTVTKDTQFRGYVIPKNTEVFPVLSSALHDPRYFETPNTFNPGHFLDANGALK---RNE
GFMPFSLGKRICLGEGIARTELFLFFTTILQNFSIASPVPPEDIDLTPRESGVGNVPPSY
QIRFLARH---/h*
>P1;2p85
structureX:2p85:31:A:494:::::
----GKLPPGPTPLPFIGNYLQLNTEQMYNSLMKISERYGPVFTIHLGPRRVVVLCGHDA
VKEALVDQAEEFSGRGEQATFDWLFKG---YGVAFS--NGERAKQLRRFSIATLRGFGVG
templates KR-------GIEERIQEEAGFLIDALRGTHGAN--IDPTFFLSRTVSNVISSIVFGDRFD
YEDKEFLSLLRMMLGSFQFTATSTGQLYEMFSSVMKHLPGPQQQAFKEL-QGLEDFIAKK
VEHNQRTLDPNSP-RDFIDSFLIRMQEEEKNPNTEFYLKNLVMTTLNLFFAGTETVSTTL
RYGFLLLMKHPEVEAKVHEEIDRVIGKNRQPKFEDRAKMPYTEAVIHEIQRFGDMLPMGL
AHRVNKDTKFRDFFLPKGTEVFPMLGSVLRDPRFFSNPRDFNPQHFLDKKGQFK---KSD
AFVPFSIGKRYCFGEGLARMELFLFFTTIMQNFRFKSPQSPKDIDVSPKHVGFATIPRNY
TMSFLPR----*
>P1;2f9q
structureX:2f9q:34:A:497:::::
-------PPGPLPLP----------QNTPYCFDQLRRRFGDVFSLQLAWTPVVVLNGLAA
VREALVTHGEDTADRPPVPITQILGFGPRSQGVFLAR-YGPAWREQRRFSVSTLRNLGLG
KK-------SLEQWVTEEAACLCAAFANHSGRP--FRPNGLLDKAVSNVIASLTCGRRFE
YDDPRFLRLLDLAQEGLKEESGFLREVLNAVP-VDRHIPALAGKVLRFQ-KAFLTQLDEL
LTEHRMTWDPAQPPRDLTEAFLAEMEKAKGNPESSFNDENLRIVVADLFSAGMVTTSTTL
AWGLLLMILHPDVQRRVQQEIDDVIGQVRRPEMGDQAHMPYTTAVIHEVQRFGDIVPLGM
THMTSRDIEVQGFRIPKGTTLITNLSSVLKDEAVWEKPFRFHPEHFLDAQGHFV---KPE
AFLPFSAGRRACLGEPLARMELFLFFTSLLQHFSFSVPTG-QPRPSHHGVFAFLVSPSPY
ELCAVPR----*
>P1;CYP1A2
sequence:CYP1A2::::::::
VPKGLKSPPEPWGWPLLGHVLTLG-KNPHLALSRMSQRYGDVLQIRIGSTPVLVLSRLDT
IRQALVRQGDDFKGRPDLYTSTLITDG---QSLTFSTDSGPVWAARRRLAQNALNTFSIA
SDPASSSSCYLEEHVSKEAKALISRLQELMAGPGHFDPYNQVVVSVANVIGAMCFGQHFP
P450 à reconstruire ESSDEMLSLVKNTHEFVETAS--SGNPLDFFP-ILRYLPNPALQRFKAFNQRFLWFLQKT
VQEHYQDFDKNSV-RDITGALFKHSKKGPRASGNLIPQEKIVNLVNDIFGAGFDTVTTAI
SWSLMYLVTKPEIQRKIQKELDTVIGRERRPRLSDRPQLPYLEAFILETFRHSSFLPFTI
PHSTTRDTTLNGFYIPKKCCVFVNQWQVNHDPELWEDPSEFRPERFLTADGTAINKPLSE
KMMLFGMGKRRCIGEVLAKWEIFLFLAILLQQLEFSVPPG-VKVDLTP-IYGLTMKHARC
EHVQARRFSIN/h*
Figure A 2-5 Exemple de fichier d'alignement pour Modeller. Trois templates sont utilisés ici pour construire le
modèle du CYP 1A2. Ces trois templates sont le 1suo (CYP 2B4), 2p85 (CYP 2A13) et 2f9q (CYP 2D6). Les
templates sont identifiés par Modeller par l’identifiant présent sur la seconde ligne (en rouge) : « structureX »
suivit de plusieurs champs séparés par des « : ». Parmis ces champs, on retrouve leur code PDB les numéros de
résidus de début et de fin de séquence dans le fichier PDB correspondant, la chaîne etc… Un astérisque (*) est
placée en fin de chaque séquence pour informer au logiciel de la fin de chaque séquence. Des marqueurs
supplémentaires tels que « /h » peuvent être ajoutés lorsqu’on désire prendre en compte les hétéroatomes présents
dans le fichier PDB. La séquence cible est reconnue avec un même type de délimiteur (en vert) avec « sequence »
à la place.
308 Annexe 2. Fichier, Format et Exemples
Dans le programme Caliseq, un ensemble de blocs doit être fourni au programme. Ces derniers
contiennent des sous-alignements des séquences des structures utilisées en référence. Par souci de
simplicité, j’ai opté le format FASTA pour représenter chaque sous-alignement correspondant chacun
à un bloc. Afin de séparer chaque bloc et conserver ainsi leur séquentialité, chaque sous-alignement
sont séparé par le symbole « # » qui sert de délimiteur. Par ailleurs, pour des raisons qui seront
expliquées dans la partie détaillant le programme, il faut penser à avoir le même nombre et le même
ordre des séquences dans chaque sous-alignement. Le contenu des trois fichiers des ensembles de
blocs utilisés sont présentés dans les figures suivantes.
Figure A 2-6 Fichier de l’ensemble de blocs de TA. NGUYEN. Il s’agit d’un unique fichier contentant 24 sous-
alignements des six structures de référence : 1oxa, 2hpd, 1pq2, 1og5, 1nr6 et 1gwi. Trois sont bactériennes et trois
proviennent des mammifères.
Format spécifique à certains logiciels 309
Figure A 2-7 Fichier de l’ensemble de blocs de N. Loiseau. Celui-ci contient 22 sous-alignements de six
structures de référence : 1rom, 1oxa, 1cpt, 3cpp, 1e9x, 2hpd, 1dt6. Dans ce jeu, une seule structure provient des
mammifères : il s’agit du 1dt6, le CYP 2C5 de lapin.
310 Annexe 2. Fichier, Format et Exemples
Figure A 2-8 Fichier de l’ensemble de blocs de M. Cotevieille. Celui-ci contient 27 sous-alignements de quatre
structures de référence : 1oxa, 1e9x, 2hpd, 1dt6. Dans ce jeu, une seule structure provient des mammifères : il
s’agit du 1dt6, le CYP 2C5 de lapin.
Format spécifique à certains logiciels 311
Le programme pdb2gmx génère à partir d’un fichier de structure PDB, deux fichiers : i) un fichier
de topologie contenant toutes les interactions présentes à l’intérieur de la protéine, et ii) un ficher de
structure spécifique à GROMACS.
[ pairs ]
; ai aj fu c0, c1, ...
1 4 1 ; CLAK NAH
2 5 1 ; CAJ CAL
2 8 1 ; CAJ P8
3 6 1 ; CAI CAM
3 9 1 ; CAI O9
3 10 1 ; CAI OAF
3 14 1 ; CAI NAC
4 7 1 ; NAH CLAN
4 11 1 ; NAH CAG
4 13 1 ; NAH CAB
4 15 1 ; NAH HAA
5 9 1 ; CAL O9
5 10 1 ; CAL OAF
5 14 1 ; CAL NAC
6 8 1 ; CAM P8
8 12 1 ; P8 CAA
9 11 1 ; O9 CAG
9 13 1 ; O9 CAB
9 15 1 ; O9 HAA
10 13 1 ; OAF CAB
10 15 1 ; OAF HAA
11 14 1 ; CAG NAC
12 15 1 ; CAA HAA
Figure A 2-9 Exemple de fichier .itp généré par le serveur PRODRG pour le CPA. Le fichier .top est similaire
à ce fichier.
312 Annexe 2. Fichier, Format et Exemples
MD of 2 waters, t= 0.0
6
1WATER OW1 1 0.126 1.624 1.679 0.1227 -0.0580 0.0434
1WATER HW2 2 0.190 1.661 1.747 0.8085 0.3191 -0.7791
1WATER HW3 3 0.177 1.568 1.613 -0.9045 -2.6469 1.3180
2WATER OW1 4 1.275 0.053 0.622 0.2519 0.3140 -0.1734
2WATER HW2 5 1.337 0.002 0.680 -1.0641 -1.1349 0.0257
2WATER HW3 6 1.326 0.120 0.568 1.9427 -0.8216 -0.0244
1.82060 1.82060 1.82060
Le formatage du fichier .gro est décomposé de la manière suivante (du haut vers le bas) :
• Une ligne de titre (dans un format libre, avec optionnellement en temps en ps après ‘t =’)
• Le nombre d’atome (dans un format libre, mais de type entier)
• Une ligne pour chaque atome (dans un format fixe, voir plus bas)
• Dimension de la boîte (dans un format libre, de type entier séparé par des espaces), les
valeurs étant v1(x) v2(y) v3(z) v1(y) v1(z) v2(x) v2(z) v3(x) v3(y). Les six dernières
valeurs peuvent être omises (elles seront mises à zéro). GROMACS ne supporte que les
boites avec v1(y)=v1(z)=v2(z)=0.
Pour le format fixe, toutes les colonnes sont à une position fixée. Ces colonnes portent les
informations suivantes (de gauche à droite) :
• Numéro du résidu (5 positions, entier)
• Nom du résidu (5 caractères)
• Nom de l’atome (5 caractères)
Format spécifique à certains logiciels 313
• Position (en nm, x y z dans 3 colonnes, chacun 8 positions avec 3 places pour les
décimales)
• Vitesse (en nm/ps (ou km/s), x y z dans trois colonnes, chacun 8 poisitons avec 4 places
pour les décimales)
ANNEXE 3
315
316 Annexe 3. Caliseq : dissection d’un programme
3.1 Introduction
Cette annexe a pour objet une description plus poussée de l’outil Caliseq. Il peut être considéré
comme le manuel de référence du programme, décrivant aussi bien la procédure à suivre pour lancer le
programme mais également comment transitent les informations de leurs saisies par l’utilisateur, à leur
affichage en sortie de programme. La première partie de ce chapitre décrira donc l’utilisation de l’outil
Caliseq : qu’attend le programme, quelles sont les options nécessaires à paramétrer, quelles sont celles
optionnelles et pour quelles intérêts. Cette première description est en quelque sorte une présentation
générale d’un point de vu externe au programme, comme une boîte noire qu’on se servirait sans prêter
attention aux mécanismes intrinsèques. Le « contenant » du programme sera vu ensuite plus en détails,
avec une présentation succincte des fichiers sources de Caliseq, où le code du programme est écrit, et
comment compiler ce dernier. Enfin, dans une dernière partie, chaque fonction de l’outil sera
expliquée, accompagné de leur algorithme dans un langage simple et non celui du programme lui-
même, afin qu’un lecteur non initié puisse quand même comprendre son essence, son principe.
Il existe deux manière de faire tourner Caliseq : l’une pour un alignement simple des blocs sur
une séquence ou un pré-alignement de séquences, et l’autre, de faire confronter le jeu de bloc sur une
banque de données de séquence en vu de déterminer des P450s. Pour la suite de cette annexe,
l’alignement simple des blocs sur une séquence (ou un pré-alignement de séquences) sera décrit
comme le « mode normale » de Caliseq, en opposition avec le « mode d’alignement sur banque »
correspondant à l’alignement des blocs sur une banque de séquences. Dans les deux cas, deux fichiers
doivent être fournis en entrée au programme : i) un fichier contenant le jeu de bloc (appelé cons_file
dans le programme) dont le contenu a été présenté dans le chapitre précédent, et ii) un fichier
contentant soit la séquence cible, ou son pré-alignement avec d’autres séquences à fort taux d’identité,
soit une banque où chaque enregistrement figure les uns à la suite des autres (appelé ali_file dans le
programme).
La différence pour distinguer les deux modes de fonctionnement se fera alors sur les autres
paramètres insufflés en entrée. Le listing de l’help du logiciel SmartConsAlign montré à la Figure A
3-1, présente les diverses possibilités du logiciel. Caliseq étant une extension de SmartConsAlign,
certaines options sont requises pour faire fonctionner SmartConsAlign en mode Caliseq.
Les paramètres en entrée de Caliseq 317
[777]nguyen@kezia:~/> smartconsalign -h
Usage: smartconsalign [-h] [-v] [-B <nbseq>] [-N] [-b|-c [-k <nbpos>]| -s [-k <nbpos>]]
[-m matrix_file] [-C <1|2|3>] [-g <gap_penalty>]
[-e <gap_extension_penalty>] [-d <gap_penalty against gap>]
[-o|-O] [-A|F|M] [-S|T|L|Z <score>] ali_file cons_file
=== options ====================================
--- general options ----------------------------
-h : this help
-v : verbose mode
-B <nbseq>: ali_file is a database and the program will process each entry
keeping <nbseq> sequences (need the –N option to work)
-N : cons_file is a multiple consensus (Caliseq program)
--- alignment mode -----------------------------
-b : bestfit mode (default mode)
-s : smith-waterman mode
-c : PSSM consensus mode (2nd file must be consensus file, print only
solutions)
--- in multiple consensus mode (-N option) ------
-a : sequences are ADN sequences
-I : search also on complementary sequences
-w <len> : ali_file is a database and the program will process each entry
with window length <len>
-p <len> : step for moving window
-t <threshold> : threshold for outputting results in window mode
-G : scan mode (in window mode), output window positions and scores along thesequences
--- alignment options --------------------------
-m <matrix_file> :
in bestfit/SW mode : matrix is used for alignment
in consensus mode : compute weight from matrix_file matrix
-C <code for conversion of PAM/BLOSUM/proximity matrix into distance matrix>
1: distance(i,j) is Sqrt[Sum(((i,k)-(k,j))2) for all k]
2: distance(i,j) is 1-((prox(i,j)-min)/(max-min))
3: Chi2 method: (i,j) are turned into probabilities,
and dist(i,j) is Sqrt[Sum((p(i,k)p(k,j))2) for all k]
default mode is mode 1
--- gap options --------------------------------
Gaps costs are input as ratio, if MAX_VAL is the maximum value in
the substitution matrix (BLOSUM for example) and MIN_VAL is the
minimum value, gap cost are computed as:
gap cost = MAX_VAL - ratio * (MAXVAL-MINVAL)
-g <gap_opening_cost> :
in bestfit/SW mode : cost ratio for opening gap (default: 1.20)
-e <gap_extension_cost> :
in bestfit/SW mode : cost ratio for extending gap (default: 0.80)
-d : cost ratio for insertions-deletions against gap (default: 0.50)
--- output options ----------------------------
-A : output alignment in CLUSTAL format (in bestfit, smith-waterman or multiple consensus
mode only)
-F : output alignment in FASTA format (in bestfit, smith-waterman or multiple consensus mode
only)
-M : output alignment in SmartMulti format (in bestfit or smith-waterman mode only)
-o : output results as consensus with no gap (in bestfit mode only)
-O : output results as consensus with gaps (in bestfit mode only)
-k : Number of kept positions in PSSM consensus mode/default 10
or number of optimal alignments to keep in smith-waterman mode/default 10
-S <float value> : minimum score threshold in smith-waterman (default: 5.00)
-T <float value> : ratio for the score threshold in consensus (default: 0.50)
(A random sequence is used for mean score)
-Z <float value> : Zscore threshold in consensus (default: 0.00)
-L <integer value> : cut off between 1st bloc and last bloc for db scanning (default: NO)
=== arguments =================================
ali_file, cons_file : files with single sequence, multiple
alignment (Clustal, Fasta or MSF) or consensus
2 files are mandatory, and sequences in the second file
(cons_file) must be shorter than those in the
first file (ali_file))
Figure A 3-1 Listing de l’aide du logiciel SmartConsAlign. Pour « activer » l’outil Caliseq, il suffit d’ajouter en
ligne de commande l’option « –N ». Le premier fichier « ali_file » correspond alors à la séquence cible ou le pré-
alignement ou la banque de séquence, tandis que le second fichier correspond au fichier de blocs. L’option « –B »
suivi d’un nombre (nombre de séquences maximales à récupérer) doit être ajouté au précédent, si on désire scanner
les banques à la recherche de P450. D’autres options peuvent être informées tels que le z-score « –Z », le poids des
gap « –g », la longueur maximale entre les blocs « –L », tous suivi d’un chiffre décimal (ou d’un entier pour le
dernier).
318 Annexe 3. Caliseq : dissection d’un programme
En fait, l’appel à l’outil Caliseq se fait au moyen de l’option « –N » qui informe alors à
SmartConsAlign que le premier fichier d’entrée est un alignement de séquence, que le second fichier
contient le jeu de blocs dans une nomenclature particulière décrite dans le chapitre précédent, et enfin
que ces deux fichiers doivent être traités par l’outil Caliseq. Pour différencier les deux modes de
fonctionnement de Caliseq, une option supplémentaire est nécessaire : « –B » : dans ce cas, le premier
fichier correspond à une banque de séquences, où chaque enregistrement est traité individuellement,
les uns à la suite des autres. Par ailleurs, l’option « –B » requière un second paramètre correspondant
au nombre maximale de séquences que l’utilisateur désire récupérer de la banque. Comme il sera vu
plus tard, ces séquences récupérées sont alors affichées selon un classement établi sur le score
d’alignement des blocs sur la séquence. En fait, l’option « –B » va principalement influencer sur la
manière de lire et de traiter le fichier « ali_file ».
D’autres options additionnelles peuvent être ajoutées à ces options globales, certains communs
aux deux modes, d’autres spécifiques à un des deux modes. Ainsi, l’option « –g » suivit d’un nombre
réel est commun aux deux modes : il permet à l’utilisateur d’influer sur le poids attribué aux gaps. En
réalité, la valeur indiquée par l’utilisateur ne correspond pas au poids donné aux gaps proprement dit,
mais à un coefficient défini, rappelé comme suit : si MAX_VAL est la valeur maximale dans la
matrice de substitution (BLOSUM par exemple) et MIN_VAL la valeur minimale, alors le poids de
gap est égale à MAX_VAL – coefficient * (MAX_VAL – MIN_VAL). Associer le poids de gap à un
coefficient permet une plus grande souplesse et adaptabilité du programme, notamment lors
d’utilisation de matrices de similarités différentes (PAM à la place de BLOSUM etc…) pour les
alignements. L’option « –A » permet quant à lui d’obtenir les résultats d’alignement au format Clustal
(par défaut, c’est le format fasta qui est affiché). Deux autres options peuvent être utilisés, mais cette
fois-ci spécifiques au mode de recherche sur banque : les options « – Z » pour définir un seuil de z-
score et « – L » pour déterminer la longueur maximale entre le premier et le dernier bloc, que
l’utilisateur autorise au programme pour récupérer des séquences identifiées comme P450. Ces deux
options, comme il le sera décrit plus tard au cours de l’annexe, permettent d’influer sur le nombre de
séquences de P450 récupérées mais surtout de filtrer les faux positifs. Un résumé de toutes les options
utilisées pour Caliseq est présenté dans la Figure A 3-2.
Fichiers sources de Caliseq 319
Smartconsalign –N –A – g <coefficient>
Mode normal de Caliseq <ali_file> <cons_file>
Figure A 3-2 Exemple de ligne de commande pour lancer Caliseq. Les options nécessaires au fonctionnement
de Caliseq sont inscrites dans des rectangles à trait plein, tandis que les options facultatives sont inscrites dans des
rectangles à bords en pointillés. L’option « –N » est obligatoire pour informer le programme SmartConsAlign de
faire appel à l’outil Caliseq. Les options « –A » et « –g » commun aux deux modes de Caliseq sont facultatives et
permettent l’affiche du résultat en format Clustal (le format fasta étant le format par défaut) ainsi que de modifier
le poids attribué aux gaps respectivement. L’option « –B » informe à Caliseq de fonctionner en mode
« recherche » sur banque. Les options supplémentaires tels que « –Z » et « –L » peuvent venir s’y greffer pour
filtrer les résultats. Ali_file dans tous les cas est un fichier comprenant un ou plusieurs enregistrements au format
fasta. Selon le mode, il sera lu et traité différemment par Caliseq. Cons_file est un fichier unique comprenant les
jeux de blocs.
[778]nguyen@kezia:~/Src/SmartConsAlign>ls
total 1216
-rwxr-xr-x 1 thienan users 1838 Jul 27 2006 ADN
-rw-r--r-- 1 thienan users 2071 Jul 27 2006 BLOSUM62
-rwxr-xr-x 1 thienan users 185587 Jul 27 2006 cons_align
-rw-r--r-- 1 thienan users 79841 Jul 27 2006 cons_align.c
-rw-r--r-- 1 thienan users 4444 Jul 27 2006 cons_align.h
-rw-r--r-- 1 thienan users 34532 Nov 14 2006 cons_align.o
-rw-r--r-- 1 thienan users 35079 Jul 27 2006 cons_seqs_bestfit.c
-rw-r--r-- 1 thienan users 1810 Jul 27 2006 cons_seqs_bestfit.h
-rw-r--r-- 1 thienan users 6676 Nov 14 2006 cons_seqs_bestfit.o
-rw-r--r-- 1 thienan users 49217 Jul 27 2006 cons_seqs_sw.c
-rw-r--r-- 1 thienan users 1482 Jul 27 2006 cons_seqs_sw.h
-rw-r--r-- 1 thienan users 7916 Nov 14 2006 cons_seqs_sw.o
-rw-r--r-- 1 thienan users 9187 Jul 27 2006 fasta_io.c
-rw-r--r-- 1 thienan users 2698 Jul 27 2006 fasta_io.h
-rw-r--r-- 1 thienan users 3700 Nov 14 2006 fasta_io.o
-rw-r--r-- 1 thienan users 438 Jul 27 2006 macros.h
-rw-r--r-- 1 thienan users 2162 Jul 27 2006 Makefile
-rw-r--r-- 1 thienan users 7049 Nov 14 2006 minimier.c
-rw-r--r-- 1 thienan users 397 Jul 27 2006 minimier.h
-rw-r--r-- 1 thienan users 3216 Nov 14 2006 minimier.o
-rw-r--r-- 1 thienan users 55470 Nov 14 2006 mulcons.c
-rw-r--r-- 1 thienan users 1616 Jul 28 2006 mulcons.h
-rw-r--r-- 1 thienan users 16948 Nov 14 2006 mulcons.o
-rw-r--r-- 1 thienan users 37597 Jul 27 2006 Nmatrix.c
-rw-r--r-- 1 thienan users 3811 Jul 27 2006 Nmatrix.h
-rw-r--r-- 1 thienan users 14436 Nov 14 2006 Nmatrix.o
-rw-r--r-- 1 thienan users 15683 Jul 27 2006 README
-rw-r--r-- 1 thienan users 35959 Jul 27 2006 readmultali.c
-rw-r--r-- 1 thienan users 2007 Jul 27 2006 readmultali.h
-rw-r--r-- 1 thienan users 18116 Nov 14 2006 readmultali.o
-rwxr-xr-x 1 thienan users 110362 Nov 14 2006 smartconsalign
-rw-r--r-- 1 thienan users 24490 Nov 14 2006 smartconsalign.c
-rw-r--r-- 1 thienan users 2497 Jul 28 2006 smartconsalign.h
-rw-r--r-- 1 thienan users 19816 Nov 14 2006 smartconsalign.o
-rw-r--r-- 1 thienan users 5083 Jul 27 2006 smutil.c
-rw-r--r-- 1 thienan users 668 Jul 27 2006 smutil.h
-rw-r--r-- 1 thienan users 2484 Nov 14 2006 smutil.o
-rw-r--r-- 1 thienan users 7933 Jul 27 2006 waterstat.c
-rw-r--r-- 1 thienan users 1474 Jul 27 2006 waterstat.h
-rw-r--r-- 1 thienan users 3312 Nov 14 2006 waterstat.o
Ainsi, c’est dans le fichier mulcons.c et sa librairie mulcons.h qu’on retrouve essentiellement
toutes les fonctions et déclarations de variables nécessaire au fonctionnement de Caliseq. Caliseq a
néanmoins besoin du fichier source principal, smarconsalign.c, les fichiers additionnels Nmatrix.c,
readmultali.c, fasta_io.c, smulti.c, minimier.c ainsi que leurs librairies respectives, car ces derniers
comportent quelques fonctions utiles et nécessaires à son utilisation. Par exemple, l’outil Caliseq est
lancé à partir de la procédure principale (« Main() » en langage C) définie dans le fichier source
smartconsalign.c. Il peut lire et écrire des fichiers de séquences au format fasta grâce des fonctions
écrites dans readmultali.c et fasta_io.c. Les créations de matrices de fréquences et de similarités sont
réalisées par des fonctions contenues dans Nmatrix.c tandis que smulti.c regroupe des outils pour
l’indexation des séquences afin que ces dernières soient traitées plus rapidement etc. Pour faire simple,
on peut dire que tous ces fichiers sources se comportent comme de vastes bibliothèques de fonctions,
déjà écrites pour les différents outils présents dans SmartConsAlign. Ces fonctions ont été développées
de manière suffisamment modulaires pour être réintégré dans Caliseq sans en toucher le contenu : il
me suffisait d’adapter dans la majeure partie du temps mon code et utiliser correctement les variables
Quelques fonctions de Caliseq au peigne fin 321
attendues par ces fonctions en arguments22. À d’autres moments, pourtant, il a fallu réécrire certaines
de ces fonctions préexistantes ou du moins, les arranger pour mes besoins en veillant à ce que ces
modifications ne perturbent pas les autres outils de SmartConsAlign utilisant ces fonctions. Ainsi,
même si la majeur partie des fonctions que j’ai écrites pour Caliseq est retrouvée dans les fichiers
source mulcons.c et mulcons.h, certaines fonctions vitales pour le programme se retrouve disséminées
dans les autres fichiers sources. En conséquence, même si Caliseq se comporte comme une « entité »
individuelle dans SmartConsAlign, il a toutefois besoin du programme SmartConsAlign dont il dépend
et de toutes les fonctions relatives à ce dernier. L’ensemble des fichiers sources et de leurs librairies
respectives est regroupé et compilé par le programme Makefile.
Après avoir décrit les paramètres en entrée au programme (qui serviront donc d’arguments
d’entrée à la fonction Main(), fonction principale du programme SmartConsAlign) ainsi que les
fichiers sources, qui servent de « contenant » aux fonctions permettant le déroulement du programme,
je propose d’examiner chaque fonction du programme l’un après l’autre, en essayant de rester simple
et en expliquant leur grande ligne, sans trop entrer dans les détails. Pour comprendre l’enchevêtrement
ainsi que la connectivité entre toutes les fonctions, deux diagrammes du programme sont proposés sur
les Figure A 3-4 et Figure A 3-5 permettant ainsi de suivre le flux d’information. Le Tableau A 3-1
permet également de retrouver les caractéristiques de chaque fonction. Par souci de clarté, certaines
fonctions seront regroupées ou éludées : le programme étant modulaire, des fonctions ont été
développées pour éviter la répétition de code ou pour un besoin particulier au langage de
programmation, mais ne présentent pas d’intérêt explicatif pour le fonctionnement global du
programme lui-même.
22
On parle de passage d’arguments aux fonctions, lorsqu’on envoie des variables dans ces fonctions pour être
traitées. Le « type » de variable adressée à la fonction doit être similaire à celui attendu par la fonction. Ainsi, si
la fonction attend une variable de type « entier », il faudra fournir en entrée à cette fonction une variable de type
« entier ».
322 Annexe 3. Caliseq : dissection d’un programme
Figure A 3-4 Diagramme du programme Caliseq dans son premier mode. L’ordre d’appel des fonctions se fait
de la gauche vers la droite et du haut vers le bas. L’ordre prioritaire est donc le suivant : haut > gauche > bas >
droite. Les fonctions sont regroupées par des flèches de couleurs pour pouvoir suivre la chronologie
Figure A 3-5 Diagramme du programme Caliseq dans son mode de recherche sur banque avec les mêmes
annotations que précédemment. Caliseq est appelé deux fois (flèches rouges puis violettes).
Quelques fonctions de Caliseq au peigne fin 323
Tableau A 3-1 Tableaux récapitulatif des principales fonctions usitées par Caliseq
AlignToFreq Uniquement dans le mode normal de Caliseq, cette procédure est l’équivalent Main mulcons.c
de ReadMulCons mais pour l’alignement de la séquence cible. Appelle les
mêmes fonctions que ReadMulCons
Calign C’est la procédure d’alignement de Caliseq en mode normal et contient Main mulcons.c
l’algorithme de programmation dynamique. Il appelle Backtracking et
PrintAln
Caliseq C’est la procédure d’alignement de Caliseq en mode de recherche sur Main mulcons.c
banque. Il est appelé deux fois : la première pour retenir les séquences
présentant les meilleurs scores d’alignement et calculer les termes
nécessaires au Z-score et la seconde fois pour afficher les séquences
répondant aux critères de sélection. Appelle IndexSequence,
DeIndexsequence, CreateWdel, Bactracking et PrtAlnBank
CreateCons Construit des profils à partir des alignements de séquences. Apelle ReadMulCons mulcons.c
NewRConsensus, unitary_matrix et Getfreq AlignToFreq
CreateWeight Établi une pondération pour les séquences trop identiques dans l’alignement ReadMulCons mulcons.c
AlignToFreq
Getfreq Renvoie la fréquence d’un acide aminé dans la banque Swiss-Prot CreateCons mulcons.c
IndexSequence Indexation de la séquence cible au format fasta pour l’alignement par Caliseq smulti.c
programmation dynamique
init_minimier Permet l’initialisation et la construction de l’arbre qui retient les séquences Main minimier.c
identifiés comme P450s dans le mode de recherche sur banque
LengthSeqVSCutOff Vérifie si l’alignement finale n’est pas supérieur au cuttoff « -L » Caliseq mulcons.c
Main Chef d’orchestre du programme, récupère les paramètres d’entrée et lance le utilisateur smartconsalign.c
programme Caliseq selon un des modes.
NewFastaSequence Allocation d’une variable pour recevoir une séquence fasta Main fasta_io.c
PrintAln Procédure permettant de créer l’alignement finale à partir du chemin obtenu Calign mulcons.c
par le Backtracking. Appelle deux fonctions non représentées sur les
diagrammes qui permettent d’afficher les alignements soit au format clustal,
soit au format fasta (par défaut)
PrtAlnBank Procédure similaire à PrintAln, mais pour une seule séquence Caliseq mulcons.c
range Permet de ranger dans l’arbre la séquence récupérée en fonction du score Main minimier.c
d’alignement obtenu
ReadMulCons Procédure permettant la lecture et la conversion des blocs en profil. Appelle Main mulcons.c
read_alignement, CreateWeight et CreateCons
sNewSeq2Keep Création d’un variable pour retenir la séquence dans l’arbre Main minimier.c
unitary_matrix Initialise à zéro une matrice de fréquences sauf au niveau des diagonales où CreateCons Nmatrix.c
la valeur est de un
324 Annexe 3. Caliseq : dissection d’un programme
23
L’exécution des instructions du code d’un programme se fait de façon linéaire. Pour modifier cette linéarité,
on a recours à deux types de structures de contrôles principaux : les boucles lorsqu’on a affaire à une instruction
qui doit être répétée, et les structures conditionnelles lorsqu’on a à faire face à plusieurs choix possibles.
Lorsqu’une série d’instruction est usitée un nombre important de fois, il est parfois judicieux de les regrouper en
fonctions (ou procédures).
Quelques fonctions de Caliseq au peigne fin 325
du jeu de bloc effectué, le programme bifurque entre l’utilisation de Caliseq en mode normal ou
l’utilisation en mode recherche sur banque. Cette bifurcation dépend là encore d’un balise, remplie ou
non, selon que getopt() a rencontré ou non le paramètre « –B ». D’un point de vu algorithmique, le
cas le plus simple est celui du premier mode, même s’il figure après le cas du mode de recherche sur
banque dans le corps du programme comme cela est présenté dans l’Algorithme 7.1 de la fonction
Main().
Ainsi, pour le premier mode, celui d’alignement simple du jeu de blocs sur une séquence ou un
pré alignement de séquences, le fichier ali_file est envoyé à la procédure AlignToFreq(). Celle-ci
est assez similaire à la procédure ReadMulCons() dans la mesure où AlignToFreq() renvoie une
autre « super variable » contenant toutes les informations nécessaires du fichier d’alignement ali_file.
Les deux « super variables » (l’un provenant du traitement de cons_file et l’autre de ali_file) sont alors
passé en arguments à la fonction Calign() (Caliseq dans son premier mode) qui réalise et affiche
l’alignement du jeu de blocs sur la ou les séquence(s) cibles.
L’algorithme pour le mode de recherche sur banque est plus complexe du fait que le
programme sauvegarde dans un arbre (sorte de liste hiérarchisée) en fonction du score d’alignement,
l’ensemble des séquences qu’il a identifié en tant que P450s par le jeu de blocs. La fonction Main()
appelle des fonctions présentes dans le fichier minimier.c pour mettre en place et construire cette arbre.
Par ailleurs, comme un z-score est appliquée sur les scores afin de filtrer les séquences, la procédure
d’alignement des blocs sur les séquences cibles est réalisée deux fois : (i) la première fois sur
l’ensemble des séquences de la base de séquences afin de récupérer chaque score pour un calcul de
moyenne, d’écart type, et finalement du z-score (ii) puis une seconde fois uniquement sur les
séquences retenus dans l’arbre. Le calcul du z-score a été précédemment expliqué dans le manuscrit. Il
est à noté que l’arbre permet la sauvegarde des séquences classées en fonction de leur score. Le
nombre de séquences sauvegardé dans l’arbre dépend du nombre d’éléments (de feuilles) défini en
paramètre d’entrée par l’utilisateur. Lorsque ce nombre est faible, seules les séquences présentant le
meilleur score d’alignement seront sauvegardées dans l’arbre. D’un point de vu algorithmique, chaque
enregistrement du fichier ali_file (banque de séquences au format fasta) est lu indépendamment
successivement, affecté chaque fois à une variable. Cette variable qui contient la séquence est envoyé
en argument avec la « super variable » issu du traitement du fichier cons_file à la fonction Caliseq().
Caliseq() réalise alors l’alignement et attribue un score d’alignement pour la séquence. Selon le
score obtenu, la séquence et son score respectif sont enregistrés dans l’arbre. Par ailleurs, les scores et
le nombre de séquences sont aussi retenus et cumulés dans d’autres variables pour pouvoir calculer la
326 Annexe 3. Caliseq : dissection d’un programme
moyenne et l’écart type, et serviront ultérieurement pour le calcul du z-score. Une fois que toutes les
séquences de la banque traitées, les séquences de chaque feuille de l’arbre sont soumises à nouveau à
la fonction Caliseq() avec la « super variable » représentant le jeu de blocs. C’est au cours de ce
second passage qu’un z-score est calculé pour chaque séquence de l’arbre et comparé à un seuil défini
par l’utilisateur en paramètre d’entrée (ou un seuil égale à 0 par défaut). De cette comparaison,
dépendra l’affichage de l’alignement de cette séquence avec le jeu de blocs.
Fonction Main() :
/* Récupération des paramètres en entrée */
Pour tous les arguments récupéré en paramètre d’entrée par la fonction getopt(), faire :
/* Tous les cas ne sont pas présentés ici */
cas ‘N’ :
balise du mode Caliseq mise activée
cas ‘B’ :
variable read_bank prend la valeur du nombre maximal de feuilles pour l’arbre
cas ‘Z’ :
variable seuil pour le z-score sMinZscoreCons prend la valeur insufflé par l’utilisateur
/* etc… */
fin pour
mémorisation du nom pour le fichier ali_file
mémorisation du nom pour le fichier cons_file
/* Partie spécifique à Caliseq, les autres parties ne sont pas présentées */
Si (balise du mode Caliseq activé) alors :
/* Lecture du fichier cons_file et enregistrement dans une super variable multicons */
multicons récupère les informations en sortie de ReadMulCons(cons_file)
/* Lancement de Caliseq en mode de recherche sur banque selon le remplissage ou non de read_bank */
Si (read_bank est remplie) alors :
init_minimier(read_bank) /* Création de l’arbre au nombre de feuilles défini dans read_bank */
Tant qu’il reste des enregistrements curseq dans le fichier ali_file, faire :
/* Il existe des fonctions de correction pour les enregistrements non « propres » qui ne sont pas présenté */
/* Premier passage par Caliseq */
score récupère les informations en sortie de Caliseq(curseq, multicons)
cumul de score et de son carré, du nombre de séquence dans la banque
seq2keep est créé par sNewSeq2Keep(curseq, score)
seq2keep est envoyé à l’arbre par range(seq2keep)
Si (seq2keep n’est pas conservé dans l’arbre) alors le détruire
fin tant
définition de lim, le nombre total de séquences conservées /* soit égale à la valeur de read_bank soit cumulé précédemment */
calcul de la moyenne mu et de l’écart type ecart à partir des scores cumulés
Pour les lim feuilles de l’arbre, faire :
/* Deuxième passage par Caliseq */
récupération de l’enregistrement contenu dans chaque feuille par get_minimier_swres()
Caliseq(curseq, multicons, mu, ecart, deuxième passage)
fin pour
fin si /* fin du code pour le mode de recherche sur banque */
/* Lancement de Caliseq en mode normal selon le remplissage ou non de read_bank */
Sinon
/* Lecture du fichier ali_file et enregistrement dans une super variable alifreq */
alifreq récupère les informations en sortie de ReadMulCons(cons_file)
Calign(alifreq, multicons)
fin sinon /* fin de Caliseq en mode normal */
fin si /* fin de l’outil Caliseq */
Algorithme 7.1 Algorithme simplifié de la fonction Main() de SmartConsAlign. Seule la partie relative à
Caliseq est présentée. Les arguments passés aux fonctions sont inscrits dans les parenthèses des fonctions. Les
variables sont indiqués en italique.
Quelques fonctions de Caliseq au peigne fin 327
La fonction ReadMulcons() a été développée pour lire le fichier de jeu de bloc – celui là même
qui comporte le symbole « # » comme séparateur – afin de les transformer en matrice consensus ou
profil. Historiquement, c’est d’ailleurs la première fonction qui j’ai écrite et qui a contraint le fichier
cons_file à être écrit tel qu’il est. Dans l’objectif de sauvegarder les informations de ce fichier, il m’a
fallu définir une « super variable » communément appelé « structure » en langage C. Celle-ci est
désignée – on parle également de type – ConsFrags2 et regroupe un grand nombre de variables et de
sous structures. La décomposition de cette « super variable » est présentée dans le Tableau A 3-2. Les
variables multicons et alifreq présenté dans la fonction Main() sont de type ConsFrags2.
Tableau A 3-2 Décomposition de la structure ConsFrags2. Les astérisques « * » correspondent en langage C à un pointeur correspondant
à une adresse mémoire. On souvent recourt aux pointeurs pour créer des tableaux de façon dynamique, mais également lors des passages en
arguments.
Contenu de la structure
Nom de la
Type de la Nom de la Explications relatives
structure
variable variable
ConsFrags2 RConsensus *rcons rcons est un pointeur vers une structure qui permet de
sauvegarder la matrice consensus. L’utilisation du pointeur est
justifiée lorsque qu’une fonction est de type RConsensus et
retourne une structure de type RConsensus
Sseqs **sfrags sfrags est un pointeur vers un tableau de structures contenant
l’ensemble des séquences. L’utilisation du pointeur est justifié
également pour les mêmes raisons que précédemment
Int nbfrags nbfrags est le nombre d’éléments contenu dans le tableau sfrags
Int realsize realsize est utilisé pour allouer de la mémoire pour le tableau de
sfrags
Double fgap_gap Contient le poids attribué au gap face à un gap
Double Fgap_op Contient le poids attribué à l’ouverture d’un gap
Double *weight weight est un tableau de poids pour pondérer lors de la
construction de matrice consensus les séquences trop identiques
Rconsensus Float *poids La matrice consensus est sauvegardée dans un tableau unique à
une dimension
Char *vocab vocab contient la séquence de l’alphabet utilisé pour construire la
matrice
Int len len est la longeur du tableau poids
Pour sauvegarder les informations du fichier de blocs, j’ai donc déclaré la variable multicons au
type ConsFraqs2 où chaque bloc est un élément de sfraqs contenant lui-même dans un tableau toutes
les séquences et noms des séquences de chaque bloc. La lecture des informations de chaque bloc a
nécessité un fichier temporaire pour chaque bloc et l’appel à la fonction read_alignement(),
fonction préexistante à SmartConsAlign qui lit un fichier d’alignement de séquences. Un fois les
alignements récupérés, la procédure CreateWeight() est lancé avec multicons en argument pour
calculer les pondérations à utiliser pour chaque séquence. Cette pondération a été mise en place pour
ne pas favoriser lors de la création du profil, le résidu provenant de séquences trop identiques. Enfin,
ReadMulCons() lance la procédure CreateCons() qui permet d’obtenir les profils des blocs. Une
fois la variable multicons remplie, elle est retournée à la fonction Main().
Fonction ReadMulCons(cons_file)
Déclaration de multicons
Déclaration d’un fichier temporaire tmp
Algorithme 7.2 Algorithme simplifié de la fonction ReadMulCons() qui permet la lecture et la création du
profil pour le jeu de bloc. La fonction reçoit en argument d’entrée le fichier cons_ali (ainsi que son emplacement
pour l’ouverture du fichier) et retourne une variable de type ConsFrags2 dont tous les champs ont été complétés.
C’est l’une des dernières fonctions que j’ai écrite. À l’origine, elle a été mise en place pour
modérer, assouplir le profil lorsque qu’il y a dans l’alignement de séquences, des séquences trop
identiques. En effet, cette identité entre séquences se répercuterait au niveau des acides aminés où les
fréquences d’apparitions à une position donnée seraient trop importantes, masquant de ce fait la
présence d’un acide aminé conservé sur toutes les séquences. C’est pourquoi il est nécessaire de
pondérer les séquences trop proches entre elles. Pour cela, il faut calculer les identités entre toutes les
séquences et les comparer toutes ces identités entre elles, deux à deux. Le calcul de la pondération est
expliqué en détail dans la section discutant de l’évolution de Caliseq, mais les grandes lignes sont
Quelques fonctions de Caliseq au peigne fin 329
décrites de la façon suivante : pour chaque paire de séquence, une identité est attribuée. À partir de
cette taux d’identité, il est possible de calculer pour chaque séquence, la fréquence moyenne des
identités entre cette séquence et les autres séquences du jeu. Or, ce n’est pas la fréquence moyenne des
identités qui est intéressante, mais son complémentaire pour à la fois défavoriser les séquences trop
proches et favoriser les séquences n’ayant pas de séquences proches. CreateWeight() est une
fonction qui n’appelle pas d’autres fonctions, mais est dotée d’un algorithme de programmation assez
« fantaisistes », ne serait-ce que pour faire les identités deux à deux.
/* Création du tableau qui contiendra les pondérations de chaque séquence. Sa dimension est donc nbseq */
Déclaration de multicons->weight de taille nbseq
Si (il n’y a qu’une seule séquence) alors /* Dans le cas d’une séquence unique, il n’est pas nécessaire de calculer les pondérations */
multicons->weight[0]=1.0
retourner à la fonction appelante multicons
fin si
Initialisation à 0 de tout le tableau multicons->weight
Déclaration d’une variable idpos qui va remplir le tableau d’identité tab_id
Pour chaque séquence js allant de is+1 à nbseq, faire : /* la comparaison de toutes les séquences aboutit à une matrice symétrique */
Initialisation des compteurs d’identité identity et du nombre d’acides aminés nbcomp comparé
Pour chaque position ipos dans la séquence, faire : /* Parcours des positions */
Incrémenter nbcomp
Si (dans le même bloc, à la même position ipos, des séquence is et js sont identiques) alors incrémenter identity
fin pour
fin pour
idpos prends la valeur identity/nbcomp et s’incrémente /* fréquence d’identité entre deux séquences sauvegardé dans tab_id */
fin pour
fin pour
/* Remplissage de la table des poids multicons-> weight par les fréquences d’identité cumulées */
Pour chaque case de multicons-> weight, faire :
cumuler les fréquences associées à chaque séquence
fin pour /* l’algorithme est simplifié ici, car en réalité, il faut parcourir tab_id par « ligne » et par « colonne » */
/* Calculer les fréquences moyennes à partir des fréquences cumuler en enregistrer son complémentaire */
Pour chaque élément i de multicons-> weight, faire :
multicons-> weight[i] reçoit 1– (multicons-> weight[i]/(nbseq-1))
fin pour
Algorithme 7.3 Algorithme (très) simplifié de la procédure CreateWeight() qui permet la mise en place d’une
pondération pour les séquences trop proches dans l’alignement. Cette fonction reçoit une variable de type
ConsFrags2 et retourne cette même variable à la fonction appelante, qui peut être soit ReadMulCons() soit
Alifreq().
330 Annexe 3. Caliseq : dissection d’un programme
CreateCons() est sans nulle doute la fonction la plus importante du programme Caliseq : elle
réalise à elle seule la création d’une grande partie de la « matrice » de substitution (artéfact de la
programmation dynamique), comme il sera vu plus tard. Cette fonction n’a cessé d’être remaniée et
réorganisée, selon l’évolution subite pour le calcul du profil des blocs. Je présenterai ici la version
finale en date de cette fonction, mais les différentes étapes de l’évolution de cette fonction ont été
discutées dans le manuscrit. Cette fonction permet donc la création d’un profil à partir de l’ensemble
des informations déjà disponibles dans la variable de type ConsFrags2 (séquences et pondérations) et
sera sauvegardé dans la structure rcons de cette même variable. À noter que cette fonction est
commune à la création du profil pour le jeu de blocs (provenant du fichier cons_file), mais aussi pour
créer un profil à partir des séquences pré alignées sur la séquence cible (provenant du fichier ali_file).
Il existe néanmoins quelques petites différences au niveau de l’algorithme qui seront vues ci-après.
Pour construire le profil, il faut déclarer une matrice, dont les dimensions ont pour largeur (ou pour
nombre de colonnes) le nombre totale de résidus d’une même séquence sur l’ensemble des blocs et
pour hauteur, l’alphabet (ou l’ensemble des symboles) utilisé pour représenter la séquence. Pour
mémoire, le profil présenté pour SmartConsAlign comportait un alphabet de 20 lettres, chaque lettre
représentant un acide aminé différent. Ici, un alphabet plus conséquent a été utilisé, de 32 symboles,
dont certains caractères ont été sollicités pour mémoriser d’autres informations que celle de fréquence
des acides aminés. Ainsi, une des particularités de l’outil Caliseq a été d’incorporer directement la
matrice d’insertion pour la programmation dynamique à la matrice de substitution, grâce à l’existence
de ces caractères supplémentaires. Pour ce qui est de la largeur du profil, il suffisait par exemple de
compter le nombre total de résidu de la première séquence pour tous les blocs. La déclaration et la
création de cette matrice consensus se fait au moyen de la procédure NewRConsenus() du fichier
cons_align.c. Une autre matrice, de similarité ente résidus, est nécessaire. Elle correspondait
initialement à une matrice de similarité (de type BLOSUM ou PAM), mais finalement est devenue
dans la dernière version de CreateCons() une simple matrice unitaire d’identité, de dimension
alphabet x alphabet. Elle est donc initialisé à 1 pour la diagonale (lorsqu’il y a identité entre les
résidus se trouvant en face) et 0 ailleurs. Cette deuxième matrice de similarité (ou de fréquence de
replacement d’un caractère par un autre) est réalisée par l’appel à la fonction unitary_matrix() du
fichier Nmatrix.c. Ces deux fonctions ne nécessitent pas de description : elles se contentent d’allouer
de la mémoire pour la création d’une matrice (contenu dans un tableau à une dimension, c’est sa seule
particularité, lié à son utilisation en langage C) et d’initialiser cette matrice par des 0 sauf au niveau
des diagonales. Par ailleurs, ces fonctions ont été adaptées de fonctions préexistantes à
Quelques fonctions de Caliseq au peigne fin 331
SmartConsAlign. Le remplissage de la matrice consensus s’effectue ensuite par calcul d’une simple la
fréquence d’un symbole donné à une position donnée de l’alignement en séquence, et ce, pour chaque
position de l’alignement. La fréquence peut être de plus réajustée en fonction de la fréquence de
similarité tirée de la seconde matrice, ainsi que de la pondération calculée pour chaque séquence (cf.
précédemment). Le calcul de la fréquence pour le profil des alignements issus du fichier cons_file
(qu’on peut aussi nommer « PSSMs séquentielles ») est un peu plus complexe et se voit par ailleurs
ajusté par un facteur supplémentaire : celui des fréquences dites « background » de chaque acide
aminé, à savoir leurs fréquences générales dans toutes les protéines identifiées à ce jour. En fait,
comme il sera expliqué plus tard dans le manuscrit, dans la dernière version de CreateCons(), le
profil généré pour les blocs est construit de la même manière qu’une matrice de similarité BLOSUM.
En effet, pour obtenir les poids de substitution dans une matrice BLOSUM, on calcule dans un
alignement de séquence, le logarithme en base 2 des fréquences de chaque couple d’acide aminé à une
position donnée, divisé par le produit des fréquences « background » de chaque acide aminé du couple.
Dans CreateCons(), le même principe est appliqué pour l’obtention des matrices consensus. Les
fréquences « background » (désignées aussi comme fréquences de fond) des acides aminés permettent
entre autre de calculer des pseudo-comptes, et évitent ainsi d’avoir à soumettre à un logarithme des
fréquences nulles pour certains acides aminés. Ces fréquences « background » ont été récupérées à
partir des statistiques sur les acides aminés de la base de séquences Swiss-Prot. Celles-ci sont stockée
provisoirement en « dur » 24 dans le corps du programme, à l’intérieur d’une fonction nommée
Getfreq() de mulcons.c. Le fonctionnement de cette dernière est simple et ne nécessite pas une
explication poussée : en recevant en argument d’entrée un symbole correspondant à un acide aminé
(code à une lettre), la fonction renvoie la fréquence de l’acide aminé correspondant. Il est à noter que
lors du calcul du profil, la fréquence des gaps dans l’alignement est déterminée de la même manière.
Toutefois, la fréquence « background » pour les gaps (appelés aussi INDEL pour insertion/délétion)
présente la particularité d’avoir été calculé sur la banque d’alignements multiples de séquences
BAliBASE (http://www.igbmc.ustrasbg.fr/BioInfo/BAliBASE2/index.html) (Thompson et al,
1999). Un script python a été écrit à cet effet pour comptabiliser le nombre de gap présents ainsi que le
nombre de caractères total (gap inclus) dans toute la base. Cette fréquence a été elle aussi enregistré en
« dur » dans le corps du programme dans la même fonction Getfreq() de mulcons.c. Il est à noter
que lors du compte, les gaps de type INDEL ont été différenciés des gaps alignés sur d’autres gaps.
24
« Ecriture en dur » exprime en informatique que les données ne peuvent être modifiées qu’à l’intérieur du code.
Ce n’est pas usuellement conseillé de procéder ainsi : la plupart du temps, il est préférable de lire des données en
paramètre d’entrée au programme. Dans notre cas, si les valeurs de fréquences des acides aminés venaient à
changer, il faudrait les changer dans le corps du programme et le recompiler.
332 Annexe 3. Caliseq : dissection d’un programme
Algorithme 7.4 Algorithme simplifié de la fonction CreateCons()qui est appelé soit par ReadMulCons() soit
par AlignToFreq() passant tous deux à CreateCons() une structure de type ConsFrags2. CreateCons() renvoie la
structure de type ConsFrags2 en ayant rempli la matrice consensus rcons ainsi que le poids de gap fgap_gap. A
noter que j’ai utilisé un symbole particulier ici « := » qui signifie affectation.
La fonction AlignToFreq() réalise le même travail que ReadMulCons(), mais avec le fichier
ali_file, à savoir la création d’un profil pour le fichier d’alignement de séquences cibles. Cette
Quelques fonctions de Caliseq au peigne fin 333
procédure n’est appelée que en mode normale de Caliseq, dans la mesure où elle peut lire un
alignement de séquence (alors que dans le mode de recherche de Caliseq, les séquences soumises sont
traitées une à une). La variable utilisé pour retenir les séquences en mémoire est de type ConsFrags2,
du même type que la variable multicons utilisé dans ReadMulCons() : elle s’appelle cette fois ci
alifreq. L’architecture de la fonction AlignToFreq() est elle aussi vraiment similaire à celle de
ReadMulCons(), excepté le fait qu’il n’y a plus besoin de rechercher des « # » qui délimitent les
blocs, ni même de créer un fichier temporaire pour la lecture de ceux-ci : l’intégralité du fichier est lu
par la fonction read_alignement(). CreateWeight() et CreateCons() sont ensuite appelés
pour construire la matrice consensus, qui s’apparente vraiment, dans le cas d’alifreq, à une matrice de
fréquence.
Fonction AlignToFreq(ali_file)
Déclaration de alifreq
Algorithme 7.5 Algorithme simplifié de la fonction AlignToFreq() qui permet la lecture et la création du profil
pour la séquence cible ou son pré-alignement. La fonction reçoit en argument d’entrée le fichier ali_ali (ainsi que
son emplacement pour l’ouverture du fichier) et retourne une variable de type ConsFrags2 dont tous les champs
ont été complétés.
Caliseq ne gère que les poids d’ouverture de gap (gap_op) et les poids de gap face à un gap
(gap_gap). Le poids d’ouverture de gap peut être contrôlé en entrée du programme à partir de l’option
« –g » suivi d’un coefficient pour atténuer au diminuer la valeur du gap. Le calcul et l’attribution du
334 Annexe 3. Caliseq : dissection d’un programme
poids des deux type de gaps s’effectuent quant à eux dans la procédure CreateCons()
précédemment décrite. Leurs valeurs sont sauvegardées dans la variable de type ConsFrags2 issue des
blocs. C’est d’ailleurs cette même variable qui est passée à la fonction CreateWdel() pour construire
la matrice de délétion. Cette matrice est particulière dans l’outil Caliseq, car il fallait trouver un moyen
pour ne pas pénaliser l’apparition de gap entre les blocs, permettant ainsi aux blocs de « coulisser » sur
la séquence cible (ou le pré-alignement) sans contrainte. Afin de remplir cette condition, l’idée a été de
ne pas pénaliser les l’apparition de gap en fin de chaque bloc. Ainsi, la matrice de délétion peut être
schématisée comme sur la Figure A 3-6, où en fin de chaque bloc, l’apparition d’un gap entre les blocs
n’entraîne aucune pénalité.
1234…L1234…L1234…L1234…L1234…L1234…L
A
B
C
.
.
.
Z
alphabet
-
.
.
.
.
&
Figure A 3-6 Schéma de la matrice de délétion. La dimension de la matrice correspond en hauteur à l’alphabet
utilisé (nombre de symbole) et en largeur au nombre total de résidus d’une séquence à travers tous les blocs. Ici
chaque bloc est représenté par des positions (1, 2, 3, 4 …, L) où L correspond à la dernière position du bloc. En
gris correspond aux parties de la matrice dont le poids est gap_op, en vert, gap_gap et en rouge, 0. Ainsi, à la fin
de chaque bloc, l’apparition de gap entre les blocs n’est pas pénalisée (=0)
Cette fonction est appelée juste avant l’algorithme de programmation dynamique, soit par la
fonction Calign() soit par la fonction Caliseq(). Tout comme la matrice consensus, elle a été
programmée sur une matrice à 1 dimension, et est de type RConsenus (cf.Tableau A 3-2).
Quelques fonctions de Caliseq au peigne fin 335
Algorithme 7.6 Algorithme simplifié de la fonction CreateWdel() qui prend en entrée la variable de type
ConsFrags2 provenant du fichier cons_file pour créer une matrice de délétion. Elle est appelée par Calign() ou
Caliseq().
Calign() ainsi que Caliseq() sont les deux fonctions qui réalisent la recherche de
l’alignement optimale entre les profils des blocs et le profil de la séquence cible par un algorithme de
programmation dynamique de type NWS (cf. section 2.4.1.3 page 85). Dans le cas de Calign() qui
permet le lancement de l’outil Caliseq dans son mode normal, la réalisation de l’alignement profil-
profil passe par l’établissement d’une matrice d’alignement M[i,j] où chaque élément de la matrice
donne le score de similarité obtenu pour un sous-alignement optimal des profils séquentielles A (issu
du fichier cons_file), de la position 1 à la position i, avec les séquences cibles (soit simple soit pré-
alignées), B, de la position 1 à la position j. Cette matrice M[i,j] est alors construite à partir de trois
scores de similarité de sous-alignements optimaux M[i–1,j–1], M[i,j–1], M[i–1,j]. En effet, M[i,j] est
le score maximal entre les trois scores suivants :
• M[i–1,j–1] + W(j,i)
• M[i–1,j] + i(ai)
• M[i,j–1]+ d(bj)
où W(j,i) est le score de similarité entre la position i des « PSSMs séquentielles » et la position j du set
de séquences pré-alignées, i(ai) est le poids de gap dans B contre la position i sur A (insertion de la
336 Annexe 3. Caliseq : dissection d’un programme
position i des « PSSMs séquentielles ») et enfin d(bj) est le poids de gap dans A contre la position j sur
B (insertion d’une colonne j des séquences pré-alignées). Le score de similarité W(j,i) pour une
position d’alignement i dans les « PSSMs séquentielles » avec la position j s’obtient alors par le
produit du poids à la position i des « PSSMs séquentielles » avec le poids à la position j du profil pour
les séquences pré-alignées. C’est pour cette raison que je comparais les « PSSMs séquentielles » à une
« demi » matrice de substitution. Le score de délétion s’obtient de la même façon en multipliant le
poids à la position i de la matrice de délétion par le poids de la position j de la matrice consensus pour
les séquences pré-alignées. Le score d’insertion est quant à lui un peu différent, et s’obtient par
addition de la fréquence de gap multiplié par le poids d’un gap contre un gap à la position i avec son
complémentaire (1– fréquence de gap à la position i) multiplié par le poids d’ouverture de gap. Ainsi,
on comprend mieux l’utilité d’avoir préparé les données nécessaires au calcul des trois matrices : i) la
matrice de substitution, contenue dans la variable de type ConsFrags2 a été créée par la fonction
CreateCons(), ii) la matrice d’insertion contenue dans la même variable et a été créée également par
la fonction CreateCons() (mais n’est contenu que dans la variable contenant les « PSSMs
séquentielles » et enfin, iii) la matrice de délétion qui est obtenue par appel à la fonction
CreateWdel(). Dans le cas de la fonction Caliseq(), l’algorithme présenté ci-dessus est
légèrement simplifié, puisqu’il ne s’agit plus d’un alignement profil-profil, mais d’un alignement entre
un profil et une séquence simple. En effet, le fichier d’alignement de séquence ali_file, n’est plus lu
dans sa totalité cette fois-ci, mais chaque enregistrement est lu l’un après l’autre au fur et à mesure du
traitement. Cependant, pour pouvoir adapter l’algorithme précédent au traitement d’une séquence au
lieu d’un profil il a fallu indexer la séquence cible à l’aide de la fonction IndexSequence() et de la
désindexer une fois l’alignement réaliser par la fonction DeIndexSequence(). Cette indexation
correspond en fait à établir une correspondance de chaque position de la séquence avec l’alphabet
utilisé. Les deux fonctions sont préexistantes au programme SmartConsAlign, et ne seront pas
détaillées.
En pratique, que ce soit pour Calign() ou Caliseq(), deux matrices d’alignements sont
utilisés : une contenant les meilleurs scores selon les trois chemins possibles pour chaque élément de
la matrice, et une autre matrice contenant justement les chemins empruntés. Ces deux matrices sont
remplies en simultanées lors de la programmation dynamique. Une fois le remplissage des deux
matrices effectuée, une fonction Backtracking() est appelé pour « remonter » le chemin dans la
matrice des chemins empruntés, correspondant à l’alignement optimale. Cette fonction retourne dans
une variable de type caractère, le chemin « optimal ». Dans la procédure Calign(), les deux profils et
le chemin optimal sont envoyés à la fonction PrintAln() qui réalise l’affichage de l’alignement des
Quelques fonctions de Caliseq au peigne fin 337
séquences contenues dans chaque bloc sur la séquence cible (ou son pré-alignement). Dans la fonction
Caliseq() en revanche, des opérations supplémentaires sont présentes, comme la vérification de la
longueur d’alignement avec le cut off sur la longueur, défini en paramètre d’entrée (option « –L »)
effectuée par LegnthSeqVSCutOff() ou encore, le calcul du z-score qui selon la comparaison avec
le seuil donnée en paramètre d’entrée (option « –Z ») permettra ou non l’affichage de l’alignement par
la fonction PrtAlnBank() similaire à PrintAln() mais simplifiée.
Algorithme 7.7 L’algorithme simplifié de Calign() est présenté ici. Il pend en arguments d’entrée les deux
variables de types ConsFrags2 multicons issu du fichier cons_file et alifreq issu du fichier ali_file. En pratique, les
matrices Pathmatrix et Scorematrix sont des tableaux à une dimension où les lignes de la matrice sont mises bout à
bout.
338 Annexe 3. Caliseq : dissection d’un programme
Fonction Caliseq( multicons de type ConsFrags2et cureseq de type ‘sequence’, balise, ecart, mu)
/* Caliseq() reçoit plus d’arguments que Calign() dont curseq à la place de alifreq, balise pour savoir si on est ou non à la première lecture,
ecart et mu pour calculer le z-score*/
/* Création des 2 matrices d’alignement */
Récupération des longueurs du profil lpat et de la séquence lseq
Indexation de la séquence curseq par IndexSequence(curseq)
Création des deux matrices de dimension lpat x lseq /* Pathmatrix P et Scorematrix S */
Wdel := Création de la matrice de délétion par CreateWdel(multicons)
/* Si l’utilisateur à déterminer un seuil de longueur maximale entre le premier bloc et le dernier, alors la condition est vérifiée */
Si (LenthSeqCutOff(bestpath) est vrai) alors retourner dmax à la fonction appelante /* première sortie de la fonction */
/* Lorsqu’on lance Caliseq() pour la seconde fois */
Si (balise est activée) alors
Calcul du z-score
Si (z-score > seuil défini par l’utilisateur) alors
PrtAlnBank(bestpath, multicons, alifreq, autres variables à afficher) permet d’afficher le résultat
fin si
fin si
Retourner dmax à l’application appelante
Algorithme 7.8 L’algorithme simplifié de Caliseq() est présenté ici. Il pends en arguments d’entrée la
variables multicons issu du fichier cons_file de type ConsFrags2 et la séquence curseq qui est un enregistrement
du fichier ali_file. La construction des matrices d’alignement est identique à celle de Calign()
Quelques fonctions de Caliseq au peigne fin 339
Une fois déclarée, la variable recueillant l’alignement finale peut alors être complétée : à chaque
position de la variable contenant le chemin optimal contient une directive pour une position de
l’alignement globale. Ces directives sont de trois types : soit i (pour insertion) soit d (pour délétion) et
enfin, soit s (pour substitution). La complétion de l’alignement globale dépend de ces trois directives :
• Lorsqu’il s’agit de la directive ‘DEL’ (ou ‘d’), des gaps ‘–‘ sont placés dans l’alignement
global final à la place des résidus des séquences dans les blocs, tandis que les résidus d’une
même colonne de l’alignement en séquences sont recopiés dans l’alignement global finale ;
• Lorsqu’il s’agit de la directive ‘INS’ (ou ‘i’), des gaps ‘–‘ sont placés dans l’alignement
global final) la place des résidus de l’alignement en séquences, tandis que les résidus d’une
même colonne de l’alignement en séquences dans les blocs sont recopiés dans l’alignement
global finale ;
• Et enfin, lorsqu’il s’agit de la directive ‘SUB’ (ou ‘s’), les résidus d’une même colonne à la
fois pour l’alignement de séquences dans les blocs et pour l’alignement de séquences cibles,
sont recopiés dans l’alignement global finale.
340 Annexe 3. Caliseq : dissection d’un programme
A noter que la fonction PrtAlnBank() est une copie simplifiée de son homologue PrintAln()
qui n’a qu’à afficher les séquences des alignements contenus dans les blocs et une séquence
supplémentaire. Il y a donc moins de traitement (moins de structure de contrôle de type boucle) à faire.
Je ne présenterai donc pas son algorithme.
Algorithme 7.9 Algorithme simplifié de PrintAln() qui prends le chemin optimal sous forme de chaîne de
caractères bestpath, ainsi que les deux « super variables » de type ConsFraqs2, multicons et alifreq. La procédure
Quelques fonctions de Caliseq au peigne fin 341
crée alors un alignement globale finale et envoie cet alignement finale en sortie standard par l’appel à deux
fonctions PrintClustalAli() ou PrintFastaAli( )
Les fonctions présentées précédemment réalisent les opérations principales de Caliseq, telles
que les lectures des fichiers spécifiques pour Caliseq, les créations de matrices et l’alignement des
blocs sur la séquence cible. L’outil Caliseq nécessite toutefois l’appel à d’autres fonctions dont
l’écriture a été nécessaire pour simplifier ou clarifier le code (comme les fonctions pour déclarer des
tableaux de façon dynamique en langage C) mais aussi des fonctions préexistantes à SmartConsAlign
ou à d’autre programme, suffisamment modulaires pour être réutilisées sans avoir à modifier leur code
source. Il s’agit pour la plupart des fonctions permettant la lecture des fichiers au format fasta et la
sauvegarde séquences qui y sont présentes (comme NewFastaSequence(), ReadFastaSequence()
ou encore read_alignement()) ou de leur écriture au format fasta ou clustal (PrintFastaAli()
ou PrintClustalAli()). On retrouve également des fonctions destinées de créer un arbre,
Init_minimier(), créer les éléments de cet arbre, sNewSeq2Keep(), le remplir, range(), et enfin
récupérer les éléments par ordre hiérarchique, get_minimier_swres(). Ces quatre fonctions sont
d’ailleurs assez communes à la création d’arbre en générale. En fait la particularité principale de cet
arbre est de mémoriser des séquences en fonction d’un score. Pour Caliseq, c’était bien entendu le
score d’alignement qui allait me servir classer les séquences. Le nombre de feuille de l’arbre est quant
à lui déterminé par l’utilisateur en paramètre d’entrée. On peut en outre constater dans l’algorithme de
la procédure Main(), qu’à la fin du premier tour –première fois qu’on utilise la fonction Caliseq()–,
toutes les feuilles sont « remplies ». C’est seulement à la second utilisation de Caliseq(), que les
séquences identifiés comme P450s sont isolées et affiché selon le z-score qui est calculé en fonction de
leur score d’alignement respectif. Comme il sera vu plus tard, la création de l’arbre était importante
pour éviter de relire deux fois la banque de données de séquences. Pourquoi ? Le z-score se calculant à
partir de la moyenne et de l’écart type, il était nécessaire de parcourir au moins une fois toute la
banque.
Il reste enfin trois autres fonctions que j’ai écrites et que je n’ai pas décrites ici : Getfreq(),
Bactracking() et LengthSeqVSCutOff(). Ces fonctions ne présentent pas un intérêt
algorithmique particulier par rapport aux autres fonctions décrites – elles ne comportent aucune
contrainte liée par exemple à la gestion de séquences multiples séparées l’existence des blocs –. La
première permet à la réception d’un symbole (un acide aminé codé sur une lettre ou un gap) de
342 Annexe 3. Caliseq : dissection d’un programme
retourner sa fréquence correspondante : elle repose sur une structure de contrôle type swtich/case. La
seconde fonction permet à partir de la matrice d’alignement contenant les chemins, de récupérer le
chemin optimal en remontant toute la matrice de la case la plus basse à droite vers la case la plus haute
à gauche (‘ROOT’), en suivant chaque fois les informations de directions à chaque case. Une fois le
chemin récupéré, la fonction Backtracking() inverse la séquence (contenant les lettre i, s ou d) du
chemin obtenu, pour l’avoir dans l’ordre et renvoie ce chemin à la procédure appelante. La fonction
LengthSeqVSCutOff() permet quant à elle de vérifier si l’alignement des blocs sur la séquence
cible ne dépasse pas une longueur seuil, imposée par l’utilisateur en paramètre d’entrée. Son intérêt
sera justifié dans les sections à venir. L’astuce pour cette fonction est d’avoir utilisé la séquence du
chemin optimal, et compter le nombre de délétions présentes en début et fin de chemin pour
déterminer par opération de soustraction (entre la taille totale du chemin et le nombre de délétion), la
longueur totale nécessaire pour aligner les blocs sur la séquence cible.
ANNEXE 4
343
344 Annexe 4. Modeller : Stratégie adaptée aux blocs
Le logiciel Modeller n’a pas une nomenclature difficile pour son exécution : il suffit de lancer le
programme avec le fichier de directive désiré. Ce fichier est donc très important et va être détaillé pour
deux cas de figure : i) la construction d’un modèle et ii) la reconstruction des boucles.
Le fichier d’alignement utilisé par Modeller s’apparente beaucoup au format fasta, c’est pourquoi
j’avais dès le départ opté pour travailler les alignements à ce format. Les principales particularités
correspondent aux entêtes, mais également à certains marqueurs qu’il ne faut pas oublier en fin de
séquence comme il a été à la section 2.2.1 des annexes. La Figure A 2-5 de la page 307 présente le
fichier d’alignement que j’ai donné à Modeller pour la reconstruction d’un CYP 2A1 à partir de
structure proche (environs 30% d’identité en séquence). Trois structures de référence ont été utilisées :
un CYP 2B4 (1suo), un CYP 2A13 (2p85) et un CYP 2D6 (2fq9). C’est un cas de figure assez simple
dans la mesure où les CYPs appartiennent tous à la famille des 2. Les séquences des trois structures de
références ont été préalablement alignées avec la séquence de la protéine cible à construire.
Le fichier de directives est le fichier contenant toutes les commandes, les renseignements
nécessaire au bon fonctionnement Modeller. La possibilité en commandes est nombreuse. Le fichier se
comporte comme un script shell 25 avec son lot de variables et de fonctions. Il est à noter que le
« langage » de ce fichier change légèrement entre les différentes versions de Modeller. Ainsi, dans sa
dernière version, Modeller 9, l’interfaçage directive/exécution du logiciel fait intervenir un script
python à la place du shell, et le langage s’apparente plus à de l’objet (en terme de programmation).
L’exemple de la Figure A 4-1 est le fichier de directives pour le fichier d’alignement présenté
précédemment.
25
Il s’agit d’un langage de programmation et d’interfaçage avec la machine sous unix
Construction d’un modèle sous Modeller 345
SET REPEAT_OPTIMIZATION = 3
CALL ROUTINE = 'model' # do homology modelling
Figure A 4-1 Exemple de fichier de directives pour le fichier d’alignement présenté précédemment.
Le fichier de directives ressemble donc à un script shell où tous les commentaires sont protégés
par la balise « # », les variables sont définies par la commande « SET » et le lancement des différentes
fonctions se fait par la commande « CALL ROUTINE ». Bien entendu, il en existe bien d’autres, que
je serai amené à présenter plus tard. Ici, la première commande INCLUDE indique à Modeller de qu’il
doit récupérer toutes les fonctions et les variables prédéfinies et préformatées au programme (sinon, il
faudrait définir chaque variable utilisée). La variable ALNFILE va contenir le nom du fichier
d’alignement pour Modeller. KNOWNS est une variable qui répertorie les codes PDB des structures
de références utilisées (2p85, 1suo et 2f9q dans le cas présent). SEQUENCE est la variable qui
correspond au nom de la protéine à construire à partir de sa séquence. Elle permet également de
donner la racine des noms de fichiers qui sont générés. ATOM_FILES_DIRECTORY renseigne à
Modeller où sont situés les fichiers PDB des structures templates. STARTING_MODEL et
ENDING_MODEL correspondent au premier et au dernier modèle créés. La ligne avec
TOPOLOGY_MODEL permet de prendre en compte à la fois les atomes d’hydrogène, les
hétéroatomes et l’eau (qu’on peut mettre à off). DEVIATION et RAND_SEED permettent lors de
nombreuses constructions de modèle une certaines variabilités entre eux. FINAL_MALIGN3D permet
d’aligner structuralement le modèle résultant avec les templates, MD_LEVEL correspond au degré de
raffinement demandé (par défaut 1) pour les boucles par un recuit simulé (boucles qui sont soit
définies par l’utilisateur, soit automatiquement repéré par Modeller) et REPEAT_OPTIMIZATION
permet enfin de définir le nombre de cycle d’optimisation (par défaut 1). La commande
346 Annexe 4. Modeller : Stratégie adaptée aux blocs
CALL_ROUTINE se charge alors de lancer le programme. Il faut moins d’une heure pour construire
un seul modèle, ce qui est relativement rapide.
Sous Modeller, il est possible de reconstruire les boucles durant le processus de construction du
modèle, vu précédemment. Il est également possible d’effectuer ce travail postérieurement à celui de
la reconstruction du modèle. Dans ce dernier cas, Modeller prends également deux fichiers d’entrée,
dont un seul à paramétrer, le second étant la structure au format PDB sur laquelle on effectue les
opérations. Le fichier de directive est construit de manière identique à celui présenté précédemment. À
la différence près que l’information sur le fichier d’alignement est remplacé par celui du fichier PDB à
utiliser (généralement, un modèle issu de Modeller). Ce fichier comporte un nombre important de
directives, mais les plus importantes sont celles permettant la délimitation des zones de boucles qui
sont présentés à la Figure A 4-2, toujours pour l’exemple du CYP 1A2.
Figure A 4-2 Création d’une fonction permettant la déclaration des régions variables à Modeller. Les numéros
de résidu de début et de fin permettent de délimiter ces régions. Cas de la reconstruction d’un CYP 1A2 en
utilisant mon set de bloc général
Une fois les résidus délimitant les boucles renseignés, c’est au tour des résidus délimitant les
blocs : des contraintes spatiales de distances, d’angles et de torsions vont être appliquées afin de
perturber un minimum l’agencement spatial au niveau de ces régions. La déclaration de ces résidus est
montrée à la Figure A 4-3.
Reconstruction des boucles sous Modeller 347
Figure A 4-3 Création d’une fonction permettant la déclaration les résidus entre lesquels des contraintes
spatiales vont être appliqués : de distance, d’angles de torsion, impropres et dièdres ϕ, ψ, et χ, etc… Cas de la
reconstruction d’un CYP 1A2 en utilisant mon set de bloc général
ANNEXE 5
« C’est parce qu’on imagine simultanément tous les pas qu’on devrait faire
qu’on se décourage, alors qu’il s’agit de les aligner un à un.»
Marcel Jouhandeau (1888 – 1979 ap JC)
349
350 Annexe 5. Des alignements en vrac…
Dans cette annexe, seront présentés quelques alignements représentatifs qui n’ont pu figurer dans
les résultats, par souci de place. Les régions conservées sont indiquées par des majuscules et les
régions variables par des minuscules.
1oxa 1 ------atVP dleSDSFHVD w--------Y STYAELRETA PVTPVRFLg- qDAWLVTGYD EAKAALSDlR LSSDPkKKyp gvevEFPAYL GFPEDVRNyf 85
1gwi 1 ------arIP ---LDPFVTD l--------D GESARLRAAG PLAAVELPgg vPVWAVTHHA EAKALLTDpR LVKDInVWga wrrgEIPADW PLIGLAN--p 81
1rom 1 -------aPS fpfSRASGPE p--------P AEFAKLRATN PVSQVKLFdg sLAWLVTKHK DVCFVATSeK LSKVR-TR-- ----QGFPEL SASGKQAAka 78
1cpt 1 --mdaratIP ehiARTVILP qgyaddeviY PAFKWLRDEQ PLAMAHIEgy dPMWIATKHA DVMQIGKQpG LFSNAeGSei lydqNNEAFM RSISGGCPhv 98
3cpp 1 ----nlapLP phvPEHLVFD fd------mY NPSNLSAGVQ EAWAVLQEsn vPDLVWTRCN GGHWIATRgQ LIREAyEDyr hfssECPFIP REAGEAYDfi 90
1e9x 1 -----msaVA lprVSGGHDE hg------hL EEFRTDPIGL MQRVRDECg- -DVGTFQLAG KQVVLLSG-S HANEFfFRag dddlDQAKAY PFMTPIFG-- 84
2hpd 1 ----tikeMP qpkTFGELKN lp-------- LLNTDKPVQA LMKIADELg- -EIFKFEAPG RVTRYLSSqR LIKEAcDE-s rfdkNLSQAL KFVRDFAG-d 84
1og5 1 --------PP gptPLPVIGN i--------L QIGIKDISKS LTNLSKVYg- -PVFTLYFGL KPIVVLHGyE AVKEAlID-l geefSGRGIF PLAERANRgf 81
1pq2 1 ------klPP gptPLPIIGN m--------L QIDVKDICKS FTNFSKVYg- -PVFTVYFGM NPIVVFHGyE AVKEAlID-n geefSGRGNS PISQRITKgl 83
1nr6 1 -----gklPP gptPFPIIGN i--------L QIDAKDISKS LTKFSECYg- -PVFTVYLGM KPTVVLHGyE AVKEAlVD-l geefAGRGSV PILEKVSKgl 84
1dt6 1 --------PP gptPFPIIGN i--------L QIDAKDISKS LTKFSECYg- -PVFTVYLGM KPTVVLHGyE AVKEAlVD-l geefAGRGSV PILEKVSKgl 81
CYP3A4 1 hglfkklgIP gptPLPFLGN ---------I LSYHKGFCMF DMECHKKYg- -KVWGFYDGQ QPVLAITDpD MIKTVlVKec ysvfTNRRPF GPVGFMKS-- 87
1oxa 86 atnmGTSDPP THTRLRKLVS QEFTVRRVEA MRPRVEQITA ELLDEV---- ------gDSG VVDIVDRFAH PLPIKVICEL LG------vd eAARGAFGRW 169
1gwi 82 grsmLTVDGA EHRRLRTLVA QALTVRRVEH MRGRITELTD RLLDELp--- ------aDGG VVDLKAAFAY PLPMYVVADL MG------ie eARLPRLKVL 166
1rom 79 kptfVDMDPP EHMHQRSMVE PTFTPEAVKN LQPYIQRTVD DLLEQMkqk- -----gcANG PVDLVKEFAL PVPSYIIYTL LG-------- -VPFNDLEYL 163
1cpt 99 idslTSMDPP THTAYRGLTL NWFQPASIRK LEENIRRIAQ ASVQRLl--- ------dFDG ECDFMTDCAL YYPLHVVMTA LG------vp eDDEPLMLKL 183
3cpp 91 p---TSMDPP EQRQFRALAN QVVGMPVVDK LENRIQELAC SLIESLr--- -------PQG QCNFTEDYAE PFPIRIFMLL AG------lp eEDIPHLKYL 171
1e9x 84 --egVVFDAS PERRKEMLHN AALRGEQMKG HAATIEDQVR RMIADWg--- -------EAG EIDLLDFFAE LTIYTSSACL IGkkfrdqld gRFAKLYHEL 172
2hpd 85 glftSWTHEK NWKKAHNILL PSFSQQAMKG YHAMMVDIAV QLVQKWerln adehievPED MTRLTLDTIG LCGFNYRFNS FYrdqphpfi tSMVRALDEA 184
1og5 82 givfSNGKKW KEIRRFSLMT LRNFGMGKRS IEDRVQEEAR CLVEELr--- ------kTKA SPCDPTFILG CAPCNVICSI IFhkrfdykd qQFLNLMEKL 172
1pq2 84 giisSNGKRW KEIRRFSLTT LRNFGMGKRS IEDRVQEEAH CLVEELr--- ------kTKA SPCDPTFILG CAPCNVICSV VFqkrfdykd qNFLTLMKRF 174
1nr6 85 giafSNAKTW KEMRRFSLMT LRNFGMGKRS IEDRIQEEAR CLVEELr--- ------kTNA SPCDPTFILG CAPCNVICSV IFhnrfdykd eEFLKLMESL 175
1dt6 82 giafSNAKTW KEMRRFSLMT LRNFGMGKRS IEDRIQEEAR CLVEELr--- ------kTNA SPCDPTFILG CAPCNVICSV IFhnrfdykd eEFLKLMESL 172
CYP3A4 88 a--iSIAEDE EWKRLRSLLS PTFTSGKLKE MVPIIAQYGD VLVRNLr-r- -----eaETG KPVTLKDVFG AYSMDVITST SFgvnidsln -NPQDPFVEN 177
1oxa 170 SSEILVMDPE r--------- --------ae qRGQAAREVV NFILDLVERR R-------TE PGDDLLSALI SVQDDDDg-- --RLSADELT SIALVLLLAG 241
1gwi 167 FEKFFSTQTP ---------- --------pe eVVATLTELA SIMTDTVAAK R-------AA PGDDLTSALI QASENGD--- --HLTDAEIV STLQLMVAAG 236
1rom 164 TQQNAIRTNG s--------- ------star eASAANQELL DYLAILVEQR L-------VE PKDDIISKLC TEQVKPG--- --NIDKSDAV QIAFLLLVAG 236
1cpt 184 TQDFFGVEAA r--------- --------r- -FHETIATFY DYFNGFTVDR R-------SC PKDDVMSLLA NSKLDGN--- --YIDDKYIN AYYVAIATAG 252
3cpp 172 TDQMTRPDGS ---------- ---------m tFAEAKEALY DYLIPIIEQR R-------QK PGTDAISIVA NGQVNGR--- --PITSDEAK RMCGLLLVGG 240
1e9x 173 ERGTDPLAYV dp-------- --ylpiesfr rRDEARNGLV ALVADIMNGR Ian--pptDK SDRDMLDVLI AVKAETG--- tpRFSADEIT GMFISMMFAG 257
2hpd 185 MNKLQRANPD dp-------- --ayd-enkr qFQEDIKVMN DLVDKIIADR Kas-----GE QSDDLLTHML NGKDPETg-- -ePLDDENIR YQIITFLIAG 265
1og5 173 NENIEILSSP wiqvynnfpa lldyfpgthn kLLKNVAFMK SYILEKVKEH Qes--mdmNN PQDFIDCFLM KMEKEKHnq- psEFTIESLE NTAVDLFGAG 269
1pq2 175 NENFRILNSP wiqvcnnfpl lidcfpgthn kVLKNVALTR SYIREKVKEH Qas--ldvNN PRDFIDCFLI KMEQEKDnq- ksEFNIENLV GTVADLFVAG 271
1nr6 176 HENVELLGTP wlqvynnfpa lldyfpgihk tLLKNADYIK NFIMEKVKEH Qkl--ldvNN PRDFIDCFLI KMEQENN--- -lEFTLESLV IAVSDLFGAG 269
1dt6 173 HENVELLGTP ---------- -ldyfpgihk tLLKNADYIK NFIMEKVKEH Qkl--ldvNN PRDFIDCFLI KMEQENN--- -lEFTLESLV IAVSDLFGAG 255
CYP3A4 178 TKKLLRFDFL dpfflsitvf pflipilevl nICVFPREVT NFLRKSVKRM KesrledtQK HRVDFLQLMI DSQNSKEtes hkALSDLELV AQSIIFIFAG 277
1oxa 242 FEASVSLIGI GTYLLLTHPD QLALVRADPS ALP------- ---------- -NAVEEILRY IAPP-eTTTR FAAEEVEIGG VA-IPQYSTV LVANGAANRD 321
1gwi 237 HETTISLIVN AVVNLSTHPE QRALVLSGEA EWS------- ---------- -AVVEETLRF STPTshVLIR FAAEDVPVGD RV-IPAGDAL IVSYGALGRD 317
1rom 237 NATMVNMIAL GVATLAQHPD QLAQLKANPS LAP------- ---------- -QFVEELCRY HTASalAIKR TAKEDVMIGD KL-VRANEGI IASNQSANRD 317
1cpt 253 HDTTSSSSGG AIIGLSRNPE QLALAKSDPA LIP------- ---------- -RLVDEAVRW TAPV-kSFMR TALADTEVRG QN-IKRGDRI MLSYPSANRD 332
3cpp 241 LDTVVNFLSF SMEFLAKSPE HRQELIERPE RIP------- ---------- -AACEELLRR FSLV--ADGR ILTSDYEFHG VQ-LKKGDQI LLPQMLSGLD 319
1e9x 258 HHTSSGTASW TLIELMRHRD AYAAVIDELD ELYgdgrsvs fhalrqipql eNVLKETLRL HPPL-iILMR VAKGEFEVQG HR-IHEGDLV AASPAISNRI 355
2hpd 266 HETTSGLLSF ALYFLVKNPH VLQKAAEEAA RVLvdp-vps ykqvkqlkyv gMVLNEALRL WPTAp-AFSL YAKEDTVLGG EYpLEKGDEL MVLIPQLHRD 363
1og5 270 TETTSTTLRY ALLLLLKHPE VTAKVQEEIE RVIgrnrspc mqdrshmpyt dAVVHEVQRY IDLLptSLPH AVTCDIKFRN YL-IPKGTTI LISLTSVLHD 368
1pq2 272 TETTSTTLRY GLLLLLKHPE VTAKVQEEID HVIgrhrspc mqdrshmpyt dAVVHEIQRY SDLVptGVPH AVTTDTKFRN YL-IPKGTTI MALLTSVLHD 370
1nr6 270 TETTSTTLRY SLLLLLKHPE VAARVQEEIE RVIgrhrspc mqdrsrmpyt dAVIHEIQRF IDLLptNLPH AVTRDVRFRN YF-IPKGTDI ITSLTSVLHD 368
1dt6 256 TETTSTTLRY SLLLLLKHPE VAARVQEEIE RVIgrhrspc mqdrsrmpyt dAVIHEIQRF IDLLptNLPH AVTRDVRFRN YF-IPKGTDI ITSLTSVLHD 354
CYP3A4 278 YETTSSVLSF IMYELATHPD VQQKLQEEID AVLpnkappt ydtvlqmeyl dMVVNETLRL FPIA-mRLER VCKKDVEING MF-IPKGWVV MIPSYALHRD 375
1oxa 322 P-SQFPDPHR FDVTRDTRG- ---------H LSFGQGIHFC MGRPLAKLEG EVALRALFGR FPALSLGIDA DdvvWRRSLL LRGIDHLPVR Ldg------- 403
1gwi 318 ErAHGPTADR FDLTRTSGNr ---------H ISFGHGPHVC PGAALSRMEA GVALPALYAR FPHLDLAVPA AelrNKPVVT QNDLFELPVR Lahh------ 402
1rom 318 E-EVFENPDE FNMNRKWPPq d--------P LGFGFGDHRC IAEHLAKAEL TTVFSTLYQK FPDLKVAVPL GkinYTPLNR DVGIVDLPVI F--------- 399
1cpt 333 E-EVFSNPDE FDITRFPNR- ---------H LGFGWGAHMC LGQHLAKLEM KIFFEELLPK LKSVELSGPP R---LVATNF VGGPKNVPIR Ftka------ 412
3cpp 320 E-RENACPMH VDFSRQKVS- ---------H TTFGHGSHLC LGQHLARREI IVTLKEWLTR IPDFSIAPGA Q--iQHKSGI VSGVQALPLV Wdpattkav- 405
1e9x 356 P-EDFPDPHD FVPARYEQPr qedllnrwtW IPFGAGRHRC VGAAFAIMQI KAIFSVLLRE YEFEMAQPPE SyrnDHSKMV VQLAQPACVR Yrrrt----- 449
2hpd 364 KtIWGDDVEE FRPERFENPs ---aipqhaF KPFGNGQRAC IGQQFALHEA TLVLGMMLKH FDFEDHTNYE LdikETLTLK PEGFVVKAKS Kkiplgg--- 457
1og5 369 N-KEFPNPEM FDPHHFLDEg g-nfkkskyF MPFSAGKRIC VGEALAGMEL FLFLTSILQN FNLKSLVDPK N---LDTTPV VNGFASVPPF Yqlcfipv-- 461
1pq2 371 D-KEFPNPNI FDPGHFLDKn g-nfkksdyF MPFSAGKRIC AGEGLARMEL FLFLTTILQN FNLKSVDDLK N---LNTTAV TKGIVSLPPS Yqicfipv-- 463
1nr6 369 E-KAFPNPKV FDPGHFLDEs g-nfkksdyF MPFSAGKRMC VGEGLARMEL FLFLTSILQN FKLQSLVEPK D---LDITAV VNGFVSVPPS Yqlcfipih- 462
1dt6 355 E-KAFPNPKV FDPGHFLDEs g-nfkksdyF MPFSAGKRMC VGEGLARMEL FLFLTSILQN FKLQSLVEPK D---LDITAV VNGFVSVPPS Yqlcfipihh 449
CYP3A4 376 P-KYWTEPEK FLPERFSKKn k-dnidpyiY TPFGSGPRNC IGMRFALMNM KLALIRVLQN FSFKPCKETQ IplkLSLGGL LQPEKPVVLK Vesrdgtvsg 473
Figure A 5-1 Exemple de l’alignement Clustalw avec le jeu de templates D. Les paramètres par défaut ont été
utilisés. Les régions conservées dans la séquence (indiquées en majuscule) coïncident à peu près avec le
positionnement des blocs par Caliseq.
351
1oxa 1 ---------- --ATVPdle- -SDSFHVDWY STYAELRETA PVTPVRFLG- QDAWLVTGYD EAKAALSDLR LSSDPKKKYP GVEVEF-PAY LGFPEDVRny 84
2hpd 1 ----tikemp qpKTFGelkn lPLLNTDKPV QALMKIADEL GEIFKFEAPg RVTRYLSSQR LIKEACDESR FDKNLSQALK FVRDFAgDGL FTSWTHEKnw 96
1gwi 1 ---------- --ARIP---- -LDPFVTDLD GESARLRAAG PLAAVELPGg VPVWAVTHHA EAKALLTDPR LVKDINVWGA WRRGEI-PAD WPLIGLAN-- 80
1og5 1 --------pp gpTPLPvign iLQIGIKDIS KSLTNLSKVY GPVFTLYFGl KPIVVLHGYE AVKEALIDLG EEFSGRGIFP LAERAN-RGF GIVFSNGKkw 91
1pq2 1 ------klpp gpTPLPiign mLQIDVKDIC KSFTNFSKVY GPVFTVYFGm NPIVVFHGYE AVKEALIDNG EEFSGRGNSP ISQRIT-KGL GIISSNGKrw 93
1nr6 1 -----gklpp gpTPFPiign iLQIDAKDIS KSLTKFSECY GPVFTVYLGm KPTVVLHGYE AVKEALVDLG EEFAGRGSVP ILEKVS-KGL GIAFSNAKtw 94
CYP3A4 1 hglfkklgip gpTPLPflgn -ILSYHKGFC MFDMECHKKY GKVWGFYDGq QPVLAITDPD MIKTVLVKEC YSVFTNRRPF GPVGFM-KSA ISIAEDEE-w 97
1oxa 84 -----fATNM GTSDPPTHTR LRKLVSQEFT VRRVEAMRPR VE--QITAEL LDEV---GDS GVVDIVDRFA HP-----LPI KVICELLGVD EAARGAFGRW 169
2hpd 97 kkah--NILL PSFSQQAMKG YHAMMVDIAV QLVQKWERLN ADehIEVPED MTRLt-lDTI GLCGFNYRFN SFyrd--QPH PFITSMVRAL DEAMNKLQRA 191
1gwi 80 -----pGRSM LTVDGAEHRR LRTLVAQALT VRRVEHMRGR IT--ELTDRL LDELp--ADG GVVDLKAAFA YP-----LPM YVVADLMGIE EARLPRLKVL 166
1og5 92 keirrfSLMT LRNFGMGKRS IEDRVQEEAR CLVEELRKTK AS--PCDPTF ILGCapcNVI CSIIFHKRFD YKdqqflNLM EKLNENIEIL SSPWIQVYNN 189
1pq2 94 keirrfSLTT LRNFGMGKRS IEDRVQEEAH CLVEELRKTK AS--PCDPTF ILGCapcNVI CSVVFQKRFD YKdqnflTLM KRFNENFRIL NSPWIQVCNN 191
1nr6 95 kemrrfSLMT LRNFGMGKRS IEDRIQEEAR CLVEELRKTN AS--PCDPTF ILGCapcNVI CSVIFHNRFD YKdeeflKLM ESLHENVELL GTPWLQVYNN 192
CYP3A4 98 krlr--SLLS PTFTSGKLKE MVPIIAQYGD VLVRNLRREA ETgkPVTLKD VFGAysmDVI TSTSFGVNID SLnnpqdPFV ENTKKLLRFD FLDPFFLSIT 195
1oxa 170 SSEILVMDPE rAEQRGQAAR EVVNFILDLV ERRR-----T EPGDDLLSAL ISVQDDDDg- -----RLSAD ELTSIALVLL LAGFEASVSL IGIGTYLLLT 258
2hpd 192 NPDDPAYDEN -KRQFQEDIK VMNDLVDKII ADRKas---G EQSDDLLTHM LNGKDPETg- ----ePLDDE NIRYQIITFL IAGHETTSGL LSFALYFLVK 282
1gwi 167 FEKFFSTQTP -PEEVVATLT ELASIMTDTV AAKR-----A APGDDLTSAL IQASENGD-- -----HLTDA EIVSTLQLMV AAGHETTISL IVNAVVNLST 253
1og5 190 FPALLDYFPG tHNKLLKNVA FMKSYILEKV KEHQesmdmN NPQDFIDCFL MKMEKEKHn- --qpsEFTIE SLENTAVDLF GAGTETTSTT LRYALLLLLK 286
1pq2 192 FPLLIDCFPG tHNKVLKNVA LTRSYIREKV KEHQasldvN NPRDFIDCFL IKMEQEKDn- --qksEFNIE NLVGTVADLF VAGTETTSTT LRYGLLLLLK 288
1nr6 193 FPALLDYFPG iHKTLLKNAD YIKNFIMEKV KEHQklldvN NPRDFIDCFL IKMEQENN-- ----lEFTLE SLVIAVSDLF GAGTETTSTT LRYSLLLLLK 286
CYP3A4 196 VFPFLIPILE vLN-ICVFPR EVTNFLRKSV KRMKesrleD TQKHRVDFLQ LMIDSQNSke teshkALSDL ELVAQSIIFI FAGYETTSSV LSFIMYELAT 294
1oxa 259 HPDQLALVRA DPSALP---- ---------- ----NAVEEI LRYIAPP-ET TTRFAAEEVE IGGVAIPQYS TVLVANGAAN RDP-SQFPDP HRFDVTRDTR 338
2hpd 283 NPHVLQKAAE EAARVLvdp- vpsykqvkql kyvgMVLNEA LRLWPTAPAF SLYAKEDTVL GGEYPLEKGD ELMVLIPQLH RDKtIWGDDV EEFRPERFEN 381
1gwi 254 HPEQRALVLS GEAEWS---- ---------- ----AVVEET LRFSTPTSHV LIRFAAEDVP VGDRVIPAGD ALIVSYGALG RDErAHGPTA DRFDLTRTSG 335
1og5 287 HPEVTAKVQE EIERVIgrnr spcmqdrshm pytdAVVHEV QRYIDLLPTS LPHAVTCDIK FRNYLIPKGT TILISLTSVL HDN-KEFPNP EMFDPHHFLD 385
1pq2 289 HPEVTAKVQE EIDHVIgrhr spcmqdrshm pytdAVVHEI QRYSDLVPTG VPHAVTTDTK FRNYLIPKGT TIMALLTSVL HDD-KEFPNP NIFDPGHFLD 387
1nr6 287 HPEVAARVQE EIERVIgrhr spcmqdrsrm pytdAVIHEI QRFIDLLPTN LPHAVTRDVR FRNYFIPKGT DIITSLTSVL HDE-KAFPNP KVFDPGHFLD 385
CYP3A4 295 HPDVQQKLQE EIDAVLpnka pptydtvlqm eyldMVVNET LRLFPIA-MR LERVCKKDVE INGMFIPKGW VVMIPSYALH RDP-KYWTEP EKFLPERFSK 392
1oxa 339 G--------- HLSFGQGIHF CMGRPLAKLE GEVALRALFG RFPALSLGID ADdvvWRRSL LLRGIDHLPV RLDG------ -- 403
2hpd 382 Ps--aipqha FKPFGNGQRA CIGQQFALHE ATLVLGMMLK HFDFEDHTNY ELdikETLTL KPEGFVVKAK SKKIplgg-- -- 457
1gwi 336 Nr-------- HISFGHGPHV CPGAALSRME AGVALPALYA RFPHLDLAVP AAelrNKPVV TQNDLFELPV RLAHh----- -- 402
1og5 386 Eggnfkksky FMPFSAGKRI CVGEALAGME LFLFLTSILQ NFNLKSLVDP KN---LDTTP VVNGFASVPP FYQLcfipv- -- 461
1pq2 388 Kngnfkksdy FMPFSAGKRI CAGEGLARME LFLFLTTILQ NFNLKSVDDL KN---LNTTA VTKGIVSLPP SYQIcfipv- -- 463
1nr6 386 Esgnfkksdy FMPFSAGKRM CVGEGLARME LFLFLTSILQ NFKLQSLVEP KD---LDITA VVNGFVSVPP SYQLcfipih -- 462
CYP3A4 393 Knkdnidpyi YTPFGSGPRN CIGMRFALMN MKLALIRVLQ NFSFKPCKET QIplkLSLGG LLQPEKPVVL KVESrdgtvs ga 474
Figure A 5-2 Exemple d’alignement par Clustalw avec le jeu C. Comme constaté sur l’alignement, Clustalw
semble favoriser les mésappariements à l’insertion de Gap : les régions conservées sont longues.
1z8o 1 ---------- ---------- ---------- ---------- -tvpdle-sd s----f-hv- DWYRTYAELR E-TAPVTPVR f-LGQDAWLV TGYDEAKAAL 50
1gwi 1 ---------- ---------- ---------- ---------a ripldpf--- -------vt- DLDGESARLR A-AGPLAAVE lpGGVPVWAV THHAEAKALL 49
2ij2 1 ---------- ---------- ---------- -----kempq pktfgelknl pl---l-ntd KPVQALMKIA DeLGEIFKFE a-PGRVTRYL SSQRLIKEAC 60
1r9o 1 ---------- ---------- ---------- ---rgklppg ptpl------ --plqigik- DISKSLTNLS KvYGPVFTLY f-GLKPIVVL HGYEAVKEAL 57
CYP 3A4 1 malipdlame twlllavslv llylygthsh glfkklgipg ptplpflgni ls---y-hk- GFCMFDMECH KkYGKVWGFY d-GQQPVLAI TDPDMIKTVL 94
1z8o 51 sdlrlssdpk kkyp--gvev efpaylgfpe d---vr--NY FATNMGTSd- p-PTHTRLRK LVSQEFTV-- ----rrveAM RPRVEQITAE LLDEVg---- 131
1gwi 50 tdprlvkdin vw-g--awrr geipadwp-l i---gl--AN PGRSMLTVd- g-AEHRRLRT LVAQALTV-- ----rrveHM RGRITELTDR LLDELpa--- 129
2ij2 60 -de--srfd- kn-lsqa--- ---------l k---f-vrDF AGDGLFTSwt heKNWKKAHN ILLPSFSQ-- ----qamkGY HAMMVDIAVQ LVQKWerl-- 131
1r9o 58 idlgeef-s- gr-g--i--- ---------f plae-r--AN RGFGIVFSn- g-KKWKEIRR FSLMTLRNfg mgkr----SI EDRVQEEARC LVEELrktk- 130
CYP 3A4 95 vkecysvft- nr-r--p--- ---------f g---pv--GF MKSAISIAe- d-EEWKRLRS LLSPTFTS-- ----gklkEM VPIIAQYGDV LVRNLrreae 165
1z8o 132 ds-GVVD-IV DRFAHPLPIK VICELLGVDE K----yr-GE FGRWSSeilv m--------- -------d-- ---------p e-raeqrgqa AREVVNFILD 196
1gwi 130 dg-GVVD-LK AAFAYPLPMY VVADLMGIEE A----rl-PR LKVLFEkffs t--------- -------q-- ---------- -tppeevvat LTELASIMTD 193
2ij2 132 nadEHIE-VP EDMTRLTLDT IGLCGFNYRF NsfyrdqpHP FITSMV---- ---------r aldeamnkln pddpaydenk rq-------- FQEDIKVMND 209
1r9o 130 -a-SPCD-PT FILGCAPCNV ICSIIFHKRF Dykdqqf-LN LMEKLNenik ilsspwipii --dyfpg--- ---------- --thnkllkn VAFMKSYILE 209
CYP 3A4 166 tg-KPVT-LK DVFGAYSMDV ITSTSFGVNI Dslnnpq-DP FVENTKkllr fdfld----p fflsitvfp- ------flip ilevlnicvf PREVTNFLRK 251
1z8o 197 LVERRRTE-- --p---GDDL LSALIRV-q- --DDDdgrls adeltsi--- -------ALV LLLAGFEASV SLIGIGTYLL LTHPDQLALV RRDP------ 269
1gwi 194 TVAAKRAA-- --p---GDDL TSALIQA-s- --ENG-dhlt daeivst--- -------LQL MVAAGHETTI SLIVNAVVNL STHPEQRALV LSGE------ 265
2ij2 210 LVDKIIADrk asg-eqSDDL LTHMLNGk-- -dPETge--- -------pld deniryqIIT FLIAGHETTS GLLSFALYFL VKNPHVLQKA AEEAarvlv- 294
1r9o 210 KVKEHQESmd mn---nPQDF IDCFLMKmek ekHNQps--- -------eft ieslentAVD LFGAGTETTS TTLRYALLLL LKHPEVTAKV QEEIervigr 296
CYP 3A4 252 SVKRMKESrl edtqkhRVDF LQLMIDSqns keTEShk--- -------als dlelvaqSII FIFAGYETTS SVLSFIMYEL ATHPDVQQKL QEEIdavlpn 341
1z8o 269 ---------- ---SALPNAV EEILRYIAPP ETTTR-FAAE EVEIGG-VAI PQYSTVLVAN GAANRDPKQF P-DPHRFDVT RDTr------ ---GHLSFGQ 344
1gwi 265 ---------- ---AEWSAVV EETLRFSTPT SHVLIRFAAE DVPVGD-RVI PAGDALIVSY GALGRDERAH GPTADRFDLT RTSg------ --nRHISFGH 343
2ij2 294 -dpvpsykqv kqlKYVGMVL NEALRLWPTA PA-FSLYAKE DTVLGGEYPL EKGDELMVLI PQLHRDKTIW GDDVEEFRPE RFE--npsai pqhAFKPFGN 390
1r9o 297 n-rspcmqdr shmPYTDAVV HEVQRYIDLL PTSLPHAVTC DIKFRN-YLI PKGTTILISL TSVLHDNKEF P-NPEMFDPH HFLdeggnfk kskYFMPFSA 393
CYP 3A4 342 k-apptydtv lqmEYLDMVV NETLRLFPIA MR-LERVCKK DVEING-MFI PKGWVVMIPS YALHRDPKYW T-EPEKFLPE RFSkknkdni dpyIYTPFGS 437
1z8o 345 GIHFCMGRPL AKLEGEVALR ALFGRFPALS LGIda---dD VVWRR-SLLL RGIDhLPVRL Dg-------- 402
1gwi 344 GPHVCPGAAL SRMEAGVALP ALYARFPHLD LAVpa---aE LRNKP-VVTQ NDLFeLPVRL Ahhh------ 403
2ij2 391 GQRACIGQQF ALHEATLVLG MMLKHF-DFE DHT----nyE LDIKE-TLTL KPEG-FVVKA Kskk--ipl- 450
1r9o 394 GKRICVGEAL AGMELFLFLT SILQNF-NLK SLVdpkn-lD TTPVVnGFAS VPPF-YQLCF Ipihh----- 455
CYP 3A4 438 GPRNCIGMRF ALMNMKLALI RVLQNF-SFK PCKet-q-iP LKLSL-GGLL QPEKpVVLKV Esrdgtvsga 503
Figure A 5-3 Exemple d’alignement par HHpred avec le jeu F. Les gaps sont plus nombreux et les régions
conservées moins longues.
352 Annexe 5. Des alignements en vrac…
1z8o 1 ---------- ---------- ---------- ---------- ----tvp--d le------sd s----f--hv -d---WYRTY AELRE-t-AP VTPVRF--lg 34
1gwi 1 ---------- ---------- ---------- ---------- --aripl--d pf-------- --------vt -d---LDGES ARLRA-a-GP LAAVELp-gg 33
1n97 1 ---------- ---------- ---------- ---------- -mkrlsl--r -eaw-p--yl kdl--q--q- -d---PLAVL LAWGRah--P RLFLPL--pr 40
1cpt 1 ---------- ---------- ---------- -----mda-r atipe-h--- --iartvilp qg---y--a- -ddevIYPAF KWLRDeq--P LAMAHIegy- 48
1izo 1 ---------- ---------- ---------- ---------- phdks----- l----d--ns lt---l--lk -e---GYLFI KNRTErynSD LFQARL--lg 38
2cib 1 ---------- ---------- ---------- -------a-l prvsgghde- -h---g--hl ee---f--rt -d---PIGLM QRVRDel-GD VGTFQL--ag 43
1odo 1 ---------- ---------- ---------- ---------- ---alvl--d pt-------- --------ga -d---HHTEH RTLRE-g-GP ATWVDV--lg 31
2ij2 1 ---------- ---------- ---------- -------k-e mpqpktf--g el---k--nl pl---l--nt dk---PVQAL MKIADel-GE IFKFEA--pg 44
1po5 1 ---------- ---------- ---------- ----g--k-l ppgpsplpv- -l---g--nl lq---mdr-k -g---LLRSF LRLREky-GD VFTVYL--gs 45
1r9o 1 ---------- ---------- ---------- ---rg--k-l ppgptpl--- ---------- --plqig-ik -d---ISKSL TNLSKvy-GP VFTLYF--gl 41
CYP 3A4 1 malipdlame twlllavslv llylygthsh glfkk--l-g ipgptpl--p fl---g--ni ls---y--hk -g---FCMFD MECHKky-GK VWGFYD--gq 78
1z8o 35 QDAWLVTGYD EAKAALsdlr lssdpkkky- p--------- gvevefpayl gfped---vr --ny------ f-atnmgtsd -p-PTHTRLR Klvsqe---- 106
1gwi 34 VPVWAVTHHA EAKALLtdpr lvkdinvw-- g--------- awrrgeipad wp-li---gl --an------ p-grsmltvd -g-AEHRRLR Tlvaqa---- 103
1n97 41 FPLALIFDPE GVEGAL-lae -gt-t-ka-- tf-------- q--------- ---yr---a- lsrl------ t-grglltdw -g-ESWKEAR Kalkdp---- 97
1cpt 49 DPMWIATKHA DVMQIG-kqp -glfs-na-- egseilydqn n--------- ---ea---f- mrsisggcph v-idsltsmd -p-PTHTAYR Gltlnw---- 120
1izo 39 KNFICMTGAE AAKVFYd--t drf-q--rqn a--------- l--------- ---pkrv-qk --sl------ fgvnaiqgmd -g-SAHIHRK Mlflsl---- 97
2cib 44 KQVVLLSGSH ANEFFFra-g dddl--dq-- a--------- k--------- ---a------ ---------- ---------- --yPFMTPIF G--------- 80
1odo 32 VQAWSVSDPV LLKQLLtssd vskdarahw- p--------- afgevvgtwp ---la---lw --va------ --venmftay -g-PNHRKLR Rlvapa---- 99
2ij2 45 RVTRYLSSQR LIKEAC-de- -srfd-kn-- lsq------- a--------- ---lk---f- vrdf------ a-gdglftsw theKNWKKAH Nillps---- 104
1po5 46 RPVVVLCGTD AIREALvdqa eafsgrgk-- i--------- a--------- ---vv---dp --if------ q-gygvifan -g-ERWRALR RfslatmrdF 108
1r9o 42 KPIVVLHGYE AVKEALidlg eef-s-gr-- g--------- i--------- ---fplae-r --an------ r-gfgivfsn -g-KKWKEIR Rfslmt---- 100
CYP 3A4 79 QPVLAITDPD MIKTVLvkec ysvft-nr-- r--------- p--------- ---fg---pv --gf------ m-ksaisiae -d-EEWKRLR Sllspt---- 136
1z8o 106 -ftv------ rrveAMRPRV EQITAELLDE Vg-----ds- GVVD-IVDRF AHPLPIKVIC ELLgvde-k- ------yr-g -ef------g r-wsseilvm 175
1gwi 103 -ltv------ rrveHMRGRI TELTDRLLDE Lpa----dg- GVVD-LKAAF AYPLPMYVVA DLMgiee-a- ------rl-p -rl------k v-lfekffst 173
1n97 97 -flp------ knvrGYREAM EEEARAFFGE Wr------g- EERD-LDHEM LALSLRLLGR ALFgkpl--- -----s---p -sl------a e-hal----- 158
1cpt 120 -fqp------ asirKLEENI RRIAQASVQR Lldf----d- GECDfMTDCA LYYPLHVVMT ALG-v-ped- -----de--p -lm------l k-ltq----- 185
1izo 97 -mtp------ ---pHQKRLA ELMTEEWKAA Vtrwe--ka- DEVV-LFEEA KEILCRVACY WAG-v----- -plketev-k -er------a d-dfidmvda 167
2cib 80 -lrg------ eqmkGHAATI EDQVRRMIAD Wg--e-a--- GEID-LLDFF AELTIYTSSA CLIgkk---- ---------- ---frdqldg r-faklyhel 148
1odo 99 -fsa------ rrvdAMRPAV EAMVTGLVDR Laelp--ag- EPVD-LRQEL AYPLPIAVIG HLMgvpq-d- ------rr-d -gf------r a-lvdgvfdt 171
2ij2 104 -fsq------ qamkGYHAMM VDIAVQLVQK Werl---nad EHIE-VPEDM TRLTLDTIGL CGFnyrf-ns f---yrdqph -pf------i t-smv----- 176
1po5 109 g--------- mgkrSVEERI QEEARCLVEE Lrksk-g--- ALLD-NTLLF HSITSNIICS IVFgk----- ---------- ---rfdyk-d p-vflrlldl 174
1r9o 100 -lrnfgmgkr ----SIEDRV QEEARCLVEE Lrktk---a- SPCD-PTFIL GCAPCNVICS IIFhkrf-dy k---dqqf-l -nl------m e-klneniki 177
CYP 3A4 136 -fts------ gklkEMVPII AQYGDVLVRN Lrrea-etg- KPVT-LKDVF GAYSMDVITS TSFgvni-ds l---nnpq-d -pf------v e-ntkkllrf 213
1z8o 175 ---------- -------d-- ---------- ----p----e -rae----qr gqaAREVVNF ILDLVErr-- rte------- -p-----gdd lLSALIRV-q 217
1gwi 173 ---------- -------q-- ---------- ---------- tppe----ev vatLTELASI MTDTVAak-- raa------- -p-----gdd lTSALIQA-s 214
1n97 158 ---------k aldrimaq-t rsplalldl- --aae----a r--------- ---FRKDRGA LYREAEal-- iv-------- ---------- -HPPLSHL-- 206
1cpt 185 ---------d f--------- ---------f gveaa----r r--------- ---FHETIAT FYDYFNgf-- tvd--rr-s- cp-----kdd vMSLLANSkl 231
1izo 168 fg-av----- g--------- ---------- ---------- prhw----kg rraRPRAEEW IEVMIEda-- ragllkt-t- -------sgt aLHEMAFH-- 215
2cib 149 er-gt----d ---------p --------l- --ayvdp--- ----ylpies frrRDEARNG LVALVA--di mng--rianp ------dr-d mLDVLIAVk- 204
1odo 171 ---------- -------t-- ---------- ---------- ldqa----ea qanTARLYEV LDQLIAak-- rat------- -p-----gdd mTSLLIAArd 213
2ij2 176 ---------r aldeamnk-l npddpay-d- --enk----r q--------- ---FQEDIKV MNDLVDki-- iad--rk-a- sg--eq-sdd lLTHMLNGk- 236
1po5 175 ff-qs----f -slissfs-s --------q- --vfelfsgf lkhfp---gt hrqIYRNLQE INTFIG--qs vek--hratl dp-snp-r-d fIDVYLLRme 246
1r9o 178 ls-spwipii --dyfpg--- ---------- ---------- -thn----kl lknVAFMKSY ILEKVKeh-- qes--md-m- n----n-pqd fIDCFLMKme 235
CYP 3A4 214 df-ld----p fflsitvf-p --------f- --lip----i levl----ni cvfPREVTNF LRKSVKrm-- kes--rl-e- dt-qkh-rvd fLQLMIDSqn 280
1z8o 217 ---------- --ddddgrls adeltsi--- ---------- -----alvll lAGFEASVSL IGIGTYLLLT HPDQLALVRR Dp-------- ---------- 269
1gwi 214 ---------- --eng-dhlt daeivst--- ---------- -----lqlmv aAGHETTISL IVNAVVNLST HPEQRALVLS Ge-------- ---------- 265
1n97 206 ---------- ---------- ---------- -------pre ralseavtll vAGHETVASA LTWSFLLLSH RPDWQKRVAE S--------- ---------- 250
1cpt 231 ---------- ----dgn--- -------yi- -------ddk yinayyvaia tAGHDTTSSS SGGAIIGLSR NPEQLALAKS D--------- ---------- 280
1izo 215 ----tqedgs ---------- --------ql dsrmaaieli nvl------- -RPIVAISYF LVFSALALHE HPKYKEWLRS Gn-------- ---------- 267
2cib 204 -aet------ g-tprfs--- ---------- --------ad eitgmfismm fAGHHTSSGT ASWTLIELMR HRDAYAAVID Eldelyg--- -dgrsvsfha 271
1odo 214 d--------- -------rls peelrdt--- ---------- -----lllmi sAGYETTVNV IDQAVHTLLT RPDQLALVRK Ge-------- ---------- 261
2ij2 236 ---------- d-petge--- -------pl- -------dde niryqiitfl iAGHETTSGL LSFALYFLVK NPHVLQKAAE Eaarvlv--d p-vp--sykq 302
1po5 247 k--d------ k-sdpss--- -------ef- -------hhq nliltvlslf fAGTETTSTT LRYGFLLMLK YPHVTERVQK Eieqvigsh- r-pp--aldd 315
1r9o 236 k--e------ k-hnqps--- -------ef- -------tie slentavdlf gAGTETTSTT LRYALLLLLK HPEVTAKVQE Eiervigrn- r-sp--cmqd 304
CYP 3A4 281 s--k------ e-teshk--- -------al- -------sdl elvaqsiifi fAGYETTSSV LSFIMYELAT HPDVQQKLQE Eidavlpnk- a-pp--tydt 349
1z8o 269 ----SALPNA VEEILRYIAP PE-tttr-FA AEEVEIg-g- VAIPQYSTVL VANGAANRDp kQFP-DPHRF DVTRDTr--- ---------- --------gh 339
1gwi 265 ----AEWSAV VEETLRFSTP TS-hvlirFA AEDVPVg-d- RVIPAGDALI VSYGALGRDe rAHGpTADRF DLTRTSg--- ---------- -----n--rh 338
1n97 250 ---eEAALAA FQEALRLYPP AW-i-ltrRL ERPLLLg-e- DRLPPGTTLV LSPYVTQRL- -HFP-DGEAF RPERFL--ee rg-tp---s- -----g--ry 326
1cpt 280 ---pALIPRL VDEAVRWTAP VK-s-fmrTA LADTEVr-g- QNIKRGDRIM LSYPSANRDe eVFS-NPDEF DITRF----- ---------- ------pnrh 351
1izo 267 ---sREREMF VQEVRRYYPF GP-f-lgaLV KKDFVWn-n- CEFKKGTSVL LDLYGTNHDp rLWD-HPDEF RPERFAe--- -----reen- -----lf-dm 344
2cib 272 lrqiPQLENV LKETLRLHPP LI-i-lmrVA KGEFEVq-g- HRIHEGDLVA ASPAISNRIp eDFP-DPHDF VPARYEq--- ----p--rqe dllnrw--tw 355
1odo 261 ----VTWADV VEETLRHEPA VK-hlplrYA VTDIALpdg- RTIARGEPIL ASYAAANRHp dWHE-DADTF DATRTVk--- ---------- --------eh 333
2ij2 303 vkqlKYVGMV LNEALRLWPT AP-a-fslYA KEDTVLg-ge YPLEKGDELM VLIPQLHRDk tIWGdDVEEF RPERFE--np --sai--pq- -----h--af 385
1po5 316 rakmPYTDAV IHEIQRLGDL IPfg-vphTV TKDTQFr-g- YVIPKNTEVF PVLSSALHDp rYFE-TPNTF NPGHFLdang --alk--rn- -----e--gf 399
1r9o 305 rshmPYTDAV VHEVQRYIDL LP-tslphAV TCDIKFr-n- YLIPKGTTIL ISLTSVLHDn kEFP-NPEMF DPHHFLdegg --nfk--ks- -----k--yf 388
CYP 3A4 350 vlqmEYLDMV VNETLRLFPI AM-r-lerVC KKDVEIn-g- MFIPKGWVVM IPSYALHRDp kYWT-EPEKF LPERFSkknk --dni--dp- -----y--iy 432
1z8o 340 LSFGQG---- IHFCMGRPLA KLEGEVALRA LFGRFpal-s LGida----D D-VVw-rr-s lllRGIDHLP VRLD-g---- ----- 402
1gwi 339 ISFGHG---- PHVCPGAALS RMEAGVALPA LYARFphl-d LAvpa----A E-LRn-kp-v vtqNDLFELP VRLA-h-hh- ----- 403
1n97 327 FPFGLG---- QRLCLGRDFA LLEGPIVLRA FFRRF-rl-d PL-------P F-PRv-la-q vtlRPEGGLP ARPR-e---- ----- 385
1cpt 352 LGFGWG---- AHMCLGQHLA KLEMKIFFEE LLPKL-ksve LS-------G P-PRl-vatn fvgGPK-NVP IRFT-k-a-- ----- 412
1izo 345 IPQGGGhaek GHRCPGEGIT IEVMKASLDF LVHQI-ey-d VPe-q--s-L H-YSl--a-r mpsLPES-GF VMSG---irr k---- 411
2cib 356 IPFGAG---- RHRCVGAAFA IMQIKAIFSV LLREY-ef-e MAqppe---S YRNDh-skm- vv-QLAQPAA VRYR-r-r-- -t--- 420
1odo 334 LAFGHG---- VHFCLGAPLA RMEVTLALES LFGRFpdl-r LAdpa----E E-LPp-vp-s lisNGHQRLP VLLH--a--- ----- 396
2ij2 386 KPFGNG---- QRACIGQQFA LHEATLVLGM MLKHF-df-e DHt-----nY E-LDi-ke-t ltlKPEG-FV VKAK-s-kk- -ipl- 450
1po5 400 MPFSLG---- KRICLGEGIA RTELFLFFTT ILQNF-si-a SPvppedi-D LTPRes-gv- gn-V-PPSYQ IRFL-a-r-- h---- 465
1r9o 389 MPFSAG---- KRICVGEALA GMELFLFLTS ILQNF-nl-k SLvdpk-n-L D-TTp-vvng fasVPPF-YQ LCFI-p-ihh ----- 455
CYP 3A4 433 TPFGSG---- PRNCIGMRFA LMNMKLALIR VLQNF-sf-k PCket--q-I P-LKl-sl-g gllQPEKPVV LKVE-s-rdg tvsga 503
Figure A 5-4 Exemple d’alignement par HHPred, sur un jeu global G de templates.
353
1jip 1 ---------- ---------t -tvp-dlesd sfhv-----d w--YRTYAEL ret--APVTP VRfl-g-qDA WLVTGYDEAK AALS--dl-R LSSDpkkkyp 65
1gwi 1 ---------- ---------- -ari-pld-- pfvt-----d l--DGESARL raa--GPLAA VElpgg-vPV WAVTHHAEAK ALLT--dp-R LVKDinvwga 63
1lfk 1 ---------- ---------- ------dprp lhir---rqg ldpADELLAA -----GALTR VT----aeTH WMATAHAVVR QVMG--dhqQ FSTRrrwd-- 58
1jfb 1 ---------- ---------- -aps-fpfsr asgp-----e p--PAEFAKL rat--NPVSQ VKlfdg-sLA WLVTKHKDVC FVAT--se-K LSKVrtrq-- 63
1io7 1 ---------- ---------- ---------- ---------- m--YDWFSEM rkk--DPVYY DG------NI WQVFSYRYTK EVLN--nfsK FSSDltgyhe 48
1cpt 1 ---------m daratipehi artvilpqgy adde-----v i--YPAFKWL rde--QPLAM AH-iegydPM WIATKHADVM QIGK--qpgL FSNAegseil 79
1n40 1 ---------- ---------a tvll-evpfs argd-----r i--PDAVAEL rtr--EPIRK VRtitg-aEA WLVSSYALCT QVLE--dr-R FSMKetaaa- 66
1n97 1 ---------- -mkrlslrea wpy---lkdl q-q------d p--LAVLLAW gra--HPRLF LPlp--rfPL ALIFDPEGVE GALL--ae-G TTKAt----- 65
1qmq 1 ----anlapl pphv--pehl vfdfdmynps nlsa-----g v--QEAWAVL qesnvPDLVW TR-cng--GH WIATRGQLIR EAYE--dyrH FSSE--cpfi 80
1e9x 1 --------ms avalprvsgg hdehghleef rt-------d p--IGLMQRV rdec-GDVGT FQlag--kQV VLLSGSHANE FFFR-agddD LDQA------ 73
1jpz 1 -------tik empqpktfge lkn---lpll ntd------k p--VQALMKI ade-lGEIFK FEap--grVT RYLSSQRLIK EACD--esrF DKNLs----- 72
1dt6 1 ---------p pgptpfpi-i gni---lqid a-k------d i--SKSLTKF sec-yGPVFT VYlg--mkPT VVLHGYEAVK EALVdlgeeF AGRGs----- 70
CYP 3A4 1 malipdlame twlllavslv llylygthsh glfkklgipg ptpLPFLGNI ls-yhKGFCM FDmechkkYG KVWGFYDGQQ PVLAitdpdM IKTVlvkecy 99
SCR1* SCR1** SCR1 SCR1***
1jip 65 ---gvevefp aylgfpedvr nyfatnmgts dp--pthtRL RKLVSQEFTV RRVEA--MRP RVEQITAELL DEVG---d-s GVVDIVDRFA HPLPIKVICE 154
1gwi 64 wrrgeipa-- ---dwpligl anpgrsmltv dg--aehrRL RTLVAQALTV RRVEH--MRG RITELTDRLL DELP---adg GVVDLKAAFA YPLPMYVVAD 151
1lfk 58 ---------- ---------- pelvgnlmdy dp--pehtRL RRKLTPGFTL RKMQR--MAP YIEQIVNDRL DEMErag--- SPADLIAFVA DKVPGAVLCE 131
1jfb 63 -------gfp elsa-sgkqa akakptfvdm dp--pehmHQ RSMVEPTFTP EAVKN--LQP YIQRTVDDLL EQMKqkgcan GPVDLVKEFA LPVPSYIIYT 151
1io7 49 rledlrngki r-------fd iptrytmlts dp--plhdEL RSMSADIFSP QKLQT--LET FIRETTRSLL DSIDp----- REDDIVKKLA VPLPIIVISK 132
1cpt 80 ydq----nne afmrsisggc phvidsltsm dp--pthtAY RGLTLNWFQP ASIRK--LEE NIRRIAQASV QRLLdfd--- GECDFMTDCA LYYPLHVVMT 168
1n40 66 -----gaprl naltvppevv n----nmgni ad--a---GL RKAVMKAITP KA-PG--LEQ FLRDTANSLL DNLIteg--- APADLRNDFA DPLATALHCK 146
1n97 65 ---------- -fqyralsrl t--grglltd wg--eswkEA RKALKDPFLP KNVRG--YRE AMEEEARAFF GEWRg----- EERDLDH-EM LALSLRLLGR 142
1qmq 81 p-r----eag e--------- -aydfiptsm dp--peqrQF RALANQVVGM PVVDK--LEN RIQELACSLI ESLRpq---- GQCNFTEDYA EPFPIRIFML 157
1e9x 73 ---------- -kaypfmtpi fgegvvf--- --dasperRK EMLHNAALRG EQMKG--HAA TIEDQVRRMI ADWG----ea GEIDLLD-FF AELTIYTSSA 150
1jpz 72 ---------- -qalkfvrdf a--gdglfts wtheknwkKA HNILLPSFSQ QAMKG--YHA MMVDIAVQLV QKWErln-ad EHIEVPE-DM TRLTLDTIGL 155
1dt6 70 ---------- ----vpilek vskglgiafs na--ktwkEM RRFSLMTLRN FGMGKrsIED RIQEEARCLV EELRktn-a- SPCDPTF-IL GCAPCNVICS 151
CYP 3A4 100 svftnrrpfg pvgfmksais ia-------- --edeewkRL RSLLSPTFTS GKLKE--MVP IIAQYGDVLV RNLRreaetg KPVTLKD-VF GAYSMDVITS 186
SCR2A SCR2B SCR3
1jip 155 LL-gvd---- -ekyrGEFGR WSSE-ilvm- d--------- -----peRAE QRGQAAREVV NFILDLVErr rtepg----- d--dlLSALI Rv-qddddgr 224
1gwi 152 LM-gie---- -earlPRLKV LFEK-ffs-- t--------- -----qtPPE EVVATLTELA SIMTDTVAak raapg----- d--dlTSALI Qa-sen-gdh 219
1lfk 132 LV-gvp---- -rddrDMFMK LCHG-hlda- ---------- -----slSQK RRAALGDKFS RYLLAMIAre rkepg----- e--gmIGAVV Aey--gdd-- 197
1jfb 152 LL-gvp---- -fndlEYLTQ QNAI-rtn-- g--------- -----ssTAR EASAANQELL DYLAILVEqr lvepk----- d--diISKLC Te-qvkpg-n 219
1io7 133 IL-glp---- -iedkEKFKE WSDLvafrlg k--------- -----pgEIF ELGKKYLELI GYVKDHLN-- ---sg----- t--evVSRVV Ns-------n 193
1cpt 169 AL-gvp---- -eddePLMLK LTQD-ffgv- e--------- -------AAR RFHETIATFY DYFNGFTVdr rscpk----- d--dvMSLLA Ns-kld-gny 235
1n40 147 VL-gip---- -qedgPKLFR SLSI-afms- s--------- -----adPIP AAKINWDRDI EYMAGILEnp --nit----- t--glMGELS Rlrkdpaysh 215
1n97 143 ALfgkpls-- -----PSLAE HALKaldrim aqtrsplall ----dlaAEA RFRKDRGALY REAEALIV-- ---------- -----HPPLS H--------- 205
1qmq 158 LA-glp---- -eediPHLKY LTDQ-mtrp- d--------- -------GSM TFAEAKEALY DYLIPIIEqr rqkpg----- t--daISIVA Ng-qvn-grp 224
1e9x 151 CLig---kkf rdqldGRFAK LYHElergtd playvdpylp --i---eSFR RRDEARNGLV ALVADIMNgr ianpptdksd r--dmLDVLI Avkaetgtpr 240
1jpz 156 CGfnyrfnsf yrdqpHPFIT SMVRaldeam nklqranpdd --paydeNKR QFQEDIKVMN DLVDKIIAdr ka-----sqs d--dlLTHML Ngkdpetgep 246
1dt6 152 VIfhnrfdy- kdeefLKLME SLHEnvellg tpl------- --dyfpgIHK TLLKNADYIK NFIMEKVKeh qklld-vnnp r--dfIDCFL Ikmeqennle 238
CYP 3A4 187 TSfgvnidsl nnpqdPFVEN TKKLlrfdfl dpfflsitvf pflipilEVL NICVFPREVT NFLRKSVKrm kesrledtqk hrvdfLQLMI Dsqnsketes 286
SCR4 SCR5 SCR6
1jip 224 ---LSADELT SIALVLLLAG FESSVSLIGI GTYLLLTHPD QLALVRRD-- ---------- ------pSAL PNAVEEILRY Iappett-TR FAAEEVEIG- 301
1gwi 219 ---LTDAEIV STLQLMVAAG HETTISLIVN AVVNLSTHPE QRALVLSG-- ---------- ------eAEW SAVVEETLRF StptshvLIR FAAEDVPVG- 297
1lfk 197 ---ATDEELR GFCVQVMLAG DDNISGMIGL GVLAMLRHPE QIDAFRGD-- ---------- ------eQSA QRAVDELIRY LtvpyspTPR IAREDLTLA- 275
1jfb 219 ---IDKSDAV QIAFLLLVAG NATMVNMIAL GVATLAQHPD QLAQLKAN-- ---------- ------pSLA PQFVEELCRY HtasalaIKR TAKEDVMIG- 297
1io7 193 ---LSDIEKL GYIILLLIAG NETTTNLISN SVIDFTRFN- LWQRIREE-- ---------- -------NLY LKAIEEALRY Sppvmrt-VR KTKERVKLG- 268
1cpt 235 ---IDDKYIN AYYVAIATAG HDTTSSSSGG AIIGLSRNPE QLALAKSD-- ---------- ------pALI PRLVDEAVRW Tapvksf-MR TALADTEVR- 312
1n40 215 ---VSDELFA TIGVTFFGAG VISTGSFLTT ALISLIQRPQ LRNLLHEK-- ---------- ------pELI PAGVEELLRI NlsfadgLPR LATADIQVG- 293
1n97 205 ---LPRERAL SEAVTLLVAG HETVASALTW SFLLLSHRPD WQKRVAES-- ---------- ------eEAA LAAFQEALRL Yppawi-LTR RLERPLLL-g 282
1qmq 224 ---ITSDEAK RMCGLLLVGG LDTVVNFLSF SMEFLAKSPE HRQELIER-- ---------- ------pERI PAACEELLRR Fslv-ad-GR ILTSDYEFH- 300
1e9x 240 ---FSADEIT GMFISMMFAG HHTSSGTASW TLIELMRHRD AYAAVIDEld elygdgrsvs fhalrqiPQL ENVLKETLRL Hpplii-LMR VAKGEFEVQ- 335
1jpz 246 ---LDDENIR YQIITFLIAG HETTSGLLSF ALYFLVKNPH VLQKAAEEaa rvlv-dpvps ykqvkqlKYV GMVLNEALRL Wptapa-FSL YAKEDTVLGg 341
1dt6 238 ---FTLESLV IAVSDLFGAG TETTSTTLRY SLLLLLKHPE VAARVQEEie rvigrhrspc mqdrsrmPYT DAVIHEIQRF IdllptnLPH AVTRDVRFR- 334
CYP 3A4 287 hkaLSDLELV AQSIIFIFAG YETTSSVLSF IMYELATHPD VQQKLQEEid avlpnkappt ydtvlqmEYL DMVVNETLRL F-piamrLER VCKKDVEINg 385
SCR7 SCR8 SCR9
1jip 302 GVAIPQYSTV LVANGAANRD pkqf-PDPHR FDVTRD---- ------t-r- GHLSFGQGIH FCMGRPLAKL EGEVALRALF GrfpALSLgi dad--DVVWR 386
1gwi 298 DRVIPAGDAL IVSYGALGRD erahgPTADR FDLTRT---- ------s-gn RHISFGHGPH VCPGAALSRM EAGVALPALY ArfpHLDLav paa--ELRNK 384
1lfk 276 GQEIKKGDSV ICSLPAANRD pala-PDVDR LDVTRE---- --------pi PHVAFGHGVH HCLGAALARL ELRTVFTELW RrfpALRLad paq--DTEFR 360
1jfb 298 DKLVRANEGI IASNQSANRD eevf-ENPDE FNMNRK---- ------wppq DPLGFGFGDH RCIAEHLAKA ELTTVFSTLY QkfpDLKVav plg--KINYT 384
1io7 269 DQTIEEGEYV RVWIASANRD eevf-HDGEK FIPDRN---- --------pn PHLSFGSGIH LCLGAPLARL EARIAIEEFS KrfrHIEIld ------TEKV 349
1cpt 313 GQNIKRGDRI MLSYPSANRD eevf-SNPDE FDITRF---- --------pn RHLGFGWGAH MCLGQHLAKL EMKIFFEELL PklkSVELs- -g---PPRLV 394
1n40 294 DVLVRKGELV LVLLEGANFD pehf-PNPGS IELDRP---- ------npt- SHLAFGRGQH FCPGSALGRR HAQIGIEALL KkmpGVDLav pid--QLVWR 379
1n97 283 EDRLPPGTTL VLSPYVTQRL --hfp-DGEA FRPERFl--- --eergtpsg RYFPFGLGQR LCLGRDFALL EGPIVLRAFF Rrf-RLDPl- ----pfPRVL 368
1qmq 301 GVQLKKGDQI LLPQMLSGLD eren-AAPMH VDFSRQ---- --------kv SHTTFGHGSH LCLGQHLARR EIIVTLKEWL TripDFSIap ga---QIQHK 384
1e9x 336 GHRIHEGDLV AASPAISNRI pedf-PDPHD FVPARYeq-- prqedllnrw TWIPFGAGRH RCVGAAFAIM QIKAIFSVLL Rey-EFEMaq ppe--SYRND 429
1jpz 342 EYPLEKGDEL MVLIPQLHRD ktiwgDDVEE FRPERFe--- --npsaipqh AFKPFGNGQR ACIGQQFALH EATLVLGMML Khf-DFEDht ---nyeLDIK 432
1dt6 335 NYFIPKGTDI ITSLTSVLHD ekafp-NPKV FDPGHFldes gnfkksd--- YFMPFSAGKR MCVGEGLARM ELFLFLTSIL Qnf-KLQSlv epkdldITAV 429
CYP 3A4 385 -MFIPKGVVV MIPSYALHRD pkyw-TEPEK FLPERFskkn ---kdnidpy IYTPFGSGPR NCIGMRFALM NMKLALIRVL Q---NFSFkp cketqiPLKL 477
SCR10 SCR11 SCR12 SCR13A SCR13B
1jip 387 RSlLLRGIDH -LPVRLd--g ------ 403
1gwi 385 PVvTQNDLFE -LPVRLa--h h----- 402
1lfk 361 LTtPAYGLTE -LMVAW---- ------ 375
1jfb 385 PLnRDVGIVD -LPVIF---- ------ 399
1io7 350 PNeVLNGYKR -LVVRLk--s ------ 366
1cpt 395 ATnFVGGPKN -VPIRFt--- --ka-- 412
1n40 380 TRfQRRIPER -LPVLW---- ------ 394
1n97 369 AQ-VTLRPEG gLPARPre-- ------ 385
1qmq 385 SG-IVSGVQA -LPLVWd--p attkav 406
1e9x 430 HSkMVVQLAQ pACVRYrrrt ------ 449
1jpz 433 ET-LTLKPEG -FVVKAkskk iplggi 456
1dt6 430 VNgFVSVPPS -YQLCFipih h----- 449
CYP 3A4 478 SLgGLLQPEK pVVLKVesrd gtvsga 503
SCR13 SCR13C
Figure A 5-5 Exemple d’alignement réalisé par Fugue/Orchestrar. 12 templates ont été imposés au programme :
P450eryF (1jip), CYP 154C1 (1gwi), P450OxyB (1lfk), P450nor (1jfb), CYP 119 (1io7), P450terp (1cpt), CYP 121
(1n40), CYP 175A1 (1n97), P450cam (1qmq), CYP 51 (1e9x), P450BM3 (1jpz), CYP 2C5 (1dt6). Les SCRs (régions
structuralement conservées par Orchestrar) sont indiquées par des blocs noirs. La nomenclature utilisée pour la
numérotation est la même que celle de P. Jean. Certains blocs n’ont jamais été identifiés avec les autres méthodes,
comme le SCR1*** par exemple.
354 Annexe 5. Des alignements en vrac…
Conf: 923466899999999999999999985145430103998987605586467514898899
Pred: CCHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCHHCCCCCCCCHHHHHHHHHCCCCHHHH
AA: MALIPDLAMETWLLLAVSLVLLYLYGTHSHGLFKKLGIPGPTPLPFLGNILSYHKGFCMF
10 20 30 40 50 60
Conf: 999998369933997789689997298999999726874434445310011457753784
Pred: HHHHHHHCCCCEEEEECCEEEEEECCHHHHHHHHHCCCCCCCCCCCCEEECCCCCCEEEE
AA: DMECHKKYGKVWGFYDGQQPVLAITDPDMIKTVLVKECYSVFTNRRPFGPVGFMKSAISI
70 80 90 100 110 120
Conf: 695389988522063101111134699999888999999752125765433189998633
Pred: CCCHHHHHHHHHCCCCHHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCCHHHHHHHHH
AA: AEDEEWKRLRSLLSPTFTSGKLKEMVPIIAQYGDVLVRNLRREAETGKPVTLKDVFGAYS
130 140 150 160 170 180
Conf: 222257653024334440134589987455665542100000000012331132210012
Pred: HHHHHHHHHCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHCCCCHHHHHHCCCCCCCCC
AA: MDVITSTSFGVNIDSLNNPQDPFVENTKKLLRFDFLDPFFLSITVFPFLIPILEVLNICV
190 200 210 220 230 240
Conf: 379999999999999855421055532001788999876321101335899999999998
Pred: CHHHHHHHHHHHHHHHHHHHHCCCCCCCHHHHHHHHHHHHHHHHCCCCCCCHHHHHHHHH
AA: FPREVTNFLRKSVKRMKESRLEDTQKHRVDFLQLMIDSQNSKETESHKALSDLELVAQSI
250 260 270 280 290 300
Conf: 621111045367878999987530007999998755420127888977874022468998
Pred: HHHHHHCCCHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCHHHHHCCCHHHHHH
AA: IFIFAGYETTSSVLSFIMYELATHPDVQQKLQEEIDAVLPNKAPPTYDTVLQMEYLDMVV
310 320 330 340 350 360
Conf: 875531012246311213761223765676555511504421633326434300345233
Pred: HHHHHHHCCCCCCCEEECCCEEECCCCCCCCCEEECCHHHHCCCHHHCCCCCCCCCCCCC
AA: NETLRLFPIAMRLERVCKKDVEINGMFIPKGWVVMIPSYALHRDPKYWTEPEKFLPERFS
370 380 390 400 410 420
Conf: 456652122100015805552876358999999999998762288746888677520243
Pred: CCCCCCCCCCEEECCCCHHHCCCCCHHHHHHHHHHHHHHHHHEEEEECCCCCCCCCCCCC
AA: KKNKDNIDPYIYTPFGSGPRNCIGMRFALMNMKLALIRVLQNFSFKPCKETQIPLKLSLG
430 440 450 460 470 480
Conf: 78965997299999658421169
Pred: EEEECCCCEEEEEEECCCCCCCC
AA: GLLQPEKPVVLKVESRDGTVSGA
490 500
Figure A 5-6 Résultat de prédiction de SSE par le logiciel PSIPRED sur la séquence du CYP 3A4. Dans la
nomenclature PSIPRED, H correspond à une structure en hélice α, E à une structure en brin β, et c à un coil (ou
boucle). Sur la séquence, les SSE attribués dans le fichier PDB du CYP 3A4, sont figurés, en rouge pour les
hélices α et en jaune pour les brins β. PSIPRED prédit les SSE avec une fiabilité de 50 à 60%.