Biologie p177
Biologie p177
Biologie p177
La rétrosynthèse en
biologie : production de
molécules bioactives
et dispositifs pour
le diagnostic
Jean-Loup Faulon est directeur de recherche, responsable de
l’équipe Bio-RetroSynth à l’Institut Micalis1 de l’Institut national
de la recherche agronomique (INRA), et professeur en bio
logie de synthèse au département de chimie de l’Université de
Manchester (Royaume-Uni). Il est responsable du master bio-
logie des systèmes et de synthèse de l’Université Paris-Saclay
et a développé avec son équipe des méthodes de rétrosynthèse
pour concevoir et mettre en œuvre des voies de biosynthèse et
biodégradation dans le cadre de l’ingénierie métabolique et de
l’ingénierie de biosenseurs cellulaires et acellulaires.
1 La rétrosynthèse en
biologie : état de l’art
1.1. Quelques applications
en biologie
La rétrosynthèse 2 est bien C’est pour l’ingénierie méta-
connue en synthèse organique bolique que la rétrosynthèse
et nous allons ici en voir les a d’abord été appliquée en
applications dans le domaine biologie. L’ingénierie méta-
de la biologie et plus parti- bolique utilise des souches
culièrement de la biologie de (aussi appelées des châssis)
synthèse. pour y introduire des enzymes
hétérologues 3 de façon à
synthétiser une molécule
1. www.micalis.fr/Institut-Micalis
cible. Lorsqu’on pratique la
2. Rétrosynthèse : technique qui
consiste à retrouver des voies de
synthèse en partant de la molé- 3. L’expression hétérologue est
cule finale. Le principe de cette l’expression d’un gène ou d’un
méthode d’analyse s’appuie sur fragment de gène dans un orga-
des ruptures des liaisons, pour nisme hôte, qui ne possède pas
constituer des molécules plus naturellement le gène ou son
simples. fragment.
Chimie et biologie de synthèse
SYNTHÈSE
EFFECTEUR
CIBLE CHÂSSIS
Figure 1
178 Différents exemples d’applications de la rétrosynthèse en biologie.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
pour rechercher l’ensemble de déconnexion des liaisons
des molécules accessibles. dans cette molécule cible
On étend de cette façon le jusqu’à remonter à des molé-
nombre de molécules détec- cules disponibles ou qu’on sait
tables par des cellules. synthétiser.
L a troisième application Dans sa présentation lorsqu’il
abordée dans ce chapitre est a reçu le prix Nobel, Elias
liée au fait qu’on ne connaît Corey parlait d’intelligence
pas tous les métabolites des artificielle. C’était prémoni-
souches utilisées en biotech- toire car à partir de 2016, une
nologie. Les méthodes de série d’articles s’inscrivant
rétrosynthèse peuvent aider dans cette démarche ont été
à trouver de nouveaux méta- publiés (Figure 3) : ils utilisent
bolites dans nos souches et des méthodes d’apprentis-
rechercher les enzymes res- sage profond pour calculer
ponsables de la synthèse de automatiquement les règles
ces métabolites. de déconnexion dont parlait
Dans ce chapitre, nous passe- Elias Corey, et plus généra-
rons en revue les trois types lement pour proposer des
d’applications de la Figure 1 règles pour les réactions uti-
qui font toutes appel à des lisées en synthèse organique.
méthodes de rétrosynthèse. Les méthodes d’appren-
tissage profond sont d’au-
tant performantes qu’elles
1.2. La rétrosynthèse : r e p o s e nt s ur un gr a n d
un problème étudié depuis nombre de données . Le
longtemps mais toujours nombre de réactions connues
d’actualité
en chimie organique est
La rétrosynthèse a été déve- considérable : le Chemical
loppée par Elias James Corey Abstract Ser vice contient
dans le cas de la synthèse environ 80 millions de réac-
organique, ce qui lui a valu le tions. Dans les applications
prix Nobel de chimie en 1990. Il en biologie, on en est plutôt
a proposé plusieurs méthodes à 30 000 ou 40 000 réactions
de mise en œuvre, notamment stockées dans les bases de
la technique LHASA (Figure 2), données, l’intelligence artifi-
un logiciel développé à la fin cielle est toutefois utilisée en
des années 1960. L’idée est de particulier pour la recherche
partir d’une molécule cible, la de séquences enzymatiques,
molécule que l’on veut synthé- comme présenté dans le
tiser, et d’appliquer des règles paragraphe 2.2.
Figure 2
Modélisation du processus utilisé
par le logiciel LHASA. L’objectif est
de partir d’une molécule cible et
de remonter progressivement vers
des fragments connus en synthèse
organique.
179
Chimie et biologie de synthèse
Figure 3
Série d’articles publiés entre 2016 et 2017 qui s’intéressent à l’application de la rétrosynthèse pour la chimie
organique. L’utilisation de la chimie computationnelle est de plus en plus développée pour la prédiction des réactivités.
Aujourd’hui, certains groupes s’attachent au développement d’une intelligence artificielle pour la rétrosynthèse.
Figure 4
État de l’art des méthodes de rétrosynthèse utilisées actuellement. Cinq méthodes ont été développées. Les trois
180 principales sont : SimPheny (Corée), BNICE (États-Unis/Suisse) et RetroPath.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
2 Fonctionnement
du processus de
rétrosynthèse
annotés. Cette caractéristique
est illustrée dans la Figure 5A,
où une lyase8 permet de cata-
lyser la tyrosine9 en couma-
rate10.
2.1. Règles de réactions Afin de coder une réaction
codant la spécificité/ enzymatique, dans un pre-
promiscuité enzymatique mier temps on numérote les
atomes pour suivre la trans-
Pour SimPheny et BNICE, les
formation entre substrat
règles de réactions ont été
et produit. Les atomes qui
générées manuellement à
changent leurs configurations
partir de l’ensemble des réac-
sont marqués en rouge dans
tions et de la classification
la Figure 5A ; ils constituent le
des enzymes acquises par le
centre de la réaction. Si notre
passé. On utilise environ cin-
réaction est spécifique, elle
quante règles pour SimPheny
concerne tous les atomes de
et une centaine pour BNICE.
la molécule considérée ; on
Pour le système RetroPath,
entoure alors l’ensemble de
les règles sont générées
la molécule d’une « sphère »
automatiquement à partir de
de diamètre infini.
bases de données.
Les substrats et produits
Les règles peuvent être spéci-
inclus dans la sphère sont
fiques, c’est-à-dire concerner
ensuite représentés sous
la transformation d’un seul
forme de chaînes « SMILES »
substrat en un produit, mais
ou « SMARTS » (un système
elles peuvent être aussi géné-
de codage de molécules et
ralistes et s’appliquer sur plu-
réaction largement utilisé en
sieurs substrats, voire un très
chimie computationnelle). Le
grand nombre. Ainsi les règles
codage sous forme de chaînes
que l’on trouve dans BNICE et
« SMILES » ou « SMARTS »
SimPheny sont très généra-
permet d’utiliser des logiciels
listes puisqu’elles tentent de
représenter l’ensemble des
réactions métaboliques par au
8. Lyase : enzyme capable de cas-
plus une centaine de règles, ser des liaisons covalentes, créant
alors qu’il existe entre 30 000 souvent de nouvelles doubles liai-
et 40 000 réactions dans les sons. Comme toutes les enzymes,
bases de données. les lyases sont des protéines qui
possèdent un site actif permettant
Le caractère spécifique ou la réaction enzymatique, et un site
généraliste des règles est à de reconnaissance des molécules
rapprocher d’une propriété cibles, assurant la spécificité de
des enzymes. En effet, ceux-ci la réaction.
peuvent être promiscuitaires7, 9. Tyrosine : acide aminé, présent
c’est-à-dire accepter des dans le corps humain. Elle parti-
cipe notamment à la synthèse de
substrats différents de ceux
l’adrénaline, la noradrénaline, la
pour lesquels ils ont été dopamine et la DOPA. Elle est aussi
précurseur de la mélanine et des
7. Promiscuité : la capacité, pour hormones thyroïdiennes.
une enzyme, de catalyser efficace- 10. Coumarate : enzyme apparte-
ment une réaction chimique dis- nant à la famille des ligases. Cette
tincte de celle(s) principalement enzyme est responsable de forma-
catalysée(s) par cette enzyme. tion des liaisons carbone-soufre. 181
Chimie et biologie de synthèse Figure 5 A Lyase d’acides aminés
aromatiques
Modélisation du système de
codage utilisé dans le cas de la H2N 12
O 11 O 11
transformation de la tyrosine en 13
2 1
8 9
13
2 1
8 9 + NH3
coumarate. Les atomes désignés HO
3 6 7
OH 10 HO 3 6 7
OH 10
12
de la réaction. A) La sphère
de diamètre infini modélise la D=∞
spécificité de la réaction (en noir). 25k règles
Le diamètre représente les atomes
qui vont être pris en considération
B Lyase d’acides aminés
aromatiques
par le programme. B) Le diamètre
de la sphère peut être rétréci H2N 12
O 11 O 11
4 5 4 5
D=∞
25k règles
D=8
20k règles
D=2
15k règles
Figure 6
Produit tensoriel codant les
interactions protéines-molécules
pour l’apprentissage automatique.
En entrée, des vecteurs codent
des séquences (k-mers ou spectre
de chaînes) et des réactions
(signatures). Il s’agit ensuite
de faire le produit tensoriel de
ces deux vecteurs (séquence et
réaction) qui représente l’ensemble
des combinaisons possibles entre
les signatures et les k-mers.
0,8 8
Classification
Taux vrai positif
Valeur prédite
0,6 Enzyme-réaction 6
4
0,4
2
0,2
GP AUC:0,906
0
SVM (JLF 2008) AUC:0,871
0
0 0,2 0,4 0,6 0,8 1 0 2 4 6 8 10
Taux faux positif Valeur actuelle (µM)
Figure 7
Grâce au produit tensoriel, il est possible de classifier les enzymes et les
réactions. À gauche, une courbe ROC* montrant que le taux faux positif
est faible en utilisant des machines à vecteur de support (SVM) ou des
processus gaussiens (GP). En utilisant des processus gaussiens, il est
aussi possible de prédire des constantes cinétiques comme la constante
de Michaelis dans l’équation de Michaelis-Menten (pour les enzymes de la
classe EC 3.1.3, à droite).
* Une courbe ROC (« Receiver Operating Characteristic ») est une courbe sensi-
bilité/spécificité.
Figure 8
A) Modélisation du workflow A
avec les différents paramètres
d’entrée : les métabolites
d’Escherichia coli, le nombre
de règles de rétrosynthèse
et le châssis de la réaction ;
B) 2e itération ; C) 3e itération.
« Source » est la molécule que
l’on désire synthétiser (ici la
pinocembrine) ; « sink » est
l’ensemble des molécules de la
souche châssis (ici Escherichia
coli). MarvinSketch est un logiciel
de ChemAxon* permettant de
dessiner une molécule.
*https://chemaxon.com/products/
marvin
186
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
de production (c’est-à-dire les classer et ne construire
Escherichia coli). que les premières du clas-
En faisant fonctionner le sement.
workflow, on applique les Le classement se base sur
règles inversées de la syn- plusieur s cr itère s , tout
thèse – ce sont des règles de d’abord au niveau des gènes
rétrosynthèse – sur le pro- codant les enzymes, car les
duit final. On remonte itéra- enzymes peuvent être plus ou
tivement jusqu’au métabolite moins efficaces en fonction de
d’Escherichia coli. La Figure 8A leurs séquences. Pour classer
montre la première itération, les séquences enzymatiques
la Figure 8B la seconde ité- on utilise les méthodes d’ap-
ration, et la Figure 8C la troi- prentissage abordées plus
sième. haut (voir le paragraphe 2.2) ;
Ce faisant, on construit une en effet, ces méthodes per-
c ar te de rétros y nthèse. mettent de calculer les scores
Cette carte étant complexe, des différentes séquences
le premier problème est de enzymatiques.
répondre à la question « com- Le second critère est basé
bien de voies de synthèse y-a- sur les flux théoriques des
t-il dans la carte ? ». En effet, voies. Les différentes voies
il y a probablement plusieurs métaboliques peuvent avoir
façons de synthétiser la pino- différents flux vers le pro-
cembrine. duit final car elles utilisent
Le problème à résoudre différents cofacteurs, par
est donc l’énumération des exemple différentes quantités
voies métaboliques dans les d’ATP19, ou autres métabolites
cartes de rétrosynthèse. Ici, essentiels à la pousse de la
il ne s’agit pas simplement de souche châssis. Le troisième
trouver un chemin dans une et dernier critère est lié à la
carte puisque lorsqu’on parle toxicité du produit final et des
d’une réaction, cette réaction produits intermédiaires de la
peut avoir plusieurs subs- voie. Si ceux-ci sont toxiques,
trats et lorsqu’on remonte le alors il n’est pas recommandé
chemin, il va falloir remonter de construire cette voie car
cette propagation sur tous les même si les enzymes sont
substrats. On a en fait à faire efficaces et les flux élevés, la
à ce qu’on appelle technique- souche châssis ne poussera
ment un hyperchemin dans un pas à cause de la toxicité. À
hypergraphe. Pour résoudre partir de ces trois critères,
ce problème, nous avons les voies peuvent être clas-
développé une méthode basée sées, ce qui permet de passer
sur les modes élémentaires. à l’étape suivante : la vérifica-
Cette méthode, développée tion expérimentale.
dans le cadre de l’étude du
métabolisme en général, per-
met ici d’énumérer les diffé- 19. ATP : Adénosiné TriPhosphate,
rentes voies. Il y a onze voies nucléotide formé à partir d’adé-
nine liée à un ribose attaché à
différentes pour produire la un triphosphate. Il fournit l’éner-
pinocembrine (Figure 9). Le gie nécessaire aux réactions
nombre de voies pouvant être chimiques du métabolisme à tra-
élevé, on peut être amené à vers les membranes biologiques. 187
Chimie et biologie de synthèse
Figure 9
Après plusieurs itérations, des
chemins de synthèse sont obtenus
(ici représentés en couleur),
et constituent une carte de
rétrosynthèse. Chacune de ces
voies (onze au total) permettrait de
synthétiser la pinocembrine ; elles
ne vont pas toutes être exploitées.
L’énumération des voies est un
problème non trivial : il faut en
effet remonter la propagation pour
chaque substrat, et le nombre de
substrats peut s’avérer élevé.
Figure 10
Une fois énumérées, les voies de
synthèse vont être classées en
fonction du score des séquences
enzymatiques retourné par la
méthode d’apprentissage. À
gauche, les graphiques montrent
qu’il y a une bonne corrélation
entre le score prédit par les
méthodes d’apprentissage et
la productivité. En effet, les
séquences avec un score élevé
donnent une quantité de produit
final plus importante que celles
avec un score bas.
188
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
3 Exemples
d’applications
de ce dispositif de
rétrosynthèse
parer à l’état de l’art actuel qui par RetroPath : p-xylène 4-methyl- 4-(hydroxy- 4-carboxy- TPA
(Figure 11).
La Figure 12 montre d’autres
exemples d’applications de Voie produite TAL C3H COMT
24 constructions dans (E. coli JM109)
par RetroPath :
ces mêmes méthodes de Arabidopsis thaliana
rétrosynthèse. La Figure 12A L-Tyr P-coumarate Caffeic acid Ferulic acid Tal Comt C3H
Flavobacterium johnsoniae
Molécule
Module métabolique Module de détection
non
détectable
Figure 14
A) La molécule non détectable est d’abord transformée par réactions
enzymatiques, ensuite le produit de ces réactions est détecté par un
facteur de transcription qui à son tour permet d’exprimer une protéine
fluorescente ; B) en bas, la flurorescence est donnée en fonction de la
concentration en acide hippurique et en acide benzoïque. Sans module
métabolique, l’acide hippurique n’est pas transformé en acide benzoïque
(insert) et aucune fluorescence n’est observée pour l’acide hippurique.
Lorsque du module métabolique est ajouté, les courbes relatives à l’acide
benzoïque et à l’acide hippurique sont superposées, ce qui signifie que
l’acide hippurique a totalement été consommé en acide benzoïque.
A
oxySP katGp
promoteur promoteur
7
Fluorescence/OD (a.u. ×10 )
3,8
Transducteur
6,5
EC : 1.5.3.1 3,6
I O
3,4 6
[I] [O] =[I]
E1
B
3,2
Sarcosine H2O2 5,5
3
1 10 100 1000 1000 Biomarqueur Effecteurs
Concentration en sarcosine (µM) Acide benzoïque
Acide hippurique
Glycine
oxySP katGp Glycine
promoteur promoteur Kynurénine
Anthranilate
Fluorescence/OD (a.u. ×10 )
4,4 8,2
EC : 1.1.3.11 Glycine
4,1 Sarcosine
I O 7,8 H2O2
[I] [O] =[I] 3,8 Aspartate
E2 7,4 N-acétyl-aspartate
H2O2
Sorbose H2O2 3,5
7 L-lysine
Pipécolate H2O2
3,2
6,6
1 10 100 1000 10000 100000 Cholestérol H2O2
Concentration en L-sorbose (µM) L-Iditol
L-Sorbose
H2O2
Fluorescence/OD600 Urée
Additionneur (a.u.) Créatinine
H2O2 + Glycine
10000
Concentration en sarcosine (µM)
500
O 1,2 ×106
[O] = [I1] + [I2] 100
I2 E2
[I2] H2O2 10
1,0 ×106
Figure 16
A) Modélisation des dispositifs électroniques utilisés dans la biologie de synthèse : transducteur et additionneur.
Dans le cadre des transducteurs, les biomarqueurs vont être transformés en effecteurs ; B) ce tableau permet
de répertorier les effecteurs relatifs aux biomarqueurs. Les graphiques au centre montrent la fluorescence
observée en fonction de la concentration en biomarqueur en utilisant différents facteurs de transcriptions (oxySp
et katGp). Dans le cadre de l’additionneur, on va coupler deux biomarqueurs en un effecteur, ici la sarcosine et
le L-Sorbose tous les deux transformés en H2O2. En sortie, on obtient une cartographie de la fluorescence en
fonction de la concentration des deux biomarqueurs ; on peut aisément vérifier que la fluorescence est bien
proportionnelle à la somme des concentrations des biomarqueurs. 193
Chimie et biologie de synthèse
Nombre de
Système de règles
composés générés
Figure 17
Distribution des masses d’Escherichia coli. En noir, la courbe correspond
au modèle et en rouge au résultat de spectrométrie de masse d’un extrait
cellulaire d’Escherichia coli. Les différences entre les deux courbes
s’expliquent par le manque de certains métabolites dans le modèle.
En dessous, le tableau montre le nombre de composés générés par
194 RetroPath2.0 en fonction des systèmes de règles choisis.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
distribution des masses dans du modèle d’Escherichia coli
un modèle d’Escherichia coli ne couvrent que de 12 % des
(courbe noire en haut à gauche). masses. En utilisant les règles
Des bases de données comme de réactions de RetroPath
EcoCyc29 donnent le même type d’un diamètre de 16, 23 % des
de courbe. La courbe en rouge masses du spectre sont cou-
est une courbe calculée à par- vertes (Figure 18, bas gauche)
tir du spectre de masse d’un avec un diamètre 4, la couver-
extrait cellulaire d’une cellule ture est de 60 %. Il est ainsi
d’Escherichia coli. On observe possible de proposer une (ou
une différence entre la distri- plusieurs) molécule(s) pour
bution expérimentale et la dis- 60 % des masses du spectre.
tribution du modèle montrant Le couplage RetroPath2.0-
ainsi que certains métabolites OpenMS nous a permis de
sont absents du modèle. détecter la présence dans
Ne peut-on pas alors utiliser l ’échantillon de l ’Acét yl-
des programmes de rétro- Leucine 31, qui n’est pas un
synthèse pour trouver les métabolite connus dans les
molécules manquantes dans modèles d’Escherichia coli
les modèles ? Effectivement, (Figure 19).
en utilisant le workflow Afin de confirmer la pré-
RetroPath2.0 avec les règles sence d’Acétyl-Leucine dans
de réactions de SimPheny, Escherichia coli, l’étape sui-
BNICE ou Retropath, on vante de notre travail a été de
obtient un certain nombre vérifier par spectrométrie de
de molécules qui ne sont pas masse que le pic observé était
initialement dans le modèle effectivement celui de l’Acé-
d’Escherichia coli. tyl-Leucine (Figure 20, haut).
L’intérêt d’utiliser des sys- Nous avons ensuite recherché
tèmes de workflows est de les enzymes chez Escherichia
pouvoir facilement les coupler coli responsables de la syn-
entre eux. Ainsi RetroPath2.0 thèse de l’Acétyl-Leucine.
peut être couplé avec le work- Pour ce faire, nous avons
flow OpenMS qui permet de utilisé une des méthodes
faire de l’annotation des d’apprentissage automatique
spectres de masse et aider présentées au paragraphe 2.2
à la confirmation ou non de (c’est-à-dire un processus
la présence d’une molécule à gaussien). L’étude a montré
partir de sa masse. que les enzymes ECBD4067
La Figure 18 (haut gauche) et ECDB4269 étaient respon-
montre le résultat obtenu sables de la synthèse d’Acétyl-
par OpenMS en utilisant Leucine (Figure 20). Il est bon
en entrée un spectre de de noter que de tels exemples
masse d’un extrait cellulaire d’utilisation de méthodes
d’Escherichia coli téléchargé d’apprentissage automatique
à partir de la base de données en biologie de synthèse ne
MetaboLights 30. sont pas si fréquents.
La Figure 18 (haut droite)
montre que les métabolites 31. Acétyl-Leucine : substance
chimique qui est notamment uti-
29. https://ecocyc.org/ lisée comme médicament contre
30. www.ebi.ac.uk/metabolights/ les vertiges. 195
Chimie et biologie de synthèse
Figure 18
Spectre de masse d’un extrait cellulaire d’Escherichia coli obtenu par le workflow OpenMS. Les points noirs
représentent les données expérimentales. On peut ensuite corréler ce graphique avec les masses des molécules
d’un modèle d’Escherichia coli (en bleu), où seulement 12,3 % des masses expérimentales sont couvertes.
On augmente cette couverture en utilisant les masses des molécules produites par RetroPath2.0 (en rouge).
En diminuant progressivement le diamètre, la partie du spectre couverte augmente : pour un diamètre de 16 :
23,1 %, et pour un diamètre de 4 : 60,6 %.
Figure 19
Detection de l’Acétyl-Leucine (en
haut à gauche) dans le spectre de
masse. Les données retournées
montrent que la masse trouvée
correspond bien à celle de l’Acétyl-
Leucine.
196
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
Figure 20
Recherche par apprentissage automatique et vérification expérimentale
des séquences d’Escherichia coli responsables de la synthèse d’Acétyl-
Leucine. La recherche par apprentissage automatique retourne trois
séquences possibles (ECBD0907, ECBD4067, et ECBD4269) correspondant
à trois voies métaboliques différentes. Dans chaque cas, les enzymes
ont été surexprimées pour mesurer l’augmentation d’Acétyl-Leucine.
On a ainsi pu démontrer que les enzymes ECBD4067 et ECBD4269 étaient
responsables de la production d’Acétyl-Leucine. Le spectre de masse
(en haut ; couplage « MS-MS ») de l’Acétyl-Leucine permet de vérifier
le produit obtenu.
La rétrosynthèse, aujourd’hui
et demain
Ce chapitre a montré que la rétrosynthèse
pouvait être performante dans diverses applica-
tions biologiques. Nous avons vu explicitement
trois exemples, mais il en existe d’autres : la
biorémédiation32 ou la dégradation de compo-
sés, le métabolisme alternatif, pouvant être
utilisé pour fabriquer de façon plus efficace
des molécules en utilisant moins d’énergie,
ainsi que la combinaison des règles de réac-
tions de synthèse chimique avec des règles de
biosynthèse. On peut aussi envisager de déve-
198