Biologie p177

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 22

Jean-Loup Faulon

La rétrosynthèse en
biologie : production de
molécules bioactives
et dispositifs pour

le diagnostic
Jean-Loup Faulon est directeur de recherche, responsable de
l’équipe Bio-RetroSynth à l’Institut Micalis1 de l’Institut national
de la recherche agronomique (INRA), et professeur en bio­
logie de synthèse au département de chimie de l’Université de
Manchester (Royaume-Uni). Il est responsable du master bio-
logie des systèmes et de synthèse de l’Université Paris-Saclay
et a développé avec son équipe des méthodes de rétrosynthèse
pour concevoir et mettre en œuvre des voies de biosynthèse et
biodégradation dans le cadre de l’ingénierie métabolique et de
l’ingénierie de biosenseurs cellulaires et acellulaires.

1 La rétrosynthèse en
biologie : état de l’art
1.1. Quelques applications
en biologie
La rétrosynthèse 2 est bien C’est pour l’ingénierie méta-
connue en synthèse organique bolique que la rétrosynthèse
et nous allons ici en voir les a d’abord été appliquée en
applications dans le domaine biologie. L’ingénierie méta-
de la biologie et plus parti- bolique utilise des souches
culièrement de la biologie de (aussi appelées des châssis)
synthèse. pour y introduire des enzymes
hétérologues 3 de façon à
synthétiser une molécule
1. www.micalis.fr/Institut-Micalis
cible. Lorsqu’on pratique la
2. Rétrosynthèse : technique qui
consiste à retrouver des voies de
synthèse en partant de la molé- 3. L’expression hétérologue est
cule finale. Le principe de cette l’expression d’un gène ou d’un
méthode d’analyse s’appuie sur fragment de gène dans un orga-
des ruptures des liaisons, pour nisme hôte, qui ne possède pas
constituer des molécules plus naturellement le gène ou son
simples. fragment.
Chimie et biologie de synthèse

rétrosynthèse, on part d’une un riborégulateur6. Une fois


molécule cible, et on applique la molécule cible détectée, on
des réactions enzymatiques exprime un gène reporteur,
de façon à remonter jusqu’aux par exemple un marqueur
métabolites 4 qui sont naturel- fluorescent (protéine GFP,
lement produits par la souche « Green Fluorescent Protein »).
utilisée (Figure 1). L’ensemble facteur de trans-
Ce même concept peut être cription, riboregulateur et
utilisé pour pratiquer l’ingé- gène reporteur constitue un
nierie de biocapteurs (ou bio- biocapteur.
senseurs). Ici, le problème Le nombre de molécules
est de modifier une cellule de directement détectables par
telle sorte qu’elle soit capable des facteurs de transcrip-
de détecter une molécule, tion ou des riborégulateurs
par exemple un métabolite. est faible. L’idée est alors
Une molécule est générale- d’utiliser la rétrosynthèse
ment détectée directement
par une cellule via une inte-
raction allostérique (fixation 6. Riborégulateur (ou « ribo­
de la molécule induisant un switch ») : structure d’ARN pré-
sente sur un ARN messager
changement de conformation
(ARNm) qui peut lier directement
spatiale de l’enzyme) avec un un ligand. Très souvent, le ligand
facteur de transcription5 ou du riborégulateur est un métabo-
lite de la réaction catalysée par
la protéine codée par l’ARNm, ce
4. Métabolite : composé stable qui conduit à un mécanisme de
issu de la transformation biochi- rétroaction directe. Cette fixation
mique d’une molécule initiale par déclenche un effet sur l’expression
le métabolisme. du gène porté par l’ARNm en blo-
5. Facteur de transcription : protéine quant ou en activant la traduction
nécessaire à l’initiation ou à la régu- de la protéine correspondante.
lation de la transcription d’un gène L’utilisation des riborégulateurs
dans l’ensemble du vivant. Elle inte- est ainsi une des voies possibles
ragit avec l’ADN et l’ARN polymérase. de régulation de la traduction.

CHÂSSIS CIBLE (signal)


CHÂSSIS
RÉTROSYNTHÈSE

SYNTHÈSE

EFFECTEUR

CIBLE CHÂSSIS

Ingénierie Ingénierie Construction


Métabolique de biocapteurs de cartes
cellulaires métaboliques

Bioproduction Détection Métabolomique


de polluants
et biomarqueurs

Figure 1
178 Différents exemples d’applications de la rétrosynthèse en biologie.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
pour rechercher l’ensemble de déconnexion des liaisons
des molécules accessibles. dans cette molécule cible
On étend de cette façon le jusqu’à remonter à des molé-
nombre de molécules détec- cules disponibles ou qu’on sait
tables par des cellules. synthétiser.
L a troisième application Dans sa présentation lorsqu’il
abordée dans ce chapitre est a reçu le prix Nobel, Elias
liée au fait qu’on ne connaît Corey parlait d’intelligence
pas tous les métabolites des artificielle. C’était prémoni-
souches utilisées en biotech- toire car à partir de 2016, une
nologie. Les méthodes de série d’articles s’inscrivant
rétrosynthèse peuvent aider dans cette démarche ont été
à trouver de nouveaux méta- publiés (Figure 3) : ils utilisent
bolites dans nos souches et des méthodes d’apprentis-
rechercher les enzymes res- sage profond pour calculer
ponsables de la synthèse de automatiquement les règles
ces métabolites. de déconnexion dont parlait
Dans ce chapitre, nous passe- Elias Corey, et plus généra-
rons en revue les trois types lement pour proposer des
d’applications de la Figure 1 règles pour les réactions uti-
qui font toutes appel à des lisées en synthèse organique.
méthodes de rétrosynthèse. Les méthodes d’appren-
tissage profond sont d’au-
tant performantes qu’elles
1.2. La rétrosynthèse : r e p o s e nt s ur un gr a n d
un problème étudié depuis nombre de données . Le
longtemps mais toujours nombre de réactions connues
d’actualité
en chimie organique est
La rétrosynthèse a été déve- considérable : le Chemical
loppée par Elias James Corey Abstract Ser vice contient
dans le cas de la synthèse environ 80 millions de réac-
organique, ce qui lui a valu le tions. Dans les applications
prix Nobel de chimie en 1990. Il en biologie, on en est plutôt
a proposé plusieurs méthodes à 30 000 ou 40 000 réactions
de mise en œuvre, notamment stockées dans les bases de
la technique LHASA (Figure 2), données, l’intelligence artifi-
un logiciel développé à la fin cielle est toutefois utilisée en
des années 1960. L’idée est de particulier pour la recherche
partir d’une molécule cible, la de séquences enzymatiques,
molécule que l’on veut synthé- comme présenté dans le
tiser, et d’appliquer des règles paragraphe 2.2.

Figure 2
Modélisation du processus utilisé
par le logiciel LHASA. L’objectif est
de partir d’une molécule cible et
de remonter progressivement vers
des fragments connus en synthèse
organique.

179
Chimie et biologie de synthèse

Figure 3
Série d’articles publiés entre 2016 et 2017 qui s’intéressent à l’application de la rétrosynthèse pour la chimie
organique. L’utilisation de la chimie computationnelle est de plus en plus développée pour la prédiction des réactivités.
Aujourd’hui, certains groupes s’attachent au développement d’une intelligence artificielle pour la rétrosynthèse.

1.3. État de l’art des améliorations (Figure 4) : il


méthodes de rétrosynthèse s’agit de SimPheny, déve-
appliquées en biologie loppé par Sang Yup Lee en
Corée, BNICE co-développé
Un certain nombre de groupes aux États-Unis et en Suisse,
de recherche développent et le système RetroPath déve-
les méthodes de rétro- loppé en France. Comme on
synthèse pour la biologie. le verra par la suite, ces sys-
Trois principales méthodes tèmes peu ou prou utilisent le
ont donné lieu à plusieurs même algorithme pour coder
publications avec suivi et la rétrosynthèse.

Figure 4
État de l’art des méthodes de rétrosynthèse utilisées actuellement. Cinq méthodes ont été développées. Les trois
180 principales sont : SimPheny (Corée), BNICE (États-Unis/Suisse) et RetroPath.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
2 Fonctionnement
du processus de
rétrosynthèse
annotés. Cette caractéristique
est illustrée dans la Figure 5A,
où une lyase8 permet de cata-
lyser la tyrosine9 en couma-
rate10.
2.1. Règles de réactions Afin de coder une réaction
codant la spécificité/ enzymatique, dans un pre-
promiscuité enzymatique mier temps on numérote les
atomes pour suivre la trans-
Pour SimPheny et BNICE, les
formation entre substrat
règles de réactions ont été
et produit. Les atomes qui
générées manuellement à
changent leurs configurations
partir de l’ensemble des réac-
sont marqués en rouge dans
tions et de la classification
la Figure 5A ; ils constituent le
des enzymes acquises par le
centre de la réaction. Si notre
passé. On utilise environ cin-
réaction est spécifique, elle
quante règles pour SimPheny
concerne tous les atomes de
et une centaine pour BNICE.
la molécule considérée ; on
Pour le système RetroPath,
entoure alors l’ensemble de
les règles sont générées
la molécule d’une « sphère »
automatiquement à partir de
de diamètre infini.
bases de données.
Les substrats et produits
Les règles peuvent être spéci-
inclus dans la sphère sont
fiques, c’est-à-dire concerner
ensuite représentés sous
la transformation d’un seul
forme de chaînes « SMILES »
substrat en un produit, mais
ou « SMARTS » (un système
elles peuvent être aussi géné-
de codage de molécules et
ralistes et s’appliquer sur plu-
réaction largement utilisé en
sieurs substrats, voire un très
chimie computationnelle). Le
grand nombre. Ainsi les règles
codage sous forme de chaînes
que l’on trouve dans BNICE et
« SMILES » ou « SMARTS »
SimPheny sont très généra-
permet d’utiliser des logiciels
listes puisqu’elles tentent de
représenter l’ensemble des
réactions métaboliques par au
8. Lyase : enzyme capable de cas-
plus une centaine de règles, ser des liaisons covalentes, créant
alors qu’il existe entre 30 000 souvent de nouvelles doubles liai-
et 40 000 réactions dans les sons. Comme toutes les enzymes,
bases de données. les lyases sont des protéines qui
possèdent un site actif permettant
Le caractère spécifique ou la réaction enzymatique, et un site
généraliste des règles est à de reconnaissance des molécules
rapprocher d’une propriété cibles, assurant la spécificité de
des enzymes. En effet, ceux-ci la réaction.
peuvent être promiscuitaires7, 9. Tyrosine : acide aminé, présent
c’est-à-dire accepter des dans le corps humain. Elle parti-
cipe notamment à la synthèse de
substrats différents de ceux
l’adrénaline, la noradrénaline, la
pour lesquels ils ont été dopamine et la DOPA. Elle est aussi
précurseur de la mélanine et des
7. Promiscuité : la capacité, pour hormones thyroïdiennes.
une enzyme, de catalyser efficace- 10. Coumarate : enzyme apparte-
ment une réaction chimique dis- nant à la famille des ligases. Cette
tincte de celle(s) principalement enzyme est responsable de forma-
catalysée(s) par cette enzyme. tion des liaisons carbone-soufre. 181
Chimie et biologie de synthèse Figure 5 A Lyase d’acides aminés
aromatiques
Modélisation du système de
codage utilisé dans le cas de la H2N 12
O 11 O 11

transformation de la tyrosine en 13
2 1
8 9
13
2 1
8 9 + NH3
coumarate. Les atomes désignés HO
3 6 7
OH 10 HO 3 6 7
OH 10
12

en rouge vont former le centre 4 5 4 5

de la réaction. A) La sphère
de diamètre infini modélise la D=∞
spécificité de la réaction (en noir). 25k règles
Le diamètre représente les atomes
qui vont être pris en considération
B Lyase d’acides aminés
aromatiques
par le programme. B) Le diamètre
de la sphère peut être rétréci H2N 12
O 11 O 11

autour des atomes désignés 2 1


8 9
2 1
8 9 + NH3
en rouge : le diamètre en bleu
13 13
12
HO 6
OH 10 HO 6
OH 10
3 7 3 7

est égal huit et en vert à deux. 4 5 4 5


C) La diminution du diamètre
a pour effet d’augmenter la D=∞
promiscuité de la réaction. 25k règles
À partir de la base de données D=8
MetaNetX (www.metanetx. 20k règles
org), il existe ~25 000 règles de
réactions à diamètre infini, ~20 000 C Lyase d’acides aminés
aromatiques
règles à diamètre 8, et ~15 000 à
diamètre 2. Au total, tout diamètre H2N 12
O 11 O 11
confondu, le nombre de règle est 2 1 2 1
8 9 8 9 + NH3
d’environ 120 000. 13
HO OH
13
HO OH 10 12
3 6 7 10 3 6 7

4 5 4 5

D=∞
25k règles

D=8
20k règles

D=2
15k règles

calculant automatiquement cas de la phénylalanine, on


les produits possibles à partir va produire du trans-cinna-
d’un substrat et d’une réac- mate12. On ne peut pas dans
tion. Cette procédure est par- un tel cas utiliser un codage
ticulièrement intéressante qui aurait une « sphère » de
pour des sphères de petits diamètre infini car la règle
diamètres où une règle peut de réaction doit accepter des
accepter des substrats dif- substrats différents. Dans
férents et donner lieu à un l’exemple de la Figure 5B, on
grand nombre de produits réduit le diamètre à huit. Cela
possibles. signifie qu’on va prendre en
Il existe des séquences enzy- considération tous les atomes
matiques qui peuvent cata- jusqu’à quatre liaisons du
lyser à la fois la tyrosine et centre de la réaction. Cette
la phénylalanine11. Dans le règle de réaction permet

11. Phénylalanine : acide aminé, 12. Trans-cinnamate : sel ou ester


présent dans le corps humain. La de l’acide cinnamique. L’acide cin-
phénylalanine est notamment un namique est utilisé dans l’industrie
précurseur de l’adrénaline et de du parfum. Il possède également
la mélanine. L’aspartame en dérive des propriétés antiseptiques et
182 également. antifongiques.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
de passer la tyrosine et la rétrosynthèse. Pour ce faire,
phényl­alanine (Figure 5B). on utilise des méthodes
On peut continuer et diminuer d’apprentissage automa-
le diamètre pour obtenir des tique. Les techniques mathé-
règles de réaction encore matiques utilisées par ces
plus promiscuitaires. Dans la méthodes sont complexes et
réaction de catalyse de l’his- nous n’allons pas les expo-
tidine13, on utilise un diamètre ser. Nous donnons ici sim-
de 2 – une règle de petit dia- plement quelques éléments
mètre permettant d’accepter qui peuvent faire saisir leur
un grand nombre de sub­strats esprit.
(Figure 5C). Les méthodes d’apprentis-
Lorsque qu’on utilise des sage automatique manipulent
règles qui ont un très petit des objets mathématiques (ici
diamètre, ce qui est le cas des des vecteurs). Dans notre cas,
jeux de règles de SimPheny nous devons d’abord associer
ou de BNICE, on a rapidement ces vecteurs de manière non
une explosion combinatoire du équivoque aux séquences
nombre de composés suscep- d’acides aminés et aux réac-
tibles d’être générés. Comme tions chimiques : cela s’ap-
décrit ci-dessous, la solution pelle le codage.
implémentée dans RetroPath Pour coder les séquences,
consiste à utiliser un dia- une technique bioinforma-
mètre variable pour limiter tique est largement utilisée :
l’explosion combinatoire de elle consiste à décomposer
solutions. les séquences protéiques (ici
des enzymes), en k-mer14. On
déplace une fenêtre sur la
2.2. Recherche de séquences séquence et on comptabilise
enzymatiques par le nombre d’occurrences de
apprentissage automatique chacun des k-mers que l’on
Dans le système RétroPath, rencontre lors du déplace-
les règles sont à diamètre ment. Le résultat se repré-
variable : on cherche dans un sente sous forme d’un vecteur
premier temps une solution (Figure 6, gauche).
avec des règles de diamètre Pour coder les réactions, c’est
infini ; si aucune solution n’est un peu la même idée : on place
trouvée, on diminue alors le une sphère sur chaque atome
diamètre de façon à explorer et on compile l’équivalent du
plus de voies enzymatiques. k-mer, qui est ici l’environne-
RetroP ath per met aussi ment atomique de cet atome,
d’effectuer une recherche et on comptabilise le nombre
automatique de séquences d’occurrences de ces environ-
enzymatiques capables de nements. Cela se fait sur les
catalyser les réactions pro- substrats et sur les produits.
duites par le programme de Pour calculer la « signature »
d’une réaction, on soustrait à
la signature des produits la
13. Histidine : acide aminé précur-
seur de l’histamine et de la carno-
sine. Il n’est pas essentiel au corps 14. K-mer : sous-séquence pos-
humain sauf durant l’enfance et la sible, de longueur k, obtenue à
grossesse. partir du séquençage de l’ADN. 183
Chimie et biologie de synthèse

Figure 6
Produit tensoriel codant les
interactions protéines-molécules
pour l’apprentissage automatique.
En entrée, des vecteurs codent
des séquences (k-mers ou spectre
de chaînes) et des réactions
(signatures). Il s’agit ensuite
de faire le produit tensoriel de
ces deux vecteurs (séquence et
réaction) qui représente l’ensemble
des combinaisons possibles entre
les signatures et les k-mers.

signature des substrats. Ainsi, vecteurs de support, forêt aléa-


la Figure 6 à droite montre toire ou processus gaussien.
des nombres positifs et les Dans tous ces cas, on obtient
nombres négatifs : les nombres de bons résultats pour la clas-
négatifs sont les configurations sification de séquences enzy-
que l’on trouve dans les subs- matiques et réactions (Figure 7,
trats mais pas les produits, et gauche). Ces méthodes per-
les nombres positifs sont les mettent aussi de prédire des
configurations que l’on trouve constantes cinétiques (telle
dans les produits et pas les que la constante de Michaelis)
substrats. Ce travail conduit pour certaines classes d’en-
aussi à une représentation vec- zymes (Figure 7, droite).
torielle (Figure 6, droite). Les méthodes que nous venons
On est ensuite en mesure de de présenter nous permettent
coder le complexe réaction- de construire des cartes de
séquence. Cela se fait par rétrosynthèse en appliquant
une méthode à noyau nommé les règles de réactions et de
produit tensoriel. Le produit prédire les séquences enzy-
tensoriel prend en compte matiques catalysant ces réac-
toutes les combinaisons entre tions. Nous avons ainsi tous
les k-mers des séquences et les éléments en place pour
les signatures des réactions décrire le « workflow »15 de
(Figure 6, en bas). Le résul- rétrosynthèse.
tat est un vecteur qui repré-
sente le complexe : réaction, 15. Workflow : processus d’auto-
séquence enzymatique. matisation des tâches permettant
un enchaînement automatisé des
On peut alors utiliser plu- différentes opérations et étapes
sieurs techniques d’apprentis- de validation d’une tâche plus ou
184 sage automatique : machine à moins complexe.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
3.1.1
1,0
10 q2 = 0,782

0,8 8
Classification
Taux vrai positif

Valeur prédite
0,6 Enzyme-réaction 6

4
0,4
2
0,2
GP AUC:0,906
0
SVM (JLF 2008) AUC:0,871
0
0 0,2 0,4 0,6 0,8 1 0 2 4 6 8 10
Taux faux positif Valeur actuelle (µM)

Figure 7
Grâce au produit tensoriel, il est possible de classifier les enzymes et les
réactions. À gauche, une courbe ROC* montrant que le taux faux positif
est faible en utilisant des machines à vecteur de support (SVM) ou des
processus gaussiens (GP). En utilisant des processus gaussiens, il est
aussi possible de prédire des constantes cinétiques comme la constante
de Michaelis dans l’équation de Michaelis-Menten (pour les enzymes de la
classe EC 3.1.3, à droite).

* Une courbe ROC (« Receiver Operating Characteristic ») est une courbe sensi-
bilité/spécificité.

2.3. Rétrosynthèse : d’une flavanone, la pinocem-


le workflow brine17, qui est un précurseur
des flavonoïdes. Les flavo-
Le paragraphe précédent
noïdes sont des molécules
présente le s ystème de
intéressantes pour l’indus-
codage des règles de réac-
trie pharmaceutique par leurs
tions gouvernant la rétrosyn-
nombreuses propriétés :
thèse. Nous décrivons ici le
anti-inflammatoires, anti-
déroulement du processus :
oxydantes, antibactériennes,
le workflow. Celui-ci encode
anticancéreuses... La pino-
un algorithme de rétrosyn-
cembrine est l’un des trois
thèse général pouvant être
précurseurs de l’ensemble
utilisé avec tout type de jeux
des flavonoïdes. En entrée
de règles telles que celle
du worflow, on donne éga-
développées dans SymPhenie,
lement le jeu de règles : ici
BNICE ou RetroPath.
il s’agit d’un jeu de règles à
Le workflow présenté dans la diamètre 4 autour des centres
Figure 8A a été développé sur de réactions extraites de la
la plateforme KNIME ; il est base de données MetaNetX18.
stocké dans la base de données On donne aussi un « sink »,
MyExperiment.org et peut être c’est-à-dire un ensemble de
téléchargé sur Internet16. métabolites vers lequel la
En entrée du workflow, on rétrosynthèse doit aboutir.
donne la molécule que l’on Le « sink » est l’ensemble
désire synthétiser. Il s’agit ici des métabolites du châssis

17. Pinocembrine : antioxydant


16. www.myexperiment.org/work- présent dans le miel ou le propolis.
flows/4987.html 18. www.metanetx.org 185
Chimie et biologie de synthèse

Figure 8
A) Modélisation du workflow A
avec les différents paramètres
d’entrée : les métabolites
d’Escherichia coli, le nombre
de règles de rétrosynthèse
et le châssis de la réaction ;
B) 2e itération ; C) 3e itération.
« Source » est la molécule que
l’on désire synthétiser (ici la
pinocembrine) ; « sink » est
l’ensemble des molécules de la
souche châssis (ici Escherichia
coli). MarvinSketch est un logiciel
de ChemAxon* permettant de
dessiner une molécule.

*https://chemaxon.com/products/
marvin

186
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
de production (c’est-à-dire les classer et ne construire
Escherichia coli). que les premières du clas-
En faisant fonctionner le sement.
workflow, on applique les Le classement se base sur
règles inversées de la syn- plusieur s cr itère s , tout
thèse – ce sont des règles de d’abord au niveau des gènes
rétrosynthèse – sur le pro- codant les enzymes, car les
duit final. On remonte itéra- enzymes peuvent être plus ou
tivement jusqu’au métabolite moins efficaces en fonction de
d’Escherichia coli. La Figure 8A leurs séquences. Pour classer
montre la première itération, les séquences enzymatiques
la Figure 8B la seconde ité- on utilise les méthodes d’ap-
ration, et la Figure 8C la troi- prentissage abordées plus
sième. haut (voir le paragraphe 2.2) ;
Ce faisant, on construit une en effet, ces méthodes per-
c ar te de rétros y nthèse. mettent de calculer les scores
Cette carte étant complexe, des différentes séquences
le premier problème est de enzymatiques.
répondre à la question « com- Le second critère est basé
bien de voies de synthèse y-a- sur les flux théoriques des
t-il dans la carte ? ». En effet, voies. Les différentes voies
il y a probablement plusieurs métaboliques peuvent avoir
façons de synthétiser la pino- différents flux vers le pro-
cembrine. duit final car elles utilisent
Le problème à résoudre différents cofacteurs, par
est donc l’énumération des exemple différentes quantités
voies métaboliques dans les d’ATP19, ou autres métabolites
cartes de rétrosynthèse. Ici, essentiels à la pousse de la
il ne s’agit pas simplement de souche châssis. Le troisième
trouver un chemin dans une et dernier critère est lié à la
carte puisque lorsqu’on parle toxicité du produit final et des
d’une réaction, cette réaction produits intermédiaires de la
peut avoir plusieurs subs- voie. Si ceux-ci sont toxiques,
trats et lorsqu’on remonte le alors il n’est pas recommandé
chemin, il va falloir remonter de construire cette voie car
cette propagation sur tous les même si les enzymes sont
substrats. On a en fait à faire efficaces et les flux élevés, la
à ce qu’on appelle technique- souche châssis ne poussera
ment un hyperchemin dans un pas à cause de la toxicité. À
hypergraphe. Pour résoudre partir de ces trois critères,
ce problème, nous avons les voies peuvent être clas-
développé une méthode basée sées, ce qui permet de passer
sur les modes élémentaires. à l’étape suivante : la vérifica-
Cette méthode, développée tion expérimentale.
dans le cadre de l’étude du
métabolisme en général, per-
met ici d’énumérer les diffé- 19. ATP : Adénosiné TriPhosphate,
rentes voies. Il y a onze voies nucléotide formé à partir d’adé-
nine liée à un ribose attaché à
différentes pour produire la un triphosphate. Il fournit l’éner-
pinocembrine (Figure 9). Le gie nécessaire aux réactions
nombre de voies pouvant être chimiques du métabolisme à tra-
élevé, on peut être amené à vers les membranes biologiques. 187
Chimie et biologie de synthèse

Figure 9
Après plusieurs itérations, des
chemins de synthèse sont obtenus
(ici représentés en couleur),
et constituent une carte de
rétrosynthèse. Chacune de ces
voies (onze au total) permettrait de
synthétiser la pinocembrine ; elles
ne vont pas toutes être exploitées.
L’énumération des voies est un
problème non trivial : il faut en
effet remonter la propagation pour
chaque substrat, et le nombre de
substrats peut s’avérer élevé.

Pour vérification expérimen- que les séquences au score


tale, nous avons pris systé- plus élevé. Nous avons testé le
matiquement, toujours dans classement des voies pour une
la voie de la pinocembrine, des autre molécule, le Malonyl-
séquences qui avaient un score CoA, un cofacteur de la voie
élevé et d’autres avec un score de production de la pinocem-
plus bas d’après les méthodes brine. On a là encore une assez
d’apprentissage (Figure 10, bonne corrélation entre les
partie droite). La Figure 10, scores retournés des classe-
haut gauche, montre que les ments des voies et la quan-
séquences avec un score bas tité de pinocembrine obtenue
donnent moins de produit final (Figure 10, bas gauche).

Figure 10
Une fois énumérées, les voies de
synthèse vont être classées en
fonction du score des séquences
enzymatiques retourné par la
méthode d’apprentissage. À
gauche, les graphiques montrent
qu’il y a une bonne corrélation
entre le score prédit par les
méthodes d’apprentissage et
la productivité. En effet, les
séquences avec un score élevé
donnent une quantité de produit
final plus importante que celles
avec un score bas.

188
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
3 Exemples
d’applications
de ce dispositif de
rétrosynthèse

3.1. Application à l’ingénierie


métabolique
Les méthodes développées
en rétrosynthèse se révèlent
très précieuses pour l’ingé-
nierie métabolique, où l’on
veut construire des banques
combinatoires, en variant par
exemple les promoteurs20, les
origines de réplication, ou les
séquences des sites de fixa-
tion du ribosome. D’une façon
complètement robotisée, nous
avons construit une banque de Figure 11
41 plasmides21, où nous avons
À gauche, modélisation de la construction de 41 plasmides en faisant
varié le nombre de copies des
varier l’origine de réplication, la force des promoteurs et l’ordre des
plasmides, la force des pro- gènes. Cette banque permet de tester toutes les combinaisons possibles ;
moteurs et l’ordre des gènes pour faire un premier tri, on ne garde que celles qui ont un score élevé.
en prenant les séquences Une des combinaisons a montré un taux de production très élevé, 50 mg/L
enzymatiques de la Figure 10 de pinocembrine, représenté à droite.
ayant le meilleur score. Pour
l’une de ces constructions,
nous avons obtenu environ
cinquante milligrammes par
litre de pinocembrine – à com- Voie produite
xylMA
xylC
TsaM
TsaB
TsaC TsaD

parer à l’état de l’art actuel qui par RetroPath : p-xylène 4-methyl- 4-(hydroxy- 4-carboxy- TPA

est de quarante milligrammes


benzoate methyl)benzoate benzaldehyde

Une seule construction (dans E. coli)


par litre. Le châssis utilisé P. putida P. putida Comamonas testosteroni

était là aussi Escherichia coli A xylMA xylC tsamB tsaCD

(Figure 11).
La Figure 12 montre d’autres
exemples d’applications de Voie produite TAL C3H COMT
24 constructions dans (E. coli JM109)
par RetroPath :
ces mêmes méthodes de Arabidopsis thaliana

rétrosynthèse. La Figure 12A L-Tyr P-coumarate Caffeic acid Ferulic acid Tal Comt C3H

correspond à la produc- Rhodobacter sphaeroides


Saccharothrix epanaensis
Saccharothrix epanaensis
Escherichia coli
Herpetosiphon aurantiacus Catharanthus roseus
tion de téréphtalate (TPA), Rhodobacter sphaeroides
Zea mays (Maize)
Bacillus megaterium

Flavobacterium johnsoniae

B > 60 mg/L d’acide félurique

20. Promoteur : courte séquence


d’ADN, généralement situé en Figure 12
amont du gène, qui en contrôle
l’expression, notamment en régu- Exemples d’utilisation de RetroPath pour trouver des voies de synthèse.
lant sa transcription. Pour le TPA, en haut, une voie de synthèse est proposée en utilisant
21. Plasmide : molécule d’ADN quatre enzymes (xylMA, xylC, tsaMB, tsaCD). Cette voie a montré une
circulaire double brin, naturelle bonne productivité dans le châssis Escherichia coli. Pour l’acide férulique,
ou modifiée artificiellement, dans une voie a été proposée avec plusieurs constructions possibles (24 au total
le but de l’utiliser en recherche dans Escherichia coli). La construction avec les trois enzymes (TaI, Comt
biologique. et C3H) donne une production supérieure à 60 mg/L d’acide férulique. 189
Chimie et biologie de synthèse

un monomère utilisé dans 3.2. Application à l’ingénierie


le polyéthylène téréphta- de biocapteurs
late (PET) et aussi dans le
Nous présentons dans ce
kevlar ®22 . La méthode de
paragraphe des applications
rétrosynthèse nous donne une
de la rétrosynthèse liées aux
voie à partir du xylène, en uti-
biocapteurs. Nous rappelons
lisant quatre enzymes. Cette
qu’il s’agit ici de modifier au
voie a effectivement été mise
travers de réactions enzyma-
en œuvre dans Escherichia coli
tiques une molécule en une
avec succès.
autre détectable par un fac-
L’exemple de la Figure 12A teur de transcription ou un
est la production de l’acide riborégulateur.
férulique, un précurseur de
Pour ce faire, nous avons uti-
la vaniline, qui est un arôme
lisé le workflow RetroPath2.0
artificiel mais aussi un pré-
présenté plus haut avec,
curseur d’autres molécules
comme donné d’entrée, les
intéressantes pour l’industrie
molécules que l’on aimerait
cosmétique comme le malate
détecter (« source ») – ici des
de synapoyle, inter venant
molécules thérapeutiques
dans les crèmes anti-UV. Ici,
(médicaments) répertoriées
nous avons une voie et plu-
dans la base de données
sieurs séquences enzyma-
DrugBank 2 3 , des biomar-
tiques possibles. Nous les
queurs issus de la base de
avons toutes construites (soit
données HMDB24 et des pro-
24). L’une d’entre elles a donné
duits toxiques pour l’environ-
plus de 70 mg/L d’acide féru-
nement de la base de données
lique (Figure 12).
Tox2125. Dans ces trois cas,
Parmi les autres vérifications les molécules sont modifiées
expérimentales que nous avons pour être détectées par les
menées, nous avons utilisé le règles de réactions présen-
workflow RetroPath2.0 pour tées plus haut (Figure 13).
des molécules de la base de
Afin d’augmenter les chances
données LASER, qui référencie
de succès expérimentaux,
toutes les constructions d’in-
nous avons choisi des dia-
génierie métabolique de diffé-
mètres infinis pour s’assurer
rents groupes académiques et
qu’il y avait bien une séquence
industriels. Nous avons donné
enzymatique capable de cata-
au workflow de rétrosynthèse
lyser les réactions. Les molé-
seulement la molécule finale
cules finales recherchées
et la souche utilisée. Dans
(« sink ») sont ici des effec-
80 % des cas, RetroPath2.0 a
teurs, c’est-à-dire des molé-
retrouvé les voies de synthèses
cules détectables directement
stockées dans la base de don-
par des facteurs de transcrip-
nées LASER.
tion ou des riborégulateurs.
Malheureusement cette infor-
22. Kevlar® : marque déposée
mation n’est pas disponible
d’une fibre d’aramide (produite par
l’entreprise Dupont de Nemours). directement dans une base de
Le kevlar® est recherché pour ses
propriétés spécifiques, sa transpa- 23. https://www.drugbank.ca/
rence aux ondes radar, son com- 24. http://www.hmdb.ca/
portement linéaire et sa tolérance 25. https://ntp.niehs.nih.gov/results/
190 élevée aux chocs et à l’usure. tox21/index.html
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
données, et tout un travail a
été nécessaire pour compiler
une liste de ces effecteurs au
travers différentes bases de
données comme RegulonDB26,
qui s’intéresse au réseau de
régulation chez Escherichia
coli. Toujours est-il qu’à partir
du workflow présenté dans la
Figure 13, on est capable de
concevoir le design d’environ
mille biocapteurs.
À partir de ce travail, nous
avons développé un site web27
où l’on peut rentrer n’importe
quelle molécule et obtenir
les voies métaboliques qui
la transforment en effecteur, Figure 13
ainsi que les informations sur À gauche, la modélisation du workflow montre les différentes sources
les facteurs de transcrip- d’entrée possibles : DrugBank, HMDB, Tox21. Les pourcentages de
tion et les séquences enzy- molécules détectables sont donnés pour chacune des sources choisies.
matiques. À partir du site Par exemple, pour DrugBank, 7,9 % des molécules sont détectables
http://sensipath.micalis.fr/, on après transformation enzymatique, ce qui constitue une augmentation de
+118 % par rapport aux molécules directement détectables. Le graphe
dispose de toutes les informa-
en bas à droite est un visuel extrait du site http://sensipath.micalis.fr,
tions nécessaires pour passer la molécule à détecter est ici la cocaïne et les effecteurs sont en vert
à la construction, ce que nous (benzoate, benzaldehyde…).
avons réalisé pour une dou-
zaine de biosenseurs.
Dans nos constructions, nous
utilisons deux plasmides : un son tour, active le facteur de
plasmide qui va coder pour les transcription BenR permet-
enzymes qui vont transformer tant d’exprimer une protéine
la molécule non détectable fluorescente.
en effecteur, et un plasmide L’insert de la Figure 14 montre
comprenant le senseur lui- les courbes dose-réponse de
même, c’est-à-dire le facteur d’acide hippurique (qui ne
de transcription ainsi qu’un présente qu’une fluorescence
marqueur fluorescent. négligeable) et de l’acide ben-
Une application expérimen- zoïque (qui présente une fluo-
tale de ces techniques est rescence importante) lorsque
illustrée sur la Figure 14. Le le module métabolique est
but est de détecter l’acide hip- absent. Comme attendu,
purique, qui est un biomar- l’acide hippurique n’est pas
queur du cancer de la prostate détecté par le biosenseur.
et de diverses intoxications, La Figure 14 montre qu’en pré-
par exemple par le toluène. sence du module métabolique,
L’acide hippurique, indétec- la fluorescence de l’acide hip-
table, peut se transformer purique suit celle de l’acide
en acide benzoïque qui, à benzoïque, montrant que la
transformation est complète.
26. http://regulondb.ccg.unam.mx/ On vérifie donc que l’acide hip-
27. http://sensipath.micalis.fr/ purique est bien détectable 191
Chimie et biologie de synthèse

Molécule
Module métabolique Module de détection
non
détectable

Acide hippurique Acide benzoïque

Fluorescence relative (A.U.)


B Concentration (µM)

Figure 14
A) La molécule non détectable est d’abord transformée par réactions
enzymatiques, ensuite le produit de ces réactions est détecté par un
facteur de transcription qui à son tour permet d’exprimer une protéine
fluorescente ; B) en bas, la flurorescence est donnée en fonction de la
concentration en acide hippurique et en acide benzoïque. Sans module
métabolique, l’acide hippurique n’est pas transformé en acide benzoïque
(insert) et aucune fluorescence n’est observée pour l’acide hippurique.
Lorsque du module métabolique est ajouté, les courbes relatives à l’acide
benzoïque et à l’acide hippurique sont superposées, ce qui signifie que
l’acide hippurique a totalement été consommé en acide benzoïque.

lorsque que le module méta- pour transformer ce polluant


bolique est introduit dans la en une molécule détectable
construction du biosenseur. directement par un facteur
La Figure 15 donne d’autres de transcription. Les deux
exemples de détection : courbes sont quasiment iden-
tiques, indiquant là encore que
−− le parathion : un polluant
la molécule est complètement
environnemental, qui est aussi
transformée.
un produit de dégradation du
cyclosarin28, un gaz de combat. La Figure 16 présente d’autres
Là encore on a une belle courbe exemples de détection de bio-
dose/réponse (Figure 15), le marqueurs du cancer de la
parathion est complètement prostate. Dans les exemples
transformé en une molécule- choisis, nous avons cherché à
effecteur détectable ; augmenter la spécificité de nos
biosenseurs, en faisant coexis-
−− le chloronitrophénol : on
ter plusieurs transformations
a besoin de deux enzymes
où un même biomarqueur
est transformé en plusieurs
28. Cyclosarin : substance effecteurs. Nous avons aussi
chimique extrêmement toxique
cherché à faire une détection
utilisée comme arme chimique
(il entraîne la mort par asphyxie). multiplexe de différents bio-
C’est un agent organophosphoré marqueurs, car souvent dans
192 neurotoxique dérivé du sarin. les cancers, la mesure de la
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
Figure 15
Fluorescence relative (A.U.)

Fluorescence relative (A.U.)


Cocaïne Acide benzoïque
Parathion 4-nitrophénol Plusieurs exemples de courbes
dose/réponse pour la cocaïne, le
parathion, l’acide hippurique et
le 2C4NP. Chaque courbe montre
que grâce au module métabolique,
les molécules à détecter sont
totalement consommées. Ainsi, ces
molécules ont été transformées en
Acide Acide molécules détectables.
Fluorescence relative (A.U.)

Fluorescence relative (A.U.)


hippurique benzoïque 2C4NP Chlorohydroquinone

Concentration (µM) Concentration (µM)

A
oxySP katGp
promoteur promoteur
7
Fluorescence/OD (a.u. ×10 )

Fluorescence/OD (a.u. ×105)


5

3,8
Transducteur
6,5
EC : 1.5.3.1 3,6
I O
3,4 6
[I] [O] =[I]
E1
B
3,2
Sarcosine H2O2 5,5
3
1 10 100 1000 1000 Biomarqueur Effecteurs
Concentration en sarcosine (µM) Acide benzoïque
Acide hippurique
Glycine
oxySP katGp Glycine
promoteur promoteur Kynurénine
Anthranilate
Fluorescence/OD (a.u. ×10 )

Fluorescence/OD (a.u. ×105)


5

4,4 8,2
EC : 1.1.3.11 Glycine
4,1 Sarcosine
I O 7,8 H2O2
[I] [O] =[I] 3,8 Aspartate
E2 7,4 N-acétyl-aspartate
H2O2
Sorbose H2O2 3,5
7 L-lysine
Pipécolate H2O2
3,2
6,6
1 10 100 1000 10000 100000 Cholestérol H2O2
Concentration en L-sorbose (µM) L-Iditol
L-Sorbose
H2O2
Fluorescence/OD600 Urée
Additionneur (a.u.) Créatinine
H2O2 + Glycine
10000
Concentration en sarcosine (µM)

Sarcosine 1,6 ×10 6


• Delepine, B., et al. Metab Eng. 2018
5000
[I1]
6
I1 E1 1,4 ×10
1000

500
O 1,2 ×106
[O] = [I1] + [I2] 100
I2 E2
[I2] H2O2 10
1,0 ×106

Sorbose 1 8,0 ×105

1 10 100 500 1000 5000 10000


Concentration en L-sorbose (µM)

Figure 16
A) Modélisation des dispositifs électroniques utilisés dans la biologie de synthèse : transducteur et additionneur.
Dans le cadre des transducteurs, les biomarqueurs vont être transformés en effecteurs ; B) ce tableau permet
de répertorier les effecteurs relatifs aux biomarqueurs. Les graphiques au centre montrent la fluorescence
observée en fonction de la concentration en biomarqueur en utilisant différents facteurs de transcriptions (oxySp
et katGp). Dans le cadre de l’additionneur, on va coupler deux biomarqueurs en un effecteur, ici la sarcosine et
le L-Sorbose tous les deux transformés en H2O2. En sortie, on obtient une cartographie de la fluorescence en
fonction de la concentration des deux biomarqueurs ; on peut aisément vérifier que la fluorescence est bien
proportionnelle à la somme des concentrations des biomarqueurs. 193
Chimie et biologie de synthèse

concentration d’une seule présente dans une certaine


molécule n’est pas suffisante concentration. D’autre part,
à diagnostiquer la maladie. les circuits métaboliques,
Pour réaliser des détections basés sur des transformations
spécifiques et multiplexes, enzymatiques, sont beaucoup
nous avons construit plu- plus rapides que les circuits
sieurs dispositifs, et en par- génériques-numériques.
ticulier des transducteurs et En effet, un circuit géné-
des additionneurs (Figure 16, rique prend au minimum une
gauche). Il est à noter que nos demi-heure pour exprimer
dispositifs sont différents de les protéines sur chacune de
ceux réalisés de façon cou- ces couches, donc l’exécu-
rante en biologie de synthèse, tion d’un circuit à plusieurs
où l’on a souvent affaire à des couches peut être très longue.
dispositifs génétiques-numé- La cinétique des circuits méta-
riques, par exemple des boliques-analogiques est celle
portes logiques, où l’on doit des réactions enzymatiques,
exprimer des protéines ou des donc beaucoup plus rapide.
séquences d’ARN. Ici, nous
parlons de dispositifs méta- 3.3. Application à la
boliques-analogiques. métabolomique
L’avantage de travailler de La dernière application pré-
façon analogique au niveau sentée dans ce chapitre est une
du métabolisme, c’est d’évi- tentative de pallier à l’insuffi-
ter d’avoir à discrétiser nos sance de la connaissance des
entrées. En effet, un méta- métabolites des souches uti-
bolique n’est jamais ON ou lisées en biotechnologie. En
OFF dans une cellule mais est effet, la Figure 17 montre la

Nombre de
Système de règles
composés générés

Figure 17
Distribution des masses d’Escherichia coli. En noir, la courbe correspond
au modèle et en rouge au résultat de spectrométrie de masse d’un extrait
cellulaire d’Escherichia coli. Les différences entre les deux courbes
s’expliquent par le manque de certains métabolites dans le modèle.
En dessous, le tableau montre le nombre de composés générés par
194 RetroPath2.0 en fonction des systèmes de règles choisis.
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
distribution des masses dans du modèle d’Escherichia coli
un modèle d’Escherichia coli ne couvrent que de 12 % des
(courbe noire en haut à gauche). masses. En utilisant les règles
Des bases de données comme de réactions de RetroPath
EcoCyc29 donnent le même type d’un diamètre de 16, 23 % des
de courbe. La courbe en rouge masses du spectre sont cou-
est une courbe calculée à par- vertes (Figure 18, bas gauche)
tir du spectre de masse d’un avec un diamètre 4, la couver-
extrait cellulaire d’une cellule ture est de 60 %. Il est ainsi
d’Escherichia coli. On observe possible de proposer une (ou
une différence entre la distri- plusieurs) molécule(s) pour
bution expérimentale et la dis- 60 % des masses du spectre.
tribution du modèle montrant Le couplage RetroPath2.0-
ainsi que certains métabolites OpenMS nous a permis de
sont absents du modèle. détecter la présence dans
Ne peut-on pas alors utiliser l ’échantillon de l ’Acét yl-
des programmes de rétro- Leucine 31, qui n’est pas un
synthèse pour trouver les métabolite connus dans les
molécules manquantes dans modèles d’Escherichia coli
les modèles ? Effectivement, (Figure 19).
en utilisant le workflow Afin de confirmer la pré-
RetroPath2.0 avec les règles sence d’Acétyl-Leucine dans
de réactions de SimPheny, Escherichia coli, l’étape sui-
BNICE ou Retropath, on vante de notre travail a été de
obtient un certain nombre vérifier par spectrométrie de
de molécules qui ne sont pas masse que le pic observé était
initialement dans le modèle effectivement celui de l’Acé-
d’Escherichia coli. tyl-Leucine (Figure 20, haut).
L’intérêt d’utiliser des sys- Nous avons ensuite recherché
tèmes de workflows est de les enzymes chez Escherichia
pouvoir facilement les coupler coli responsables de la syn-
entre eux. Ainsi RetroPath2.0 thèse de l’Acétyl-Leucine.
peut être couplé avec le work- Pour ce faire, nous avons
flow OpenMS qui permet de utilisé une des méthodes
faire de l’annotation des d’apprentissage automatique
spectres de masse et aider présentées au paragraphe 2.2
à la confirmation ou non de (c’est-à-dire un processus
la présence d’une molécule à gaussien). L’étude a montré
partir de sa masse. que les enzymes ECBD4067
La Figure 18 (haut gauche) et ECDB4269 étaient respon-
montre le résultat obtenu sables de la synthèse d’Acétyl-
par OpenMS en utilisant Leucine (Figure 20). Il est bon
en entrée un spectre de de noter que de tels exemples
masse d’un extrait cellulaire d’utilisation de méthodes
d’Escherichia coli téléchargé d’apprentissage automatique
à partir de la base de données en biologie de synthèse ne
MetaboLights 30. sont pas si fréquents.
La Figure 18 (haut droite)
montre que les métabolites 31. Acétyl-Leucine : substance
chimique qui est notamment uti-
29. https://ecocyc.org/ lisée comme médicament contre
30. www.ebi.ac.uk/metabolights/ les vertiges. 195
Chimie et biologie de synthèse

Figure 18
Spectre de masse d’un extrait cellulaire d’Escherichia coli obtenu par le workflow OpenMS. Les points noirs
représentent les données expérimentales. On peut ensuite corréler ce graphique avec les masses des molécules
d’un modèle d’Escherichia coli (en bleu), où seulement 12,3 % des masses expérimentales sont couvertes.
On augmente cette couverture en utilisant les masses des molécules produites par RetroPath2.0 (en rouge).
En diminuant progressivement le diamètre, la partie du spectre couverte augmente : pour un diamètre de 16 :
23,1 %, et pour un diamètre de 4 : 60,6 %.

Figure 19
Detection de l’Acétyl-Leucine (en
haut à gauche) dans le spectre de
masse. Les données retournées
montrent que la masse trouvée
correspond bien à celle de l’Acétyl-
Leucine.

196
La rétrosynthèse en biologie : production de molécules bioactives et dispositifs pour le diagnostic
Figure 20
Recherche par apprentissage automatique et vérification expérimentale
des séquences d’Escherichia coli responsables de la synthèse d’Acétyl-
Leucine. La recherche par apprentissage automatique retourne trois
séquences possibles (ECBD0907, ECBD4067, et ECBD4269) correspondant
à trois voies métaboliques différentes. Dans chaque cas, les enzymes
ont été surexprimées pour mesurer l’augmentation d’Acétyl-Leucine.
On a ainsi pu démontrer que les enzymes ECBD4067 et ECBD4269 étaient
responsables de la production d’Acétyl-Leucine. Le spectre de masse
(en haut ; couplage « MS-MS ») de l’Acétyl-Leucine permet de vérifier
le produit obtenu.

La rétrosynthèse, aujourd’hui
et demain
Ce chapitre a montré que la rétrosynthèse
pouvait être performante dans diverses applica-
tions biologiques. Nous avons vu explicitement
trois exemples, mais il en existe d’autres : la
biorémédiation32 ou la dégradation de compo-
sés, le métabolisme alternatif, pouvant être
utilisé pour fabriquer de façon plus efficace
des molécules en utilisant moins d’énergie,
ainsi que la combinaison des règles de réac-
tions de synthèse chimique avec des règles de
biosynthèse. On peut aussi envisager de déve-

32. Biorémédiation : technique consistant à augmenter la biodégradation


ou la biotransformation, en introduisant des micro-organismes spéci-
fiques ou en stimulant l’activité de populations microbiennes, par apport
de nutriments et par ajustement des conditions de milieu. 197
Chimie et biologie de synthèse

lopper des approches de criblage de l’espace


chimique consistant à faire évoluer des popu-
lations de molécules au moyen de réactions
chimiques et/ou enzymatiques.
Nous avons aussi montré que la rétrosyn-
thèse pouvait être codée sous forme de work-
flows scientifiques, très simples d’utilisation.
Des workflows, encore en développement,
permettent déjà de piloter des robots destinés
à être utilisés dans les processus d’ingénierie.
Ainsi, à terme, le processus d’ingénierie de
souches pourrait être complètement piloté et
contrôlé par un système automatique basé sur
la technologie des workflows.
Finalement, nous avons montré que l’apprentis-
sage automatique était utile dans les méthodes
de rétrosynthèse telles qu’appliquées en biolo-
gie, pour la recherche des séquences enzy-
matiques, mais aussi pour les prédictions de
toxicité et le classement des voies de synthèses.
L’étape suivante est le développement d’un
apprentissage actif où le cycle construction,
mesure, apprentissage est itéré une première
fois, puis relancé avec les mesures obtenues à
la première itération. Finalement, pourquoi ne
pas utiliser ces méthodes d’apprentissage pour
faire directement de l’ingénierie de génome,
pour rechercher par exemple automatiquement
les niveaux d’expression de gènes permettant
l’optimisation d’une souche de bioproduction ?

198

Vous aimerez peut-être aussi