Conditions d'optimalité
En optimisation mathématique, les conditions d'optimalité sont un ensemble d'équations, d'inéquations (c'est-à-dire des inégalités) et d'expressions diverses (par exemple, la copositivité de matrices) vérifiées par une solution d'un problème d'optimisation (on parle alors de conditions nécessaires d'optimalité) ou qui permettent d'affirmer qu'un point qui les vérifie est solution du problème d'optimisation considéré (on parle alors de conditions suffisantes d'optimalité). Ces expressions analytiques de l'optimalité sont utiles entre autres pour :
- calculer les solutions d'un problème d'optimisation,
- vérifier l'optimalité d'un point donné,
- concevoir des algorithmes de résolution.
Cet article se limite aux conditions d'optimalité des problèmes d'optimisation différentiable et de dimension finie.
Les plus importantes sont les conditions KKT.
Préambule
[modifier | modifier le code]Cet article se limite aux conditions d'optimalité des problèmes d'optimisation différentiable et de dimension finie. Le terme différentiable signale que les fonctions définissant le problème sont supposées différentiables au sens classique (celui de Fréchet). Lorsque la différentiabilité a lieu dans un sens plus faible on parle d'optimisation non lisse ou d'optimisation non différentiable, discipline dans laquelle on établit des conditions d'optimalité plus fines que celles présentées dans cet article. Il ne sera donc pas non plus question ici des problèmes d'optimisation combinatoire dans lesquels les variables prennent des valeurs discrètes, si bien que la différentiabilité requise n'a pas de sens. Quant aux termes dimension finie, ils font référence au fait que l'on cherche la valeur optimale d'un nombre fini de paramètres (mais ceux-ci doivent pouvoir varier continûment). Le système à optimiser peut, quant à lui, être de dimension infinie, comme c'est le cas de l'optimisation d'une forme géométrique (de dimension infinie) décrite par des splines (représentés par un nombre fini de paramètres). Les conditions d'optimalité des problèmes d'optimisation de dimension infinie sont considérées ailleurs.
On parle de conditions du premier ordre si ces conditions font intervenir les dérivées premières des objets définissant le problème (il faudra définir ce que l'on entend par la dérivée de l'ensemble admissible du problème), mais pas les dérivées d'ordre supérieur, et de conditions du second ordre si ces conditions font intervenir les dérivées secondes des objets définissant le problème, mais pas les dérivées d'ordre supérieur.
Les conditions d'optimalité d'un problème d'optimisation avec contraintes introduisent des variables cachées, les multiplicateurs ou variables duales, qui n'apparaissent pas dans l'énoncé du problème et qui sont donc difficiles à appréhender (elles appartiennent à un autre espace que celui des variables à optimiser). Elles jouent cependant un rôle crucial dans la compréhension du problème, notamment parce qu'elles s'interprètent comme des coûts marginaux, très utiles en pratique ; il est donc important de s'y familiariser.
Les conditions d'optimalité sont présentées ci-dessous pour des problèmes d'optimisation de généralité (et de difficulté) croissante. Celles énoncées pour un problème d'une certaine généralité peuvent être utilisées pour exprimer les conditions d'optimalité d'un problème qui l'est moins, car celui-ci pourra toujours être vu comme un cas particulier du premier problème. Le lecteur pressé peut donc directement aborder le cas du problème le plus abstrait, mais il lui manquera alors certaines notions coutumièrement utilisées à des niveaux d'abstraction moindres.
Connaissances supposées : le calcul différentiel, l'algèbre linéaire, les bases de l'analyse convexe (en particulier le lemme de Farkas).
Le problème générique
[modifier | modifier le code]Le problème PX
[modifier | modifier le code]Soit un espace vectoriel sur de dimension finie, qui désigne l'ensemble auquel appartiennent les paramètres que l'on cherche à optimiser. Étant de dimension finie, il n'y a pas de restriction à supposer que cet espace vectoriel est muni d'un produit scalaire, noté , qui en fait un espace euclidien. La norme associée à ce produit scalaire est notée . Le problème d'optimisation considéré s'exprime mathématiquement comme celui qui consiste à minimiser une fonction sur une partie de . La fonction a de nombreuses appellations, ce qui permet de varier le vocabulaire : fonction-coût, coût, fonction-objectif, objectif, critère, etc. L'ensemble est appelé l'ensemble admissible du problème et un point lui appartenant est appelé point admissible. Ce problème, désigné ci-après , s'écrit au choix comme suit :
.
Une solution ou minimum ou minimiseur de ce problème est un point de l'espace vectoriel vérifiant deux conditions : il doit être admissible et minimiser le critère sur l'ensemble admissible. Ceci s'écrit
.
On adjoint souvent le qualificatif global à cette notion de solution pour la distinguer d'autres notions présentées ci-dessous. Signalons également que l'on remplace parfois ‘‘’’ par ‘‘’’ dans l'écriture du problème d'optimisation lorsqu'il est certain que ce problème a une solution.
Dans certaines sous-disciplines de l'optimisation, on utilise parfois la locution malheureuse solution optimale qui, avec le sens de solution donné ci-dessus, est un pléonasme (dans cette locution, le mot solution signifie en réalité point admissible, mais il semble préférable de laisser au mot solution son sens habituel de solution d'un problème).
On introduit aussi d'autres notions de solutions. Ainsi on dit que est une solution locale ou minimum local ou minimiseur local du problème s'il existe un voisinage de tel que minimise sur . Par ailleurs, on dit que est une solution stricte [resp. une solution locale stricte] si est admissible et si (inégalité stricte) pour tout différent de [resp. pour tout différent de où est un voisinage de ].
Forme géométrique de l'optimalité au premier ordre
[modifier | modifier le code]Lorsqu'une fonction atteint un minimum en un point, elle varie peu dans le voisinage de ce point. Mathématiquement, cette observation se traduit par le fait que sa dérivée y est nulle. Ceci est une condition d'optimalité du premier ordre bien connue pour un problème sans contrainte (ces conditions sont présentées à la section problèmes sans contrainte ci-dessous). Si l'on veut établir une expression similaire dans le cas des problèmes avec contrainte, il est nécessaire de dire ce qu'est l'approximation au premier ordre de l'ensemble admissible en un point, de linéariser cet ensemble en ce point, comme on peut le faire pour la fonction-coût. Ceci conduit à la notion de cône tangent, développée dans un autre article.
Rappelons quand même ici qu'une partie de (un espace vectoriel suffit pour cette notion) est un cône si , ce qui signifie que doit appartenir à chaque fois que est un réel strictement positif (i.e., ) et . Un cône n'est pas un objet de l'algèbre linéaire, mais de l'analyse convexe. On rencontre donc ici une première manifestation de l'importance de cette dernière théorie en optimisation.
On utilisera ici la notion de cône tangent au sens de Bouligand[1], qui suffit en dimension finie. Précisons que ce cône tangent à en , noté ci-dessous, est l'ensemble des directions tangentes à en , c'est-à-dire des directions pour lesquelles il existe des suites d'éléments de et d'éléments de telles que
La notion de cône tangent permet d'obtenir aisément une condition nécessaire d'optimalité du premier ordre pour le problème générique — on suppose donc ici que le critère de ce problème est différentiable. Cette condition exprime que la fonction-coût croît depuis un minimum local en suivant une direction tangente, ce qui se traduit mathématiquement par
C'est ce qu'on appelle la forme géométrique de l'optimalité au premier ordre. Ce résultat avait déjà été exprimé par Peano dès 1887[2],[3], puis par Kantorovitch en 1940[4], mais il est passé inaperçu ou a été oublié[5],[6]. On peut en donner une expression plus compacte en introduisant les notions de gradient et de cône dual.
- La dérivée première de en étant une application linéaire de dans , par le théorème de Riesz-Fréchet, il existe un unique vecteur vérifiant
Ce vecteur est appelé le gradient de en . Il dépend manifestement du produit scalaire de l'espace euclidien .
- Soit une partie non vide de l'espace euclidien . Le cône dual (positif) de est l'ensemble défini par
pour tout
C'est un cône convexe fermé non vide.
Avec ces deux concepts, l'expression géométrique de l'optimalité donnée ci-dessus devient
Cette condition est générique et c'est elle qui sera particularisée ci-dessous à des problèmes dont l'ensemble admissible a une structure plus précise. Le travail sera dans chaque cas celui de trouver une expression plus pratique, plus accessible au calcul, du cône dual du cône tangent, conduisant ainsi à la forme analytique de l'optimalité.
Résumons le résultat obtenu. On utilise l'abréviation CN1 pour désigner une condition nécessaire d'optimalité du premier ordre.
CN1 de Peano-Kantorovitch — Si est un minimum local de et si est dérivable en , on a
,
ce qui s'écrit aussi
.
On dit que est un point stationnaire ou un point critique du problème , si ce point est admissible et s'il vérifie la condition d'optimalité du premier ordre donnée dans le résultat ci-dessus.
Lorsque l'ensemble admissible est convexe, on dispose d'une CN1 ne faisant pas intervenir le cône tangent. On y a noté la dérivée directionnelle de en dans la direction , c'est-à-dire la limite lorsque du quotient différentiel .
CN1 lorsque est convexe — Si l'ensemble admissible est convexe, si est un minimum local de et si admet des dérivées directionnelles en , on a
.
Enfin, lorsque à la fois l'ensemble admissible est convexe et le critère est convexe sur l'ensemble admissible, la condition précédente est une condition nécessaire et suffisante d'optimalité du premier ordre, une propriété que l'on résume par l'abréviation CNS1. Il n'y a alors plus de distinction entre minimum local et global.
CNS1 lorsque est convexe — Si l'ensemble admissible est convexe, si le critère est convexe sur et si admet des dérivées directionnelles en , alors est un minimum de si, et seulement si,
.
Pour les problèmes convexes, il n'y a donc pas de distinction entre un minimum local et global : tous les minima locaux sont globaux. C'est une seconde manifestation de l'importance de l'analyse convexe en optimisation.
Problèmes d'optimisation sans contrainte
[modifier | modifier le code]Le problème que l'on considère dans cette section est celui de minimiser la fonction sur tout entier, problème que l'on écrit
Dès lors, l'ensemble admissible est l'espace vectoriel .
Conditions du premier ordre sans contrainte
[modifier | modifier le code]Le cône tangent à en est l'espace tout entier. Comme le dual de est , la CN1 générique exprime que le gradient est nul en un minimum local de sur . Cette condition d'optimalité est parfois appelée « équation de Fermat » pour rappeler une condition similaire trouvée, dans le cas d'un polynôme réel d'une variable réelle, par Pierre de Fermat vers 1629, c'est-à-dire environ quarante ans avant l'invention du calcul différentiel par Newton et Leibniz[7].
CN1 de Fermat — Si est un minimum local de sur et si admet des dérivées directionnelles en , on a
.
Si, de plus, est dérivable en , on a
.
Lorsque est convexe, ces conditions deviennent des conditions nécessaires et suffisantes d'optimalité globale de .
CNS1 pour une fonction convexe — Soient une fonction convexe sur et .
- Si admet des dérivées directionnelles en , alors est un minimum global de sur si, et seulement si,
.
- Si est dérivable en , alors est un minimum global de sur si, et seulement si,
.
Conditions du deuxième ordre sans contrainte
[modifier | modifier le code]On désigne ci-dessous par la dérivée seconde de en , qui est une application bilinéaire symétrique de dans , et par la hessienne de en pour le produit scalaire de l'espace euclidien , qui est l'unique opérateur linéaire auto-adjoint sur vérifiant
Rappelons également les notions de semi-définie positivité et définie positivité d'un opérateur auto-adjoint sur , associées au produit scalaire de , qui sont utilisées dans les résultats ci-dessous :
- est semi-défini positif si pour tout vecteur ,
- est défini positif si pour tout vecteur .
Les résultats suivants résument les conditions nécessaires du second ordre (CN2) et les conditions suffisantes du second ordre (CS2) pour les problèmes d'optimisation sans contrainte.
CN2 des problèmes sans contrainte — Si est dérivable dans un voisinage d'un point et deux fois dérivable en et si est un minimum local de sur , alors et est semi-défini positif.
CS2 des problèmes sans contrainte — Si est dérivable dans un voisinage d'un point et deux fois dérivable en et si et est défini positif, alors est un minimum local strict de sur .
On peut se servir de ces conditions du second ordre comme suit. La CN1 de Fermat est un système non linéaire qui a quelques chances d'être bien posé. Par exemple si est équipé du produit scalaire euclidien, ce système est formé de équations (les dérivées partielles du critère) à inconnues. Si on calcule toutes les solutions de l'équation de Fermat (ceci est rarement une tâche aisée), on dispose, par définition, de tous les points stationnaires du critère. Ceux-ci ne sont pas nécessairement des minimiseurs de . Les conditions du deuxième ordre permettent souvent de sélectionner parmi ces points stationnaires ceux qui sont des minima locaux. En effet, d'après ces conditions
- si est un point stationnaire tel que n'est pas semi-défini positif, alors n'est pas un minimum local (condition nécessaire),
- si est un point stationnaire tel que est défini positif, alors est un minimum local strict (condition suffisante).
On ne recouvre pas ainsi tous les cas, puisque l'on pourrait avoir un point stationnaire avec une hessienne semi-défini positif, mais non défini positif (il a un noyau non trivial, une valeur propre nulle). L'ambiguïté de tels cas peut parfois être levée en examinant des conditions d'ordre plus élevé.
Problèmes d'optimisation avec contraintes d'égalité
[modifier | modifier le code]Le problème (PE)
[modifier | modifier le code]L'ensemble admissible du problème d'optimisation considéré dans cette section n'est pas l'espace tout entier, comme pour les problèmes sans contrainte de la section précédente, mais une partie de celui-ci, définie par un nombre fini de contraintes d'égalité :
Ces contraintes sont spécifiées au moyen d'une fonction
où est, tout comme , un espace euclidien (de dimension finie) dont le produit scalaire est aussi noté . Les dimensions des espaces sont notées
Il sera souvent approprié de supposer qu'en la solution recherchée, la jacobienne de la contrainte vérifie
est surjective.
Ceci requiert certainement d'avoir , c'est-à-dire d'avoir moins de contraintes que de variables à optimiser. Lorsque cette hypothèse est vérifiée, l'ensemble admissible est, dans un voisinage de , une variété (concept de base de la géométrie différentielle que l'on peut voir comme une surface ayant des propriétés de représentation particulières) de dimension .
Le problème d'optimisation considéré dans cette section s'écrit donc
où en est le critère.
Problème convexe — On dit que le problème est convexe si la contrainte est affine et si le critère est convexe sur .
L'ensemble admissible d'un problème convexe est donc un sous-espace affine de , donc un convexe.
Conditions du premier ordre avec contraintes d'égalité
[modifier | modifier le code]Comme le montre le cas générique, les conditions nécessaires d'optimalité du premier ordre peuvent s'obtenir en trouvant une représentation convenable du cône tangent à l'ensemble admissible et en prenant ensuite son cône dual.
On note le noyau et l'image d'une application linéaire entre deux espaces euclidiens et . L'adjointe de est l'application linéaire définie par la relation , pour tout et tout . On rappelle qu'en dimension finie, on a
.
Cette identité joue un rôle-clé dans le passage de la forme géométrique (utilisant la partie gauche de l'identité) à la forme analytique (utilisant sa partie droite) des conditions d'optimalité du premier ordre.
Le cône tangent à XE
[modifier | modifier le code]Le résultat suivant montre que le cône tangent est inclus dans un sous-espace vectoriel ; il lui sera égal dans les bons cas.
Estimation du cône tangent — Si est dérivable en , alors
Dans l'inclusion , le cône tangent Échec de l’analyse (SVG (MathML peut être activé via une extension du navigateur) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « http://localhost:6011/fr.wikipedia.org/v1/ » :): {\displaystyle \operatorname{T}_x X_E} ne dépend que de l'ensemble admissible , alors que dépend de la fonction utilisée pour définir . Il peut y avoir plusieurs fonctions définissant le même ensemble . Du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité a lieu. On dit alors que la contrainte (léger abus de langage, il faudrait dire la fonction utilisée pour définir ) est qualifiée en (sous-entendu «pour représenter »).
Qualification d'une contrainte d'égalité — On dit que la contrainte est qualifiée en (pour représenter ) si est différentiable en et si
Voici le résultat principal assurant que la contrainte est qualifiée en un point. On y retrouve la condition mentionnée ci-dessus assurant que est une variété dans le voisinage .
Condition suffisante de qualification d'une contrainte d'égalité — Si est dans un voisinage de et si est surjective, alors est qualifiée en
Voici une conséquence pratique de la notion de qualification de contrainte. Au lieu d'utiliser la fonction pour représenter l'ensemble admissible , on pourrait utiliser la fonction , définie par , puisque si, et seulement si, . Ceci paraît attrayant puisque l'on a ainsi remplacé toutes les contraintes d'égalité, en nombre potentiellement grand, par une seule contrainte. Cependant, la contrainte a encore moins de chance d'être qualifiée que puisque en un point et donc , qui est le plus souvent trop grand. Il n'est donc, en général, pas recommandé de remplacer par .
Condition de Lagrange
[modifier | modifier le code]Lorsque la contrainte est qualifiée, le cône tangent est le sous-espace vectoriel , dont le dual est alors son orthogonal . Par la CN1 générique, le gradient de en un minimum local de sur appartient à ce dernier ensemble, ce qui conduit aux conditions nécessaires d'optimalité du premier ordre (CN1) de Lagrange[8].
CN1 de Lagrange — Soit un minimum local de . Supposons que et soient dérivables en et que la contrainte soit qualifiée en au sens de la définition ci-dessus. Alors, il existe un vecteur tel que
où est le gradient de en et est l'opérateur adjoint de la jacobienne pour les produits scalaires donnés sur et . Le vecteur est unique si est surjective.
Ce résultat, parfois appelé méthode du multiplicateur de Lagrange, est attribué à Lagrange qui l'énonça dans sa Méchanique analytique (1788). On en trouve toutefois déjà des traces dans des travaux d'Euler sur les problèmes isopérimétriques (1744). Lagrange utilisa d'abord cette méthode pour résoudre un problème de calcul des variations sous contraintes et plus tard, dans sa Théorie des fonctions analytiques (1797), il l'applique aux problèmes de la forme [9],[10]
En l'absence de qualification de la contrainte, l'existence du multiplicateur n'est plus assurée, si bien que la condition nécessaire d'optimalité de Lagrange peut ne pas avoir lieu. Un exemple est donné dans la section suivante.
En pratique, il est souvent commode de retrouver la condition de Lagrange en introduisant le lagrangien du problème.
Lagrangien du problème — On appelle lagrangien du problème , la fonction définie en par
Le vecteur porte le nom de multiplicateur (de Lagrange) ou variable duale.
La variable est aussi appelée variable primale ; quant au couple , on lui donne parfois le nom de variable(s) primale(s)-duale(s).
Le lagrangien joue un rôle essentiel en optimisation avec contraintes. Le multiplicateur porte ce nom car il multiplie les contraintes dans le lagrangien, par l'intermédiaire du produit scalaire de . Sous les hypothèses du résultat ci-dessus, les conditions nécessaires d'optimalité du premier ordre peuvent maintenant s'écrire comme suit
On note ici [resp. ] le gradient par rapport à [resp. à ]. Ce système (non linéaire, en toute généralité) permet souvent de calculer une solution du problème d'optimisation . En réalité, cette solution est ce qu'on appelle un point stationnaire. Ce n'est pas nécessairement un minimum local du problème (ce point peut être un maximum local, qui n'est a priori pas le type de solution recherché), sauf si celui-ci est convexe.
CS1 pour un problème convexe — Supposons que le problème soit convexe, que soit dérivable en et qu'il existe un multiplicateur tel que vérifie
Alors est un minimum global de .
Pour les problèmes non convexes, ce sont les conditions du second ordre qui permettrons de sélectionner les minima locaux parmi les points stationnaires calculés.
Minimisation d'une fonction de n variables soumise à m contraintes
[modifier | modifier le code]Il est utile de spécifier les conditions d'optimalité de Lagrange lorsque , et que l'on munit ces espaces du produit scalaire euclidien
Il y a alors variables à optimiser et les contraintes du problème sont données explicitement au moyen de fonctions :
Le lagrangien du problème s'écrit
Observons que le multiplicateur de Lagrange a autant de composantes qu'il y a de contraintes ; chacune des composantes étant associée à une contrainte ; on dit d'ailleurs que le multiplicateur est associé à la contrainte . Si on utilise pour désigner le gradient d'une fonction réelle de variables par rapport au produit scalaire euclidien, c'est-à-dire le vecteur de ses dérivées partielles, les conditions d'optimalité s'écrivent sous la forme d'un système de équations à inconnues :
On voit donc qu'en la solution le gradient du critère est combinaison linéaire des gradients des contraintes (on se rappelle qu'en optimisation sans contrainte le gradient du critère est nul).
Voici un exemple de problème avec 2 variables et 2 contraintes, avec solution, mais sans multiplicateur optimal et donc sans condition de Lagrange (c'est l'absence de qualification des contraintes qui produit cet effet) :
L'unique point admissible est le point , qui est donc l'unique solution du problème. Cependant les contraintes ne sont pas qualifiées en ce point car le cône tangent est réduit à alors que le noyau de la jacobienne des contraintes est (on note par ailleurs que cette jacobienne, qui est une matrice ne saurait alors être surjective). Dans cet exemple, les conditions de Lagrange ne sont pas vérifiées (il n'y a pas de multiplicateur optimal), puisque le gradient de en la solution ne peut être combinaison linéaire des gradients des contraintes (ces derniers sont linéairement dépendants) :
Conditions du deuxième ordre avec contraintes d'égalité
[modifier | modifier le code]Comme en optimisation sans contrainte, les conditions d'optimalité du second ordre permettent de sélectionner les éventuelles solutions parmi les points stationnaires (i.e., les points vérifiant la condition de Lagrange). Ces conditions du second ordre des problèmes avec contraintes d'égalité diffèrent de celles des problèmes sans contrainte sur deux points :
- ce n'est pas la hessienne du critère qui intervient dans ces conditions, mais la hessienne du lagrangien,
- la hessienne du lagrangien n'est pas semi-définie positive sur l'espace des variables primales tout entier, mais sur le cône tangent.
D'où proviennent ces différences ?
En optimisation sans contrainte, les conditions nécessaires du second ordre résultent du fait que dans le voisinage d'une solution, le critère prend une valeur supérieure à celle qu'il prend en la solution. Un développement de Taylor du critère autour d'une solution et l'utilisation du fait que son gradient est nul en la solution impliquent alors immédiatement que la hessienne du critère doit être semi-définie positive en la solution. Dans le cas des problèmes avec contraintes d'égalité, utiliser la même démarche ne conduirait nulle part, car le gradient du critère n'est pas nécessairement nul en une solution (selon la condition de Lagrange, il est dans l'image de l'adjointe de la jacobienne de la contrainte). En réalité, c'est le gradient du lagrangien qui s'annule en une solution. C'est donc un développement de Taylor de cette fonction qui pourra apporter de l'information sur sa hessienne. Ceci explique le premier point ci-dessus. Par ailleurs, il est clair que sur l'ensemble admissible le lagrangien prend les mêmes valeurs que le critère, si bien qu'il prend aussi des valeurs supérieures à celle qu'il a en une solution. C'est la relation de monotonie recherchée qui conduira à la semi-définie positivité de la hessienne du lagrangien. Cependant, ce n'est que sur la variété des contraintes que cette relation de monotonie a lieu, si bien que la semi-définie positivité de la hessienne du lagrangien ne sera vérifiée que sur la variété linéarisée qu'est le cône tangent. Ceci explique le second point ci-dessus.
On devrait à présent mieux comprendre les conditions nécessaires du second ordre (CN2) pour un problème avec contraintes d'égalité, que voici.
CN2 pour le problème — Soit un minimum local de . Supposons que et soient dérivables dans un voisinage de et deux fois dérivables en et que la contrainte soit qualifiée en . Alors, il existe un multiplicateur tel que l'on ait et
Ce résultat donne-t-il suffisamment de conditions ou aurait-on pu en obtenir d'autres ? Ce sont les bonnes conditions car, comme en optimisation sans contrainte, si l'on remplace la semi-définie positivité par la définie positivité, on obtient des conditions suffisantes d'optimalité du second ordre (abrégées par CS2).
CS2 pour le problème — Supposons que et soient dérivables dans un voisinage de et deux fois dérivables en . Supposons que et qu'il existe tel que l'on ait et
Alors est un minimum local strict de .
On notera que les CS2 ne requièrent pas d'hypothèse de qualification de contrainte.
Vérifier la (semi-)définie positivité de la hessienne du lagrangien dans le noyau de ne pose pas de difficulté, pourvu que l'on puisse calculer une base de ce noyau. On peut en effet voir ce noyau comme l'image d'une application linéaire injective tel que avec Il suffit alors de vérifier la (semi-)définie positivité de , ce qui peut se faire en temps polynomial par des techniques d'algèbre linéaire.
Interprétation marginaliste des multiplicateurs de Lagrange
[modifier | modifier le code]Exemple : vecteurs propres et quotient de Rayleigh
[modifier | modifier le code]Soit un espace euclidien muni d'un produit scalaire noté ; on note la norme associée. On s'intéresse aux vecteurs propres d'une application linéaire auto-adjointe. Par exemple, on pourrait avoir , muni du produit scalaire euclidien, et une matrice symétrique.
Le problème d'optimisation
Dans ce but, on considère le quotient de Rayleigh , défini en par
Comme est constant le long des rayons issus de zéro, il revient au même de minimiser la fonction quadratique définie en par
sur la sphère unité On considère donc le problème d'optimisation avec une unique contrainte d'égalité suivant
Ce problème a toujours une solution (le critère est continu et, comme est de dimension finie, est compact). Calculons les points stationnaires du problème d'optimisation.
Conditions d'optimalité du premier ordre
La fonction est non différentiable en zéro, mais cela n'a pas trop d'importance, car la solution est de norme un. On préfère toutefois définir l'ensemble admissible au moyen de la contrainte , qui se dérive plus facilement. Cette contrainte est qualifiée en tout point admissible, car sa jacobienne est surjective si . Pour calculer la solution du problème d'optimisation, on introduit son lagrangien, qui prend en la valeur
Comme il y a une seule contrainte, il y a un seul multiplicateur .
Les conditions d'optimalité de Lagrange s'écrivent
Dès lors, est un point stationnaire de multiplicateur si, et seulement si, est un vecteur propre unitaire de , de valeur propre . Ce multiplicateur est aussi la valeur du critère en , puisque . Dès lors, une solution du problème d'optimisation est un vecteur propre unitaire de valeur propre minimale. Si au lieu de minimiser , on minimisait ou on maximisait , une solution du problème d'optimisation serait un vecteur propre unitaire de valeur propre maximale.
Conditions d'optimalité du deuxième ordre
La hessienne du lagrangien en une solution primale-duale du problème d'optimisation est l'opérateur auto-adjoint sur Comme est la valeur minimale de sur la sphère unité, on a pour tout vecteur unitaire On peut en déduire que pour tout vecteur ce qui signifie que la hessienne du lagrangien est semi-définie positive dans tout l'espace , pas seulement dans l'espace tangent à la contrainte comme l'assurent les CN2. C'est le caractère quadratique du critère et des contraintes qui permet d'avoir cette propriété.
Si un couple vérifie les CS2, alors est un vecteur propre de de valeur propre ; de plus , pour tout vecteur unitaire , voisin mais différent de . On en déduit aisément que pour tout unitaire différent de (on peut par exemple prendre assez petit pour que , avec , soit voisin mais différent de et développer la relation qui en résulte). On en déduit que est la valeur propre minimale et est simple (i.e., l'espace propre associé est de dimension 1). La réciproque est également vraie : si la plus petite valeur propre de est simple, les CS2 sont vérifiées.
Résultats obtenus
Vecteurs propres et quotient de Rayleigh — Soit un espace euclidien et une application linéaire auto-adjointe. On considère le problème d'optimisation suivant :
- Un vecteur unitaire est un vecteur propre de si, et seulement si, c'est un point stationnaire de ce problème ; les multiplicateurs associés sont les valeurs propres correspondantes.
- Un vecteur est vecteur propre unitaire de valeur propre minimale si, et seulement si, il est solution de ce problème.
- Les conditions suffisantes d'optimalité du second ordre de ce problème sont vérifiées en une solution si, et seulement si, la valeur propre associée à cette solution est simple
Problèmes d'optimisation avec contraintes d'égalité et d'inégalité
[modifier | modifier le code]Le problème (PEI)
[modifier | modifier le code]Dans cette section, on considère le problème d'optimisation avec contraintes d'égalité et d'inégalité, que l'on écrit sous la forme suivante
Cette écriture exprime le fait que l'on cherche à minimiser un critère défini sur un espace euclidien dont l'argument , qui est le vecteur des variables à optimiser, l'inconnue de ce problème, est contraint de respecter un nombre fini de contraintes spécifiées par des fonctions . Le produit scalaire de l'espace euclidien est noté . On y trouve des contraintes d'égalité et d'inégalité en nombre fini, repérées par des ensembles finis d'indices et , dont le cardinal est noté
.
Le nombre total de contraintes est noté .
Il est commode de supposer que les ensembles d'indices et forment une partition de l'ensemble des premiers entiers :
Si , on note le vecteur de formé des composantes de avec . De même pour . On peut alors rassembler les fonctions réelles en une seule fonction , dont les composantes et sont utilisées pour définir les contraintes d'égalité et d'inégalité.
L'ensemble admissible de est noté
Ici et ci-dessous, les inégalités vectorielles doivent être comprises composante par composante : pour un vecteur , signifie que pour tout indice . Si en un point admissible , est surjective, cet ensemble se présente autour de comme une partie de la variété formée des points qui vérifient aussi l'inégalité .
Problème convexe — On dit que le problème est convexe si la contrainte d'égalité est affine, si les contraintes d'inégalité () sont convexes et si le critère est convexe sur
L'ensemble admissible d'un problème convexe est clairement convexe.
Comme la CN1 générique l'a montré, l'écriture des conditions d'optimalité du premier ordre passe par la détermination du cône tangent à l'ensemble admissible. Ce cône tangent en est un concept local, dans le sens où une modification de l'ensemble admissible en dehors d'un voisinage de n'aura pas d'incidence sur le cône tangent en ce point. Dès lors si une contrainte d'inégalité prend une valeur strictement négative en , disons , une perturbation de cette contrainte ne modifiera pas l'ensemble admissible dans le voisinage de Il est donc nécessaire de pouvoir nommer les contraintes d'inégalité qui sont nulles au point considéré, ce qui conduit à la notion suivante.
Contrainte active et inactive — On dit qu'une contrainte d'égalité ou d'inégalité est active en si . On note
l'ensemble des indices des contraintes d'inégalité actives en . On adopte la notation simplifiée Une contrainte d'inégalité qui n'est pas active en un point donné, y est dite inactive.
Les problèmes d'optimisation avec contraintes d'inégalité sont considérablement plus difficiles à analyser et à résoudre numériquement (un calcul analytique, sur papier, est rarement possible et d'ailleurs souvent difficile lui aussi) que les problèmes rencontrés jusqu'ici. Lorsqu'il n'y a que des contraintes d'égalité, la compréhension du problème repose sur l'analyse mathématique classique, en particulier sur le théorème des fonctions implicites, ce qui explique que les conditions de Lagrange sont en général vues dans un cours de calcul différentiel et font ainsi partie du bagage de beaucoup de mathématiciens ou d'autres scientifiques. La situation est différente lorsque des contraintes d'inégalité sont présentes, car il faut alors faire appel à des outils spécifiques, essentiellement ceux de l'analyse convexe, moins souvent enseignés. Par ailleurs, numériquement, la difficulté principale provient du fait que, d'une manière ou d'une autre, le calcul de la solution détermine forcément les contraintes qui sont actives en cette solution. Si ces contraintes actives étaient connues, on pourrait se ramener au cas des problèmes avec seulement des contraintes d'égalité lisses. Or il y a manières de rendre les contraintes d'inégalité actives. C'est à ce nombre exponentiel que l'on fait allusion lorsque l'on parle de la combinatoire des problèmes d'optimisation avec contraintes d'inégalité. Celle-ci est redoutable et en rapport direct avec la conjecture P = NP, puisqu'un problème d'optimisation quadratique non convexe (i.e., un problème avec un critère quadratique non convexe et des contraintes affines) est NP ardu. On est donc en présence d'un problème pour lequel il est vraisemblable que le principe de conservation des ennuis s'applique ; on veut dire par là que la difficulté du problème ne peut être éliminée en lui trouvant une autre formulation équivalente. Ainsi, on pourrait penser simplifier le problème en reformulant les contraintes d'inégalité par l'une des contraintes d'égalité apparemment plus simples et équivalentes suivantes
Cependant la première contrainte est non lisse et la seconde, bien qu'une fois différentiable, n'est en général pas qualifiée dans le sens discuté ci-dessous.
Conditions du premier ordre pour (PEI)
[modifier | modifier le code]Si les conditions nécessaires d'optimalité des problèmes avec contraintes d'égalité ont été établies au XVIIIe siècle, celles des problèmes avec contraintes d'inégalité sont beaucoup plus récentes, puisqu'elles datent du milieu du XXe siècle. Il est vraisemblable que le besoin d'une analyse fine de ces questions ait été stimulé par l'augmentation des moyens de calcul. Le développement de l'analyse convexe a aussi permis de poser la théorie sur des bases solides, notamment avec le lemme de Farkas[11] qui sera ci-dessous une des clés permettant de passer de la version géométrique à la version analytique des conditions d'optimalité du premier ordre.
Le cône tangent à XEI
[modifier | modifier le code]Le résultat suivant permet d'affirmer que le cône tangent est inclus dans le cône linéarisant, noté et défini ci-dessous ; il lui sera égal dans les bons cas.
Estimation du cône tangent — Si et si est dérivable en , alors
Observons que, comme annoncé, seules les contraintes d'inégalité actives interviennent dans l'estimation du cône tangent qu'est le cône linéarisant. On retrouverait le noyau de la jacobienne des contraintes s'il n'y avait que des contraintes d'égalité.
On peut faire, sur l'inclusion précédente, les mêmes remarques que celles sur l'estimation du cône tangent à des contraintes d'égalité par le noyau de la jacobienne de ces contraintes : ne dépend que de l'ensemble admissible , pas de la manière de le décrire par la fonction , alors que dépend manifestement de . Il peut y avoir plusieurs fonctions définissant le même ensemble admissible et, du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité a lieu ; d'ailleurs le premier cône est difficile à calculer s'il n'est égal au second, alors que l'on dispose d'une formule explicite pour le second. On introduit donc la notion de qualification de (fonctions définissant les) contraintes suivante.
Qualification de contraintes d'égalité et d'inégalité — On dit que les contraintes du problème d'optimisation sont qualifiées en (pour représenter ) si est différentiable en et si
En général, le cône tangent et le cône linéarisant diffèrent, car le premier n'est pas nécessairement convexe, alors que le second l'est (c'est un cône polyédrique convexe). Par ailleurs, la notion de qualification des contraintes a un aspect global, dans le sens où elle porte sur toutes les fonctions définissant le problème d'optimisation ; il n'est pas question d'utiliser cette notion fonction par fonction parce que le cône tangent à une intersection d'ensembles n'est pas égal à l'intersection des cônes tangents à ces ensembles (voir l'article sur le cône tangent).
Comme pour les problèmes avec contraintes d'égalité, il n'est presque jamais judicieux de remplacer les contraintes de par l'unique contrainte d'égalité équivalente , où est définie par
même si le fait de n'avoir qu'une seule contrainte est a priori attrayant. Cette dernière contrainte a, en effet, l'inconvénient de n'être pratiquement jamais qualifiée, puisque est nul en tout point admissible. Dès lors, pour cette contrainte, , qui est pratiquement toujours trop grand, plus grand que .
Vérifier si les contraintes sont qualifiées est une tâche difficile. Cela requiert le calcul du cône tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cône linéarisant. On connaît un certain nombre de conditions suffisantes de qualification de contraintes, qui sont plus subtiles que lorsque seules des contraintes d'égalité sont présentes. Elles sont présentées dans l'article Qualification de contraintes.
Conditions de Karush, Kuhn et Tucker (KKT)
[modifier | modifier le code]On suppose dans cette section que les contraintes du problème sont qualifiés, au sens précisé dans la section précédente. Si l'on veut trouver une expression plus explicite de la condition nécessaire d'optimalité du première ordre en , à savoir , il faut calculer le cône dual du cône tangent, que l'on suppose donc égal au cône dual du cône linéarisant . Il s'agit donc de calculer le dual d'un cône convexe polyédrique. Le lemme de Farkas fournit une réponse à cette question. Une version légèrement généralisée est donnée ci-dessous.
Lemme de Farkas généralisé — Soient et deux espaces euclidiens, une application linéaire et un cône convexe non vide de . Alors
On ne peut pas se passer de l'adhérence dans le membre de droite de l'identité car le cône n'est pas nécessairement fermé (même si est fermé) alors que, en tant que cône dual, le cône du membre de gauche est toujours fermé. Signalons que si est un cône convexe polyédrique (comme l'orthant positif d'un certain ), alors est un polyèdre convexe, donc un fermé ; dans ce cas, on peut ôter l'adhérence dans le membre de droite.
Simplifions les notations en posant , et . On peut établir une expression duale du cône
en utilisant le lemme de Farkas généralisé avec
- muni du produit scalaire euclidien,
- muni du produit scalaire euclidien,
- ,
- .
On a noté . On vérifie facilement que
Par le lemme de Farkas, on trouve alors la représentation duale du cône linéarisant suivante (il n'est pas nécessaire de prendre l'adhérence de l'ensemble obtenu, car il est fermé par sa polyédricité)
On en déduit les conditions nécessaires d'optimalité du premier ordre suivantes, dites de Karush, Kuhn et Tucker (KKT). Elles sont fondamentales.
CN1 de Karush, Kuhn et Tucker — Soit un minimum local de . Supposons que et soient dérivables en et que les contraintes soient qualifiées en . Alors, il existe tel que l'on ait
où est le gradient de en et est l'opérateur adjoint de la jacobienne pour le produit scalaire donné sur .
Un point vérifiant les conditions (KKT) ci-dessus est dit stationnaire pour le problème .
Les conditions nécessaires d’optimalité ci-dessus ont longtemps été attribuées à Kuhn et Tucker (1951[12]). Après bien des années, on constata que ces conditions avaient déjà été données par Karush (1939[13]) dans une thèse qui ne fut jamais publiée, mais qui est décrite dans le compte rendu historique de Kuhn[14]. Une approche différente conduisant au même résultat a été suivie par John (1948[15]), également avant les travaux de Kuhn et Tucker.
Avant de discuter le système (KKT), introduisons le lagrangien du problème, qui a la même forme que pour les problèmes d'optimisation avec contraintes d'égalité.
Lagrangien du problème — On appelle lagrangien du problème , la fonction définie en par
Le vecteur porte le nom de multiplicateur (de Karush, Kuhn et Tucker ou de Lagrange) ou variable duale.
La variable est aussi appelée variable primale ; quant au couple , on lui donne parfois le nom de variable(s) primale(s)-duale(s).
Voici quelques commentaires sur les conditions de Karush, Kuhn et Tucker.
- On reconnaît dans (KKT)-(a) la nullité du gradient du lagrangien par rapport à la variable primale, , équation qui était déjà présente pour les problèmes d'optimisation avec contraintes d'égalite et que l'on peut aussi écrire
où les gradients sont pris par rapport au produit scalaire équipant . Si l'espace euclidien est muni du produit scalaire euclidien, ces gradients sont les vecteurs des dérivées partielles par rapport aux variables - Les conditions (KKT)-(b) et (KKT)-(c) certifient l'admissibilité de la solution.
- Les deux dernières conditions sont attachées aux contraintes d'inégalité. La première, (KKT)-(d), assure que les multiplicateurs optimaux associés aux contraintes d'inégalité sont positifs. Ce signe serait chaque fois changé si au lieu d'avoir un problème de minimisation on avait un problème de maximisation, ou si on avait écrit les contraintes sous la forme au lieu de , ou encore si on avait utilisé le signe au lieu du signe dans la définition du lagrangien.
- La dernière condition, (KKT)-(e), est connue sous le nom de condition de complémentarité. Du fait du signe de et de , elle est équivalente à
si bien que soit soit , lorsque . C'est de cette alternative que provient le nom de complémentarité. Cette condition s'écrit aussi Autrement dit, les multiplicateurs associés aux contraintes d'inégalité inactives sont nuls. Pour certains problèmes, l'implication ci-dessus est remplacée par une équivalence : On dit alors que l'on a complémentarité stricte. - Les conditions (KKT)-(cde) peuvent être rassemblées sous l'une des formes compactes suivantes (il y en a d'autres)
qui exprime la positivité de , celle de et l'orthogonalité de ces deux vecteurs pour le produit scalaire euclidien. Les systèmes de ce type, appelés problèmes de complémentarité, ont fait l'objet d'études systématiques, conduisant à une discipline à part entière. Celle-ci englobe donc l'optimisation et se généralise à ce que l'on appelle les problèmes d'inéquations variationnelles.
Les conditions de KKT sont compliquées et difficiles à résoudre numériquement (elles ne le sont analytiquement que pour de rares problèmes à la structure particulière ; des exemples sont donnés ci-dessous). Il n'y a cependant ni trop ni trop peu de conditions, comme le montre la démonstration de la propriété suivante, stipulant que, si le problème est convexe, ces conditions sont suffisantes pour impliquer l'optimalité globale.
CS1 pour un problème convexe — Considérons le problème , que l'on suppose convexe au sens défini ci-dessus. Soit un point vérifiant les contraintes de . Si et sont dérivables en et s'il existe tel que les conditions de Karush, Kuhn et Tucker (KKT) ci-dessus soient vérifiées, alors est un minimum global de
Ensemble des multiplicateurs optimaux
[modifier | modifier le code]Soit un multiplicateur optimal (ou solution duale) associé à une solution du problème . Il sera utile d'introduire les ensembles d'indices suivants :
Ce sont donc des ensembles d'indices qui dépendent à la fois de et . Les contraintes d'indices sont dites fortement actives et celles d'indices sont dites faiblement actives. Ces dernières, bien qu'actives (), peuvent être ôtées du problème sans modifier la stationnarité de ().
Il peut y avoir plus d'une solution duale associée à une solution primale . L'ensemble des multiplicateurs associés à est noté
La solution étant fixée, les conditions d'optimalité de KKT montrent que est un polyèdre convexe de :
En particulier, est fermé. Il est non vide si les contraintes sont qualifiées en (théorème d'optimalité de KKT). Par ailleurs, est un sommet de si est surjective. En particulier, n'a pas de sommet si n'est pas surjective.
Cet ensemble est clairement réduit à un seul multiplicateur si les conditions de qualification (QC-IL) (indépendance linéaire des gradients des contraintes actives) sont vérifiées en . Mais, l'unicité du multiplicateur optimal a lieu, en fait, sous une condition plus faible que (QC-IL), mais plus forte que la qualification de Mangasarian-Fromovitz (QC-MF), celle que donne le résultat suivant[16]. Cette condition est aussi nécessaire et suffisante et est parfois appelée la condition de qualification de Mangasarian-Fromovitz stricte (QC-MFS).
Unicité du multiplicateur — Soit un point stationnaire de (donc et sont supposées différentiables en et ). Alors est un singleton si, et seulement si, il existe tel que
Mais en toute généralité, peut ne pas être réduit à un point. En ce qui concerne le caractère borné de , on a le résultat suivant[17].
Bornitude des multiplicateurs — Soient un couple vérifiant les conditions de KKT (donc et sont supposées différentiables en ) et l'ensemble convexe fermé non vide des multiplicateurs optimaux associés à . Alors est borné si, et seulement si, la condition de qualification de Mangasarian-Fromovitz (QC-MF) a lieu en .
Résolution analytique des conditions d'optimalité
[modifier | modifier le code]Les conditions d'optimalité de Karush, Kuhn et Tucker permettent d'affirmer que, sous certaines conditions, en particulier de qualification des contraintes, une solution locale de est un point stationnaire de ce problème, ce qui veut dire qu'elle vérifie l'ensemble des relations désignées par (KKT) ci-dessus. Pour calculer les solutions de , on pourra donc, dans un premier temps, calculer les solutions du système d'optimalité (KKT). Toutefois, ce calcul est beaucoup plus difficile que lorsqu'il n'y a que des contraintes d'égalité. La difficulté vient de la présence d'inégalités et, en particulier, des conditions de complémentarité. On y retrouvera la combinatoire des problèmes d'optimisation avec contraintes d'inégalité, confirmant ainsi le principe de conservation des ennuis déjà évoqué.
En général, il faut utiliser des algorithmes spécifiques pour résoudre ce système d'optimalité (c'est ce à quoi est consacré une grande partie de l'optimisation numérique). Dans certains cas, cependant, en particulier pour des problèmes de petite taille ayant peu de contraintes d'inégalité ou des problèmes très structurés, on peut chercher les solutions de ce système (KKT) analytiquement en considérant l'une après l'autre toutes les manières de satisfaire les contraintes d'inégalité. Dans chaque cas considéré, on suppose qu'un certain nombre de contraintes d'inégalité sont actives et que les autres ne le sont pas. Soit , l'ensemble des indices des contraintes d'inégalité supposées actives en la solution : et (on a noté le complémentaire de dans ). Du fait de la complémentarité, et on est donc conduit à chercher les solutions du système de équations à inconnues suivant
Si une solution de ce système vérifie et , le couple est une solution de (KKT). Sinon cette solution doit être écartée. En examinant ainsi tous les ensembles possibles, on peut trouver tous les points stationnaires du problème.
La méthode présentée ci-dessus est fastidieuse et, répétons-le, n'est utilisée que dans de rares cas. On notera en effet qu'avec contraintes d'inégalité, il y a cas à examiner, et donc systèmes non linéaires à résoudre, ce qui peut vite devenir fastidieux. C'est ici que l'on retrouve la combinatoire des problèmes d'optimisation. Le but des algorithmes d'optimisation pour problèmes avec contraintes d'inégalité est précisément de trouver des solutions du système d'optimalité (KKT), en gérant de manière efficace cette combinatoire, c'est-à-dire en évitant d'explorer toutes les possibilités. L'algorithme du simplexe en a été un des premiers exemples.
Comme pour les problèmes d'optimisation avec contraintes d'égalité, tous les points stationnaires (les solutions de (KKT)) ne sont pas solutions de . Pour déterminer si un point stationnaire est solution de , on pourra utiliser les conditions d'optimalité du second ordre décrites ci-dessous, de la manière suivante :
- si les CN2 ne sont pas vérifiées au point stationnaire, alors celui-ci n'est pas une solution locale de ;
- si les CS2 sont vérifiées au point stationnaire, alors celui-ci est un minimum local strict de .
Ces deux cas recouvrent un grand nombre de situations, mais pas toutes, car les CN2 et les CS2 ne sont pas identiques. Le cas est indéterminé lorsqu'un point stationnaire vérifie les CN2, mais pas les CS2. Alors les résultats donnés dans cet article ne sont pas suffisants et il faut recourir à des conditions d'optimalité d'ordre supérieur pour pouvoir dire si le point stationnaire est solution de .
Conditions du deuxième ordre pour (PEI)
[modifier | modifier le code]Les conditions d'optimalité du second ordre en présence de contraintes d'inégalité ne s'obtiennent ni ne s'écrivent aussi aisément que lorsqu'il n'y a que des contraintes d'égalité. D'abord, ce n'est pas le cône tangent qui intervient comme pour les problèmes avec contraintes d'égalité, mais un cône plus petit que l'on appelle le cône critique. Par ailleurs, le multiplicateur optimal qui intervient dans la hessienne du lagrangien doit être déterminé en fonction de la direction choisie dans le cône critique.
Le cône critique
[modifier | modifier le code]Il est tentant d'essayer de généraliser les conditions nécessaires du second ordre du problème au problème , en cherchant à montrer qu'en une solution primale-duale , on doit avoir positif pour toute direction tangente . Comme précédemment, on a noté la hessienne du lagrangien en . Ce résultat n'est pas correct, car le cône tangent n'est pas celui qui convient, comme le montre le problème suivant
Ce problème a pour unique solution primale-duale et le cône tangent en la solution s'écrit si bien que l'on peut prendre comme direction tangente, mais n'est pas positif. On pourra voir que est positif, mais pour des directions dans un cône plus petit que le cône tangent.
À la recherche d'un cône plus petit, on peut observer que, comme toute solution du problème minimise aussi sur
les conditions du second ordre des problèmes avec contraintes d'égalité donnent que est positif pour toute direction et toute solution duale (celles-ci sont aussi solutions duales du problème minimisant sur ). Il faut voir cependant que le cône est trop petit, dans le sens où il ne permet pas d'établir des conditions suffisantes d'optimalité du second ordre. Considérons en effet le problème
Si , , si bien que et la hessienne du lagrangien est bien définie positive sur , mais n'est pas un minimum local du problème.
Le bon cône s'avérera être le cône linéarisant de l'ensemble
sur lequel est également minimisée en une solution du problème . Ce cône est plus petit que le cône tangent à l'ensemble admissible en , mais suffisamment grand pour permettre d'avoir des conditions suffisantes d'optimalité du second ordre. On l'appelle le cône critique du problème.
Cône critique — On appelle cône critique du problème en un point admissible , l'ensemble noté et défini par
Une direction est appelée direction critique en . On utilise la notation simplifiée .
Dans le premier exemple ci-dessus, est plus petit que le cône tangent . Dans le second exemple ci-dessus, est plus grand que le cône tangent . Il est remarquable que l'optimalité au second ordre puisse être synthétisée au moyen de l'unique cône critique, alors que les deux problèmes précédents recouvrent des situations très différentes.
En un point stationnaire , de multiplicateur , le cône critique en s'écrit aussi
où les ensembles d'indices et ont été introduits ci-dessus. Ces expressions s'obtiennent en utilisant les conditions d'optimalité de KKT. Observons enfin que si les conditions de complémentarité stricte sont satisfaites, le cône critique s'écrit simplement
qui est donc le cône linéarisant (un sous-espace vectoriel). En l'absence de complémentarité stricte, ce dernier sous-espace vectoriel est contenu dans , lui-même contenu dans .
Trois exemples instructifs
[modifier | modifier le code]Une autre difficulté dans l'établissement des conditions d'optimalité du second ordre du problème provient du fait que l'on doit prendre le multiplicateur optimal intervenant dans la hessienne du lagrangien en fonction de la direction critique choisie. Les trois exemples suivant devraient permettre de mieux comprendre pourquoi il en est ainsi et d'apprendre à sélectionner correctement les quantificateurs qui s'appliquent à et .
Considérons d'abord le problème à deux variables réelles
dont la solution est . Il y a un unique multiplicateur optimal associé à la contrainte, valant . La contrainte étant active, est aussi la solution primale-duale du problème avec contrainte d'égalité , si bien que la hessienne du lagrangien doit être semi-définie positive dans l'espace tangent à la contrainte (voir ci-dessus) : pour toute direction dans . C'est le cas le plus simple qui peut se présenter. On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre fortes : quel que soit le multiplicateur optimal (il n'y en a qu'un seul ici), est semi-défini positif dans le cône critique. Ces conditions sont vérifiées s'il y a un unique multiplicateur, comme ici, ou comme lorsque la condition de qualification (QC-A) ou (QC-IL) a lieu.
Considérons à présent une variante du problème précédent où l'on ajoute une contrainte superflue
La seconde contrainte ne modifie pas la solution primale qui est toujours , mais il y a maintenant plusieurs multiplicateurs optimaux formant l'ensemble . En prenant comme multiplicateur , un sommet de , on ignore la seconde contrainte (comme il se doit) et on a le résultat précédent sur la semi-définie positivité de dans . Par contre, avec , l'autre sommet de , la hessienne du lagrangien est définie négative dans . C'est normal ; le lagrangien ne voit que la seconde contrainte, ignorant la première, et n'est qu'un point stationnaire du problème , pas un minimum local. On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre semi-fortes : il existe un multiplicateur optimal tel que est semi-défini positif dans le cône critique.
Considérons enfin le problème à trois variables
On voit que, quel que soit non nul, un des membres de droite des contraintes est strictement positif. Dès lors, l'unique solution de ce problème est . D'autre part, l'ensemble des multiplicateurs optimaux est le simplexe unité . Enfin, la hessienne du lagrangien s'écrit
Quelle que soit la valeur de , n'est pas semi-définie positive sur le cône critique, qui est ici le sous-espace (en effet, l'élément vaut et l'élément (2,2) vaut , si bien qu'il faudrait que soit supérieur à 3/4 et inférieur à 2/3). On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre faibles : pour toute direction critique , il existe un multiplicateur optimal (dépendant de ) tel que .
Conditions nécessaires du second ordre
[modifier | modifier le code]Voici des conditions nécessaires d'optimalité du second ordre lorsque la qualification Mangasarian-Fromovitz (QC-MF) a lieu en la solution du problème.
CN2 pour avec la qualification (QC-MF) — Soit une solution locale du problème . Supposons que et soient dans un voisinage de , que soit deux fois dérivable en et que soit continue en . Supposons également que la qualification Mangasarian-Fromovitz (QC-MF) ait lieu en . Alors
Les conditions nécessaires d'optimalité du second ordre (CN2) énoncées dans ce résultat sont dites faibles, car le multiplicateur optimal est choisi en fonction de la direction critique. Dans certains problèmes, on a la condition plus forte (mois souvent vérifiée) suivante
On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre semi-fortes. Dans certains cas, l'on a des conditions encore plus fortes, à savoir
On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre fortes. Comme l'affirme le résultat suivant, ce dernier cas est vérifié lorsque la qualification (QC-A) ou (QC-IL) a lieu.
CN2 pour avec la qualification (QC-A) ou (QC-IL) — Soit une solution locale du problème . Supposons que et soient deux fois dérivables en et que soit continue en . Supposons également que la qualification (QC-A) ou (QC-IL) ait lieu en . Alors
La vérification numérique des conditions nécessaires d'optimalité du second ordre n'est pas aisée. Déjà, lorsque les conditions semi-fortes ont lieu pour un multiplicateur optimal , il s'agit de vérifier que la forme quadratique associée à la hessienne du lagrangien est semi-définie positive sur le cône critique , qui est polyédrique, c'est-à-dire que est -copositive. En toute généralité, une telle vérification est un problème NP-ardu[18],[19]. Maintenant, s'il y a aussi complémentarité stricte, le cône critique devient un sous-espace vectoriel et la vérification de la semi-définie positivité de sur ce sous-espace est alors une opération simple d'algèbre linéaire.
Conditions suffisantes du second ordre
[modifier | modifier le code]Les conditions suffisantes du second ordre (CS2) s'obtiennent comme pour les problèmes plus simples en requérant que soit strictement positif pour un multiplicateur dépendant d'une direction critique choisie dans le cône critique. Le fait que le cône critique intervienne aussi dans ces conditions suffisantes d'optimalité est une garantie de sa pertinence.
CS2 pour — Supposons que et soient dérivables dans un voisinage d'un point et deux fois dérivables en . Supposons également que l'ensemble des multiplicateurs tels que vérifie les conditions d'optimalité de KKT ne soit pas vide. Supposons enfin que
ou de manière équivalente ( est une norme arbitraire)
Alors, pour tout , il existe un voisinage de tel que pour tout , différent de :
En particulier, est un minimum local strict de .
L'inégalité obtenue en conclusion du résultat précédent est connue sous le nom de propriété de croissance quadratique. Elle montre que croît au moins quadratiquement lorsqu'on se déplace de vers l'«intérieur» de l'ensemble admissible .
Interprétation marginaliste des multiplicateurs de Karush, Kuhn et Tucker
[modifier | modifier le code]Exemples
[modifier | modifier le code]Inégalités de Hölder
[modifier | modifier le code]Les inégalités de Hölder généralisent l'inégalité de Cauchy-Schwarz, dans le sens où elles donnent une majoration du produit scalaire euclidien de deux vecteurs et par leur norme et , plutôt que par leur norme euclidienne. Dans cette majoration, les scalaires et doivent être pris dans et vérifier
Cette relation accepte les valeurs infinies, si bien que si, et seulement si, . Pour de tels et , l'inégalité de Hölder s'écrit :
Cette inégalité se généralise aux espaces des suites de puissance sommables et aux espaces des fonctions de puissance intégrables. Dans , elles peuvent être démontrées à partir d'une solution du problème de minimisation d'une fonction linéaire sur la boule unité fermée associée à la norme , à savoir , problème qui s'écrit
Par la compacité de (en dimension finie), ce problème a clairement une solution ; elle est unique si . On donne ici le calcul des solutions de ce problème par les conditions d'optimalité de Karush, Kuhn et Tucker et d'en déduire les inégalités de Hölder.
Cas où p = ∞
[modifier | modifier le code]C'est le cas le plus simple, qui peut se résoudre sans utiliser les conditions d'optimalité de KKT. En effet, le problème , qui s'écrit
se décompose en problèmes indépendants, à savoir
dont les solutions sont triviales :
L'inégalité de Hölder correspondante s'obtient alors en observant que, quels que soient et , on a si l'on note le signe de :
si bien que . On met ensuite à l'échelle si ce vecteur n'est pas dans la boule unité , ce qui conduit à .
Cas où 1 < p < ∞
[modifier | modifier le code]Si , tout est solution et l'inégalité de Hölder est triviale.
Supposons à présent que . En écrivant la contrainte de manière à la rendre différentiable et éviter le facteur après différentiation, le lagrangien du problème s'écrit
Comme la contrainte est qualifiée (par les conditions suffisantes de Slater par exemple) et le problème est convexe, en est solution si, et seulement si, il existe un multiplicateur optimal tel que les conditions de KKT suivantes soient vérifiées :
Comment résoudre ce système compliqué ? Comme le suggère la méthode générale présentée ci-dessus, il est souvent judicieux de commencer par considérer les conditions de complémentarité (la 4e), qui ont ici une combinatoire particulièrement réduite. Il y a seulement deux possibilités (parce que le problème n'a qu'une seule contrainte) : soit le multiplicateur est nul, soit la contrainte est active. Lorsque , la première condition montre clairement que le multiplicateur ne peut être nul ; la contrainte est donc active, ce qui résout du même coup la seconde condition. Gardons en mémoire que le multiplicateur optimal est positif (3e condition) en exploitant la première condition. En prenant la norme de , on obtient la valeur du multiplicateur optimal
qui est donc strictement positif. En observant que et sont de signe contraire et en se rappelant que , la première condition donne alors
où on a noté le signe de . En particulier, si .
L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas . Quels que soient et , on a :
si bien que . On met ensuite à l'échelle si ce vecteur n'est pas dans la boule unité , ce qui conduit à .
Cas où p = 1
[modifier | modifier le code]Le cas où étant trivial, on considère ci-dessous que .
Il n'est pas nécessaire de résoudre si l'on ne cherche qu'à obtenir l'inégalité de Hölder correspondante puisque celle-ci est identique au cas déjà considéré. On cherche ici plutôt comment résoudre en utilisant les conditions d'optimalité de KKT.
La première difficulté à surmonter est de récrire la contrainte de manière différentiable (la norme ne l'est pas). On vérifiera sans peine que si, et seulement si, il existe un vecteur tel que et , si bien que le problème est «équivalent» au problème en suivant
Ayant un domaine admissible compact et non vide, ce problème a aussi une solution ; de plus est solution de si, et seulement si, est solution de . Le lagrangien du problème s'écrit
Comme les contraintes de sont qualifiées (par affinité locale par exemple) et comme le problème est convexe, en est une solution si, et seulement si, il existe des multiplicateurs optimaux tels que les conditions de KKT suivantes soient vérifiées :
où est un vecteur dont toutes les composantes valent 1. Voici un système avec une combinatoire importante : manières de réaliser les conditions de complémentarité (f). La méthode générale présentée ci-dessus est ici de peu d'utilité, mais une astuce de calcul permet d'éviter une application fastidieuse. On remarque d'abord que, par (a) et (b), l'on peut écrire et en fonction de :
Par (e), on en déduit que . Mais si , et seraient strictement positifs et on déduirait de (f) que , en contradiction avec (c). Dès lors
comme lorsque . On distingue ensuite les cas :
- si , alors , , puis par (e), donc ,
- si , alors , , donc par (f) et (d),
- si , alors , , donc par (f) et (d).
On déduit de ces observations que les solutions de vérifient
où , est son complémentaire et désigne le produit de Hadamard. Inversement, on vérifie que si satisfait les conditions encadrées, si , si , si et si , alors satisfait les conditions d'optimalité (a)-(f), si bien qu'alors est une solution de .
L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas . Quels que soient et , on a :
si bien que . On met ensuite à l'échelle si ce vecteur n'est pas dans la boule unité , ce qui conduit à .
Minimisation d'une fonction quadratique sur la boule euclidienne
[modifier | modifier le code]Problèmes d'optimisation avec contraintes générales
[modifier | modifier le code]Le problème (PG)
[modifier | modifier le code]Dans cette section, on considère le problème d'optimisation avec contraintes plus générales, que l'on écrit sous la forme suivante
Cette écriture exprime le fait que l'on cherche à minimiser un critère défini sur un espace euclidien dont l'argument , qui est le vecteur des variables à optimiser, l'inconnue de ce problème, est contraint de respecter des contraintes spécifiées par l'expression . Celle-ci signifie que l'image de par la fonction doit appartenir au convexe fermé non vide de l'espace euclidien . Le produit scalaire des espaces euclidiens et sont tous deux notés .
On désigne par
l'ensemble admissible du problème .
Le problème est bien une généralisation du problème , puisqu'on retrouve ce dernier en prenant
Un des intérêts de cette formulation générale est d'avoir tout son sens en dimension infinie, ce qui n'est pas le cas de . Il est en effet malaisé de spécifier ce qu'est un ensemble infini de contraintes d'inégalité à valeurs dans un espace de dimension infinie. On peut donc voir la généralisation proposée comme un premier pas dans l'étude des problèmes d'optimisation de dimension infinie. Les résultats obtenus sont cependant aussi utiles pour résoudre certains problèmes de dimension finie à la structure différente de celle de . Un autre avantage de cette généralisation est de mieux faire ressortir la structure des objets manipulés, ainsi que celle des raisonnements employés.
On sait que la convexité joue un rôle crucial en optimisation. On est donc conduit à définir ce qu'est un problème convexe.
Problème convexe — On dit que le problème est convexe si la fonction est convexe et si la multifonction est convexe.
On a la propriété attendue suivante
Dans le cas du problème , et la convexité de revient à dire que est affine et a toutes ses composantes convexes.
Conditions du premier ordre pour (PG)
[modifier | modifier le code]Le cône tangent à XG
[modifier | modifier le code]Des conditions d'optimalité du premier ordre pour peuvent s'obtenir comme pour les problèmes précédents, par l'intermédiaire de la condition du premier ordre générique de Peano-Kantorovitch. Cette condition requiert le calcul du cône tangent à l'ensemble admissible . Comme précédemment, on cherche à exprimer ce cône tangent en «linéarisant» les objets et qui définissent l'ensemble admissible. Cette linéarisation se fait en pour , qui est définie sur , et en pour , qui est défini sur . Cette opération conduit au cône , plus grand que , que l'on appelle le cône linéarisant de .
Estimation du cône tangent — Si est dérivable en , alors
On n'a pas nécessairement l'égalité entre les deux cônes, car est convexe (c'est l'image réciproque par l'application linéaire du cône tangent , qui est convexe par la convexité de ) alors que ne l'est pas nécessairement (on n'a pas imposé à la fonction définissant d'être affine et donc l'ensemble admissible n'est pas nécessairement convexe). C'est gênant, car c'est le cône tangent qui intervient dans la condition nécessaire d'optimalité générique de Peano-Kantorovitch alors que le cône linéarisant a l'avantage d'avoir une expression analytique que l'on aimerait pouvoir exploiter. Comme pour le problème , la notion de qualification des contraintes définissant est liée au fait de pouvoir avoir l'égalité entre les deux cônes, mais pas seulement. La technique de démonstration conduisant aux conditions d'optimalité du premier ordre de Karush, Kuhn et Tucker, technique qui sera aussi utilisée pour obtenir la condition du premier ordre ci-dessous, cherche à montrer que le gradient appartient à un cône que l'on peut expliciter. Deux ingrédients interviennent dans cette approche :
- l'égalité entre le cône tangent et le cône linéarisant, qui permet ainsi d'avoir une expression exploitable du premier,
- la polyédricité du cône linéarisant, qui permet d'éliminer la prise de l'adhérence après application du lemme de Farkas.
Ici n'est pas polyédrique, parce que l'on ne veut pas imposer cette propriété restrictive de polyédricité à . De manière à sélectionner les problèmes non convexes pour lesquels on peut utiliser l'approche proposée pour établir les conditions d'optimalité du premier ordre, on introduit une hypothèse, dite de qualification, qui assure précisément l'égalité entre le cône tangent et le cône linéarisant (c'est la première condition ci-dessous), mais aussi le caractère fermé de l'image par du dual du cône linéarisant (c'est la seconde condition ci-dessous).
Qualification d'une contrainte générale — On dit que la fonction est qualifiée en pour représenter si est dérivable en et si les deux conditions suivantes sont vérifiées :
où l'opérateur linéaire adjoint de la dérivée .
Vérifier que est qualifié pour représenter est une tâche difficile. Cela requiert le calcul du cône tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cône linéarisant. La condition suffisante de qualification la plus utilisée, généralisant au problème la condition de Mangasarian-Fromovitz du problème , est celle de Robinson[20]. On y note l'intérieur d'un ensemble
Cette condition de Robinson est davantage examinée dans la section Condition suffisante de qualification de Robinson.
Conditions du premier ordre pour (PG)
[modifier | modifier le code]Précisons quelques notations qui seront utilisées dans l'énoncé des conditions du premier ordre. Comme ci-dessus, est le gradient de en et est l'opérateur adjoint de la dérivée (c'est un opérateur linéaire) pour les produits scalaires donnés sur et ; si est un ensemble, est le cône dual négatif de ; enfin, la notation
signifie les trois conditions suivantes :
CN1 de — Soit un minimum local de . Supposons que et soient dérivables en et que soit qualifiées en pour représenter . Alors,
- il existe tel que l'on ait
- si, de plus, est un cône convexe, alors les conditions d'optimalité ci-dessus s'écrivent
Un point tel que vérifie les conditions d'optimalité du premier ordre ci-dessus pour un certain est qualifié de stationnaire.
Dans la première condition d'optimalité , on reconnaît le gradient du lagrangien du problème qui est la fonction définie en par
Dans le cas où est un cône convexe, on reconnait dans la seconde condition d'optimalité , des conditions de complémentarité généralisées, déjà présentent dans les conditions de KKT.
Lorsque le problème est convexe dans le sens précisé précédemment, les conditions nécessaires du premier ordre deviennent suffisantes, comme pour le problème .
Désignons par
l'ensemble des multiplicateurs optimaux associés à un point stationnaire de et par son cône asymptotique.
Propriété de bornitude de Gauvin — Supposons que et soient dérivables en et que soit non vide. Alors
- ,
- est borné si, et seulement si, (QC-R) a lieu en
Conditions du deuxième ordre
[modifier | modifier le code]Annexes
[modifier | modifier le code]Notes
[modifier | modifier le code]- Georges Bouligand, Introduction à la Géométrie Infinitésimale Directe, Paris, Gauthier- Villars, .
- (it) G. Peano (1887). Applicazioni Geometriche del Calcolo Infinitesimale. Fratelli Bocca Editori, Torino.
- (it) G. Peano (1908). Formulario Mathematico, Editio V. Fratelli Bocca Editori, Torino.
- (en) L.V. Kantorovich (1940). On an efficient method for solving some classes of extremum problems. Doklady Akad. Nauk SSSR, 28, 212–215.
- (en) B.T. Polyak (2001). History of mathematical programming in the USSR: analyzing the phenomenon. Mathematical Programming, 91, 401–416.
- (en) S. Dolecki, G.H. Greco (2007). Towards historical roots of necessary conditions of optimality – Regula of Peano. Control and Cybernetics, 36, 491–518.
- J. Mawhin, Analyse — Fondements, Techniques, Évolution, De Boeck, 1992.
- Joseph-Louis Lagrange, « Manière plus simple et plus générale de faire usage de la formule de l'équilibre donnée dans la section deuxième », dans Mécanique analytique. Tome premier. pages = 77-112 (lire en ligne)
- (en) C.B. Boyer (1968). A History of Mathematics. Princeton University Press, Princeton, New Jersey.
- V. Alexeev, V. Tikhomirov, S. Fomine (1982). Commande Optimale. Mir, Moscou.
- (de) J. Farkas, Theorie der einfachen Ungleichungen, Journal für die reine und angewandte Mathematik, 124 (1902) p. 1-27
- (en) H.W. Kuhn, A.W. Tucker (1951). Nonlinear programming. In J.Neyman, éditeur, Proceedings of the second Berkeley Symposium on Mathematical Studies and Probability, pages 481–492. University of California Press, Berkeley, California.
- (en) W.E. Karush (1939). Minima of Functions of Several Variables with Inequalities as Side Conditions. Master’s thesis, Department of Mathematics, University of Chicago, Chicago.
- (en) H.W. Kuhn (1976). Nonlinear programming: a historical view. In R.W. Cottle, C.E. Lemke, éditeurs, Nonlinear Programming, SIAM-AMS Proceedings IX, pages 1–26. American Mathematical Society, Providence, RI.
- (en) F. John (1948). Extremum problems with inequalities as subsidiary conditions. In K.O. Friedrichs, O.E. Neugebauer, J.J. Stokes, éditeurs, Studies and Essays, Courant Anniversary Volume, pages 186–204. Wiley Interscience, New York.
- (en) J. Kyparisis (1985). On uniqueness of Kuhn-Tucker multipliers in nonlinear programming. Mathematical Programming, 32, 242–246.
- (en) J. Gauvin (1977). A necessary and sufficient regularity condition to have bounded multipliers in nonconvex programming. Mathematical Programming, 12, 136–138.
- (en) K.G. Murty, S.N. Kabadi (1987). Some NP-complete problems in quadratic and nonlinear programming. Mathematical Programming, 39, 117–129.
- (en) P.J.C. Dickinson, L. Gijben (2011). On the computational complexity of membership problems for the completely positive cone and its dual. Rapport de recherche.
- (en) S.M. Robinson (1976). Stability theory for systems of inequalities, part II: differentiable nonlinear systems. SIAM Journal of Numerical Analysis, 13, 487-513.
Articles connexes
[modifier | modifier le code]- Cône tangent
- Coût marginal
- Multiplicateur de Lagrange : présentation moins abstraite et donc plus abordable de l'optimalité des problèmes avec contraintes d'égalité, certains en dimension infinie.
- Optimisation quadratique successive
- Qualification de contraintes
Liens externes
[modifier | modifier le code]- La méthode du Lagrangien (1999), École des Hautes Études Commerciales, Montréal, Québec.
- Extrema liés - Multiplicateurs de Lagrange sur BibM@th.
- J. Ch. Gilbert, Éléments d'Optimisation Différentiable — Théorie et Algorithmes, syllabus de cours à l'ENSTA ParisTech, Paris.
Bibliographie
[modifier | modifier le code]- (en) J. F. Bonnans, A. Shapiro (2000). Perturbation Analysis of Optimization Problems. Springer Verlag, New York.
- J. Gauvin (1992). Théorie de la programmation mathématique non convexe. Les Publications CRM, Montréal.
- J.-B. Hiriart-Urruty (1996). L’Optimisation. Que sais-je, 3184. Presses Universitaires de France.
- (en) J.-B. Hiriart-Urruty, C. Lemaréchal (1993). Convex Analysis and Minimization Algorithms. Grundlehren der mathematischen Wissenschaften, 305-306. Springer-Verlag.
- (en) R. T. Rockafellar (1993). Lagrange multipliers and optimality. SIAM Review, 35, 183–238.