Conditions d'optimalité

En optimisation mathématique, les conditions d'optimalité sont un ensemble d'équations, d'inéquations (c'est-à-dire des inégalités) et d'expressions diverses (par exemple, la copositivité de matrices) vérifiées par une solution d'un problème d'optimisation (on parle alors de conditions nécessaires d'optimalité) ou qui permettent d'affirmer qu'un point qui les vérifie est solution du problème d'optimisation considéré (on parle alors de conditions suffisantes d'optimalité). Ces expressions analytiques de l'optimalité sont utiles entre autres pour :

calculer les solutions d'un problème d'optimisation,
vérifier l'optimalité d'un point donné,
concevoir des algorithmes de résolution.

Cet article se limite aux conditions d'optimalité des problèmes d'optimisation différentiable et de dimension finie.

Les plus importantes sont les conditions KKT.

Préambule

Cet article se limite aux conditions d'optimalité des problèmes d'optimisation différentiable et de dimension finie. Le terme différentiable signale que les fonctions définissant le problème sont supposées différentiables au sens classique (celui de Fréchet). Lorsque la différentiabilité a lieu dans un sens plus faible on parle d'optimisation non lisse ou d'optimisation non différentiable, discipline dans laquelle on établit des conditions d'optimalité plus fines que celles présentées dans cet article. Il ne sera donc pas non plus question ici des problèmes d'optimisation combinatoire dans lesquels les variables prennent des valeurs discrètes, si bien que la différentiabilité requise n'a pas de sens. Quant aux termes dimension finie, ils font référence au fait que l'on cherche la valeur optimale d'un nombre fini de paramètres (mais ceux-ci doivent pouvoir varier continûment). Le système à optimiser peut, quant à lui, être de dimension infinie, comme c'est le cas de l'optimisation d'une forme géométrique (de dimension infinie) décrite par des splines (représentés par un nombre fini de paramètres). Les conditions d'optimalité des problèmes d'optimisation de dimension infinie sont considérées ailleurs.

On parle de conditions du premier ordre si ces conditions font intervenir les dérivées premières des objets définissant le problème (il faudra définir ce que l'on entend par la dérivée de l'ensemble admissible du problème), mais pas les dérivées d'ordre supérieur, et de conditions du second ordre si ces conditions font intervenir les dérivées secondes des objets définissant le problème, mais pas les dérivées d'ordre supérieur.

Les conditions d'optimalité d'un problème d'optimisation avec contraintes introduisent des variables cachées, les multiplicateurs ou variables duales, qui n'apparaissent pas dans l'énoncé du problème et qui sont donc difficiles à appréhender (elles appartiennent à un autre espace que celui des variables à optimiser). Elles jouent cependant un rôle crucial dans la compréhension du problème, notamment parce qu'elles s'interprètent comme des coûts marginaux, très utiles en pratique ; il est donc important de s'y familiariser.

Les conditions d'optimalité sont présentées ci-dessous pour des problèmes d'optimisation de généralité (et de difficulté) croissante. Celles énoncées pour un problème d'une certaine généralité peuvent être utilisées pour exprimer les conditions d'optimalité d'un problème qui l'est moins, car celui-ci pourra toujours être vu comme un cas particulier du premier problème. Le lecteur pressé peut donc directement aborder le cas du problème le plus abstrait, mais il lui manquera alors certaines notions coutumièrement utilisées à des niveaux d'abstraction moindres.

Connaissances supposées : le calcul différentiel, l'algèbre linéaire, les bases de l'analyse convexe (en particulier le lemme de Farkas).

Le problème générique

Le problème P_X

Soit $\mathbb {E}$ un espace vectoriel sur $\mathbb {R}$ de dimension finie, qui désigne l'ensemble auquel appartiennent les paramètres que l'on cherche à optimiser. Étant de dimension finie, il n'y a pas de restriction à supposer que cet espace vectoriel est muni d'un produit scalaire, noté $\langle \cdot ,\cdot \rangle$ , qui en fait un espace euclidien. La norme associée à ce produit scalaire est notée $\|\cdot \|$ . Le problème d'optimisation considéré s'exprime mathématiquement comme celui qui consiste à minimiser une fonction $f:\mathbb {E} \to \mathbb {R}$ sur une partie $X$ de $\mathbb {E}$ . La fonction $f$ a de nombreuses appellations, ce qui permet de varier le vocabulaire : fonction-coût, coût, fonction-objectif, objectif, critère, etc. L'ensemble $X$ est appelé l'ensemble admissible du problème et un point lui appartenant est appelé point admissible. Ce problème, désigné ci-après $(P_{X})$ , s'écrit au choix comme suit :

$(P_{X})\qquad \inf _{x\in X}\;f(x)\qquad {\mbox{ou}}\qquad \inf \;\{f(x):x\in X\}\qquad {\mbox{ou}}\qquad {\begin{cases}\inf \;f(x)\\x\in X\end{cases}}$ .

Une solution ou minimum ou minimiseur de ce problème est un point $x_{*}$ de l'espace vectoriel $\mathbb {E}$ vérifiant deux conditions : il doit être admissible et minimiser le critère sur l'ensemble admissible. Ceci s'écrit

$x_{*}\in X\qquad {\mbox{et}}\qquad f(x_{*})\leqslant f(x)\quad {\mbox{pour tout}}\quad x\in X$ .

On adjoint souvent le qualificatif global à cette notion de solution pour la distinguer d'autres notions présentées ci-dessous. Signalons également que l'on remplace parfois ‘‘ $\inf$ ’’ par ‘‘ $\min$ ’’ dans l'écriture du problème d'optimisation $(P_{X})$ lorsqu'il est certain que ce problème a une solution.

Dans certaines sous-disciplines de l'optimisation, on utilise parfois la locution malheureuse solution optimale qui, avec le sens de solution donné ci-dessus, est un pléonasme (dans cette locution, le mot solution signifie en réalité point admissible, mais il semble préférable de laisser au mot solution son sens habituel de solution d'un problème).

On introduit aussi d'autres notions de solutions. Ainsi on dit que $x_{*}$ est une solution locale ou minimum local ou minimiseur local du problème $(P_{X})$ s'il existe un voisinage $V$ de $x_{*}$ tel que $x_{*}$ minimise $f$ sur $X\cap V$ . Par ailleurs, on dit que $x_{*}$ est une solution stricte [resp. une solution locale stricte] si $x_{*}$ est admissible et si $f(x_{*})<f(x)$ (inégalité stricte) pour tout $x\in X$ différent de $x_{*}$ [resp. pour tout $x\in X\cap V$ différent de $x_{*}$ où $V$ est un voisinage de $x_{*}$ ].

Forme géométrique de l'optimalité au premier ordre

Lorsqu'une fonction atteint un minimum en un point, elle varie peu dans le voisinage de ce point. Mathématiquement, cette observation se traduit par le fait que sa dérivée y est nulle. Ceci est une condition d'optimalité du premier ordre bien connue pour un problème sans contrainte (ces conditions sont présentées à la section problèmes sans contrainte ci-dessous). Si l'on veut établir une expression similaire dans le cas des problèmes avec contrainte, il est nécessaire de dire ce qu'est l'approximation au premier ordre de l'ensemble admissible en un point, de linéariser cet ensemble en ce point, comme on peut le faire pour la fonction-coût. Ceci conduit à la notion de cône tangent, développée dans un autre article.

Rappelons quand même ici qu'une partie $K$ de $\mathbb {E}$ (un espace vectoriel suffit pour cette notion) est un cône si $\mathbb {R} _{++}K\subset K$ , ce qui signifie que $td$ doit appartenir à $K$ chaque fois que $t$ est un réel strictement positif (i.e., $t>0$ ) et $d\in K$ . Un cône n'est pas un objet de l'algèbre linéaire, mais de l'analyse convexe. On rencontre donc ici une première manifestation de l'importance de cette dernière théorie en optimisation.

On utilisera ici la notion de cône tangent au sens de Bouligand^[1], qui suffit en dimension finie. Précisons que ce cône tangent à $X$ en $x$ , noté $\operatorname {T} _{x}X$ ci-dessous, est l'ensemble des directions tangentes à $X$ en $x$ , c'est-à-dire des directions $d$ pour lesquelles il existe des suites $\{x_{k}\}_{k\in \mathbb {N} }$ d'éléments de $\mathbb {E}$ et $\{t_{k}\}_{k\in \mathbb {N} }$ d'éléments de $\mathbb {R}$ telles que

$\{x_{k}\}\subset X,\qquad t_{k}\downarrow 0\qquad {\mbox{et}}\qquad {\frac {x_{k}-x}{t_{k}}}\to d.$

La notion de cône tangent permet d'obtenir aisément une condition nécessaire d'optimalité du premier ordre pour le problème générique $(P_{X})$ — on suppose donc ici que le critère de ce problème est différentiable. Cette condition exprime que la fonction-coût $f$ croît depuis un minimum local $x_{*}$ en suivant une direction tangente, ce qui se traduit mathématiquement par

$\forall \,d\in \operatorname {T} _{x_{*}}X:\qquad f'(x_{*})\cdot d\geqslant 0.$

C'est ce qu'on appelle la forme géométrique de l'optimalité au premier ordre. Ce résultat avait déjà été exprimé par Peano dès 1887^[2]^,^[3], puis par Kantorovitch en 1940^[4], mais il est passé inaperçu ou a été oublié^[5]^,^[6]. On peut en donner une expression plus compacte en introduisant les notions de gradient et de cône dual.

La dérivée première $f'(x)$ de $f$ en $x$ étant une application linéaire de $\mathbb {E}$ dans $\mathbb {R}$ , par le théorème de Riesz-Fréchet, il existe un unique vecteur $\nabla f(x)\in \mathbb {E}$ vérifiant

$\forall \,h\in \mathbb {E} :\qquad \langle \nabla f(x),h\rangle =f'(x)\cdot h.$
Ce vecteur $\nabla f(x)$ est appelé le gradient de $f$ en $x$ . Il dépend manifestement du produit scalaire de l'espace euclidien $\mathbb {E}$ .

Soit $P$ une partie non vide de l'espace euclidien $\mathbb {E}$ . Le cône dual (positif) de $P$ est l'ensemble défini par

$P^{+}:=\{d\in \mathbb {E} :\langle d,x\rangle \geqslant 0$ pour tout $x\in P\}.$
C'est un cône convexe fermé non vide.

Avec ces deux concepts, l'expression géométrique de l'optimalité donnée ci-dessus devient

$\nabla f(x_{*})\in (\operatorname {T} _{x_{*}}X)^{+}.$

Cette condition est générique et c'est elle qui sera particularisée ci-dessous à des problèmes dont l'ensemble admissible a une structure plus précise. Le travail sera dans chaque cas celui de trouver une expression plus pratique, plus accessible au calcul, du cône dual du cône tangent, conduisant ainsi à la forme analytique de l'optimalité.

Résumons le résultat obtenu. On utilise l'abréviation CN1 pour désigner une condition nécessaire d'optimalité du premier ordre.

CN1 de Peano-Kantorovitch — Si $x_{*}$ est un minimum local de $(P_{X})$ et si $f$ est dérivable en $x_{*}$ , on a

$\forall d\in \operatorname {T} _{x_{*}}X\,:\quad f'(x_{*})\cdot d\geqslant 0$ ,

ce qui s'écrit aussi

$\nabla f(x_{*})\in (\operatorname {T} _{x_{*}}X)^{+}$ .

On dit que $x_{*}$ est un point stationnaire ou un point critique du problème $(P_{X})$ , si ce point est admissible et s'il vérifie la condition d'optimalité du premier ordre donnée dans le résultat ci-dessus.

Lorsque l'ensemble admissible est convexe, on dispose d'une CN1 ne faisant pas intervenir le cône tangent. On y a noté $f'(x;d)$ la dérivée directionnelle de $f$ en $x$ dans la direction $d$ , c'est-à-dire la limite lorsque $t\downarrow 0$ du quotient différentiel $(f(x+td)-f(x))/t$ .

CN1 lorsque $X$ est convexe — Si l'ensemble admissible $X$ est convexe, si $x_{*}$ est un minimum local de $(P_{X})$ et si $f$ admet des dérivées directionnelles en $x_{*}$ , on a

$\forall x\in X\,:\quad f'(x_{*})\cdot (x-x_{*})\geqslant 0$ .

Enfin, lorsque à la fois l'ensemble admissible est convexe et le critère est convexe sur l'ensemble admissible, la condition précédente est une condition nécessaire et suffisante d'optimalité du premier ordre, une propriété que l'on résume par l'abréviation CNS1. Il n'y a alors plus de distinction entre minimum local et global.

CNS1 lorsque $(P_{X})$ est convexe — Si l'ensemble admissible $X$ est convexe, si le critère $f$ est convexe sur $X$ et si $f$ admet des dérivées directionnelles en $x_{*}$ , alors $x_{*}$ est un minimum de $(P_{X})$ si, et seulement si,

$\forall x\in X\,:\quad f'(x_{*})\cdot (x-x_{*})\geqslant 0$ .

Pour les problèmes convexes, il n'y a donc pas de distinction entre un minimum local et global : tous les minima locaux sont globaux. C'est une seconde manifestation de l'importance de l'analyse convexe en optimisation.

Problèmes d'optimisation sans contrainte

Le problème que l'on considère dans cette section est celui de minimiser la fonction $f$ sur $\mathbb {E}$ tout entier, problème que l'on écrit

$\inf _{x\in \mathbb {E} }\;f(x).$

Dès lors, l'ensemble admissible $X$ est l'espace vectoriel $\mathbb {E}$ .

Conditions du premier ordre sans contrainte

Le cône tangent à $\mathbb {E}$ en $x_{*}\in \mathbb {E}$ est l'espace $\mathbb {E}$ tout entier. Comme le dual de $\mathbb {E}$ est $\{0\}$ , la CN1 générique exprime que le gradient $\nabla f(x_{*})$ est nul en un minimum local $x_{*}$ de $f$ sur $\mathbb {E}$ . Cette condition d'optimalité est parfois appelée « équation de Fermat » pour rappeler une condition similaire trouvée, dans le cas d'un polynôme réel d'une variable réelle, par Pierre de Fermat vers 1629, c'est-à-dire environ quarante ans avant l'invention du calcul différentiel par Newton et Leibniz^[7].

CN1 de Fermat — Si $x_{*}$ est un minimum local de $f$ sur $\mathbb {E}$ et si $f$ admet des dérivées directionnelles en $x_{*}$ , on a

$\forall x\in \mathbb {E} \,:\quad f'(x_{*}).(x-x_{*})\geqslant 0$ .

Si, de plus, $f$ est dérivable en $x_{*}$ , on a

$f'(x_{*})=0\qquad {\mbox{ou}}\qquad \nabla f(x_{*})=0$ .

Lorsque $f$ est convexe, ces conditions deviennent des conditions nécessaires et suffisantes d'optimalité globale de $x_{*}$ .

CNS1 pour une fonction convexe — Soient $f$ une fonction convexe sur $\mathbb {E}$ et $x_{*}\in \mathbb {E}$ .

Si $f$ admet des dérivées directionnelles en $x_{*}$ , alors $x_{*}$ est un minimum global de $f$ sur $\mathbb {E}$ si, et seulement si,

$\forall x\in \mathbb {E} \,:\quad f'(x_{*}).(x-x_{*})\geqslant 0$ .

Si $f$ est dérivable en $x_{*}$ , alors $x_{*}$ est un minimum global de $f$ sur $\mathbb {E}$ si, et seulement si,

$f'(x_{*})=0\qquad {\mbox{ou}}\qquad \nabla f(x_{*})=0$ .

Conditions du deuxième ordre sans contrainte

On désigne ci-dessous par $f''(x)$ la dérivée seconde de $f$ en $x$ , qui est une application bilinéaire symétrique de $\mathbb {E} \times \mathbb {E}$ dans $\mathbb {R}$ , et par $\nabla ^{2}f(x)$ la hessienne de $f$ en $x\in \mathbb {E}$ pour le produit scalaire $\langle \cdot ,\cdot \rangle$ de l'espace euclidien $\mathbb {E}$ , qui est l'unique opérateur linéaire auto-adjoint sur $\mathbb {E}$ vérifiant

$\forall \,h\in \mathbb {E} :\qquad f''(x)\cdot (h,h)=\langle \nabla ^{2}f(x)h,h\rangle .$

Rappelons également les notions de semi-définie positivité et définie positivité d'un opérateur auto-adjoint $A$ sur $\mathbb {E}$ , associées au produit scalaire de $\mathbb {E}$ , qui sont utilisées dans les résultats ci-dessous :

$A$ est semi-défini positif si $\langle Av,v\rangle \geqslant 0$ pour tout vecteur $v\in \mathbb {E}$ ,
$A$ est défini positif si $\langle Av,v\rangle >0$ pour tout vecteur $v\in \mathbb {E} \setminus \{0\}$ .

Les résultats suivants résument les conditions nécessaires du second ordre (CN2) et les conditions suffisantes du second ordre (CS2) pour les problèmes d'optimisation sans contrainte.

CN2 des problèmes sans contrainte — Si $f$ est dérivable dans un voisinage d'un point $x_{*}\in \mathbb {E}$ et deux fois dérivable en $x_{*}$ et si $x_{*}$ est un minimum local de $f$ sur $\mathbb {E}$ , alors $\nabla f(x_{*})=0$ et $\nabla ^{2}f(x_{*})$ est semi-défini positif.

CS2 des problèmes sans contrainte — Si $f$ est dérivable dans un voisinage d'un point $x_{*}\in \mathbb {E}$ et deux fois dérivable en $x_{*}$ et si $\nabla f(x_{*})=0$ et $\nabla ^{2}f(x_{*})$ est défini positif, alors $x_{*}$ est un minimum local strict de $f$ sur $\mathbb {E}$ .

On peut se servir de ces conditions du second ordre comme suit. La CN1 de Fermat est un système non linéaire qui a quelques chances d'être bien posé. Par exemple si $\mathbb {E} =\mathbb {R} ^{n}$ est équipé du produit scalaire euclidien, ce système est formé de $n$ équations (les dérivées partielles du critère) à $n$ inconnues. Si on calcule toutes les solutions de l'équation de Fermat (ceci est rarement une tâche aisée), on dispose, par définition, de tous les points stationnaires du critère. Ceux-ci ne sont pas nécessairement des minimiseurs de $f$ . Les conditions du deuxième ordre permettent souvent de sélectionner parmi ces points stationnaires ceux qui sont des minima locaux. En effet, d'après ces conditions

si $x_{*}$ est un point stationnaire tel que $\nabla ^{2}f(x_{*})$ n'est pas semi-défini positif, alors $x_{*}$ n'est pas un minimum local (condition nécessaire),
si $x_{*}$ est un point stationnaire tel que $\nabla ^{2}f(x_{*})$ est défini positif, alors $x_{*}$ est un minimum local strict (condition suffisante).

On ne recouvre pas ainsi tous les cas, puisque l'on pourrait avoir un point stationnaire $x_{*}$ avec une hessienne $\nabla ^{2}f(x_{*})$ semi-défini positif, mais non défini positif (il a un noyau non trivial, une valeur propre nulle). L'ambiguïté de tels cas peut parfois être levée en examinant des conditions d'ordre plus élevé.

Problèmes d'optimisation avec contraintes d'égalité

Le problème (P_E)

L'ensemble admissible du problème d'optimisation considéré dans cette section n'est pas l'espace $\mathbb {E}$ tout entier, comme pour les problèmes sans contrainte de la section précédente, mais une partie de celui-ci, définie par un nombre fini de contraintes d'égalité :

$X_{E}:=\{x\in \mathbb {E} :c(x)=0\}.$

Ces contraintes sont spécifiées au moyen d'une fonction

$c:\mathbb {E} \to \mathbb {F} ,$

où $\mathbb {F}$ est, tout comme $\mathbb {E}$ , un espace euclidien (de dimension finie) dont le produit scalaire est aussi noté $\langle \cdot ,\cdot \rangle$ . Les dimensions des espaces sont notées

$n:=\dim \mathbb {E} \qquad {\mbox{et}}\qquad m:=\dim \mathbb {F} .$

Il sera souvent approprié de supposer qu'en la solution $x_{*}$ recherchée, la jacobienne $c'(x_{*})$ de la contrainte vérifie

$c'(x_{*})$ est surjective.

Ceci requiert certainement d'avoir $m\leqslant n$ , c'est-à-dire d'avoir moins de contraintes que de variables à optimiser. Lorsque cette hypothèse est vérifiée, l'ensemble admissible $X_{E}$ est, dans un voisinage de $x_{*}$ , une variété (concept de base de la géométrie différentielle que l'on peut voir comme une surface ayant des propriétés de représentation particulières) de dimension $n-m$ .

Le problème d'optimisation considéré dans cette section s'écrit donc

$(P_{E})\quad \left\{{\begin{array}{l}\inf \;f(x)\\c(x)=0,\end{array}}\right.$

où $f:\mathbb {E} \to \mathbb {R}$ en est le critère.

Problème $(P_{E})$ convexe — On dit que le problème $(P_{E})$ est convexe si la contrainte $c$ est affine et si le critère $f$ est convexe sur $X_{E}$ .

L'ensemble admissible $X_{E}$ d'un problème $(P_{E})$ convexe est donc un sous-espace affine de $\mathbb {E}$ , donc un convexe.

Conditions du premier ordre avec contraintes d'égalité

Comme le montre le cas générique, les conditions nécessaires d'optimalité du premier ordre peuvent s'obtenir en trouvant une représentation convenable du cône tangent à l'ensemble admissible $X_{E}$ et en prenant ensuite son cône dual.

On note ${\mathcal {N}}(A)$ le noyau et ${\mathcal {R}}(A)$ l'image d'une application linéaire $A:\mathbb {E} \to \mathbb {F}$ entre deux espaces euclidiens $\mathbb {E}$ et $\mathbb {F}$ . L'adjointe de $A$ est l'application linéaire $A^{*}:\mathbb {F} \to \mathbb {E}$ définie par la relation $\langle Au,v\rangle =\langle u,A^{*}v\rangle$ , pour tout $u\in \mathbb {E}$ et tout $v\in \mathbb {F}$ . On rappelle qu'en dimension finie, on a

${\mathcal {N}}(A)^{\perp }={\mathcal {R}}(A^{*})$ .

Cette identité joue un rôle-clé dans le passage de la forme géométrique (utilisant la partie gauche de l'identité) à la forme analytique (utilisant sa partie droite) des conditions d'optimalité du premier ordre.

Le cône tangent à X_E

Le résultat suivant montre que le cône tangent est inclus dans un sous-espace vectoriel ; il lui sera égal dans les bons cas.

Estimation du cône tangent $\operatorname {T} _{x}X_{E}$ — Si $c:\mathbb {E} \to \mathbb {F}$ est dérivable en $x\in X_{E}$ , alors $\operatorname {T} _{x}X_{E}\subset {\mathcal {N}}(c'(x)).$

Dans l'inclusion $\operatorname {T} _{x}X_{E}\subset {\mathcal {N}}(c'(x))$ , le cône tangent Échec de l’analyse (SVG (MathML peut être activé via une extension du navigateur) : réponse non valide(« Math extension cannot connect to Restbase. ») du serveur « http://localhost:6011/fr.wikipedia.org/v1/ » :): {\displaystyle \operatorname{T}_x X_E} ne dépend que de l'ensemble admissible $X_{E}$ , alors que ${\mathcal {N}}(c'(x))$ dépend de la fonction $c$ utilisée pour définir $X_{E}$ . Il peut y avoir plusieurs fonctions $c$ définissant le même ensemble $X_{E}$ . Du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité $\operatorname {T} _{x}X_{E}={\mathcal {N}}(c'(x))$ a lieu. On dit alors que la contrainte $c$ (léger abus de langage, il faudrait dire la fonction $c$ utilisée pour définir $X_{E}$ ) est qualifiée en $x$ (sous-entendu «pour représenter $X_{E}$ »).

Qualification d'une contrainte d'égalité — On dit que la contrainte $c:\mathbb {E} \to \mathbb {F}$ est qualifiée en $x$ (pour représenter $X_{E}$ ) si $c$ est différentiable en $x$ et si $\operatorname {T} _{x}X_{E}={\mathcal {N}}(c'(x)).$

Voici le résultat principal assurant que la contrainte $c$ est qualifiée en un point. On y retrouve la condition mentionnée ci-dessus assurant que $X_{E}$ est une variété dans le voisinage $x$ .

Condition suffisante de qualification d'une contrainte d'égalité — Si $c:\mathbb {E} \to \mathbb {F}$ est $C^{1}$ dans un voisinage de $x\in X_{E}$ et si $c'(x)$ est surjective, alors $c$ est qualifiée en $x.$

Voici une conséquence pratique de la notion de qualification de contrainte. Au lieu d'utiliser la fonction $c$ pour représenter l'ensemble admissible $X_{E}$ , on pourrait utiliser la fonction ${\tilde {c}}:\mathbb {E} \to \mathbb {R}$ , définie par ${\tilde {c}}(x)=\|c(x)\|^{2}/2$ , puisque ${\tilde {c}}(x)=0$ si, et seulement si, $c(x)=0$ . Ceci paraît attrayant puisque l'on a ainsi remplacé toutes les contraintes d'égalité, en nombre potentiellement grand, par une seule contrainte. Cependant, la contrainte ${\tilde {c}}$ a encore moins de chance d'être qualifiée que $c$ puisque $\nabla {\tilde {c}}(x)=c'(x)^{*}c(x)=0$ en un point $x\in X_{E}$ et donc ${\mathcal {N}}({\tilde {c}}'(x))=\mathbb {E}$ , qui est le plus souvent trop grand. Il n'est donc, en général, pas recommandé de remplacer $c$ par ${\tilde {c}}$ .

Condition de Lagrange

Lorsque la contrainte est qualifiée, le cône tangent est le sous-espace vectoriel ${\mathcal {N}}(c'(x))$ , dont le dual est alors son orthogonal ${\mathcal {N}}(c'(x))^{\perp }={\mathcal {R}}(c'(x)^{*})$ . Par la CN1 générique, le gradient de $f$ en un minimum local de $f$ sur $X_{E}$ appartient à ce dernier ensemble, ce qui conduit aux conditions nécessaires d'optimalité du premier ordre (CN1) de Lagrange^[8].

CN1 de Lagrange — Soit $x_{*}$ un minimum local de $(P_{E})$ . Supposons que $f$ et $c$ soient dérivables en $x_{*}$ et que la contrainte $c$ soit qualifiée en $x_{*}$ au sens de la définition ci-dessus. Alors, il existe un vecteur $\lambda _{*}\in \mathbb {F}$ tel que

$\nabla f(x_{*})+c'(x_{*})^{*}\lambda _{*}=0,$

où $\nabla f(x_{*})$ est le gradient de $f$ en $x_{*}$ et $c'(x_{*})^{*}$ est l'opérateur adjoint de la jacobienne $c'(x_{*})$ pour les produits scalaires donnés sur $\mathbb {E}$ et $\mathbb {F}$ . Le vecteur $\lambda _{*}$ est unique si $c'(x_{*})$ est surjective.

Ce résultat, parfois appelé méthode du multiplicateur de Lagrange, est attribué à Lagrange qui l'énonça dans sa Méchanique analytique (1788). On en trouve toutefois déjà des traces dans des travaux d'Euler sur les problèmes isopérimétriques (1744). Lagrange utilisa d'abord cette méthode pour résoudre un problème de calcul des variations sous contraintes et plus tard, dans sa Théorie des fonctions analytiques (1797), il l'applique aux problèmes de la forme $(P_{E}).$ ^[9]^,^[10]

En l'absence de qualification de la contrainte, l'existence du multiplicateur n'est plus assurée, si bien que la condition nécessaire d'optimalité de Lagrange peut ne pas avoir lieu. Un exemple est donné dans la section suivante.

En pratique, il est souvent commode de retrouver la condition de Lagrange en introduisant le lagrangien du problème.

Lagrangien du problème $(P_{E})$ — On appelle lagrangien du problème $(P_{E})$ , la fonction $\ell :\mathbb {E} \times \mathbb {F} \to \mathbb {R}$ définie en $(x,\lambda )\in \mathbb {E} \times \mathbb {F}$ par

$\ell (x,\lambda ):=f(x)+\langle \lambda ,c(x)\rangle .$

Le vecteur $\lambda$ porte le nom de multiplicateur (de Lagrange) ou variable duale.

La variable $x$ est aussi appelée variable primale ; quant au couple $(x,\lambda )$ , on lui donne parfois le nom de variable(s) primale(s)-duale(s).

Le lagrangien joue un rôle essentiel en optimisation avec contraintes. Le multiplicateur porte ce nom car il multiplie les contraintes dans le lagrangien, par l'intermédiaire du produit scalaire de $\mathbb {F}$ . Sous les hypothèses du résultat ci-dessus, les conditions nécessaires d'optimalité du premier ordre peuvent maintenant s'écrire comme suit

$\left\{{\begin{array}{l}\nabla _{x}\ell (x_{*},\lambda _{*})=0\\c(x_{*})=0\end{array}}\right.\qquad {\mbox{ou}}\qquad \nabla _{(x,\lambda )}\ell (x_{*},\lambda _{*})=0.$

On note ici $\nabla _{x}$ [resp. $\nabla _{(x,\lambda )}$ ] le gradient par rapport à $x$ [resp. à $(x,\lambda )$ ]. Ce système (non linéaire, en toute généralité) permet souvent de calculer une solution du problème d'optimisation $(P_{E})$ . En réalité, cette solution est ce qu'on appelle un point stationnaire. Ce n'est pas nécessairement un minimum local du problème (ce point peut être un maximum local, qui n'est a priori pas le type de solution recherché), sauf si celui-ci est convexe.

CS1 pour un problème $(P_{E})$ convexe — Supposons que le problème $(P_{E})$ soit convexe, que $f$ soit dérivable en $x_{*}\in \mathbb {E}$ et qu'il existe un multiplicateur $\lambda _{*}\in \mathbb {F}$ tel que $(x_{*},\lambda _{*})$ vérifie

$\left\{{\begin{array}{l}\nabla _{x}\ell (x_{*},\lambda _{*})=0\\c(x_{*})=0.\end{array}}\right.$

Alors $x_{*}$ est un minimum global de $(P_{E})$ .

Pour les problèmes non convexes, ce sont les conditions du second ordre qui permettrons de sélectionner les minima locaux parmi les points stationnaires calculés.

Minimisation d'une fonction de n variables soumise à m contraintes

Il est utile de spécifier les conditions d'optimalité de Lagrange lorsque $\mathbb {E} =\mathbb {R} ^{n}$ , $\mathbb {F} =\mathbb {R} ^{m}$ et que l'on munit ces espaces du produit scalaire euclidien

$\langle u,v\rangle =u^{\!\top \!}v=\sum _{i}\,u_{i}v_{i}.$

Il y a alors $n$ variables $x_{1},\ldots ,x_{n}$ à optimiser et les $m$ contraintes du problème $(P_{E})$ sont données explicitement au moyen de $m$ fonctions $c_{i}:\mathbb {R} ^{n}\to \mathbb {R}$ :

$c_{1}(x_{1},\ldots ,x_{n})=0,\quad \ldots ,\quad c_{m}(x_{1},\ldots ,x_{n})=0.$

Le lagrangien du problème s'écrit

$\ell (x,\lambda )=f(x)+\lambda ^{\!\top \!}c(x)=f(x)+\sum _{i=1}^{m}\,\lambda _{i}c_{i}(x).$

Observons que le multiplicateur de Lagrange $\lambda \in \mathbb {R} ^{m}$ a autant de composantes qu'il y a de contraintes ; chacune des composantes $\lambda _{i}$ étant associée à une contrainte $c_{i}$ ; on dit d'ailleurs que le multiplicateur $\lambda _{i}$ est associé à la contrainte $c_{i}$ . Si on utilise $\nabla$ pour désigner le gradient d'une fonction réelle de $n$ variables par rapport au produit scalaire euclidien, c'est-à-dire le vecteur de ses dérivées partielles, les conditions d'optimalité s'écrivent sous la forme d'un système de $n+m$ équations à $n+m$ inconnues $(x_{*},\lambda _{*})$ :

$\nabla f(x_{*})+\sum _{i=1}^{m}(\lambda _{*})_{i}\nabla c_{i}(x_{*})=0\in \mathbb {R} ^{n}\qquad {\mbox{et}}\qquad c(x_{*})=0\in \mathbb {R} ^{m}.$

On voit donc qu'en la solution le gradient du critère est combinaison linéaire des gradients des contraintes (on se rappelle qu'en optimisation sans contrainte le gradient du critère est nul).

Voici un exemple de problème avec 2 variables et 2 contraintes, avec solution, mais sans multiplicateur optimal et donc sans condition de Lagrange (c'est l'absence de qualification des contraintes qui produit cet effet) :

$f(x)=x_{1}+x_{2},\quad c_{1}(x)={\frac {1}{2}}\left(x_{1}^{2}+(x_{2}-1)^{2}-1\right)\quad {\mbox{et}}\quad c_{2}(x)={\frac {1}{2}}\left(x_{1}^{2}+(x_{2}+1)^{2}-1\right).$

L'unique point admissible est le point $x_{*}=(0,0)$ , qui est donc l'unique solution du problème. Cependant les contraintes ne sont pas qualifiées en ce point car le cône tangent est réduit à $\{(0,0)\}$ alors que le noyau de la jacobienne des contraintes est $\{d\in \mathbb {R} ^{2}:d_{2}=0\}$ (on note par ailleurs que cette jacobienne, qui est une matrice $2\times 2$ ne saurait alors être surjective). Dans cet exemple, les conditions de Lagrange ne sont pas vérifiées (il n'y a pas de multiplicateur optimal), puisque le gradient de $f$ en la solution ne peut être combinaison linéaire des gradients des contraintes (ces derniers sont linéairement dépendants) :

$\nabla f(x_{*})={\begin{pmatrix}1\\1\end{pmatrix}},\qquad \nabla c_{1}(x_{*})={\begin{pmatrix}0\\-1\end{pmatrix}}\qquad {\mbox{et}}\qquad \nabla c_{2}(x_{*})={\begin{pmatrix}0\\1\end{pmatrix}}.$

Conditions du deuxième ordre avec contraintes d'égalité

Comme en optimisation sans contrainte, les conditions d'optimalité du second ordre permettent de sélectionner les éventuelles solutions parmi les points stationnaires (i.e., les points vérifiant la condition de Lagrange). Ces conditions du second ordre des problèmes avec contraintes d'égalité diffèrent de celles des problèmes sans contrainte sur deux points :

ce n'est pas la hessienne du critère qui intervient dans ces conditions, mais la hessienne du lagrangien,
la hessienne du lagrangien n'est pas semi-définie positive sur l'espace $\mathbb {E}$ des variables primales tout entier, mais sur le cône tangent.

D'où proviennent ces différences ?

En optimisation sans contrainte, les conditions nécessaires du second ordre résultent du fait que dans le voisinage d'une solution, le critère prend une valeur supérieure à celle qu'il prend en la solution. Un développement de Taylor du critère autour d'une solution et l'utilisation du fait que son gradient est nul en la solution impliquent alors immédiatement que la hessienne du critère doit être semi-définie positive en la solution. Dans le cas des problèmes avec contraintes d'égalité, utiliser la même démarche ne conduirait nulle part, car le gradient du critère n'est pas nécessairement nul en une solution (selon la condition de Lagrange, il est dans l'image de l'adjointe de la jacobienne de la contrainte). En réalité, c'est le gradient du lagrangien qui s'annule en une solution. C'est donc un développement de Taylor de cette fonction qui pourra apporter de l'information sur sa hessienne. Ceci explique le premier point ci-dessus. Par ailleurs, il est clair que sur l'ensemble admissible le lagrangien prend les mêmes valeurs que le critère, si bien qu'il prend aussi des valeurs supérieures à celle qu'il a en une solution. C'est la relation de monotonie recherchée qui conduira à la semi-définie positivité de la hessienne du lagrangien. Cependant, ce n'est que sur la variété des contraintes que cette relation de monotonie a lieu, si bien que la semi-définie positivité de la hessienne du lagrangien ne sera vérifiée que sur la variété linéarisée qu'est le cône tangent. Ceci explique le second point ci-dessus.

On devrait à présent mieux comprendre les conditions nécessaires du second ordre (CN2) pour un problème avec contraintes d'égalité, que voici.

CN2 pour le problème $(P_{E})$ — Soit $x_{*}\in \mathbb {E}$ un minimum local de $(P_{E})$ . Supposons que $f$ et $c$ soient dérivables dans un voisinage de $x_{*}$ et deux fois dérivables en $x_{*}$ et que la contrainte $c$ soit qualifiée en $x_{*}$ . Alors, il existe un multiplicateur $\lambda _{*}\in \mathbb {F}$ tel que l'on ait $\nabla _{x}\ell (x_{*},\lambda _{*})=0$ et

$\forall d\in {\mathcal {N}}(c'(x_{*}))\,:\quad \langle \nabla _{xx}^{2}\ell (x_{*},\lambda _{*})d,d\rangle \geqslant 0.$

Ce résultat donne-t-il suffisamment de conditions ou aurait-on pu en obtenir d'autres ? Ce sont les bonnes conditions car, comme en optimisation sans contrainte, si l'on remplace la semi-définie positivité par la définie positivité, on obtient des conditions suffisantes d'optimalité du second ordre (abrégées par CS2).

CS2 pour le problème $(P_{E})$ — Supposons que $f$ et $c$ soient dérivables dans un voisinage de $x_{*}\in \mathbb {E}$ et deux fois dérivables en $x_{*}$ . Supposons que $c(x_{*})=0$ et qu'il existe $\lambda _{*}\in \mathbb {F}$ tel que l'on ait $\nabla _{x}\ell (x_{*},\lambda _{*})=0$ et

$\forall d\in {\mathcal {N}}(c'(x_{*}))\setminus \{0\}\,:\quad \langle \nabla _{xx}^{2}\ell (x_{*},\lambda _{*})d,d\rangle >0.$

Alors $x_{*}$ est un minimum local strict de $(P_{E})$ .

On notera que les CS2 ne requièrent pas d'hypothèse de qualification de contrainte.

Vérifier la (semi-)définie positivité de la hessienne du lagrangien $L_{*}:=\nabla _{xx}^{2}\ell (x_{*},\lambda _{*})$ dans le noyau de $c'(x_{*})$ ne pose pas de difficulté, pourvu que l'on puisse calculer une base de ce noyau. On peut en effet voir ce noyau comme l'image d'une application linéaire injective $B:\mathbb {R} ^{p}\to \mathbb {E}$ tel que $c'(x_{*})B=0,$ avec $p=n-\dim {\mathcal {R}}(c'(x_{*})).$ Il suffit alors de vérifier la (semi-)définie positivité de $B^{*}L_{*}B$ , ce qui peut se faire en temps polynomial par des techniques d'algèbre linéaire.

Interprétation marginaliste des multiplicateurs de Lagrange

Exemple : vecteurs propres et quotient de Rayleigh

Soit $\mathbb {E}$ un espace euclidien muni d'un produit scalaire noté $\langle \cdot ,\cdot \rangle$ ; on note $\|\cdot \|$ la norme associée. On s'intéresse aux vecteurs propres d'une application linéaire $A:\mathbb {E} \to \mathbb {E}$ auto-adjointe. Par exemple, on pourrait avoir $\mathbb {E} =\mathbb {R} ^{n}$ , muni du produit scalaire euclidien, et $A$ une matrice symétrique.

Le problème d'optimisation

Dans ce but, on considère le quotient de Rayleigh $q_{r}:\mathbb {E} \to \mathbb {R}$ , défini en $x\in \mathbb {E} \setminus \{0\}$ par

$q_{r}(x):={\frac {\langle Ax,x\rangle }{\|x\|^{2}}}.$

Comme $q_{r}$ est constant le long des rayons issus de zéro, il revient au même de minimiser la fonction quadratique $q:\mathbb {E} \to \mathbb {R}$ définie en $x\in \mathbb {E}$ par

$q(x):={\frac {1}{2}}\,\langle Ax,x\rangle ,$

sur la sphère unité $S:=\{x\in \mathbb {E} :\|x\|=1\}.$ On considère donc le problème d'optimisation avec une unique contrainte d'égalité suivant

$\inf _{\|x\|=1}\;q(x).$

Ce problème a toujours une solution (le critère est continu et, comme $\mathbb {E}$ est de dimension finie, $S$ est compact). Calculons les points stationnaires du problème d'optimisation.

Conditions d'optimalité du premier ordre

La fonction $x\mapsto \|x\|-1$ est non différentiable en zéro, mais cela n'a pas trop d'importance, car la solution est de norme un. On préfère toutefois définir l'ensemble admissible au moyen de la contrainte $x\mapsto c(x):=(1-\|x\|^{2})/2$ , qui se dérive plus facilement. Cette contrainte est qualifiée en tout point admissible, car sa jacobienne $h\mapsto -\langle x,h\rangle$ est surjective si $x\neq 0$ . Pour calculer la solution du problème d'optimisation, on introduit son lagrangien, qui prend en $(x,\lambda )\in \mathbb {E} \times \mathbb {R}$ la valeur

$\ell (x,\lambda )={\frac {1}{2}}\langle Ax,x\rangle +{\frac {\lambda }{2}}(1-\|x\|^{2}).$

Comme il y a une seule contrainte, il y a un seul multiplicateur $\lambda$ .

Les conditions d'optimalité de Lagrange s'écrivent

$\left\{{\begin{array}{l}Ax=\lambda x\\\|x\|=1.\end{array}}\right.$

Dès lors, ${\bar {x}}$ est un point stationnaire de multiplicateur ${\bar {\lambda }}$ si, et seulement si, ${\bar {x}}$ est un vecteur propre unitaire de $A$ , de valeur propre ${\bar {\lambda }}$ . Ce multiplicateur est aussi la valeur du critère en ${\bar {x}}$ , puisque $q({\bar {x}})=\langle A{\bar {x}},{\bar {x}}\rangle ={\bar {\lambda }}\|{\bar {x}}\|^{2}={\bar {\lambda }}$ . Dès lors, une solution du problème d'optimisation est un vecteur propre unitaire de valeur propre minimale. Si au lieu de minimiser $\langle Ax,x\rangle$ , on minimisait $-\langle Ax,x\rangle$ ou on maximisait $\langle Ax,x\rangle$ , une solution du problème d'optimisation serait un vecteur propre unitaire de valeur propre maximale.

Conditions d'optimalité du deuxième ordre

La hessienne du lagrangien en une solution primale-duale $({\bar {x}},{\bar {\lambda }})$ du problème d'optimisation est l'opérateur auto-adjoint $(A-{\bar {\lambda }}I)$ sur $\mathbb {E} .$ Comme ${\bar {\lambda }}$ est la valeur minimale de $q$ sur la sphère unité, on a $\langle Ax,x\rangle \geqslant {\bar {\lambda }}$ pour tout vecteur unitaire $x.$ On peut en déduire que $\langle (A-{\bar {\lambda }}I)x,x\rangle \geqslant 0$ pour tout vecteur $x\in \mathbb {E} ,$ ce qui signifie que la hessienne du lagrangien $A-\lambda I$ est semi-définie positive dans tout l'espace $\mathbb {E}$ , pas seulement dans l'espace tangent à la contrainte comme l'assurent les CN2. C'est le caractère quadratique du critère et des contraintes qui permet d'avoir cette propriété.

Si un couple $({\bar {x}},{\bar {\lambda }})$ vérifie les CS2, alors ${\bar {x}}$ est un vecteur propre de $A$ de valeur propre ${\bar {\lambda }}$ ; de plus $\langle Ax,x\rangle >\langle A{\bar {x}},{\bar {x}}\rangle ={\bar {\lambda }}$ , pour tout vecteur unitaire $x$ , voisin mais différent de ${\bar {x}}$ . On en déduit aisément que $\langle Ax,x\rangle >{\bar {\lambda }}$ pour tout $x$ unitaire différent de $\pm {\bar {x}}$ (on peut par exemple prendre $t\in {]0,1]}$ assez petit pour que $x_{t}/\|x_{t}\|$ , avec $x_{t}:=(1-t){\bar {x}}+tx$ , soit voisin mais différent de ${\bar {x}}$ et développer la relation $\langle Ax_{t},x_{t}\rangle >{\bar {\lambda }}\|x_{t}\|^{2}$ qui en résulte). On en déduit que ${\bar {\lambda }}$ est la valeur propre minimale et est simple (i.e., l'espace propre associé est de dimension 1). La réciproque est également vraie : si la plus petite valeur propre de $A$ est simple, les CS2 sont vérifiées.

Résultats obtenus

Vecteurs propres et quotient de Rayleigh — Soit $\mathbb {E}$ un espace euclidien et $A:\mathbb {E} \to \mathbb {E}$ une application linéaire auto-adjointe. On considère le problème d'optimisation suivant :

$\inf _{\|x\|=1}\;\langle Ax,x\rangle .$

Un vecteur unitaire est un vecteur propre de $A$ si, et seulement si, c'est un point stationnaire de ce problème ; les multiplicateurs associés sont les valeurs propres correspondantes.
Un vecteur est vecteur propre unitaire de valeur propre minimale si, et seulement si, il est solution de ce problème.
Les conditions suffisantes d'optimalité du second ordre de ce problème sont vérifiées en une solution si, et seulement si, la valeur propre associée à cette solution est simple

Problèmes d'optimisation avec contraintes d'égalité et d'inégalité

Le problème (P_EI)

Dans cette section, on considère le problème d'optimisation avec contraintes d'égalité et d'inégalité, que l'on écrit sous la forme suivante

$(P_{EI})\quad \left\{{\begin{array}{l}\inf \,f(x)\\c_{i}(x)=0,\quad i\in E\\c_{i}(x)\leqslant 0,\quad i\in I.\end{array}}\right.$

Cette écriture exprime le fait que l'on cherche à minimiser un critère $f:\mathbb {E} \to \mathbb {R}$ défini sur un espace euclidien $\mathbb {E}$ dont l'argument $x$ , qui est le vecteur des variables à optimiser, l'inconnue de ce problème, est contraint de respecter un nombre fini de contraintes spécifiées par des fonctions $c_{i}:\mathbb {E} \to \mathbb {R}$ . Le produit scalaire de l'espace euclidien est noté $\langle \cdot ,\cdot \rangle$ . On y trouve des contraintes d'égalité et d'inégalité en nombre fini, repérées par des ensembles finis d'indices $E$ et $I$ , dont le cardinal est noté

$m_{E}:=|E|\qquad {\mbox{et}}\qquad m_{I}:=|I|$ .

Le nombre total de contraintes est noté $m:=m_{E}+m_{I}$ .

Il est commode de supposer que les ensembles d'indices $E$ et $I$ forment une partition de l'ensemble des $m$ premiers entiers $\{1,\ldots ,m\}$ :

$E\cup I=\{1,\ldots ,m\}\qquad {\mbox{et}}\qquad E\cap I=\varnothing .$

Si $v\in \mathbb {R} ^{m}$ , on note $v_{E}$ le vecteur de $\mathbb {R} ^{m_{E}}$ formé des composantes $v_{i}$ de $v$ avec $i\in E$ . De même pour $v_{I}$ . On peut alors rassembler les fonctions réelles $c_{i}$ en une seule fonction $c:\mathbb {E} \to \mathbb {R} ^{m}$ , dont les composantes $c_{E}$ et $c_{I}$ sont utilisées pour définir les contraintes d'égalité et d'inégalité.

L'ensemble admissible de $(P_{EI})$ est noté

$X_{EI}:=\{x\in \mathbb {E} :c_{E}(x)=0,c_{I}(x)\leqslant 0\}.$

Ici et ci-dessous, les inégalités vectorielles doivent être comprises composante par composante : pour un vecteur $v$ , $v\leqslant 0$ signifie que $v_{i}\leqslant 0$ pour tout indice $i$ . Si en un point admissible $x$ , $c'(x)$ est surjective, cet ensemble se présente autour de $x$ comme une partie de la variété $\{z\in \mathbb {E} :c_{E}(z)=0\}$ formée des points qui vérifient aussi l'inégalité $c_{I}(z)\leqslant 0$ .

Problème $(P_{EI})$ convexe — On dit que le problème $(P_{EI})$ est convexe si la contrainte d'égalité $c_{E}$ est affine, si les contraintes d'inégalité $c_{i}$ ( $i\in I$ ) sont convexes et si le critère $f$ est convexe sur $X_{EI}.$

L'ensemble admissible $X_{EI}$ d'un problème $(P_{EI})$ convexe est clairement convexe.

Comme la CN1 générique l'a montré, l'écriture des conditions d'optimalité du premier ordre passe par la détermination du cône tangent à l'ensemble admissible. Ce cône tangent en $x$ est un concept local, dans le sens où une modification de l'ensemble admissible en dehors d'un voisinage de $x$ n'aura pas d'incidence sur le cône tangent en ce point. Dès lors si une contrainte d'inégalité prend une valeur strictement négative en $x$ , disons $c_{i}(x)<0$ , une perturbation de cette contrainte ne modifiera pas l'ensemble admissible dans le voisinage de $x.$ Il est donc nécessaire de pouvoir nommer les contraintes d'inégalité qui sont nulles au point considéré, ce qui conduit à la notion suivante.

Contrainte active et inactive — On dit qu'une contrainte d'égalité ou d'inégalité $c_{i}$ est active en $x$ si $c_{i}(x)=0$ . On note

$I^{0}(x)\equiv I_{x}^{0}:=\{i\in I:c_{i}(x)=0\}$

l'ensemble des indices des contraintes d'inégalité actives en $x$ . On adopte la notation simplifiée $I_{*}^{0}:=I^{0}(x_{*}).$ Une contrainte d'inégalité qui n'est pas active en un point donné, y est dite inactive.

Les problèmes d'optimisation avec contraintes d'inégalité sont considérablement plus difficiles à analyser et à résoudre numériquement (un calcul analytique, sur papier, est rarement possible et d'ailleurs souvent difficile lui aussi) que les problèmes rencontrés jusqu'ici. Lorsqu'il n'y a que des contraintes d'égalité, la compréhension du problème repose sur l'analyse mathématique classique, en particulier sur le théorème des fonctions implicites, ce qui explique que les conditions de Lagrange sont en général vues dans un cours de calcul différentiel et font ainsi partie du bagage de beaucoup de mathématiciens ou d'autres scientifiques. La situation est différente lorsque des contraintes d'inégalité sont présentes, car il faut alors faire appel à des outils spécifiques, essentiellement ceux de l'analyse convexe, moins souvent enseignés. Par ailleurs, numériquement, la difficulté principale provient du fait que, d'une manière ou d'une autre, le calcul de la solution détermine forcément les contraintes qui sont actives en cette solution. Si ces contraintes actives étaient connues, on pourrait se ramener au cas des problèmes avec seulement des contraintes d'égalité lisses. Or il y a $2^{m_{I}}$ manières de rendre les $m_{I}$ contraintes d'inégalité actives. C'est à ce nombre exponentiel que l'on fait allusion lorsque l'on parle de la combinatoire des problèmes d'optimisation avec contraintes d'inégalité. Celle-ci est redoutable et en rapport direct avec la conjecture P = NP, puisqu'un problème d'optimisation quadratique non convexe (i.e., un problème avec un critère quadratique non convexe et des contraintes affines) est NP ardu. On est donc en présence d'un problème pour lequel il est vraisemblable que le principe de conservation des ennuis s'applique ; on veut dire par là que la difficulté du problème ne peut être éliminée en lui trouvant une autre formulation équivalente. Ainsi, on pourrait penser simplifier le problème en reformulant les contraintes d'inégalité par l'une des contraintes d'égalité apparemment plus simples et équivalentes suivantes

$\max(0,c_{I}(x))=0\qquad {\mbox{ou}}\qquad \|\max(0,c_{I}(x))\|^{2}=0.$

Cependant la première contrainte est non lisse et la seconde, bien qu'une fois différentiable, n'est en général pas qualifiée dans le sens discuté ci-dessous.

Conditions du premier ordre pour (P_EI)

Si les conditions nécessaires d'optimalité des problèmes avec contraintes d'égalité ont été établies au XVIII^e siècle, celles des problèmes avec contraintes d'inégalité sont beaucoup plus récentes, puisqu'elles datent du milieu du XX^e siècle. Il est vraisemblable que le besoin d'une analyse fine de ces questions ait été stimulé par l'augmentation des moyens de calcul. Le développement de l'analyse convexe a aussi permis de poser la théorie sur des bases solides, notamment avec le lemme de Farkas^[11] qui sera ci-dessous une des clés permettant de passer de la version géométrique à la version analytique des conditions d'optimalité du premier ordre.

Le cône tangent à X_EI

Le résultat suivant permet d'affirmer que le cône tangent est inclus dans le cône linéarisant, noté $\operatorname {T} '_{x}X_{EI}$ et défini ci-dessous ; il lui sera égal dans les bons cas.

Estimation du cône tangent $\operatorname {T} _{x}X_{EI}$ — Si $x\in X_{EI}$ et si $c_{E\cup I^{0}(x)}$ est dérivable en $x$ , alors

$\operatorname {T} _{x}X_{EI}\subset \operatorname {T} '_{x}X_{EI}:=\{d\in \mathbb {E} :c'_{E}(x)\cdot d=0,\;c'_{I^{0}(x)}(x)\cdot d\leqslant 0\}.$

Observons que, comme annoncé, seules les contraintes d'inégalité actives interviennent dans l'estimation du cône tangent qu'est le cône linéarisant. On retrouverait le noyau de la jacobienne des contraintes s'il n'y avait que des contraintes d'égalité.

On peut faire, sur l'inclusion précédente, les mêmes remarques que celles sur l'estimation du cône tangent à des contraintes d'égalité par le noyau de la jacobienne de ces contraintes : $\operatorname {T} _{x}X_{EI}$ ne dépend que de l'ensemble admissible $X_{EI}$ , pas de la manière de le décrire par la fonction $c$ , alors que $\operatorname {T} '_{x}X_{EI}$ dépend manifestement de $c$ . Il peut y avoir plusieurs fonctions $c$ définissant le même ensemble admissible et, du point de vue de l'optimisation, toutes ne conviennent pas. Celles qui permettent d'obtenir des conditions d'optimalité sont celles pour lesquelles l'égalité $\operatorname {T} _{x}X_{EI}=\operatorname {T} '_{x}X_{EI}$ a lieu ; d'ailleurs le premier cône est difficile à calculer s'il n'est égal au second, alors que l'on dispose d'une formule explicite pour le second. On introduit donc la notion de qualification de (fonctions définissant les) contraintes suivante.

Qualification de contraintes d'égalité et d'inégalité — On dit que les contraintes $c:\mathbb {E} \to \mathbb {R} ^{m}$ du problème d'optimisation $(P_{EI})$ sont qualifiées en $x$ (pour représenter $X_{EI}$ ) si $c_{E\cup I^{0}(x)}$ est différentiable en $x$ et si $\operatorname {T} _{x}X_{EI}=\operatorname {T} '_{x}X_{EI}.$

En général, le cône tangent et le cône linéarisant diffèrent, car le premier n'est pas nécessairement convexe, alors que le second l'est (c'est un cône polyédrique convexe). Par ailleurs, la notion de qualification des contraintes a un aspect global, dans le sens où elle porte sur toutes les fonctions définissant le problème d'optimisation ; il n'est pas question d'utiliser cette notion fonction par fonction parce que le cône tangent à une intersection d'ensembles n'est pas égal à l'intersection des cônes tangents à ces ensembles (voir l'article sur le cône tangent).

Comme pour les problèmes avec contraintes d'égalité, il n'est presque jamais judicieux de remplacer les contraintes de $(P_{EI})$ par l'unique contrainte d'égalité équivalente ${\tilde {c}}(x)=0$ , où ${\tilde {c}}:\mathbb {E} \to \mathbb {R}$ est définie par

${\tilde {c}}(x)={\frac {1}{2}}\|c_{E}(x)\|_{2}^{2}+{\frac {1}{2}}\|c_{I}(x)^{+}\|_{2}^{2},$

même si le fait de n'avoir qu'une seule contrainte est a priori attrayant. Cette dernière contrainte a, en effet, l'inconvénient de n'être pratiquement jamais qualifiée, puisque $\nabla {\tilde {c}}(x)=c'_{E}(x)^{*}c_{E}(x)+c_{I}'(x)^{*}c_{I}(x)^{+}$ est nul en tout point admissible. Dès lors, pour cette contrainte, $\operatorname {T} '_{x}X_{EI}=\mathbb {E}$ , qui est pratiquement toujours trop grand, plus grand que $\operatorname {T} _{x}X_{EI}$ .

Vérifier si les contraintes sont qualifiées est une tâche difficile. Cela requiert le calcul du cône tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cône linéarisant. On connaît un certain nombre de conditions suffisantes de qualification de contraintes, qui sont plus subtiles que lorsque seules des contraintes d'égalité sont présentes. Elles sont présentées dans l'article Qualification de contraintes.

Conditions de Karush, Kuhn et Tucker (KKT)

On suppose dans cette section que les contraintes du problème $(P_{EI})$ sont qualifiés, au sens précisé dans la section précédente. Si l'on veut trouver une expression plus explicite de la condition nécessaire d'optimalité du première ordre en $x$ , à savoir $\nabla f(x)\in (\operatorname {T} _{x}X_{EI})^{+}$ , il faut calculer le cône dual du cône tangent, que l'on suppose donc égal au cône dual du cône linéarisant $(\operatorname {T} '_{x}X_{EI})^{+}$ . Il s'agit donc de calculer le dual d'un cône convexe polyédrique. Le lemme de Farkas fournit une réponse à cette question. Une version légèrement généralisée est donnée ci-dessous.

Lemme de Farkas généralisé — Soient $\mathbb {E}$ et $\mathbb {F}$ deux espaces euclidiens, $A:\mathbb {E} \to \mathbb {F}$ une application linéaire et $K$ un cône convexe non vide de $\mathbb {E}$ . Alors

$\{y\in \mathbb {F} :A^{*}y\in K^{+}\}^{+}=\operatorname {adh} \{Ax:x\in K\}.$

On ne peut pas se passer de l'adhérence dans le membre de droite de l'identité car le cône $A(K)$ n'est pas nécessairement fermé (même si $K$ est fermé) alors que, en tant que cône dual, le cône du membre de gauche est toujours fermé. Signalons que si $K$ est un cône convexe polyédrique (comme l'orthant positif d'un certain $\mathbb {R} ^{p}$ ), alors $A(K)$ est un polyèdre convexe, donc un fermé ; dans ce cas, on peut ôter l'adhérence dans le membre de droite.

Simplifions les notations en posant $J:=I^{0}(x)$ , $A_{E}:=c'_{E}(x)$ et $A_{J}:=c'_{J}(x)$ . On peut établir une expression duale du cône

$(\operatorname {T} '_{x}X_{EI})^{+}:=\{d\in \mathbb {E} :A_{E}d=0,\;A_{J}d\leqslant 0\}^{+},$

en utilisant le lemme de Farkas généralisé avec

$\mathbb {E} =\mathbb {R} ^{m_{E}}\times \mathbb {R} ^{m_{J}}$ muni du produit scalaire euclidien,
$\mathbb {F} =\mathbb {R} ^{n}$ muni du produit scalaire euclidien,
$A={\begin{pmatrix}A_{E}^{\!\top }&A_{J}^{\!\top }\end{pmatrix}}:(\lambda _{E},\lambda _{J})\in \mathbb {E} \mapsto A_{E}^{\!\top \!}\lambda _{E}+A_{J}^{\!\top \!}\lambda _{J}\in \mathbb {F}$ ,
$K=\mathbb {R} ^{m_{E}}\times \mathbb {R} _{-}^{m_{J}}$ .

On a noté $\mathbb {R} _{-}^{m_{J}}:=\{\lambda _{J}\in \mathbb {R} ^{m_{J}}:\lambda _{J}\leqslant 0\}$ . On vérifie facilement que

$K^{+}=\{0\}\times \mathbb {R} _{-}^{m_{J}}\qquad {\mbox{et}}\qquad A^{*}={\begin{pmatrix}A_{E}\\A_{J}\end{pmatrix}}.$

Par le lemme de Farkas, on trouve alors la représentation duale du cône linéarisant suivante (il n'est pas nécessaire de prendre l'adhérence de l'ensemble obtenu, car il est fermé par sa polyédricité)

$(\operatorname {T} '_{x}X_{EI})^{+}=\{A_{E}^{\!\top \!}\mu _{E}+A_{J}^{\!\top \!}\mu _{J}:\mu _{E}\mathbb {R} ^{m_{E}},~\mu _{J}\in \mathbb {R} _{-}^{m_{J}}\}.$

On en déduit les conditions nécessaires d'optimalité du premier ordre suivantes, dites de Karush, Kuhn et Tucker (KKT). Elles sont fondamentales.

CN1 de Karush, Kuhn et Tucker — Soit $x_{*}$ un minimum local de $(P_{EI})$ . Supposons que $f$ et $c_{E\cup I_{*}^{0}}$ soient dérivables en $x_{*}$ et que les contraintes soient qualifiées en $x_{*}$ . Alors, il existe $\lambda _{*}\in \mathbb {R} ^{m}$ tel que l'on ait

({\mbox{KKT}})\quad \left\{{\begin{array}{cl}(a)&\nabla f(x_{*})+c'(x_{*})^{*}\lambda _{*}=0\\(b)&c_{E}(x_{*})=0\\(c)&c_{I}(x_{*})\leqslant 0\\(d)&(\lambda _{*})_{I}\geqslant 0\\(e)&(\lambda _{*})_{I}^{\!\top \!}c_{I}(x_{*})=0,\end{array}}\right.

où $\nabla f(x_{*})$ est le gradient de $f$ en $x_{*}$ et $c'(x_{*})^{*}:\mathbb {R} ^{m}\to \mathbb {E}$ est l'opérateur adjoint de la jacobienne $c'(x_{*})$ pour le produit scalaire donné sur $\mathbb {E}$ .

Un point $x_{*}$ vérifiant les conditions (KKT) ci-dessus est dit stationnaire pour le problème $(P_{EI})$ .

Les conditions nécessaires d’optimalité ci-dessus ont longtemps été attribuées à Kuhn et Tucker (1951^[12]). Après bien des années, on constata que ces conditions avaient déjà été données par Karush (1939^[13]) dans une thèse qui ne fut jamais publiée, mais qui est décrite dans le compte rendu historique de Kuhn^[14]. Une approche différente conduisant au même résultat a été suivie par John (1948^[15]), également avant les travaux de Kuhn et Tucker.

Avant de discuter le système (KKT), introduisons le lagrangien du problème, qui a la même forme que pour les problèmes d'optimisation avec contraintes d'égalité.

Lagrangien du problème $(P_{EI})$ — On appelle lagrangien du problème $(P_{EI})$ , la fonction $\ell :\mathbb {E} \times \mathbb {R} ^{m}\to \mathbb {R}$ définie en $(x,\lambda )\in \mathbb {E} \times \mathbb {R} ^{m}$ par

$\ell (x,\lambda ):=f(x)+\lambda ^{\!\top \!}c(x)=f(x)+\sum _{i=1}^{m}\lambda _{i}c_{i}(x).$

Le vecteur $\lambda$ porte le nom de multiplicateur (de Karush, Kuhn et Tucker ou de Lagrange) ou variable duale.

La variable $x$ est aussi appelée variable primale ; quant au couple $(x,\lambda )$ , on lui donne parfois le nom de variable(s) primale(s)-duale(s).

Voici quelques commentaires sur les conditions de Karush, Kuhn et Tucker.

On reconnaît dans (KKT)-(a) la nullité du gradient du lagrangien par rapport à la variable primale, $\nabla _{x}\ell (x_{*},\lambda _{*})=0$ , équation qui était déjà présente pour les problèmes d'optimisation avec contraintes d'égalite et que l'on peut aussi écrire $\nabla f(x_{*})+\sum _{i=1}^{m}(\lambda _{*})_{i}\nabla c_{i}(x_{*})=0,$ où les gradients sont pris par rapport au produit scalaire équipant $\mathbb {E}$ . Si l'espace euclidien $\mathbb {E}$ est $\mathbb {R} ^{n}$ muni du produit scalaire euclidien, ces gradients sont les vecteurs des dérivées partielles par rapport aux $n$ variables $x_{1},\ldots ,x_{n}.$
Les conditions (KKT)-(b) et (KKT)-(c) certifient l'admissibilité de la solution.
Les deux dernières conditions sont attachées aux contraintes d'inégalité. La première, (KKT)-(d), assure que les multiplicateurs optimaux associés aux contraintes d'inégalité sont positifs. Ce signe serait chaque fois changé si au lieu d'avoir un problème de minimisation on avait un problème de maximisation, ou si on avait écrit les contraintes sous la forme $c_{I}(x)\geqslant 0$ au lieu de $c_{I}(x)\leqslant 0$ , ou encore si on avait utilisé le signe $-$ au lieu du signe $+$ dans la définition du lagrangien.
La dernière condition, (KKT)-(e), est connue sous le nom de condition de complémentarité. Du fait du signe de $(\lambda _{*})_{I}$ et de $c_{I}(x_{*})$ , elle est équivalente à
$\forall \,i\in I:\qquad (\lambda _{*})_{i}c_{i}(x_{*})=0,$ si bien que soit $(\lambda _{*})_{i}=0$ soit $c_{i}(x_{*})=0$ , lorsque $i\in I$ . C'est de cette alternative que provient le nom de complémentarité. Cette condition s'écrit aussi $\forall \,i\in I:\qquad c_{i}(x_{*})<0~~\Longrightarrow ~~(\lambda _{*})_{i}=0.$ Autrement dit, les multiplicateurs associés aux contraintes d'inégalité inactives sont nuls. Pour certains problèmes, l'implication ci-dessus est remplacée par une équivalence : $\forall \,i\in I:\qquad c_{i}(x_{*})<0~~\Longleftrightarrow ~~(\lambda _{*})_{i}=0.$ On dit alors que l'on a complémentarité stricte.
Les conditions (KKT)-(cde) peuvent être rassemblées sous l'une des formes compactes suivantes (il y en a d'autres) $0\leqslant (\lambda _{*})_{I}\perp (-c_{I}(x))\geqslant 0\qquad {\mbox{ou}}\qquad \min((\lambda _{*})_{I},(-c_{I}(x_{*})))=0,$ qui exprime la positivité de $(\lambda _{*})_{I}$ , celle de $-c_{I}(x_{*})$ et l'orthogonalité de ces deux vecteurs pour le produit scalaire euclidien. Les systèmes de ce type, appelés problèmes de complémentarité, ont fait l'objet d'études systématiques, conduisant à une discipline à part entière. Celle-ci englobe donc l'optimisation et se généralise à ce que l'on appelle les problèmes d'inéquations variationnelles.

Les conditions de KKT sont compliquées et difficiles à résoudre numériquement (elles ne le sont analytiquement que pour de rares problèmes à la structure particulière ; des exemples sont donnés ci-dessous). Il n'y a cependant ni trop ni trop peu de conditions, comme le montre la démonstration de la propriété suivante, stipulant que, si le problème est convexe, ces conditions sont suffisantes pour impliquer l'optimalité globale.

CS1 pour un problème $(P_{EI})$ convexe — Considérons le problème $(P_{EI})$ , que l'on suppose convexe au sens défini ci-dessus. Soit $x_{*}$ un point vérifiant les contraintes de $(P_{EI})$ . Si $f$ et $c$ sont dérivables en $x_{*}$ et s'il existe $\lambda _{*}\in \mathbb {R} ^{m}$ tel que les conditions de Karush, Kuhn et Tucker (KKT) ci-dessus soient vérifiées, alors $x_{*}$ est un minimum global de $(P_{EI}).$

Ensemble des multiplicateurs optimaux

Soit $\lambda _{*}\in \mathbb {R} ^{m}$ un multiplicateur optimal (ou solution duale) associé à une solution $x_{*}\in \mathbb {E}$ du problème $(P_{EI})$ . Il sera utile d'introduire les ensembles d'indices suivants :

I_{*}^{0+}:=\{i\in I_{*}^{0}:(\lambda _{*})_{i}>0\}\qquad {\mbox{et}}\qquad I_{*}^{00}:=\{i\in I_{*}^{0}:(\lambda _{*})_{i}=0\}.

Ce sont donc des ensembles d'indices qui dépendent à la fois de $x_{*}$ et $\lambda _{*}$ . Les contraintes d'indices $i\in I_{*}^{0+}$ sont dites fortement actives et celles d'indices $i\in I_{*}^{00}$ sont dites faiblement actives. Ces dernières, bien qu'actives ( $c_{i}(x_{*})=0$ ), peuvent être ôtées du problème sans modifier la stationnarité de $x_{*}$ ( $(\lambda _{*})_{i}=0$ ).

Il peut y avoir plus d'une solution duale $\lambda _{*}$ associée à une solution primale $x_{*}$ . L'ensemble des multiplicateurs associés à $x_{*}$ est noté

\Lambda _{*}:=\Lambda (x_{*}):=\{\lambda _{*}\in \mathbb {R} ^{m}:(x_{*},\lambda _{*})~{\mbox{est solution primale-duale de}}~(P_{EI})\}.

La solution $x_{*}$ étant fixée, les conditions d'optimalité de KKT montrent que $\Lambda _{*}$ est un polyèdre convexe de $\mathbb {R} ^{m}$ :

\Lambda _{*}=\{\lambda \in \mathbb {R} ^{m}:\nabla f(x_{*})+c(x_{*})^{*}\lambda =0,~\lambda _{I_{*}^{0}}\geqslant 0,~\lambda _{I\setminus I_{*}^{0}}=0\}.

En particulier, $\Lambda _{*}$ est fermé. Il est non vide si les contraintes sont qualifiées en $x_{*}$ (théorème d'optimalité de KKT). Par ailleurs, $\lambda _{*}\in \Lambda _{*}$ est un sommet de $\Lambda _{*}$ si $c'_{E\cup I_{*}^{0+}}(x_{*})$ est surjective. En particulier, $\Lambda _{*}$ n'a pas de sommet si $c'_{E}(x_{*})$ n'est pas surjective.

Cet ensemble $\Lambda _{*}$ est clairement réduit à un seul multiplicateur si les conditions de qualification (QC-IL) (indépendance linéaire des gradients des contraintes actives) sont vérifiées en $x_{*}$ . Mais, l'unicité du multiplicateur optimal a lieu, en fait, sous une condition plus faible que (QC-IL), mais plus forte que la qualification de Mangasarian-Fromovitz (QC-MF), celle que donne le résultat suivant^[16]. Cette condition est aussi nécessaire et suffisante et est parfois appelée la condition de qualification de Mangasarian-Fromovitz stricte (QC-MFS).

Unicité du multiplicateur — Soit $x_{*}$ un point stationnaire de $(P_{EI})$ (donc $f$ et $c_{E\cup I_{*}^{0}}$ sont supposées différentiables en $x_{*}$ et $\Lambda _{*}\not =\varnothing$ ). Alors $\Lambda _{*}$ est un singleton si, et seulement si, il existe $\lambda _{*}\in \Lambda _{*}$ tel que

\left.{\begin{array}{r}\sum _{i\in E\cup I_{*}^{0}}\alpha _{i}\nabla c_{i}(x_{*})=0\\\alpha _{i}\geqslant 0~{\mbox{pour tout}}~i\in I_{*}^{00}\end{array}}\right\}\quad \Longrightarrow \quad \alpha _{E\cup I_{*}^{0}}=0.

Mais en toute généralité, $\Lambda _{*}$ peut ne pas être réduit à un point. En ce qui concerne le caractère borné de $\Lambda _{*}$ , on a le résultat suivant^[17].

Bornitude des multiplicateurs — Soient $(x_{*},\lambda _{*})$ un couple vérifiant les conditions de KKT (donc $f$ et $c_{E\cup I_{*}^{0}}$ sont supposées différentiables en $x_{*}$ ) et $\Lambda _{*}$ l'ensemble convexe fermé non vide des multiplicateurs optimaux associés à $x_{*}$ . Alors $\Lambda _{*}$ est borné si, et seulement si, la condition de qualification de Mangasarian-Fromovitz (QC-MF) a lieu en $x_{*}$ .

Résolution analytique des conditions d'optimalité

Les conditions d'optimalité de Karush, Kuhn et Tucker permettent d'affirmer que, sous certaines conditions, en particulier de qualification des contraintes, une solution locale de $(P_{EI})$ est un point stationnaire de ce problème, ce qui veut dire qu'elle vérifie l'ensemble des relations désignées par (KKT) ci-dessus. Pour calculer les solutions de $(P_{EI})$ , on pourra donc, dans un premier temps, calculer les solutions du système d'optimalité (KKT). Toutefois, ce calcul est beaucoup plus difficile que lorsqu'il n'y a que des contraintes d'égalité. La difficulté vient de la présence d'inégalités et, en particulier, des conditions de complémentarité. On y retrouvera la combinatoire des problèmes d'optimisation avec contraintes d'inégalité, confirmant ainsi le principe de conservation des ennuis déjà évoqué.

En général, il faut utiliser des algorithmes spécifiques pour résoudre ce système d'optimalité (c'est ce à quoi est consacré une grande partie de l'optimisation numérique). Dans certains cas, cependant, en particulier pour des problèmes de petite taille ayant peu de contraintes d'inégalité ou des problèmes très structurés, on peut chercher les solutions de ce système (KKT) analytiquement en considérant l'une après l'autre toutes les manières de satisfaire les contraintes d'inégalité. Dans chaque cas considéré, on suppose qu'un certain nombre de contraintes d'inégalité sont actives et que les autres ne le sont pas. Soit $J\subset I$ , l'ensemble des indices des contraintes d'inégalité supposées actives en la solution : $c_{E\cup J}(x_{*})=0$ et $c_{J^{c}}(x_{*})<0$ (on a noté $J^{c}$ le complémentaire de $J$ dans $I$ ). Du fait de la complémentarité, $(\lambda _{*})_{J^{c}}=0$ et on est donc conduit à chercher les solutions du système de $n+|E\cup J|$ équations à $n+|E\cup J|$ inconnues suivant

$\left\{{\begin{array}{l}\nabla f(x_{*})+c'_{E\cup J}(x_{*})^{*}(\lambda _{*})_{E\cup J}=0\\c_{E\cup J}(x_{*})=0.\end{array}}\right.$

Si une solution $(x_{*},(\lambda _{*})_{E\cup J})$ de ce système vérifie $c_{J^{c}}(x_{*})\leqslant 0$ et $(\lambda _{*})_{J}\geqslant 0$ , le couple $(x_{*},((\lambda _{*})_{E\cup J},0_{J^{c}}))$ est une solution de (KKT). Sinon cette solution doit être écartée. En examinant ainsi tous les ensembles $J\subset I$ possibles, on peut trouver tous les points stationnaires du problème.

La méthode présentée ci-dessus est fastidieuse et, répétons-le, n'est utilisée que dans de rares cas. On notera en effet qu'avec $m_{I}$ contraintes d'inégalité, il y a $2^{m_{I}}$ cas à examiner, et donc $2^{m_{I}}$ systèmes non linéaires à résoudre, ce qui peut vite devenir fastidieux. C'est ici que l'on retrouve la combinatoire des problèmes d'optimisation. Le but des algorithmes d'optimisation pour problèmes avec contraintes d'inégalité est précisément de trouver des solutions du système d'optimalité (KKT), en gérant de manière efficace cette combinatoire, c'est-à-dire en évitant d'explorer toutes les possibilités. L'algorithme du simplexe en a été un des premiers exemples.

Comme pour les problèmes d'optimisation avec contraintes d'égalité, tous les points stationnaires (les solutions de (KKT)) ne sont pas solutions de $(P_{EI})$ . Pour déterminer si un point stationnaire est solution de $(P_{EI})$ , on pourra utiliser les conditions d'optimalité du second ordre décrites ci-dessous, de la manière suivante :

si les CN2 ne sont pas vérifiées au point stationnaire, alors celui-ci n'est pas une solution locale de $(P_{EI})$ ;
si les CS2 sont vérifiées au point stationnaire, alors celui-ci est un minimum local strict de $(P_{EI})$ .

Ces deux cas recouvrent un grand nombre de situations, mais pas toutes, car les CN2 et les CS2 ne sont pas identiques. Le cas est indéterminé lorsqu'un point stationnaire vérifie les CN2, mais pas les CS2. Alors les résultats donnés dans cet article ne sont pas suffisants et il faut recourir à des conditions d'optimalité d'ordre supérieur pour pouvoir dire si le point stationnaire est solution de $(P_{EI})$ .

Conditions du deuxième ordre pour (P_EI)

Les conditions d'optimalité du second ordre en présence de contraintes d'inégalité ne s'obtiennent ni ne s'écrivent aussi aisément que lorsqu'il n'y a que des contraintes d'égalité. D'abord, ce n'est pas le cône tangent qui intervient comme pour les problèmes avec contraintes d'égalité, mais un cône plus petit que l'on appelle le cône critique. Par ailleurs, le multiplicateur optimal qui intervient dans la hessienne du lagrangien doit être déterminé en fonction de la direction choisie dans le cône critique.

Le cône critique

Il est tentant d'essayer de généraliser les conditions nécessaires du second ordre du problème $(P_{E})$ au problème $(P_{EI})$ , en cherchant à montrer qu'en une solution primale-duale $(x_{*},\lambda _{*})$ , on doit avoir $\langle L_{*}d,d\rangle$ positif pour toute direction tangente $d\in \operatorname {T} _{x_{*}}X_{EI}$ . Comme précédemment, on a noté $L_{*}:=\nabla _{xx}^{2}\ell (x_{*},\lambda _{*})$ la hessienne du lagrangien en $(x_{*},\lambda _{*})$ . Ce résultat n'est pas correct, car le cône tangent $\operatorname {T} _{x_{*}}X_{EI}$ n'est pas celui qui convient, comme le montre le problème suivant

\min \;\{-1/(x+1):x\in \mathbb {R} _{+}\}.

Ce problème a pour unique solution primale-duale $(x_{*},\lambda _{*})=(0,1)$ et le cône tangent en la solution s'écrit $\operatorname {T} _{x_{*}}X_{EI}=\mathbb {R} _{+}$ si bien que l'on peut prendre $d=1$ comme direction tangente, mais $\langle L_{*}d,d\rangle =-2$ n'est pas positif. On pourra voir que $\langle L_{*}d,d\rangle$ est positif, mais pour des directions $d$ dans un cône plus petit que le cône tangent.

À la recherche d'un cône plus petit, on peut observer que, comme toute solution $x_{*}$ du problème $(P_{EI})$ minimise aussi $f$ sur

X_{EI}^{=}:=\{x\in \mathbb {E} :c_{E\cup I_{*}^{0}}(x)=0\},

les conditions du second ordre des problèmes avec contraintes d'égalité donnent que $\langle L_{*}d,d\rangle$ est positif pour toute direction $d\in \operatorname {T} _{x_{*}}X_{EI}^{=}$ et toute solution duale $\lambda _{*}\in \Lambda _{*}$ (celles-ci sont aussi solutions duales du problème minimisant $f$ sur $X_{EI}^{=}$ ). Il faut voir cependant que le cône $\operatorname {T} _{x_{*}}X_{EI}^{=}$ est trop petit, dans le sens où il ne permet pas d'établir des conditions suffisantes d'optimalité du second ordre. Considérons en effet le problème

\min \;\{-x^{2}:x\in \mathbb {R} _{+}\}.

Si $x_{*}=0$ , $X_{EI}^{=}=\{0\}$ , si bien que $\operatorname {T} _{x_{*}}X_{EI}^{=}=\{0\}$ et la hessienne du lagrangien $L_{*}=-2$ est bien définie positive sur $\operatorname {T} _{x_{*}}X_{EI}^{=}\setminus \{0\}=\varnothing$ , mais $x_{*}$ n'est pas un minimum local du problème.

Le bon cône s'avérera être le cône linéarisant $\operatorname {T} '_{x_{*}}X_{EI,f}$ de l'ensemble

X_{EI,f}:=\{x\in X_{EI}:f(x)\leqslant f(x_{*})\},

sur lequel $f$ est également minimisée en une solution $x_{*}$ du problème $(P_{EI})$ . Ce cône est plus petit que le cône tangent à l'ensemble admissible en $x_{*}$ , mais suffisamment grand pour permettre d'avoir des conditions suffisantes d'optimalité du second ordre. On l'appelle le cône critique du problème.

Cône critique — On appelle cône critique du problème $(P_{EI})$ en un point admissible $x\in X_{EI}$ , l'ensemble noté et défini par

C(x):=\{d\in \mathbb {E} :c_{E}'(x)\cdot d=0,~c_{I_{*}^{0}}'(x)\cdot d\leqslant 0,~f'(x)\cdot d\leqslant 0\}.

Une direction $d\in C(x)$ est appelée direction critique en $x$ . On utilise la notation simplifiée $C_{*}:=C(x_{*})$ .

Dans le premier exemple ci-dessus, $C_{*}=\{0\}$ est plus petit que le cône tangent $\operatorname {T} _{x_{*}}X_{EI}=\mathbb {R} _{+}$ . Dans le second exemple ci-dessus, $C_{*}=\mathbb {R} _{+}$ est plus grand que le cône tangent $\operatorname {T} _{x_{*}}X_{EI}^{=}=\{0\}$ . Il est remarquable que l'optimalité au second ordre puisse être synthétisée au moyen de l'unique cône critique, alors que les deux problèmes précédents recouvrent des situations très différentes.

En un point stationnaire $x_{*}$ , de multiplicateur $\lambda _{*}$ , le cône critique en $x_{*}$ s'écrit aussi

{\begin{array}{rcl}C_{*}&=&\{d\in \mathbb {E} :c_{E}'(x_{*})\cdot d=0,~c_{I_{*}^{0}}'(x_{*})\cdot d\leqslant 0,~f'(x_{*})\cdot d=0\},\\&=&\{d\in \mathbb {E} :c_{E\cup I_{*}^{0+}}'(x_{*})\cdot d=0,~c_{I_{*}^{00}}'(x_{*})\cdot d\leqslant 0\},\end{array}}

où les ensembles d'indices $I_{*}^{0+}$ et $I_{*}^{00}$ ont été introduits ci-dessus. Ces expressions s'obtiennent en utilisant les conditions d'optimalité de KKT. Observons enfin que si les conditions de complémentarité stricte sont satisfaites, le cône critique s'écrit simplement

C_{*}=\{d\in \mathbb {E} :c'_{E\cup I_{*}^{0}}(x_{*})\cdot d=0\},

qui est donc le cône linéarisant $\operatorname {T} '_{x_{*}}X_{EI}^{=}$ (un sous-espace vectoriel). En l'absence de complémentarité stricte, ce dernier sous-espace vectoriel est contenu dans $C_{*}$ , lui-même contenu dans $\operatorname {T} '_{x_{*}}X_{EI}$ .

Trois exemples instructifs

Une autre difficulté dans l'établissement des conditions d'optimalité du second ordre du problème $(P_{EI})$ provient du fait que l'on doit prendre le multiplicateur optimal $\lambda _{*}$ intervenant dans la hessienne du lagrangien $L_{*}:=\nabla _{xx}^{2}\ell (x_{*},\lambda _{*})$ en fonction de la direction critique choisie. Les trois exemples suivant devraient permettre de mieux comprendre pourquoi il en est ainsi et d'apprendre à sélectionner correctement les quantificateurs qui s'appliquent à $d\in C_{*}$ et $\lambda _{*}\in \Lambda _{*}$ .

Considérons d'abord le problème à deux variables réelles

\left\{{\begin{array}{l}\min \;x_{2}\\x_{2}\geq x_{1}^{2},\end{array}}\right.

dont la solution est $x_{*}=(0,0)$ . Il y a un unique multiplicateur optimal associé à la contrainte, valant $\lambda _{*}=1$ . La contrainte étant active, $(x_{*},\lambda _{*})$ est aussi la solution primale-duale du problème avec contrainte d'égalité $x_{2}=x_{1}^{2}$ , si bien que la hessienne du lagrangien $L_{*}:=\nabla _{xx}^{2}\ell (x_{*},\lambda _{*})=\operatorname {diag} (2,0)$ doit être semi-définie positive dans l'espace tangent à la contrainte (voir ci-dessus) : $d^{\mathsf {T}}L_{*}d\geq 0$ pour toute direction $d$ dans $\{d\in \mathbb {R} ^{2}:d_{2}=0\}$ . C'est le cas le plus simple qui peut se présenter. On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre fortes : quel que soit le multiplicateur optimal (il n'y en a qu'un seul ici), $L_{*}$ est semi-défini positif dans le cône critique. Ces conditions sont vérifiées s'il y a un unique multiplicateur, comme ici, ou comme lorsque la condition de qualification (QC-A) ou (QC-IL) a lieu.

Considérons à présent une variante du problème précédent où l'on ajoute une contrainte superflue

\left\{{\begin{array}{l}\min \;x_{2}\\x_{2}\geqslant x_{1}^{2}\\x_{2}\geqslant -{\frac {1}{2}}x_{1}^{2}.\end{array}}\right.

La seconde contrainte ne modifie pas la solution primale qui est toujours $x_{*}=(0,0)$ , mais il y a maintenant plusieurs multiplicateurs optimaux formant l'ensemble $\Lambda _{*}=\{\lambda \in \mathbb {R} _{+}^{2}:$ $\lambda _{1}+\lambda _{2}=1\}$ . En prenant comme multiplicateur $\lambda _{*}=(1,0)$ , un sommet de $\Lambda _{*}$ , on ignore la seconde contrainte (comme il se doit) et on a le résultat précédent sur la semi-définie positivité de $L_{*}=\operatorname {diag} (2,0)$ dans $\{d\in \mathbb {R} ^{2}:d_{2}=0\}$ . Par contre, avec $\lambda _{*}=(0,1)$ , l'autre sommet de $\Lambda _{*}$ , la hessienne du lagrangien $L_{*}=\operatorname {diag} (-1,0)$ est définie négative dans $\{d\in \mathbb {R} ^{2}:d_{2}=0\}$ . C'est normal ; le lagrangien ne voit que la seconde contrainte, ignorant la première, et $(0,0)$ n'est qu'un point stationnaire du problème $\textstyle \min\{x_{2}:x_{2}\geqslant -{\frac {1}{2}}x_{1}^{2}\}$ , pas un minimum local. On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre semi-fortes : il existe un multiplicateur optimal tel que $L_{*}$ est semi-défini positif dans le cône critique.

Considérons enfin le problème à trois variables

\left\{{\begin{array}{l}\min \;x_{3}\\x_{3}\geqslant (x_{1}+x_{2})(x_{1}-x_{2})\\x_{3}\geqslant (x_{2}+3x_{1})(2x_{2}-x_{1})\\x_{3}\geqslant (2x_{2}+x_{1})(x_{2}-3x_{1}).\end{array}}\right.

On voit que, quel que soit $(x_{1},x_{2})$ non nul, un des membres de droite des contraintes est strictement positif. Dès lors, l'unique solution de ce problème est $x_{*}=0$ . D'autre part, l'ensemble des multiplicateurs optimaux est le simplexe unité $\Lambda _{*}=\{\lambda \in \mathbb {R} _{+}^{3}:\lambda _{1}+\lambda _{2}+\lambda _{3}=1\}$ . Enfin, la hessienne du lagrangien s'écrit

L(x,\lambda )={\begin{pmatrix}2\lambda _{1}-6(\lambda _{2}+\lambda _{3})&5(\lambda _{2}-\lambda _{3})&0\\5(\lambda _{2}-\lambda _{3})&-2\lambda _{1}+4(\lambda _{2}+\lambda _{3})&0\\0&0&0\end{pmatrix}}.

Quelle que soit la valeur de $\lambda _{*}\in \Lambda _{*}$ , $L_{*}$ n'est pas semi-définie positive sur le cône critique, qui est ici le sous-espace $\{d\in \mathbb {R} ^{3}:d_{3}=0\}$ (en effet, l'élément $(1,1)$ vaut $8\lambda _{1}-6$ et l'élément (2,2) vaut $4-6\lambda _{1}$ , si bien qu'il faudrait que $\lambda _{1}$ soit supérieur à 3/4 et inférieur à 2/3). On dira plus loin que l'on a des conditions d'optimalité du deuxième ordre faibles : pour toute direction critique $d$ , il existe un multiplicateur optimal $\lambda _{*}$ (dépendant de $d$ ) tel que $d^{\mathsf {T}}L_{*}d\geqslant 0$ .

Conditions nécessaires du second ordre

Voici des conditions nécessaires d'optimalité du second ordre lorsque la qualification Mangasarian-Fromovitz (QC-MF) a lieu en la solution $x_{*}$ du problème.

CN2 pour $(P_{EI})$ avec la qualification (QC-MF) — Soit $x_{*}$ une solution locale du problème $(P_{EI})$ . Supposons que $f$ et $c_{E}$ soient $C^{2}$ dans un voisinage de $x_{*}$ , que $c_{I_{*}^{0}}$ soit deux fois dérivable en $x_{*}$ et que $c_{I\setminus I_{*}^{0}}$ soit continue en $x_{*}$ . Supposons également que la qualification Mangasarian-Fromovitz (QC-MF) ait lieu en $x_{*}$ . Alors

\forall \,d\in C_{*}:\quad \exists \,\lambda _{*}\in \Lambda _{*}:\quad \langle L_{*}d,d\rangle \geqslant 0.

Les conditions nécessaires d'optimalité du second ordre (CN2) énoncées dans ce résultat sont dites faibles, car le multiplicateur optimal est choisi en fonction de la direction critique. Dans certains problèmes, on a la condition plus forte (mois souvent vérifiée) suivante

\exists \,\lambda _{*}\in \Lambda _{*},\quad \forall \,d\in C_{*}:\quad \langle L_{*}d,d\rangle \geqslant 0.

On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre semi-fortes. Dans certains cas, l'on a des conditions encore plus fortes, à savoir

\forall \,\lambda _{*}\in \Lambda _{*},\quad \forall \,d\in C_{*}:\quad \langle L_{*}d,d\rangle \geqslant 0.

On dit alors que l'on a des conditions nécessaires d'optimalité du second ordre fortes. Comme l'affirme le résultat suivant, ce dernier cas est vérifié lorsque la qualification (QC-A) ou (QC-IL) a lieu.

CN2 pour $(P_{EI})$ avec la qualification (QC-A) ou (QC-IL) — Soit $x_{*}$ une solution locale du problème $(P_{EI})$ . Supposons que $f$ et $c_{E\cup I_{*}^{0}}$ soient deux fois dérivables en $x_{*}$ et que $c_{I\setminus I_{*}^{0}}$ soit continue en $x_{*}$ . Supposons également que la qualification (QC-A) ou (QC-IL) ait lieu en $x_{*}$ . Alors

\forall \,\lambda _{*}\in \Lambda _{*},\quad \forall \,d\in C_{*}:\quad \langle L_{*}d,d\rangle \geqslant 0.

La vérification numérique des conditions nécessaires d'optimalité du second ordre n'est pas aisée. Déjà, lorsque les conditions semi-fortes ont lieu pour un multiplicateur optimal $\lambda _{*}$ , il s'agit de vérifier que la forme quadratique $d\mapsto \langle L_{*}d,d\rangle$ associée à la hessienne du lagrangien est semi-définie positive sur le cône critique $C_{*}$ , qui est polyédrique, c'est-à-dire que $L_{*}$ est $C_{*}$ -copositive. En toute généralité, une telle vérification est un problème NP-ardu^[18]^,^[19]. Maintenant, s'il y a aussi complémentarité stricte, le cône critique devient un sous-espace vectoriel et la vérification de la semi-définie positivité de $d\mapsto \langle L_{*}d,d\rangle$ sur ce sous-espace est alors une opération simple d'algèbre linéaire.

Conditions suffisantes du second ordre

Les conditions suffisantes du second ordre (CS2) s'obtiennent comme pour les problèmes plus simples en requérant que $\langle L_{*}d,d\rangle$ soit strictement positif pour un multiplicateur dépendant d'une direction critique $d$ choisie dans le cône critique. Le fait que le cône critique intervienne aussi dans ces conditions suffisantes d'optimalité est une garantie de sa pertinence.

CS2 pour $(P_{EI})$ — Supposons que $f$ et $c_{E\cup I_{*}^{0}}$ soient dérivables dans un voisinage d'un point $x_{*}\in \mathbb {E}$ et deux fois dérivables en $x_{*}$ . Supposons également que l'ensemble $\Lambda _{*}$ des multiplicateurs $\lambda _{*}$ tels que $(x_{*},\lambda _{*})$ vérifie les conditions d'optimalité de KKT ne soit pas vide. Supposons enfin que

\forall d\in C_{*}\setminus \{0\},~\exists \,\lambda _{*}\in \Lambda _{*}:\quad \langle L_{*}d,d\rangle >0,

ou de manière équivalente ( $\|\cdot \|$ est une norme arbitraire)

\exists \,{\bar {\gamma }}>0,~\forall d\in C_{*},~\exists \,\lambda _{*}\in \Lambda _{*}:\quad \langle L_{*}d,d\rangle \geq {\bar {\gamma }}\|d\|^{2}.

Alors, pour tout $\gamma \in {[0,{\bar {\gamma }}[}$ , il existe un voisinage $V$ de $x_{*}$ tel que pour tout $x\in X_{EI}\cap V$ , différent de $x_{*}$ :

f(x)>f(x_{*})+{\frac {\gamma }{2}}\|x-x_{*}\|^{2}.

En particulier, $x_{*}$ est un minimum local strict de $(P_{EI})$ .

L'inégalité obtenue en conclusion du résultat précédent est connue sous le nom de propriété de croissance quadratique. Elle montre que $f$ croît au moins quadratiquement lorsqu'on se déplace de $x_{*}$ vers l'«intérieur» de l'ensemble admissible $X_{EI}$ .

Interprétation marginaliste des multiplicateurs de Karush, Kuhn et Tucker

Exemples

Inégalités de Hölder

Les inégalités de Hölder généralisent l'inégalité de Cauchy-Schwarz, dans le sens où elles donnent une majoration du produit scalaire euclidien de deux vecteurs $x$ et $y\in \mathbb {R} ^{n}$ par leur norme $\ell ^{p}$ et $\ell ^{p'}$ , plutôt que par leur norme euclidienne. Dans cette majoration, les scalaires $p$ et $p'$ doivent être pris dans $[1,+\infty ]$ et vérifier

${\frac {1}{p}}+{\frac {1}{p'}}=1.$

Cette relation accepte les valeurs infinies, si bien que $p=1$ si, et seulement si, $p'=\infty$ . Pour de tels $p$ et $p'$ , l'inégalité de Hölder s'écrit :

\forall \,x,y\in \mathbb {R} ^{n}:\quad |x^{\top \!}y|\leqslant \|x\|_{p}\,\|y\|_{p'}.

Cette inégalité se généralise aux espaces $\ell ^{p}$ des suites de puissance $p$ sommables et aux espaces $L^{p}$ des fonctions de puissance $p$ intégrables. Dans $\mathbb {R} ^{n}$ , elles peuvent être démontrées à partir d'une solution du problème de minimisation d'une fonction linéaire sur la boule unité fermée associée à la norme $\ell ^{p}$ , à savoir $B_{p}:=\{x\in \mathbb {R} ^{n}:\|x\|_{p}\leqslant 1\}$ , problème qui s'écrit

$(P_{p})\qquad \min _{x\in B_{p}}\;x^{\top \!}y.$

Par la compacité de $B_{p}$ (en dimension finie), ce problème a clairement une solution ; elle est unique si $1<p<+\infty$ . On donne ici le calcul des solutions de ce problème par les conditions d'optimalité de Karush, Kuhn et Tucker et d'en déduire les inégalités de Hölder.

Cas où p = ∞

C'est le cas le plus simple, qui peut se résoudre sans utiliser les conditions d'optimalité de KKT. En effet, le problème $(P_{\infty })$ , qui s'écrit

$(P_{\infty })\qquad \min _{-1\leqslant x\leqslant 1}\;\sum _{i=1}^{n}\,x_{i}y_{i}$

se décompose en $n$ problèmes indépendants, à savoir

$\min _{-1\leqslant x_{i}\leqslant 1}\;x_{i}y_{i}$

dont les solutions ${\bar {x}}_{i}$ sont triviales :

{\bar {x}}_{i}\left\{{\begin{array}{lll}=-1&{\mbox{si}}&y_{i}>0\\\in [-1,1]&{\mbox{si}}&y_{i}=0\\=1&{\mbox{si}}&y_{i}<0.\end{array}}\right.

L'inégalité de Hölder correspondante s'obtient alors en observant que, quels que soient $x\in B_{\infty }$ et $y\in \mathbb {R} ^{n}$ , on a si l'on note $\sigma (t)$ le signe de $t\in \mathbb {R}$ :

$x^{\top \!}y\geqslant {\bar {x}}^{\top \!}y=-\sum _{i=1}^{n}\,\sigma (y_{i})y_{i}=-\|y\|_{1},$

si bien que $|x^{\top \!}y|\leqslant \|y\|_{1}$ . On met ensuite $x$ à l'échelle si ce vecteur n'est pas dans la boule unité $B_{\infty }$ , ce qui conduit à $|x^{\top \!}y|\leqslant \|x\|_{\infty }\,\|y\|_{1}$ .

Cas où 1 < p < ∞

Si $y=0$ , tout $x\in B_{p}$ est solution et l'inégalité de Hölder est triviale.

Supposons à présent que $y\neq 0$ . En écrivant la contrainte $\|x\|_{p}^{p}/p\leqslant 1/p$ de manière à la rendre différentiable et éviter le facteur $p$ après différentiation, le lagrangien du problème $(P_{p})$ s'écrit

$\ell (x,\lambda )=x^{\top \!}y+{\frac {\lambda }{p}}\left(\sum _{i=1}^{n}\,|x_{i}|^{p}-1\right).$

Comme la contrainte est qualifiée (par les conditions suffisantes de Slater par exemple) et le problème est convexe, ${\bar {x}}$ en est solution si, et seulement si, il existe un multiplicateur optimal ${\bar {\lambda }}\in \mathbb {R}$ tel que les conditions de KKT suivantes soient vérifiées :

$\left\{{\begin{array}{l}y_{i}+{\bar {\lambda }}_{i}{\bar {x}}_{i}|{\bar {x}}_{i}|^{p-2}=0,\qquad i=1,\ldots ,n\\\|{\bar {x}}\|_{p}\leqslant 1\\{\bar {\lambda }}\geqslant 0\\{\bar {\lambda }}(\|{\bar {x}}\|_{p}-1)=0.\end{array}}\right.$

Comment résoudre ce système compliqué ? Comme le suggère la méthode générale présentée ci-dessus, il est souvent judicieux de commencer par considérer les conditions de complémentarité (la 4^e), qui ont ici une combinatoire particulièrement réduite. Il y a seulement deux possibilités (parce que le problème n'a qu'une seule contrainte) : soit le multiplicateur est nul, soit la contrainte est active. Lorsque $y\neq 0$ , la première condition montre clairement que le multiplicateur ne peut être nul ; la contrainte est donc active, ce qui résout du même coup la seconde condition. Gardons en mémoire que le multiplicateur optimal est positif (3^e condition) en exploitant la première condition. En prenant la norme $\ell ^{p'}$ de $y$ , on obtient la valeur du multiplicateur optimal

${\bar {\lambda }}=\|y\|_{p'},$

qui est donc strictement positif. En observant que ${\bar {x}}_{i}$ et ${\bar {y}}_{i}$ sont de signe contraire et en se rappelant que $y\neq 0$ , la première condition donne alors

{\bar {x}}_{i}=-\sigma (y_{i})\left({\frac {|y_{i}|}{\|y\|_{p'}}}\right)^{\frac {p'}{p}},

où on a noté $\sigma (t)$ le signe de $t\in \mathbb {R}$ . En particulier, ${\bar {x}}=-y/\|y\|_{2}$ si $p=2$ .

L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas $p=\infty$ . Quels que soient $x\in B_{p}$ et $y\in \mathbb {R} ^{n}$ , on a :

$x^{\top \!}y\geqslant {\bar {x}}^{\top \!}y=-\left({\frac {1}{\|y\|_{p'}}}\right)^{\frac {p'}{p}}\sum _{i=1}^{n}|y_{i}|^{{\frac {p'}{p}}+1}=-{\frac {\|y\|_{p'}^{p'}}{\|y\|_{p'}^{p'/p}}}=-\|y\|_{p'},$

si bien que $|x^{\top \!}y|\leqslant \|y\|_{p'}$ . On met ensuite $x$ à l'échelle si ce vecteur n'est pas dans la boule unité $B_{p}$ , ce qui conduit à $|x^{\top \!}y|\leqslant \|x\|_{p}\,\|y\|_{p'}$ .

Cas où p = 1

Le cas où $y=0$ étant trivial, on considère ci-dessous que $y\neq 0$ .

Il n'est pas nécessaire de résoudre $(P_{1})$ si l'on ne cherche qu'à obtenir l'inégalité de Hölder correspondante puisque celle-ci est identique au cas $p=\infty$ déjà considéré. On cherche ici plutôt comment résoudre $(P_{1})$ en utilisant les conditions d'optimalité de KKT.

La première difficulté à surmonter est de récrire la contrainte $\|x\|_{1}\leqslant 1$ de manière différentiable (la norme $\ell ^{1}$ ne l'est pas). On vérifiera sans peine que $\|x\|_{1}\leqslant 1$ si, et seulement si, il existe un vecteur $v\in \mathbb {R} ^{n}$ tel que $\textstyle \sum _{i=1}^{n}v_{i}=1$ et $-v\leqslant x\leqslant v$ , si bien que le problème $(P_{1})$ est «équivalent» au problème en $(x,v)\in \mathbb {R} ^{n}\times \mathbb {R} ^{n}$ suivant

$(P'_{1})\qquad \left\{{\begin{array}{l}\min _{(x,v)}\;y^{\top \!}x\\\textstyle \sum _{i=1}^{n}v_{i}=1\\-v\leqslant x\leqslant v.\end{array}}\right.$

Ayant un domaine admissible compact et non vide, ce problème a aussi une solution ; de plus ${\bar {x}}$ est solution de $(P_{1})$ si, et seulement si, $({\bar {x}},{\bar {v}})$ est solution de $(P'_{1})$ . Le lagrangien du problème $(P'_{1})$ s'écrit

$\ell (x,v,\lambda ,\alpha ,\beta )=x^{\top \!}y+\lambda \left(\sum _{i=1}^{n}\,v_{i}-1\right)+\sum _{i=1}^{n}\alpha _{i}(x_{i}-v_{i})-\sum _{i=1}^{n}\beta _{i}(x_{i}+v_{i}).$

Comme les contraintes de $(P'_{1})$ sont qualifiées (par affinité locale par exemple) et comme le problème est convexe, $({\bar {x}},{\bar {v}})$ en est une solution si, et seulement si, il existe des multiplicateurs optimaux $({\bar {\lambda }},{\bar {\alpha }},{\bar {\beta }})\in \mathbb {R} \times \mathbb {R} ^{n}\times \mathbb {R} ^{n}$ tels que les conditions de KKT suivantes soient vérifiées :

$\left\{{\begin{array}{ll}(a)&y+{\bar {\alpha }}-{\bar {\beta }}=0\\(b)&{\bar {\lambda }}e-{\bar {\alpha }}-{\bar {\beta }}=0\\(c)&\textstyle \sum _{i=1}^{n}\,{\bar {v}}_{i}=1\\(d)&-{\bar {v}}\leqslant {\bar {x}}\leqslant {\bar {v}}\\(e)&{\bar {\alpha }}\geqslant 0,\quad {\bar {\beta }}\geqslant 0\\(f)&{\bar {\alpha }}_{i}({\bar {x}}_{i}-{\bar {v}}_{i})=0,\quad {\bar {\beta }}_{i}({\bar {x}}_{i}+{\bar {v}}_{i})=0,\quad \forall \,i\in \{1,\ldots ,n\},\end{array}}\right.$

où $e$ est un vecteur dont toutes les composantes valent 1. Voici un système avec une combinatoire importante : $2^{2n}$ manières de réaliser les conditions de complémentarité (f). La méthode générale présentée ci-dessus est ici de peu d'utilité, mais une astuce de calcul permet d'éviter une application fastidieuse. On remarque d'abord que, par (a) et (b), l'on peut écrire ${\bar {\alpha }}$ et ${\bar {\beta }}$ en fonction de ${\bar {\lambda }}$ :

${\bar {\alpha }}={\frac {1}{2}}({\bar {\lambda }}e-y)\quad {\mbox{et}}\quad {\bar {\beta }}={\frac {1}{2}}({\bar {\lambda }}e+y).$

Par (e), on en déduit que ${\bar {\lambda }}\geqslant \|y\|_{\infty }$ . Mais si ${\bar {\lambda }}>\|y\|_{\infty }$ , ${\bar {\alpha }}$ et ${\bar {\beta }}$ seraient strictement positifs et on déduirait de (f) que ${\bar {x}}={\bar {v}}=0$ , en contradiction avec (c). Dès lors

${\bar {\lambda }}=\|y\|_{\infty },$

comme lorsque $1<p<\infty$ . On distingue ensuite les cas :

si $|y_{i}|<\|y\|_{\infty }$ , alors ${\bar {\alpha }}_{i}>0$ , ${\bar {\beta }}_{i}>0$ , puis ${\bar {x}}_{i}={\bar {v}}_{i}=-{\bar {v}}_{i}$ par (e), donc ${\bar {x}}_{i}={\bar {v}}_{i}=0$ ,
si $y_{i}=\|y\|_{\infty }>0$ , alors ${\bar {\alpha }}_{i}=0$ , ${\bar {\beta }}_{i}>0$ , donc ${\bar {x}}_{i}=-{\bar {v}}_{i}\leqslant 0$ par (f) et (d),
si $y_{i}=-\|y\|_{\infty }<0$ , alors ${\bar {\alpha }}_{i}>0$ , ${\bar {\beta }}_{i}=0$ , donc ${\bar {x}}_{i}={\bar {v}}_{i}\geqslant 0$ par (f) et (d).

On déduit de ces observations que les solutions ${\bar {x}}$ de $(P_{1})$ vérifient

\|{\bar {x}}\|_{1}=1,\quad {\bar {x}}_{I^{c}}=0\quad {\mbox{et}}\quad {\bar {x}}_{I}\cdot y_{I}\leqslant 0,

où $I:=\{i:|y_{i}|=\|y\|_{\infty }\}$ , $I^{c}$ est son complémentaire et $u\cdot v$ désigne le produit de Hadamard. Inversement, on vérifie que si ${\bar {x}}$ satisfait les conditions encadrées, si ${\bar {v}}=|{\bar {x}}|$ , si ${\bar {\lambda }}=\|y\|_{\infty }$ , si ${\bar {\alpha }}=(\|y\|_{\infty }e-y)/2$ et si ${\bar {\beta }}=(\|y\|_{\infty }e+y)/2$ , alors $({\bar {x}},{\bar {v}},{\bar {\lambda }},{\bar {\alpha }},{\bar {\beta }})$ satisfait les conditions d'optimalité (a)-(f), si bien qu'alors ${\bar {x}}$ est une solution de $(P_{1})$ .

L'inégalité de Hölder correspondante se déduit de ces résultats comme dans le cas $1<p\leqslant \infty$ . Quels que soient $x\in B_{1}$ et $y\in \mathbb {R} ^{n}$ , on a :

$x^{\top \!}y\geqslant {\bar {x}}^{\top \!}y=-\sum _{i\in I}|{\bar {x}}_{i}|\,|y_{i}|=-\|y\|_{\infty }\sum _{i\in I}|{\bar {x}}_{i}|=-\|y\|_{\infty },$

si bien que $|x^{\top \!}y|\leqslant \|y\|_{\infty }$ . On met ensuite $x$ à l'échelle si ce vecteur n'est pas dans la boule unité $B_{1}$ , ce qui conduit à $|x^{\top \!}y|\leqslant \|x\|_{1}\,\|y\|_{\infty }$ .

Minimisation d'une fonction quadratique sur la boule euclidienne

Problèmes d'optimisation avec contraintes générales

Le problème (P_G)

Dans cette section, on considère le problème d'optimisation avec contraintes plus générales, que l'on écrit sous la forme suivante

(P_{G})\quad \left\{{\begin{array}{l}\inf _{x}\,f(x)\\c(x)\in G.\end{array}}\right.

Cette écriture exprime le fait que l'on cherche à minimiser un critère $f:\mathbb {E} \to \mathbb {R}$ défini sur un espace euclidien $\mathbb {E}$ dont l'argument $x$ , qui est le vecteur des variables à optimiser, l'inconnue de ce problème, est contraint de respecter des contraintes spécifiées par l'expression $c(x)\in G$ . Celle-ci signifie que l'image de $x$ par la fonction $c:\mathbb {E} \to \mathbb {F}$ doit appartenir au convexe fermé non vide $G$ de l'espace euclidien $\mathbb {F}$ . Le produit scalaire des espaces euclidiens $\mathbb {E}$ et $\mathbb {F}$ sont tous deux notés $\langle \cdot ,\cdot \rangle$ .

On désigne par

X_{G}:=\{x\in \mathbb {E} :c(x)\in G\}=c^{-1}(G)

l'ensemble admissible du problème $(P_{G})$ .

Le problème $(P_{G})$ est bien une généralisation du problème $(P_{EI})$ , puisqu'on retrouve ce dernier en prenant

\mathbb {F} =\mathbb {R} ^{m}\quad {\mbox{et}}\quad G=\{0_{\mathbb {R} ^{m_{E}}}\}\times \mathbb {R} _{-}^{m_{I}}.

Un des intérêts de cette formulation générale est d'avoir tout son sens en dimension infinie, ce qui n'est pas le cas de $(P_{EI})$ . Il est en effet malaisé de spécifier ce qu'est un ensemble infini de contraintes d'inégalité à valeurs dans un espace de dimension infinie. On peut donc voir la généralisation proposée comme un premier pas dans l'étude des problèmes d'optimisation de dimension infinie. Les résultats obtenus sont cependant aussi utiles pour résoudre certains problèmes de dimension finie à la structure différente de celle de $(P_{EI})$ . Un autre avantage de cette généralisation est de mieux faire ressortir la structure des objets manipulés, ainsi que celle des raisonnements employés.

On sait que la convexité joue un rôle crucial en optimisation. On est donc conduit à définir ce qu'est un problème $(P_{G})$ convexe.

Problème $(P_{G})$ convexe — On dit que le problème $(P_{G})$ est convexe si la fonction $f$ est convexe et si la multifonction $x\mapsto c(x)-G$ est convexe.

On a la propriété attendue suivante

(P_{G})~{\mbox{est convexe}}\quad \Longrightarrow \quad X_{G}~{\mbox{est convexe.}}

Dans le cas du problème $(P_{EI})$ , $G=\{0_{\mathbb {R} ^{m_{E}}}\}\times \mathbb {R} _{-}^{m_{I}}$ et la convexité de $x\mapsto c(x)-G$ revient à dire que $c_{E}$ est affine et $c_{I}$ a toutes ses composantes convexes.

Conditions du premier ordre pour (P_G)

Le cône tangent à X_G

Des conditions d'optimalité du premier ordre pour $(P_{G})$ peuvent s'obtenir comme pour les problèmes précédents, par l'intermédiaire de la condition du premier ordre générique de Peano-Kantorovitch. Cette condition requiert le calcul du cône tangent $\operatorname {T} _{x}X_{G}$ à l'ensemble admissible $X_{G}$ . Comme précédemment, on cherche à exprimer ce cône tangent en «linéarisant» les objets $c$ et $G$ qui définissent l'ensemble admissible. Cette linéarisation se fait en $x$ pour $c$ , qui est définie sur $\mathbb {E}$ , et en $c(x)$ pour $G$ , qui est défini sur $\mathbb {F}$ . Cette opération conduit au cône $\operatorname {T} '_{x}X_{G}$ , plus grand que $\operatorname {T} _{x}X_{G}$ , que l'on appelle le cône linéarisant de $X_{G}$ .

Estimation du cône tangent $\operatorname {T} _{x}X_{G}$ — Si $c$ est dérivable en $x\in X_{G}$ , alors

\operatorname {T} _{x}X_{G}\subset \operatorname {T} '_{x}X_{G}:=\{d\in \mathbb {E} :c'(x)d\in \operatorname {T} _{c(x)}G\}.

On n'a pas nécessairement l'égalité entre les deux cônes, car $\operatorname {T} '_{x}X_{G}$ est convexe (c'est l'image réciproque par l'application linéaire $c'(x)$ du cône tangent $\operatorname {T} _{c(x)}G$ , qui est convexe par la convexité de $G$ ) alors que $\operatorname {T} _{x}X_{G}$ ne l'est pas nécessairement (on n'a pas imposé à la fonction $c$ définissant $X_{G}$ d'être affine et donc l'ensemble admissible $X_{G}$ n'est pas nécessairement convexe). C'est gênant, car c'est le cône tangent $\operatorname {T} _{x}X_{G}$ qui intervient dans la condition nécessaire d'optimalité générique de Peano-Kantorovitch alors que le cône linéarisant $\operatorname {T} '_{x}X_{G}$ a l'avantage d'avoir une expression analytique que l'on aimerait pouvoir exploiter. Comme pour le problème $(P_{EI})$ , la notion de qualification des contraintes définissant $X_{G}$ est liée au fait de pouvoir avoir l'égalité entre les deux cônes, mais pas seulement. La technique de démonstration conduisant aux conditions d'optimalité du premier ordre de Karush, Kuhn et Tucker, technique qui sera aussi utilisée pour obtenir la condition du premier ordre ci-dessous, cherche à montrer que le gradient $\nabla f(x_{*})$ appartient à un cône que l'on peut expliciter. Deux ingrédients interviennent dans cette approche :

l'égalité entre le cône tangent et le cône linéarisant, qui permet ainsi d'avoir une expression exploitable du premier,
la polyédricité du cône linéarisant, qui permet d'éliminer la prise de l'adhérence après application du lemme de Farkas.

Ici $\operatorname {T} '_{x}X_{G}$ n'est pas polyédrique, parce que l'on ne veut pas imposer cette propriété restrictive de polyédricité à $G$ . De manière à sélectionner les problèmes non convexes pour lesquels on peut utiliser l'approche proposée pour établir les conditions d'optimalité du premier ordre, on introduit une hypothèse, dite de qualification, qui assure précisément l'égalité entre le cône tangent et le cône linéarisant (c'est la première condition ci-dessous), mais aussi le caractère fermé de l'image par $c'(x)^{*}$ du dual du cône linéarisant (c'est la seconde condition ci-dessous).

Qualification d'une contrainte générale — On dit que la fonction $c:\mathbb {E} \to \mathbb {F}$ est qualifiée en $x\in X_{G}$ pour représenter $X_{G}$ si $c$ est dérivable en $x$ et si les deux conditions suivantes sont vérifiées :

{\begin{array}{c}\operatorname {T} _{x}X_{G}=\operatorname {T} '_{x}X_{G},\\c'(x)^{*}[(\operatorname {T} _{c(x)}G)^{+}]~{\mbox{est fermé,}}\end{array}}

où $c'(x)^{*}:\mathbb {F} \to \mathbb {E}$ l'opérateur linéaire adjoint de la dérivée $c'(x):\mathbb {E} \to \mathbb {F}$ .

Vérifier que $c$ est qualifié pour représenter $X_{G}$ est une tâche difficile. Cela requiert le calcul du cône tangent, que l'on voudrait surtout éviter s'il n'est pas identique au cône linéarisant. La condition suffisante de qualification la plus utilisée, généralisant au problème $(P_{G})$ la condition de Mangasarian-Fromovitz du problème $(P_{EI})$ , est celle de Robinson^[20]. On y note $\operatorname {int} P$ l'intérieur d'un ensemble $P$

Condition suffisante de qualification de Robinson — Si

c:\mathbb {E} \to \mathbb {F}

est

C^{1}

dans un voisinage de

x\in X_{G}

et si

\operatorname {(QC-R)} \qquad 0\in \operatorname {int} (c(x)+c'(x)\mathbb {E} -G),

alors

c

est qualifiée en

x

pour représenter

X_{G}.

Cette condition de Robinson est davantage examinée dans la section Condition suffisante de qualification de Robinson.

Conditions du premier ordre pour (P_G)

Précisons quelques notations qui seront utilisées dans l'énoncé des conditions du premier ordre. Comme ci-dessus, $\nabla f(x_{*})\in \mathbb {E}$ est le gradient de $f$ en $x_{*}$ et $c'(x_{*})^{*}:\mathbb {F} \to \mathbb {E}$ est l'opérateur adjoint de la dérivée $c'(x_{*}):\mathbb {E} \to \mathbb {F}$ (c'est un opérateur linéaire) pour les produits scalaires donnés sur $\mathbb {E}$ et $\mathbb {F}$ ; si $P$ est un ensemble, $P^{-}:=-P^{+}$ est le cône dual négatif de $P$ ; enfin, la notation

K^{-}\ni u\perp v\in K

signifie les trois conditions suivantes :

u\in K^{-},\quad v\in K\quad {\mbox{et}}\quad \langle u,v\rangle =0.

CN1 de $(P_{G})$ — Soit $x_{*}$ un minimum local de $(P_{G})$ . Supposons que $f$ et $c$ soient dérivables en $x_{*}$ et que $c$ soit qualifiées en $x_{*}$ pour représenter $X_{G}$ . Alors,

il existe $\lambda _{*}\in \mathbb {F}$ tel que l'on ait ${\begin{array}{c}\nabla f(x_{*})+c'(x_{*})^{*}\lambda _{*}=0,\\\lambda _{*}\in \operatorname {N} _{c(x_{*})}G,\end{array}}$
si, de plus, $G\equiv K$ est un cône convexe, alors les conditions d'optimalité ci-dessus s'écrivent ${\begin{array}{c}\nabla f(x_{*})+c'(x_{*})^{*}\lambda _{*}=0,\\K^{-}\ni \lambda _{*}\perp c(x_{*})\in K.\end{array}}$

Un point $x_{*}\in \mathbb {E}$ tel que $(x_{*},\lambda _{*})$ vérifie les conditions d'optimalité du premier ordre ci-dessus pour un certain $\lambda _{*}\in \mathbb {F}$ est qualifié de stationnaire.

Dans la première condition d'optimalité $\nabla f(x_{*})+c'(x_{*})^{*}\lambda _{*}=0$ , on reconnaît le gradient du lagrangien du problème $(P_{G})$ qui est la fonction $\ell :\mathbb {E} \times \mathbb {F} \to \mathbb {R}$ définie en $(x,\lambda )\in \mathbb {E} \times \mathbb {F}$ par

\ell (x,\lambda )=f(x)+\langle \lambda ,c(x)\rangle .

Dans le cas où $G\equiv K$ est un cône convexe, on reconnait dans la seconde condition d'optimalité $K^{-}\ni \lambda _{*}\perp c(x_{*})\in K$ , des conditions de complémentarité généralisées, déjà présentent dans les conditions de KKT.

Lorsque le problème $(P_{G})$ est convexe dans le sens précisé précédemment, les conditions nécessaires du premier ordre deviennent suffisantes, comme pour le problème $(P_{EI})$ .

CS1 pour un problème $(P_{G})$ convexe — Supposons que le problème

(P_{G})

soit convexe au sens défini ci-dessus, que

f

et

c

soient dérivables en

x_{*}\in X_{G}

et qu'il existe

\lambda _{*}\in \mathbb {F}

tel que

{\begin{array}{c}\nabla f(x_{*})+c'(x_{*})^{*}\lambda _{*}=0,\\\lambda _{*}\in \operatorname {N} _{c(x_{*})}G.\end{array}}

Alors

x_{*}

est un minimum global de

(P_{G}).

Désignons par

\Lambda _{*}:=\{\lambda _{*}\in \operatorname {N} _{c(x_{*})}G:\nabla f(x_{*})+c'(x_{*})^{*}\lambda _{*}=0\},

l'ensemble des multiplicateurs optimaux associés à un point stationnaire $x_{*}\in \mathbb {E}$ de $(P_{G})$ et par $\Lambda _{*}^{\infty }$ son cône asymptotique.

Propriété de bornitude de Gauvin — Supposons que $f$ et $c$ soient dérivables en $x_{*}\in X_{G}$ et que $\Lambda _{*}$ soit non vide. Alors

$\Lambda _{*}^{\infty }=[c'(x_{*})\mathbb {E} -\operatorname {T} _{c(x_{*})}G]^{+}$ ,
$\Lambda _{*}$ est borné si, et seulement si, (QC-R) a lieu en $x_{*}.$

Conditions du deuxième ordre

Annexes

Notes

↑ Georges Bouligand, Introduction à la Géométrie Infinitésimale Directe, Paris, Gauthier- Villars, 1932.
↑ (it) G. Peano (1887). Applicazioni Geometriche del Calcolo Infinitesimale. Fratelli Bocca Editori, Torino.
↑ (it) G. Peano (1908). Formulario Mathematico, Editio V. Fratelli Bocca Editori, Torino.
↑ (en) L.V. Kantorovich (1940). On an efficient method for solving some classes of extremum problems. Doklady Akad. Nauk SSSR, 28, 212–215.
↑ (en) B.T. Polyak (2001). History of mathematical programming in the USSR: analyzing the phenomenon. Mathematical Programming, 91, 401–416.
↑ (en) S. Dolecki, G.H. Greco (2007). Towards historical roots of necessary conditions of optimality – Regula of Peano. Control and Cybernetics, 36, 491–518.
↑ J. Mawhin, Analyse — Fondements, Techniques, Évolution, De Boeck, 1992.
↑ Joseph-Louis Lagrange, « Manière plus simple et plus générale de faire usage de la formule de l'équilibre donnée dans la section deuxième », dans Mécanique analytique. Tome premier. pages = 77-112 (lire en ligne)
↑ (en) C.B. Boyer (1968). A History of Mathematics. Princeton University Press, Princeton, New Jersey.
↑ V. Alexeev, V. Tikhomirov, S. Fomine (1982). Commande Optimale. Mir, Moscou.
↑ (de) J. Farkas, Theorie der einfachen Ungleichungen, Journal für die reine und angewandte Mathematik, 124 (1902) p. 1-27
↑ (en) H.W. Kuhn, A.W. Tucker (1951). Nonlinear programming. In J.Neyman, éditeur, Proceedings of the second Berkeley Symposium on Mathematical Studies and Probability, pages 481–492. University of California Press, Berkeley, California.
↑ (en) W.E. Karush (1939). Minima of Functions of Several Variables with Inequalities as Side Conditions. Master’s thesis, Department of Mathematics, University of Chicago, Chicago.
↑ (en) H.W. Kuhn (1976). Nonlinear programming: a historical view. In R.W. Cottle, C.E. Lemke, éditeurs, Nonlinear Programming, SIAM-AMS Proceedings IX, pages 1–26. American Mathematical Society, Providence, RI.
↑ (en) F. John (1948). Extremum problems with inequalities as subsidiary conditions. In K.O. Friedrichs, O.E. Neugebauer, J.J. Stokes, éditeurs, Studies and Essays, Courant Anniversary Volume, pages 186–204. Wiley Interscience, New York.
↑ (en) J. Kyparisis (1985). On uniqueness of Kuhn-Tucker multipliers in nonlinear programming. Mathematical Programming, 32, 242–246.
↑ (en) J. Gauvin (1977). A necessary and sufficient regularity condition to have bounded multipliers in nonconvex programming. Mathematical Programming, 12, 136–138.
↑ (en) K.G. Murty, S.N. Kabadi (1987). Some NP-complete problems in quadratic and nonlinear programming. Mathematical Programming, 39, 117–129.
↑ (en) P.J.C. Dickinson, L. Gijben (2011). On the computational complexity of membership problems for the completely positive cone and its dual. Rapport de recherche.
↑ (en) S.M. Robinson (1976). Stability theory for systems of inequalities, part II: differentiable nonlinear systems. SIAM Journal of Numerical Analysis, 13, 487-513.

Articles connexes

Cône tangent
Coût marginal
Multiplicateur de Lagrange : présentation moins abstraite et donc plus abordable de l'optimalité des problèmes avec contraintes d'égalité, certains en dimension infinie.
Optimisation quadratique successive
Qualification de contraintes

Liens externes

La méthode du Lagrangien (1999), École des Hautes Études Commerciales, Montréal, Québec.
Extrema liés - Multiplicateurs de Lagrange sur BibM@th.
J. Ch. Gilbert, Éléments d'Optimisation Différentiable — Théorie et Algorithmes, syllabus de cours à l'ENSTA ParisTech, Paris.

Bibliographie

(en) J. F. Bonnans, A. Shapiro (2000). Perturbation Analysis of Optimization Problems. Springer Verlag, New York.
J. Gauvin (1992). Théorie de la programmation mathématique non convexe. Les Publications CRM, Montréal.
J.-B. Hiriart-Urruty (1996). L’Optimisation. Que sais-je, 3184. Presses Universitaires de France.
(en) J.-B. Hiriart-Urruty, C. Lemaréchal (1993). Convex Analysis and Minimization Algorithms. Grundlehren der mathematischen Wissenschaften, 305-306. Springer-Verlag.
(en) R. T. Rockafellar (1993). Lagrange multipliers and optimality. SIAM Review, 35, 183–238.

Portail des mathématiques

[1] Georges Bouligand, Introduction à la Géométrie Infinitésimale Directe, Paris, Gauthier- Villars, 1932.

[2] (it) G. Peano (1887). Applicazioni Geometriche del Calcolo Infinitesimale. Fratelli Bocca Editori, Torino.

[3] (it) G. Peano (1908). Formulario Mathematico, Editio V. Fratelli Bocca Editori, Torino.

[4] (en) L.V. Kantorovich (1940). On an efficient method for solving some classes of extremum problems. Doklady Akad. Nauk SSSR, 28, 212–215.

[5] (en) B.T. Polyak (2001). History of mathematical programming in the USSR: analyzing the phenomenon. Mathematical Programming, 91, 401–416.

[6] (en) S. Dolecki, G.H. Greco (2007). Towards historical roots of necessary conditions of optimality – Regula of Peano. Control and Cybernetics, 36, 491–518.

[7] J. Mawhin, Analyse — Fondements, Techniques, Évolution, De Boeck, 1992.

[8] Joseph-Louis Lagrange, « Manière plus simple et plus générale de faire usage de la formule de l'équilibre donnée dans la section deuxième », dans Mécanique analytique. Tome premier. pages = 77-112 (lire en ligne)

[9] (en) C.B. Boyer (1968). A History of Mathematics. Princeton University Press, Princeton, New Jersey.

[10] V. Alexeev, V. Tikhomirov, S. Fomine (1982). Commande Optimale. Mir, Moscou.

[11] (de) J. Farkas, Theorie der einfachen Ungleichungen, Journal für die reine und angewandte Mathematik, 124 (1902) p. 1-27

[12] (en) H.W. Kuhn, A.W. Tucker (1951). Nonlinear programming. In J.Neyman, éditeur, Proceedings of the second Berkeley Symposium on Mathematical Studies and Probability, pages 481–492. University of California Press, Berkeley, California.

[13] (en) W.E. Karush (1939). Minima of Functions of Several Variables with Inequalities as Side Conditions. Master’s thesis, Department of Mathematics, University of Chicago, Chicago.

[14] (en) H.W. Kuhn (1976). Nonlinear programming: a historical view. In R.W. Cottle, C.E. Lemke, éditeurs, Nonlinear Programming, SIAM-AMS Proceedings IX, pages 1–26. American Mathematical Society, Providence, RI.

[15] (en) F. John (1948). Extremum problems with inequalities as subsidiary conditions. In K.O. Friedrichs, O.E. Neugebauer, J.J. Stokes, éditeurs, Studies and Essays, Courant Anniversary Volume, pages 186–204. Wiley Interscience, New York.

[16] (en) J. Kyparisis (1985). On uniqueness of Kuhn-Tucker multipliers in nonlinear programming. Mathematical Programming, 32, 242–246.

[17] (en) J. Gauvin (1977). A necessary and sufficient regularity condition to have bounded multipliers in nonconvex programming. Mathematical Programming, 12, 136–138.

[18] (en) K.G. Murty, S.N. Kabadi (1987). Some NP-complete problems in quadratic and nonlinear programming. Mathematical Programming, 39, 117–129.

[19] (en) P.J.C. Dickinson, L. Gijben (2011). On the computational complexity of membership problems for the completely positive cone and its dual. Rapport de recherche.

[20] (en) S.M. Robinson (1976). Stability theory for systems of inequalities, part II: differentiable nonlinear systems. SIAM Journal of Numerical Analysis, 13, 487-513.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

Préambule

Le problème générique

Le problème PX

Forme géométrique de l'optimalité au premier ordre

Problèmes d'optimisation sans contrainte

Conditions du premier ordre sans contrainte

Conditions du deuxième ordre sans contrainte

Problèmes d'optimisation avec contraintes d'égalité

Le problème (PE)

Conditions du premier ordre avec contraintes d'égalité

Le cône tangent à XE

Condition de Lagrange

Minimisation d'une fonction de n variables soumise à m contraintes

Conditions du deuxième ordre avec contraintes d'égalité

Interprétation marginaliste des multiplicateurs de Lagrange

Exemple : vecteurs propres et quotient de Rayleigh

Problèmes d'optimisation avec contraintes d'égalité et d'inégalité

Le problème (PEI)

Conditions du premier ordre pour (PEI)

Le cône tangent à XEI

Conditions de Karush, Kuhn et Tucker (KKT)

Ensemble des multiplicateurs optimaux

Résolution analytique des conditions d'optimalité

Conditions du deuxième ordre pour (PEI)

Le cône critique

Trois exemples instructifs

Conditions nécessaires du second ordre

Conditions suffisantes du second ordre

Interprétation marginaliste des multiplicateurs de Karush, Kuhn et Tucker

Exemples

Inégalités de Hölder

Cas où p = ∞

Cas où 1 < p < ∞

Cas où p = 1

Minimisation d'une fonction quadratique sur la boule euclidienne

Problèmes d'optimisation avec contraintes générales

Le problème (PG)

Conditions du premier ordre pour (PG)

Le cône tangent à XG

Conditions du premier ordre pour (PG)

Conditions du deuxième ordre

Annexes

Notes

Articles connexes

Liens externes

Bibliographie

Le problème P_X

Le problème (P_E)

Le cône tangent à X_E

Le problème (P_EI)

Conditions du premier ordre pour (P_EI)

Le cône tangent à X_EI

Conditions du deuxième ordre pour (P_EI)

Le problème (P_G)

Conditions du premier ordre pour (P_G)

Le cône tangent à X_G

Conditions du premier ordre pour (P_G)