Academia.eduAcademia.edu

Partei

El manejo de límites para funciones de varias variables es a la vez muy importante, y difícil. Es importante para el material que presentaremos, pues todo se desarrollará alrededor del concepto de diferenciabilidad, y en dicho concepto jugará un papel importante el límite de una magnitud que depende de varias variables (el residuo).

Capı́tulo 1 Cálculo en varias variables 1.1 Lı́mites de funciones de varias variables El manejo de lı́mites para funciones de varias variables es a la vez muy importante, y difı́cil. Es importante para el material que presentaremos, pues todo se desarrollará alrededor del concepto de diferenciabilidad, y en dicho concepto jugará un papel importante el lı́mite de una magnitud que depende de varias variables (el residuo). Es difı́cil, porque hay una gran diferencia entre los lı́mites de funciones de una variable (ya de por sı́un concepto sutil) y los de varias variables. Para verificar la existencia ó no de lı́mites de funciones de una variable, sólo necesitamos analizar dos posibilidades : a qué (lı́mite) tiende la función por la izquierda y por la derecha del punto en cuestión. En cambio, para estudiar un lı́mite de una función de dos variables ó más, en principio están involucradas infinitas maneras de acercarse al punto en cuestión : todas las posibles trayectorias que nos llevan a él. Ejemplo 1.1–1. Sea f (x, y) = y/x. Con domino {(x, y) ∈ R2 | y 6= 0}. Estudiemos el lı́mite (si existe) cuando (x, y) → (0, 0). Una forma de acercarse al origen es a través de una recta de pendiente m que pasa por el origen: y = mx, y hacemos x → 0. Lo que ocurre es que x 1 1 = lim = , x→0 mx x→0 m m lim f (x, mx) = lim x→0 1 2 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES de manera que el valor de lı́mite depende de m, la pendiente de la recta. Si nos acercamos al origen por la parábola y = x2 , nos queda x 1 = lim , x→0 x2 x→0 x lim f (x, x2 ) = lim x→0 el cual, como sabemos, no existe. Consideremos por último la trayectoria x = y 2 , tenemos que y2 = lim y = 0. y→0 y→0 y lim f (y 2 , y) = lim y→0 ¿Cuál es la conclusión de todo esto? Por supuesto, el lı́mite no existe. Cuando nos acercamos al origen por diferentes trayectorias, obtenemos diferentes lı́mites e incluso el lı́mite puede no existir a lo largo de ciertas trayectorias. El que el lı́mite exista equivale a que se obtiene un mismo valor al aproximarse por cualquier trayectoria. Ejemplo 1.1–2. Sea f (x, y) = sin(x) sin(y) . xy Queremos ver si lim(x,y)→(0,0) f (x, y) existe. Hagamos algunas obervaciones sobre el domiminio D de f . Primeramente la función no está definida en (0, 0) y para analizar el lı́mite es necesario estudiar valores de f (x, y) en puntos (x, y) arbitrariamente cercanos a (0, 0) sin ser (0, 0). Técnicamente (0, 0) debe ser punto de acumulación del dominio D, vgr. para cualquier δ > 0 debe suceder que B ′ (0, 0; δ) ∩ D 6= ∅ donde la bola con centro en (0, 0) y radio δ se define como Bδ (0, 0) = {(x, y) | p x2 + y 2 < δ} y la notación Bδ′ (0, 0) significa que se excluye el centro. Tomemos por ejemplo D = B1′ (0, 0). Es claro entonces que (0, 0) es punto se acumulación de D. La siguiente es una tabla de valores (x, y) tomados al azar y los correspondientes valores de f (x, y) 1.1. LÍMITES DE FUNCIONES DE VARIAS VARIABLES 3 p x y x2 + y 2 f (x, y) 0.624545 0.929048 1.11946 0.807257 0.538409 0.61957 0.820823 0.892609 0.0235492 0.772784 0.773143 0.903314 0.387152 0.800026 0.888779 0.874456 0.0740555 0.369479 0.376827 0.976509 0.381591 0.544371 0.664794 0.928417 0.167903 0.287027 0.332529 0.981698 0.180206 0.815687 0.835356 0.887916 1.16951 0.791529 0.712596 0.927343 0.459414 0.866261 0.980545 0.848927 0.695937 0.998536 1.21713 0.775578 0.380652 0.53238 0.654465 0.930569 0.0713921 0.0694885 0.0996267 0.998347 0.91281 1.24201 0.767895 0.842243 0.047843 0.296704 0.300537 0.985016 Si seleccionamos los valores de f (x, y) con (x, y) lo más cercano a (0, 0), es decir con norma más pequeña, tenemos p x y x2 + y 2 f (x, y) 0.0740555 0.369479 0.376827 0.976509 0.167903 0.287027 0.332529 0.981698 0.0713921 0.0694885 0.0996267 0.998347 0.047843 0.296704 0.300537 0.985016 Comprobamos que los valores de f (x, y) parecen tender a 1 Definición 1. Sea f : D ⊂ Rn → Rm , definida en una bola con centro en p, D = Br (p). Decimos que limx→p f (x) = L si y sólo si para todo número positivo ǫ existe δ > 0 tal que si x∈D y 0 < ||x − p|| < δ entonces ||f (x) − L|| < ǫ. Observación: la primera norma involucrada es la de Rn y la segunda la de Rm . Como referencia futura, si x = (xi , x2 , . . . , xp ) ∈ Rp escribimos ||x|| = (x21 + x22 + · · · + x2p )1/p 4 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES la cual se llamará en lo sucesivo la norma euclideana en Rp . La mayorı́a de las veces, si no hay lugar a confusión, utilizaremos simplemente ||x|| para la norma del vector x. Para probar que un lı́mite existe, debe establecerse que la función se aproxima al candidato a lı́mite, independientemente de la trayectoria que se siga. En la práctica, esto se hace estableciendo las desigualdades e implicaciones de la definición, sin suponer ninguna trayectoria en particular (ver ejemplos 2 y 3). Para demostrar que un lı́mite no existe, basta con mostrar dos trayectorias concretas tales que la función tiende a diferentes valores a través de ellas, o bien que por una trayectoria concreta el lı́mite (de una variable) no existe (ver ejemplos 1 y 4). Con más precisión: Proposición 1. Sea f : D ⊂ Rn → Rm , definida en una bola con centro en p, D = Br (p). Si γ1 , γ2 son dos curvas continuas que pasan por p y si lim x∈γ1 ,x→p f (x) 6= lim x∈γ2 ,x→p f (x), entonces limx→p f (x) no existe Naturalmente la notación x ∈ γ, x → p significa que debe parametrizarse la curva γ, digamos por s de forma tal que que lims→0+ γ(s) = p, y as’ı limx∈γ,x→p f (x) = lims→0+ f (γ(s)), tal como lo hicimos en los ejemplos 1 y 2. Ejemplo 1.1–3. Sea f (x, y) = x2 + y 2 . Probemos que lim(x,y)→(a,b) f (x, y) = a2 + b2 . Comenzamos por estimar |x2 + y 2 − a2 − b2 | ≤ |x2 − a2 | + |y 2 − b2 | = |x + a||x − a| + |y + b||y − b| y notamos que |x + a|, |y + b| se pueden acotar superiormente si (x, y) está suficientemente cercano a (a, b) en tanto que |x − a|, |y − b| se pueden hacer arbitrariamente pequeños si (x, y) es suficientemente cercano a (a, b). Precisemos: Tomemos (x, y) ∈ B1 (a, b) con ello p |x − a| ≤ (x − a)2 + (y − b)2 < 1, de donde |x| ≤ |a| + 1, luego |x + a| ≤ |x| + |a| ≤ 2|a| + 1. similarmente |y + b| ≤ 2|b| + 1 y hemos conseguido acotar |x + a| y |y + b|. Por otro lado si (x, y) ∈ Bδ (a, b) entonces p |x − a|, |y − b| ≤ (x − a)2 + (y − b)2 < δ 1.1. LÍMITES DE FUNCIONES DE VARIAS VARIABLES 5 juntando lo anterior tenemos que |x + a||x − a| + |y + b||y − b| ≤ (2|a| + 1)δ + (2|b| + 1)δ = 2(|a| + |b| + 1)δ que podemos hacer menor que ǫ si tomamos δ< ǫ . 2(|a| + |b| + 1) Concluı́mos que lim(x,y)→(a,b) f (x, y) = a2 + b2 . Observe que el lı́mite se obtiene sustituyendo (a, b) en f (x, y). Cuando lim (x,y)→(a,b) f (x, y) = f (a, b) se dice que la función f es continua en (a, b). Ejemplo 1.1–4. Sea x2 y x2 + y 2 podemos considerar que el dominio es alguna bola Br (0, 0) (por ejemplo si r = ∞ el dominio es todo el plano menos el origen). Se observa que el numerador es un polinomio homogéneo de grado 3 en tanto que el denomindor es homogéneo de grado 2, ası́ que cuando (x, y) → (0, 0) en numerador tiende a cero más rápido que en denominador. Proponemos entonces que lim(x,y)→(a,b) f (x, y) = 0. En efecto, ya que x2 + y 2 ≥ x2 entonces f (x, y) = p p x2 y |x|2 |y| 2 + y 2 )( x2 + y 2 ) = x2 + y 2 x | 2 = |x||y| ≤ ( | ≤ x + y2 |x| p y ahora podemos hacer x2 + y 2 < ǫ si x2 + y 2 < ǫ1/2 ≡ δ Ejemplo 1.1–5. Se pide analizar si existe lim(x,y)→(0,0) f (x, y). f (x, y) = x2 y . x2 + y 6 Observe que el denominador ya no es homogéneo pero se puede usar la misma estimación que antes | x2 y |x|2 |y| | ≤ = |x||y|. x2 + y 6 |x| 6 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Ejemplo 1.1–6. Ejemplo 1.1–7. Se pide analizar si existe lim(x,y)→(0,0) f (x, y). f (x, y) = xy . x2 + y 2 Ninguna de las estimaciones x2 + y 2 ≥ x2 , y 2 funciona pues se obtiene respectivamente xy |x| |y| |≤ , | 2 2 x +y |y| |x| Si nos acercamos al origen por rectas y = mx f (x, mx) = mx2 m = 2 2 2 x +m x 1 + m2 ası́que no obtenemos un mismo lı́mite. Por (??) el lı́mite no existe. Ejemplo 1.1–8. Se pide analizar si existe lim(x,y,z)→(0,0,0) f (x, y, z) para f (x, y, z) = xy 2 z . x4 + y 2 + z 2 Tratemos que “cancelar” la y 2 den numerador | xy 2 z |x||y|2 |z | ≤ = |x||z| x4 + y 2 + z 2 |y|2 de donde se ve que lim(x,y,z)→(0,0,0) f (x, y, z) = 0. Ejemplo 1.1–9. Analizar la existencia de h . h→0 ||h|| lim El lı́mite no existe porque si hacemos tender a h = (h1 , h2 , . . . , hn ) por los, por ejemplo h = (h1 , 0, . . . , 0) tenemos h h1 = lim h1 →0 ||h|| h1 →0 |h1 | lim que no existe. 7 1.2. EJERCICIOS En muchas ocasiones estaremos interesados en calcular lı́mites de funciones que no están definidas en el punto donde se calcula el lı́mite. Un ejemplo tı́pico es el de la derivada f (a + h) − f (a) h→0 h lim Aquı́ la función de interés es el cociente incremental (fijos f y a) f (a + h) − f (a) h que no está definido para h = 0. Es necesario “simplificar” el factor h en el denominador. Para lı́mites de combinaciones de funciones, se cumple un teorema similar al de una variable, Teorema 1. Sean f , g funciones en Br (p) ⊂ Rn → R. Si limx→p f (x) = L y limx→p g(x) = M , entonces los lı́mites siguiente existen y son iguales a los valores indicados (i) limx→p [f (x) ± g(x)] = L ± M, (ii) limx→p [f (x)g(x)] = LM , y i h (x) L =M ,si M 6= 0. (iii) limx→p fg(x) Observación Es importante señalar que el teorema anterior afirma dos cosas, que los lı́mites de las combinaciones existen y por otro lado sus valores. 1.2 Ejercicios En todos los casos que siguen determinar si el lı́mite existe ó no y argumentar por qué. 1. 2. 3. lim xn + y m , con m, n enteros positivos fijos. lim x sin(x2 + y 2 ). (x,y)→(x0 ,y0 ) (x,y)→(x0 ,y0 ) x2 y 2 . (x,y)→(x0 ,y0 ) (x2 + y 2 )2 lim 8 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES 4. x2 y 2+a , con a > 0 fijo. (x,y)→(x0 ,y0 ) (x2 + y 2 )2 5. x2 + y . (x,y)→(x0 ,y0 ) (x2 + y 2 )1/2 6. x sin y . (x,y)→(x0 ,y0 ) |x| + |y| 7. lim lim lim lim (x,y,z)→(x0 ,y0 ,z0 ) 1.3 f (x, y, z) = x2 yz . (x2 + y 2 + z 2 )3/2 Derivada direccional, parcial y gradiente Las derivadas parciales para una función de varias variables, se definen como la deriva usual respecto de alguna de las variables, manteniendo constante el resto. Se podrı́a pensar ingenuamente que este concepto generaliza la idea de derivada como aproximación lineal para funciones de una variable, pero vermos más adelante que para funciones de varias variables, es necesaria una definición más fuerte con el fin de mantenar la idea geométrica de aproximación lineal o de plano tangente. Comencemos por plantearnos la siguiente pregunta: ¿Cómo estudiar el comportamiento (continuidad, tasa de cambio, etc.) de una función de dos variables z = f (x, y) en un entorno de un punto (a, b) de su dominio? Existen al menos dos formas: 1. Analizando la función de una variable que se obtiene restringiendo la función a una recta que pase por el punto (a, b) y dirección arbitraria. 2. Por medio de sus curas de nivel f (x, y) = constante en un entorno del punto (a, b) Siguiendo este tren de ideas, vamos a discutir con más detalle cada una. 1.3.1 La derivada direccional Consideremos una función real de dos variables definida por z = f (x, y). Supongamos que la función está definida en un disco f : Br (a, b) → R. La 1.3. DERIVADA DIRECCIONAL, PARCIAL Y GRADIENTE 9 1 0.75 0.5 0.25 -2 -1 1 2 -0.25 -0.5 -0.75 -1 Figure 1.1: Gráficos de algunas funciones fû recta que pasa por el punto (a, b) y tiene dirección û = (α, β) tiene por ecuación paramétrica (x, y) = (a, b) + t(α, β) Naturalmente, cuando nos referimos a una dirección suponemos que û es un vector unitario, i.e., α2 + β 2 = 1. La restricción a dicha recta es la función de una variable fû (t) = f (a + tα, b + tβ) y está definida para t suficientemente pequeña (para |t| < r). Ejemplo 1.3–10. Sea f (x, y) = x3 + 2y 2 quermos estudiar la función en un entorno de (0, 0). En la figura 1.1 se muestran las gráficas de algunas funciones fû para diversas direcciones. Se puede notar la prevalencia de un mı́nimo en el orı́gen. De hecho la gráfica de la función z = x3 + 2y 2 comprueba esta conjetura. Probemos que en cualquier dirección se tiene un mı́nimo. Cualquier vector unitario en el plano se puede escribir como (cos θ, sin θ), luego la restricción de f a lo largo de la dirección θ es fθ (t) = (t cos θ)2 + 2(t sin θ)2 = (cos2 θ + 2 sin2 θ)t2 = (1 + sin2 θ)t2 10 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES x 2 y 1 -2 -1 0 0 1 2 -1 -2 15 z 10 5 0 Figure 1.2: Gráfico de z = x3 + 2y 2 como el coeficiente de t2 es siempre postivo entonces se tiene un mı́nimo en t = 0. Ejemplo 1.3–11. Haga el mismo análisis con la función z = x2 − y 2 . Los gráficos de algunas funciones fθ (t) y del gráfico z = x2 − y 2 se muestran en la figuras (1.3,1.4). Se puede verificar que la función no puede tener un máximo o mı́nimo en el origen. En efecto a lo largo de la dirección (1, 0), f(1,0) = t2 tiene un máximo y en la dirección (0, 1), f(0,1) = −t2 tiene un mı́nimo en t = 0. Vamos ahora a precisar algunos términos. Como siempre, supondremos que las funciones están definidas en alguna bola con centro en el punto en cuestión. En la segunda parte de estas notas relajaremos esta condición e introduciremos el concepto de punto interior. Definición 2. Sea f : Br (a, b) ⊂ Rn → R, û = (α, β) un vector unitario. La derivada de f en la dirección (α, β) en el punto (a, b) se define como f (a + tα, b + tβ) − f (a, b) t→0 t Du f (a, b) = lim si tal lı́mite existe. El lı́mite Dû f (a, b) se llama la derivada direccional en la dirección (α, β). Observe que la derivada direccional no es sino Dû f (a, b) = fû′ (0) 1.3. DERIVADA DIRECCIONAL, PARCIAL Y GRADIENTE 1 0.75 0.5 0.25 -2 -1 1 2 -0.25 -0.5 -0.75 -1 Figure 1.3: Gráficos de algunas funciones fθ (t) x 2 y 1 0 -2 -1 0 1 2 -1 -2 5 z 0 -5 Figure 1.4: Gráfico de z = x2 − y 2 11 12 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES y describe la razón de cambio de fû (t) en el punto (a, b). En particular si tomamos la dirección (1, 0) o (0, 1) tenemos lo que se conoce como las derivadas parciales: Definición 3. Sea f : Br (a, b) ⊂ Rn → R. La derivada parciales se definen como f (a + t, b) , h→0 t D1 f (a, b) = lim f (a, b + t) h→0 t D2 f (a, b) = lim si tales lı́mites existen. Cuando sea conveniente se usarán cualquiera de las siguientes notaciones D1 f (a, b) = ∂f (a, b), ∂x D2 f (a, b) = ∂f (a, b) ∂y y se omite el punto (a, b) cuando está sobreentendido. En las figuras (1.5,1.6,1.7) se muestra la superficie z = x2 − y 2 alrededor del punto p = (a, b, f (a, b)) = (1.5, −1.5, 0) la derivada parcial D1 f (a, b) es la pendiente de la curva que se obtiene como intersección del plano x = a con la superficie z = f (x, y) (figura 1.5) en el punto; en tanto que D2 f (a, b) es la pendiente de la curva que se obtiene como intersección del plano y = b con la superficie z = f (x, y) (figura 1.6) en el punto. En la figura 1.7 se muestra la superficie cortada por ambos planos. El siguiente resultado muestra la relación entre derivada direccional y derivadas parciales. Proposición 2. Sea f : Br (a, b) ⊂ Rn → R, û = (α, β) un vector unitario. Si existe la derivada de f en la dirección (α, β) en el punto (a, b), junto con las derivadas parciales, entonces Dû f (a, b) = αD1 f (a, b) + βD2 f (a, b) Demostración. Escribamos   f (a + tα, b + tβ) − f (a, b) f (a + tα, b + tβ) − f (a + tα, b) = + t t   f (a + tα, b) − f (a, b) t 1.3. DERIVADA DIRECCIONAL, PARCIAL Y GRADIENTE y 0 2 -2 x 0 2 -2 5 5 0 z z 0 2 -5 y 0 -5 -2 -2 0 x 2 Figure 1.5: Interpretación geométrica de la derivada parcial D1 f (a, b) y 0 2 -2 x 0 2 -2 5 5 z 0 -5 0 z 2 -5 y 0 -2 -2 0 x 2 Figure 1.6: Interpretación geométrica de la derivada parcial D2 f (a, b) 13 14 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES 5 0 z 2 y -5 0 2 0 -2 -2 x Figure 1.7: Interpretación geométrica de las derivadas parciales D1 f (a, b),D2 f (a, b) Por definición el lı́mite cuando t → 0 del lado izquierdo existe y es Dû f (a, b). En el lado derecho, obtenemos     f (a + tα, b) − f (a, b) f (a + tα, b) − f (a, b) lim = α lim t→0 t→0 t tα   f (a + h, b) − f (a, b) = αD1 f (a, b) = α lim h→0 h por lo tanto el lı́mite del segundo término existe y es:     f (a + tα, b + tβ) − f (a + tα, b) f (a + tα, b + tβ) − f (a + tα, b) = β lim = lim t→0 t→0 t t ≡ βB existe, luego Dû f (a, b) = αD1 f (a, b) + βB. Análogamente escribiendo   f (a + tα, b + tβ) − f (a, b) f (a + tα, b + tβ) − f (a, b + tβ) = + t t   f (a, b + tβ) − f (a, b) t (1.1) 1.3. DERIVADA DIRECCIONAL, PARCIAL Y GRADIENTE fqHtL 6 5 4 3 0.5 1 t -1 -0.5 fqHtL 6 5 4 3 1 t fqHtL 5 4.5 4 3.5 0.5 1 t -1 -0.5 fqHtL 8 7 6 5 4 3 -1 -0.5 0.5 15 -1 -0.5 1 t 0.5 Figure 1.8: Gráfico de las funciones direccionales fθ (t), para la función z = x2 + 2y 2 y haciendo t → 0 obtenemos Dû f (a, b) = αA + βD2 f (a, b) donde A ≡ lim t→0 en resumen  f (a + tα, b + tβ) − f (a, b + tβ) t (1.2)  Dû f (a, b) = αD1 f (a, b) + βB = αA + βD2 f (a, b). Como α y β son arbitrarios de (1.1,1.2) se sigue que Dû f (a, b) = αD1 f (a, b) + βD2 f (a, b). Q.E.D. La figura (1.11) muestra algunas de las funciones fθ (t) para f (x, y) = x2 + 2y 2 y el punto (1, 1). Se puede observar que en algunas direcciones la función crece y en otras decrece. Nos preguntamos en qué dirección es máximo el crecimiento instantáneo? 16 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Veamos con detalle. Si z = f (x, y) está definida en un disco : Br (a, b) ⊂ R y û = (cos θ, sin θ) es un vector unitarario al igual que en el ejemplo (1.3.1), entonces la función fθ (t) = f ((a, b)+t(cos θ, sin θ)) nos da la variación de la función en la dirección θ a partir de (a, b). El crecimiento instantáneo en la dirección θ de acuerdo a la proposición (2) es m′ (θ) = D1 f (a, b) cos θ + D2 f (a, b) sin θ 2 Por lo tanto la dirección de máximo crecimiento se obtiene maximizando la tasa de crecimiento instantánea m respecto de θ. Igualando la derivada a cero obtenemos 0 = m′ (θ) = −D1 f (a, b) sin θ + D2 f (a, b) cos θ. Vemos que cualquier solución es de la forma (cos θ, sin θ) = λ(D1 f (a, b), D2 f (a, b)) en donde λ es un escalar, siempre que el vector (D1 f (a, b), D2 f (a, b)) sea distinto de cero. Este se llama el vector gradiente ∇f (a, b) = (D1 f (a, b), D2 f (a, b)), y determina una dirección θ0 de crecimiento crı́tica (cos θ0 , sin θ0 , ) = ∇f (a, b) ||∇f (a, b)|| En efecto, m′′ (θ0 ) = −||∇f (a, b)||2 y la dirección crı́tica θ0 es de máximo crecimiento. Enunciemos esta propiedad importante Proposición 3. Sea : Br (a, b) ⊂ R2 y û = (cos θ, sin θ) un vector unitario en la dirección θ. La dirección de máximo crecimento de f a partir del punto (a, b) es ∇f (a, b) (cos θ0 , sin θ0 ) = ||∇f (a, b)|| 17 1.3. DERIVADA DIRECCIONAL, PARCIAL Y GRADIENTE Ejemplo 1.3–12. Encuentre el ángulo de la dirección de máximo crecimiento de la función f (x, y) = x2 + 2y 2 en el punto (1, 1). Tenemos fθ (t) = (1 + t cos θ)2 + 2(1 + t sin θ)2 de donde la tasa de crecimiento en la dirección θ es m(θ) = 2 cos θ + 4 sin θ Resolviendo la ecuación 0 = m′ (θ) = 4 cos θ − 2 sin θ obtenemos tan θ = ± arccos(2) o bien θ = arctan(2). Existe una solución en (−π/2, π/2) [(cos θ, sin θ) en el primer cuadrante] y otra en (π/2, 3π/2) [(cos θ, sin θ) en el tercer cuadrante], que difiere por π. Usando la fórmula cos θ = √ 1 2 1 + tan θ , sin θ = √ tan θ 1 + tan2 θ para la primera solución, obtenemos 1 cos θ = √ , 5 2 sin θ = √ 5 (1.3) La segunda solución solo difiere en signo. Es fácil ver que m′′ (θ0 ) < 0 para (cos θ, sin θ) en el primer cuadrante de modo que la dirección de máximo crecimento es (1.3). Calculando directamente el vector unitario en la dirección del gradiente en (1, 1) obtenemos ∇f (x, y) = (2x, 4y), de donde ∇f (x, y) 1 2 (2, 4) = √ = (√ , √ ) ||∇f (x, y)|| 5 5 2 5 que es consistente con Otra propiedad importane del gradiente es en relación a las curvas de nivel f (x, y) = constante Proposición 4. Sea f : Br (a, b) ⊂ R2 , Si ∇f (a, b) 6= 0, entonces ∇f (a, b) es ortogonal a la curva de nivel f (x, y) = c que pasa por (a, b). 18 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES 1.5 1.25 1 0.75 0.5 0.25 0 0 0.5 1 1.5 2 Figure 1.9: Curva de nivel f (x, y) = c y el vector gradiente Demostración. (Véase la figura 1.9). Porque supongamos que podemos parametrizar la curva de nivel por y = g(x) de modo que g(a) = b, luego f (x, g(x)) = c para x próximo a x = a. Derivando respecto a x en x = a obtenemos 0= ∂f ∂f ∂f ∂f (a, b) + (a, b)g ′ (a) = ( (a, b), (a, b)) · (1, m) ∂x ∂y ∂x ∂y donde (1, m) es el vector tangente a la curva de nivel en el punto (a, b). Lo anterior nos dice que la curva de nivel es ortogonal al gradiente en ese punto. Si la curva de nivel se pude parametrizar como x = h(y) el argumento es similar. El teorema de la función implicita garantiza que si ∇f (a, b) 6= 0 alguna de las parametrizaciones anteriores es posible. Ejemplo 1.3–13. En la figura (1.10) se muestran las curvas de nivel de una función f (x, y). Estime la dirección de máximo crecimiento de la función en puntos sobre la curva del nivel 1. El campo gradiente asociado a una función z = f (x, y) es al campo vectorial X = ∇f . En la figura 1.11 se muestra el campo gradiente junto con las curvas de nivel para la función f (x, y) = (x2 + y 2 ) exp(−x2 − y 2 ). Observe la propiedad mencionada en la proposición (4). a la curv 1.3. DERIVADA DIRECCIONAL, PARCIAL Y GRADIENTE 2 0.1 0.1 0.2 0.3 0.2 0.4 1.5 0.5 5 0.3 0.4 0.4 0.5 0.4 0.7 6 0. 2 0. 0.6 0.4 0.5 0.6 0.5 0.3 0.4 −0.5 0 0.1 −2 −2 −1.5 0.3 0.1 0.2 −1 0.1 0.4 0.5 0.2 0.3 0.3 2 0. 0.1 0.3 0.2 −1.5 0.1 0.2 0.5 0.4 0.1 0.5 0.1 −1 0.4 0.3 0.2 0.3 −0.5 3 0.6 0.2 0 0. 0.7 0.4 0.5 6 0. 0.6 0.1 0. 1 19 0.5 1 1.5 2 Figure 1.10: Curvas de nivel f (x, y) = const.. 2 1 0 -1 -2 -2 -1 0 1 2 Figure 1.11: Curvas de nivel de la función f (x, y) = (x2 + y 2 ) exp(−x2 − y 2 ) y su campo gradiente. 20 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES y 1 0.8 0 0.6 1 0.4 0.2 0 -1 -0.5 0.5 1 x Figure 1.12: Ejemplo 1.4–14 1.4 Discusión previa del concepto de derivada El concepto de la derivada de una función real como la mejor aproximación lineal en la vecindad de un punto es de fundamental importancia en el Cálculo. Ingenuamente podrı́a suponerse que para una función de dos variables la generalización de la derivada serı́an las derivadas parciales o las derivadas direccionales. En los siguentes ejemplos vamos a mostrar por qué es necesaria una definición más astringente. Ejemplo 1.4–14. Sea f (x, y) =  1 si y = x2 y (x, y) 6= (0, 0), 0 si y 6= x2 o (x, y) = (0, 0) Véase la figura 1.4 Ya que f se anula a lo largo de los ejes y el origen, se verifica de inmediato que ∂f ∂f (0) = (0) = 0. ∂x ∂y Por otro lado no tendı́a ningún sentido la aproximación lineal de f (h, k) por el plano “tangente“ z = 0 ya que la gráfica de la superficie z = f (x, y) tiene una gran “zanja” a lo largo de la curva y = x2 . Observe de paso que el lı́mite de f no existe cuando (x, y) tiende a cero. 1.4. DISCUSIÓN PREVIA DEL CONCEPTO DE DERIVADA 21 0.5 0.25 0 -0.25 -0.5 -1 1 0.5 0 -0.5 -0.5 0 0.5 1 -1 Figure 1.13: Gráfico de z = f (x, y) para el ejemplo El siguiente es un ejemplo más sutil aún. Ejemplo 1.4–15. Sea f (x, y) = ( xy 2 x2 +y 4 0 si (x, y) 6= (0, 0), si (x, y) = (0, 0) Igual que en el ejemplo anterior, ∂f ∂f (0) = (0) = 0. ∂x ∂y Analicemos las derivadas direccionales. Para ello consideremos û = (α, β). un vector unitario, como f (0, 0) = 0 tenemos t3 αβ 2 αβ 2 = lim t( ) t→0 t2 α2 + t4 β 4 t→0 α2 + t2 β 4 Dû f (0, 0) = lim por lo tanto si α 6= 0 entonces Dû f (0, 0) = 0. Si α = 0 se verifica directamente que f (tα, tβ) = 0, por lo tanto Dû f (0, 0) = 0 para cualquier dirección û. Un ojo a la gráfica 1.13 en un entorno de (0, 0) nos sugiere que la función puede no ser continua ahı́. 22 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Si nos acercamos al origen a lo largo de rectas y = mx obtenemos m2 x xm2 x2 = lim =0 x→0 1 + m4 x2 x→0 x2 + m4 x4 lim f (x, mx) = lim x→0 lo cual evidencia que el lı́mite podrı́a ser cero. Sin embargo al acercarse al origen a lo largo de x = y 2 obtenemos y4 y4 1 1 = lim = lim = 4 4 4 y→0 y + y y→0 2y y→0 2 2 lim f (y 2 , y) = lim x→0 que es distinto de f (0, 0) = 0. Por lo tanto la función no es continua en (0, 0). Si miramos con más atención gráfica 1.13 vemos que no tiene sentido alguna aproximación lineal en un entorno del origen. 1.5 La derivada Con el fin generalizar la definición de derivada para funciones de varias variables vamos a re–elaborar la definición usual de derivada para funciones de una variable. Recordemos la definición de derivada para funciones de una variable Definición 4. Sea f : (a − r, a + r) ⊂ R → R. Decimos que la función tiene derivada en a si el lı́mite f (x + h) − f (a) h→0 h lim existe. En tal caso, el lı́mite f ′ (a) es la derivada de f en a. Observe que la existencia del lı́mite anterior es equivalente a escribir f (a + h) − f (a) = f ′ (a)h + r(h) (1.4) (en realidad definimos r(h) ≡ f (a + h) − f (a) − f ′ (a)h) en donde r(h) =0 h→0 h lim (1.5) Diremos que r(h) es un residuo de primer orden y escribiremos1 r(h) = o(h). Concretamente, (1.4) es una definiciø’n equivalente de derivada: 1 Precisamente: si δ(h) es una función real definida para h próximo de cero, diremos que δ(h) = o(h) si limh→0 δ(h) h = 0. 23 1.5. LA DERIVADA Proposición 5. Sea f : (a − r, a + r) ⊂ R → R. Entonces f es derivable en a si y solo si existe un número λ con la propiedad f (a + h) − f (a) = λh + r(h) en donde r(h) =0 h→0 h lim Demostración. Hemos probado ya que si f ′ (a) existe entonces se puede escribir como en (1.4) con la propiedad (1.5). Ahora supongamos que es posible escribir f (a + h) − f (a) = λh + r(h) para cierto λ, donde r(h) satisface (1.5). Veamos que la derivada f ′ (a) existe, λh + r(h) r(h) f (x + h) − f (a) = lim = λ + lim =λ h→0 h→0 h→0 h h h lim es decir la derivad existe y es precisamente f ′ (a) = λ. Observe que de la igualdad (1.4) se sigue que lim f (a + h) = f (a) h→0 equivalentemente limx→a f (x) = f (a), lo que significa que la función debe ser continua en a. Teorema 2. Sea f : (a − r, a + r) ⊂ R → R. Si f es derivable en a entonces es continua en a. Con el fin de tener una notación más cómoda introducimos la noción de incremento funcional Definición 5. Si z = f (x, y) está definida en una bola Br (a, b) ⊂ R2 , definimos el incremento funcional en el punto (a, b) con incrementos independientes (h, k) como ∆f (a, b; (h, k)) = f (a + h, b + k) − f (a, b) Adoptaremos (1.4,1.5) como definición, pues tiene varias ventajas sobre la original, en particular que puede extenderse al caso general de funciones definidas entre espacios euclideanos de cualquier dimensión y aún entre espacios de dimensión infinita. 24 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Definición 6 (funciones reales de variable real). Sea f : (a − r, a + r) ⊂ R → R. Decimos que es diferenciable en a si y sólo si existe un número λ tal que es posible escribir f (a + h) − f (a) = λh + r(h) en donde r(h) =0 h→0 h lim Comentario Podemos re–escribir (1.4) como f (a + h) − (f ′ (a)h + f (a)) = r(h) y como la ecuación de la recta tangente a la curva y = f (x) en el punto (a, f (a)) es precisamente y = f ′ (a)x + f (a), la igualdad anterior nos dice que la diferencia entre los valores de la función y los de la recta tangente vienen dados por r(h), un residuo de orden uno. También se dice que la grfica de la función y la recta tangente tienen contacto de primer orden en el punto (a, f (a)). Podemos ahora generalizar las ideas anteriores para obtener el concepto de derivada de una función f : R2 → R. Definición 7. Sea f : Br (a, b) ⊂ R2 → R. Decimos que f es diferenciable en (a, b) si existen dos números λ, µ tales que f (a + h, b + k) = f (a, b) + λh + µk + r(h, k) donde r(h, k) = 0, (h,k)→(0,0) ||(h, k)|| lim en tal caso, la derivada es la función lineal Df (a, b) : R2 → R, Df (a, b) · (h, k) = λh + µk. Observación 1. ¿Por qué definir ası́ la derivada? Podrı́amos proponer de inmediato a la pareja [λ µ], pero por varias razones que se irán aclarando a medida que avance la exposición, es mucho más conveniente considerar a la derivada como una transformación lineal. De cualquier forma, en la base canónica, la matriz 1 × 2, asociada a la derivada es [Df (a, b)] = [λ µ] y no perdemos nada. 25 1.5. LA DERIVADA Observación 2. En cuanto al residuo, más explı́citamente, se cumple que r(h, k) √ =0 (h,k)→(0,0) h2 + k 2 lim Por un resultado del Análisis que se verá en la segunda parte de estas notas, todas las normas en Rn son equivalentes, es decir dan el mismo lı́mite, cuando existe. En particular podemos utilizar cualquier norma conveniente en el denominador de la expresión anterior. Ası́, la propiedad de residuo es equivalente a, p.ej. r(h, k) lim =0 (h,k)→(0,0) |h| + |k| y en casos concretos podemos usar la norma que más convenga. Observación 3. En la definición de derivada (7) podemos escribir ∆f (a, b; (h, k)) = Df (a, b) · (h, k) + r(h, k) y en el mismo sentido que para funciones de una variable la derivada es la mejor aproximación lineal a la gráfica de la superficie z = f (x, y) en un entorno del punto (a, b, f (a, b)). Observación 4. Que la función sea derivable en (a, b) es más fuerte sólo tener derivadas parciales y aún direccionales. Con más precisión: Proposición 6. Sea f : Br (a, b) ⊂ R2 → R. Si f es derivable en (a, b) entonces existen las derivadas direccionales en (a, b) en cualquier dirección. Demostración. Porque si (α, β) es un vector unitario, tomando en la definción de derivada (??) los incrementos independientes cmo (h, k) = (tα, tβ) se tiene f (a + tα, b + tβ) − f (a, b) = λ(tα) + µ(tβ) + r(tα, tβ) Si ahora calculamos el cociente que define la derivada direccional r(tα, tβ) f (a + tα, b + tβ) − f (a, b) = λα + µβ + t t r(tα, tβ) ||(tα, tβ)|| = λα + µβ + ||(tα, tβ)|| t r(tα, tβ) |t| = λα + µβ + ||(tα, tβ)|| t 26 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES aunque |t|/t no tiene lı́mite cuando t tiende a cero, está acotado y por la propiedad del residuo el lı́mite del último término es cero. Por lo tanto la derivada direccional existe y es D(α,β) f (a, b) = λα + µβ. En particular se tiene para las derivadas parciales D1 f (a, b) = λ, D2 f (a, b) = µ es decir D(α,β) f (a, b) = D1 f (a, b)α + D2 f (a, b)β. siempre que f sea derivable en (a, b), y en tal caso se tiene la fórmula muy útil para calcular la derivada Df (a, b) · (h, k) = D1 f (a, b)h + D2 f (a, b)k. (1.6) Observación 5. Remarcamos que la sola existencia de las derivadas parciales no implica la existencia de la derivada, aunque la fórmula (1.6) sea tentadora. Para poder aplicara es necesario saber por otros argumentos que la función es derivable (véase por ejemplo la sección ??) Observación 6. En notación clásica, (1.6) se escribe como dz = ∂z ∂z dx + dy ∂x ∂y y dx, dy, dz se conocen como diferenciales. Por esta razón es que se usa indistintamente el término “derivable” o diferenciable. Ejemplos En muchos casos, incluı́das algunas demostraciones, la mejor estrategia para obtener la diferenciabilidad es calcular el incremento ∆f (a, b; (h, k)) = f (a+h, b+k)−f (a, b) y expander en términos lineales en h, k más un residuo, el candidato natural para la derivada serán los coeficientes de la parte lineal en h, k. Después debe verificarse cuidadosamente que2 r(h, k) es o(h, k). 2 Se puede extender naturalmente la noción de residuo de primer orden: Si δ(h, k) está r(h,k) = definido para h, k próximo de cero decimos que δ(h, k) = o(h, k) si lim(h,k)→(0,0) ||(h,k)|| 0. 27 1.5. LA DERIVADA Ejemplo 1.5–16. Calcular la derivada de f (x, y) = x2 + y 3 . Calculamos el incremento funcional y expandemos en h, k ∆f (a, b; (h, k)) = (a + h)2 + (b + k)3 − (a2 + b3 ) Df (a,b)·(h,k) r(h,k) }| { z }| { z = (2ah + 3bk) + (h2 + 2bk 2 + k 3 ) Ahora debemos ver que r(h, j) = o(h, k). Observe que el grado mı́nimo del numerador es 2, ası́ h2 + 2bk 2 + k 3 √ (h,k)→(0,0) h2 + k 2 h2 2bk 2 = lim √ + lim √ + (h,k)→(0,0) h2 + k 2 (h,k)→(0,0) h2 + k 2 k3 + lim √ (h,k)→(0,0) h2 + k 2 r(h, k) = (h,k)→(0,0) ||(h, k)|| lim lim usando alguna de las desigualdades h2 + k 2 ≥ h2 , h2 + k 2 ≥ k 2 se pude probar que cada término tiene lı́mite cero. Ejemplo 1.5–17. Investigar la diferenciablidad de f (x, y) = sin x + sin y. ∆f (a, b; (h, k)) = sin(a + h) + sin(b + k) − sin(a) − sin(b) = sin a cos h + sin b cos k − sin(a) − sin(b) En este caso la expansión en términos lineales en h, k podrı́a hacerse usando el teorema del valor medio sin a cos h + sin b cos k − sin(a) − sin(b) = sin(a) + cos(a∗)h + sin(b) − cos(b∗)k − sin(a) − sin(b) = cos(a∗)h − cos(b∗)k en donde a∗ está entre a y a + h y b∗ está entre b y b + k. Por ello a∗ depende de a y h , b∗ depende de by k. Necesitamos coeficientes lineales en h y k que no dependan de h, k. Ello puede subsanarse notando que para (h, k) próximo a cero, (a∗, b∗) es próximo a de (a, b), luego podemos escribir ∆f (a, b; (h, k)) = (cos(a∗) ± cos(a))h − (cos(b∗) ± cos(b))k = cos(a)h − cos(b)k + r(h, k) 28 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES donde r(h, k) ≡ (cos(a∗) − cos(a))h + (sin(b∗) − sin(b))k Veamos ahora el residuo. Como queremos probar el lı́mite r(h, k)/||(h, k)|| es cero, tomamos valor absoluto para poder estimar | |(cos(a∗) − cos(a))h + (sin(b∗) − sin(b))k| √ | h2 + k 2 |h| ≤ |(cos(a∗) − cos(a))| √ h2 + k 2 |k| + | sin(b∗) − sin(b))| √ h2 + k 2 Los términos |(cos(a∗) − cos(a))|, | sin(b∗) − sin(b))| tienden a cero cuando (h, k) → (0, 0) por continuidad de las funciones cos, sin, en tanto que los factores |h| |k| √ √ → 0, → 0. 2 2 2 h +k h + k2 En conclusión f es diferenciable en todo punto (a, b) y Df (a, b) · (h, k) = cos(a)h − cos(b)k 1.6 Derivación de funciones en Rn → Rm En lo que sigue supondremos, salvo pocas excepciones, que las funciones a considerar están definidas en todo un espacio euclideano, para simplificar la notación y presentar ms claramente los conceptos básicos. Sin embargo, todos los enunciados pueden fácilmente re–escribirse en términos de los dominios apropiados. Volveremos a este punto al establecer la Regla de la Cadena. Por último, en algunos temas de carácter local, tales como los Teoremas de Función Implı́cita e Inversa es indispensable considerar que las funciones están sólo definidas en ciertos subconjuntos de los espacios euclideanos respectivos. Definición 8. Sea f : Rn → Rm , p ∈ Rn . Decimos que f es diferenciable en p si existe una transformación lineal Λ : Rn → Rm tal que f (p + h) − f (p) = Λ · h + r(h) 1.7. ALGUNAS PROPIEDADES TEÓRICAS donde 29 r(h) =0 h→0 ||h|| lim Ejemplo 1.6–18. [Derivada de una constante]. Sea f : Rn → Rm , f (z) = c, una constante, entonces ∆f (p; h) = 0, por lo que Df (p) ≡ 0 (la función lineal cero). Ejemplo 1.6–19. [Derivada de una transformación lineal]. Si L : Rn → Rm es lineal, entonces DL(p) = L para todo p ∈ Rn . pues L(p + h) − L(p) = L(p) + L(h) − L(p) = L(p) ası́que la transformación lineal que funciona es la misma L con residuo idénticamente igual a cero. Observación 7. Los ejemplos anteriores muestran que es necesario distinguir entre em la derivada en un punto, la cual es una transformación lineal, y la función derivada, la cual es una función que asocia a cada punto x –donde la derivad exista– una transformación lineal. Ası́, para f : Rn → Rm , tenemos que Df (x) ∈ L(Rn , Rm ) es una transformación lineal, en tanto que Df : U ⊂ Rn → L(Rn , Rm ), donde U es el conjunto de puntos donde la función es derivable, es una función que no es necesariamente lineal. En el ejemplo 1.5, Df (x, y)·(h, k) = 2xh + 3y 2 k no es lineal con respecto a x o y. Desde luego, fijado el punto (x, y) la transformación correspondiente es lineal en (h, k). Ejemplo 1.6–20. Podemos incluir el caso de funciones f : R → R en nuestra definición general. En principio, la derivada de una tal función en un punto es un número: f ′ (x) Pero podemos interpretar tal número como la transformación lineal que se obtiene por multiplicación por la constante. Ası́Λ · h = f ′ (a)h. Ası́, la definición (8) es un caso particular de (1.4). 1.7 Algunas propiedades teóricas Denotemos por L(Rn , Rm ) el conjunto de las transformaciones lineales Rn → Rm . Este conjunto es en sı́mismo un espacio vectorial, pues están definidas la 30 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES suma y producto de una transformación lineal por un escalar puntualmente, es decir. (f + g)(x) = f (x) + g(x), (λf )(x) = λf (x). (acostubraremos en lo sucesivo indicar por f ·x la aplicación de la función en el punto x, cuando f sea una transformación lineal; la notación es reminiscente de la operación de producto de una matriz por un vector. Las propiedad de nuestro intereés aquı́ es que se puede definir una noción de tamaño o má precisamente de norma de una transformación lineal como sigue: Sean || ||Rn , || ||Rm las normas 1 respectivas en Rn y Rm , es decir ||x||Rn = P n n m i=1 |xi | para x ∈ R y de manera similar en R . Recurriendo a una base cualquiera ei , i = 1, 2, . . . , n de Rn , obtenemos ||L(x)|| Rm n X = ||L( xi ei )||Rm i=1 = || n X xi L(ei )||Rm i=1 n X ≤ M i=1 |xi | = M ||x||Rm para alguna constante M > 0, ya que el conjunto {||L(ei )||Rm | i = 1, 2, . . . , n} es finito. En otras palabras, para toda x distinto de 0 el cociente ||L(x)||Rm ||x||Rm está acotado, por lo tanto podemos considerar ||L||Rn ,Rm ≡ sup{ ||L(x)||Rm | x 6= 0} ||x||Rm Se puede verificar que ||L||Rn ,Rm define una norma en el espacio vectorial L(Rn , Rm ) (véase la parte II de estas notas). En particular, si en lo sucesivo omitimos los subı́nidices en las normas involucradas, ||Lx|| ≤ ||L||||x|| para toda x ∈ Rn . Se tiene en particular (1.7) 31 1.7. ALGUNAS PROPIEDADES TEÓRICAS Proposición 7. Sea L ∈ L(Rn , R) entonces L es continua en 0. Además son equivalentes la siguientes afirmaciones: 1. L es continua en 0. 2. L es continua en x para toda x ∈ Rn . Demostración. De la desigualdad (1.7) se sigue que ||L · x|| < ǫ si ||x|| < ǫ/||L||, por lo tanto L es continua en 0. Suponga ahora que L es continua en 0. Para x, y ∈ Rn se tiene ||L · x − L · y|| = ||L · (x − y)|| ≤ ||L||||x − y|| lo que prueba que L es continua en x. Análogamente, una función B : Rn × Rn → Rm se dice bilineal si para x ∈ Rn fijo la función B(x, ·) : Rn → Rm es lineal y para y ∈ Rn fijo la función B(·, y) : Rn → Rm es lineal. Al igual que para las funciones lineales recurriendo a una base ei , i = 1, 2, . . . , n de Rn , podemos escribir ||B(x, y)|| = || ≤ n X i,j=1 n X i=1 xi yj B(ei , ej )|| |xi ||yj |B(ei , ej )|| ≤ n||x|| n X i=1 |yj |B(ei , ej )|| 2 ≤ n ||x||||y|| ≤ M ||x||||y|| n X i=1 ||B(ei , ej )|| para alguna constante M > 0, de donde el cociente ||B(x, y)|| ||x||||y|| es siempre acotado, si x, y 6= 0. Por lo tanto se puede definir la norma de la aplicación bilineal B, como ||B|| = sup{ ||BL(x, y)|| | x, y 6= 0} ||x||||y|| 32 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES y naturalmente se tiene ||B(x, y)|| ≤ ||B||||x||||y|| para toda x, y ∈ Rn . Proposición 8. Si Λ, Λ′ ∈ L(Rn , R) satisfacen ambas ∆f (p; h) = Λ · h + o(h), ∆f (p; h) = Λ′ · h + o(h), entonces Λ = Λ′ Demostración. Restando ambas igualdades tenemos S · h = o(h) donde S = Λ − Λ′ , es decir S·h =0 h→0 ||h|| lim Tomemos una base de vectores unitarios ei , i = 1, 2, . . . , n y de manera sucesiva en i, h = δei , con δ → 0+ luego, S·h h→0 ||h|| δS · ei = lim δ→0 |δ| δ = S · ei |δ| = S · ei 0 = lim para i = 1, 2, . . . , n, es decir S ≡ 0 como transformación lineal. Por lo tanto Λ = Λ′ . El resultado anterior justifica hablar de la derivada en el punto p y escribirla como Df (p). Teorema 3. Si la derivada de f : Rn → Rm en p existe, entonces la función es continua en p. 33 1.7. ALGUNAS PROPIEDADES TEÓRICAS Demostración. Como Df (p) es lineal, entonces es continua en 0, de ∆f (x; h) = f (x + h) − f (x) = Df (p) · h + o(h) se sigue que si h → 0, entonces ∆f (x; h) → 0 lo que prueba la continuidad. La recı́proca no es cierta. Ya en en una variabe la función |x es continua pero no es derivable en el origen. La noción de derivada parcial se puede también extender a funciones en n R → Rm . Definición 9. Sea f : Rn → Rm . Sea {δ i , i = 1, 2, . . . , n} la base canónica en Rn . La derivada parcial i–ésima en el punto p ∈ Rn se define por f (p + tδ i ) − f (p) t→0 t Di f (p) = lim si tal lı́mite existe. Observe que la derivada parcial es un vector Di f (p) ∈ Rm . Proposición 9. Sea f : Rn → Rm . Si f es diferenciable en p ∈ Rn , entonces existen todas las derivadas parciales y Di f (p) = Df (p) · δ i Demostración. En la definición de derivada, tomando el incremento de la forma h = tδ i con t → 0 tenemos f (p + tδ i ) − f (p) t 1 1 = Df (p) · (tδ i ) + r(tδ i ) t t 1 = Df (p) · δ i + r(tδ i ) → Df (p) · δ i , t cuando t → 0. 34 1.8 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Matriz Jacobiana, gradiente La proposición anterior se puede interpretar como sigue. Recordemos que la matriz asociada a Df (p) : Rn → Rm relativa a la bases canónicas δ i , i = 1, 2, . . . , n y δ ′j , j = 1, 2, . . . , m en Rn y Rm es una matriz m × n cuya i–ésima columna es el vector Df (p) · δ i expresado en la base δ ′j o sea Df (p) · δ i = = = m X j=1 m X j=1 m X  δ ′j · Df (p) · δ i δ ′j  Dfj (p) · δ i δ ′j Di fj (p)δ ′j j=1 En otras palabras la matriz asociada a la derivada es la matriz Jacobiana   D1 f1 D2 f1 · · · Dn f1  D1 f2 D2 f2 · · · Dn f2     ···  D1 fm D2 fm · · · Dn fm Ejemplo 1.8–21. Calcule la matriz Jacobiana de f : R2 → R2 dada por f (x, y) = (x2 − y 2 , 2xy). Tenemos f1 (x, y) = x2 − y 2 , f2 (x, y) = 2xy. #  "  ∂f1 ∂f1 2x −2y ∂x ∂y [Df (, xy)] = ∂f2 ∂f2 = 2y −2x ∂x ∂y Ejemplo 1.8–22. En el caso de funciones f : Rn → R la matriz Jacobiana se representa por una matriz 1 × n o un vector renglón que se conoce como vector gradiente en coordenadas cartesianas [Df (x)] = [D1 f (x), D2 f (x), . . . , Dn f (x)] ≡ ∇f (x) Si h ∈ Rn entonces Df (x) · h = ∇f (x) · h 35 1.8. MATRIZ JACOBIANA, GRADIENTE Es sólo en este caso que el gradiente se puede identificar con la derivada. En general, si h, i es un producto escalar y q1 , q2 , . . . , qn son coordenadas arbitrarias el vector gradiente se define por la igualdad anterior, es decir Df (q) · h = h∇f (x), hi 1.8.1 Coordenadas curvilı́neas Suponga que se da un producto escalar en cada punto h·, ·iq (ésto es lo que se llama una métrica Riemanniana). El campo gradiente se define por la identidad Df (q) · h = h∇f (q), hiq (1.8) Esta construcción es usual cuando se usan coordenadas curvilı́neas, o generalizadas. En tal caso sea r = r(q1 , q2 , . . . , qn ) el cambio a coordenadas cartesianas r = (x1 , x2 , . . . , xn ). La condición de que sea un cambio de coordenadas significa que en cada punto q los vectores ei (q) ≡ ∂r , ∂qi i = 1, 2, . . . , n formen un conjunto linealmente independiente. Equivalentemente el determinante de matriz Jacobiana ∂(x1 , x2 , . . . , xn ) ∂(q1 , q2 , . . . , qn ) es siempre distinto de cero. Defina entonces hv, viq = donde v= n X n X i,j=1 v i ei , i=1 (ei · ej )vi wj w= n X (1.9) wi e j j=1 definen las coordenadas vi , wj en términos de la base ej . Es costumbre denotar la relación métrica 1.9 en la forma ds2 = n X i,j=1 gij dqi dqj 36 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES donde gij = (ei · ej ) son los coeficientes métricos y dependen en genral de q En el caso de una base ortogonal se cumple ei · ej = 0, si i 6= j por lo que solo los coeficientes métricos diagonales g11 , g22 , . . . , gnn son distintos de cero (ninguno es cero por hipótesis). En tal caso se puede escribir 2 ds = n X gii dqi2 = n X h2i dqi2 , i i que equivale a escribir ei = hi êi donde êi es un vector unitario en la dirección ei , es decir tanto hi = ||ei ||. Ejemplo 1.8–23. Calcule los coeficientes métricos hr , hθ en coordenadas polares y el gradiente de una función f (r, θ) El cambio a coordenadas cartesianas es x1 = r cos θ, x2 = r sin θ por lo que la matriz Jacobiana es   cos θ −r sin θ sin θ r cos θ de donde er = (cos θ, sin θ), eθ = r(− sin θ, cos θ) Es claro que el sistema de coordenadas es ortogonal, pues er · eθ = 0. Como er es unitario entones hr = 1, por otro lado ||eθ || = r de donde hθ = r. Sea ∇f (r, θ) = Aer + Beθ . De la definición del gradiente (1.8) tenemos h∇f (r, θ), (h, k)i = hr Ah + hθ B = A + rBk = Df (r, θ)(h, k) = para cualesquiera (h, k) por lo tanto A= ∂f , ∂r y B= 1 ∂f r ∂θ ∂f ∂f h+ k ∂r ∂θ 1.8. MATRIZ JACOBIANA, GRADIENTE 1.8.2 37 Ejemplos de no diferenciabilidad En esta sección veremos algunos ejemplos “exóticos” que manera de contrajemplos muestran que la existencia de derivadas parciales o continuidad no son suficientes para tener la diferenciabilidad. Ejemplo 1.8–24. Considérese f : R2 → R definida por f (x, y) =  xy x2 +y 2 0 si (x, y) 6= (0, 0) si (x, y) = (0, 0) Como la función se anula a lo largo de los ejes, las derivadas parciales existen en el origen y ∂f ∂f (0, 0) = (0, 0) = 0 ∂x ∂y de manera que si esta función fuese diferenciable en el origen, se cumplirı́a hk − 0 = 0h + 0k + r(h, k) h2 + k 2 En particular lim(h,j)→(0,0) r(h, k) = 0, sin embargo, en el ejercicio (1.1) probamos que lim (h,k)→(0,0) h2 hk − 0 = 0h + 0k + r(h, k) + k2 NO existe, por lo que llegamos a una contradicción. Por lo tanto f no es diferenciable en el origen. Otra forma de verlo: esta función no es continua, entonces por la Proposición 3, no puede ser diferenciable. Este ejemplo también prueba que la recı́proca de la Proposicióndif-pder no es vlida, pues la función es no diferenciable, pero existen las derivadas parciales inclusive en el origen. Ejemplo 1.8–25. Considere la función f (x, y) = ( x2 y x2 +y 2 0 si (x, y) 6= (0, 0) si (x, y) = (0, 0) 38 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Esta función es continua en el origen, y tiene derivadas parciales en todo punto (iguales a cero en el origen), pero no es diferenciable en el origen. Veamos por qué: por un argumento similar al usado en el ejemplo 1.8.2tendrı́amos h2 k = r(h, k) h2 + k 2 con r(h, k) = o(h, k). Sin embargo, 1 h2 k √ 2 2 2 (h,k)→(0,0) h + k h + k2 lim no existe pues tomando k = h tenemos h2 k h3 = lim 2 = lim lim h→0 (h + h2 )3/2 h→0 (h,k)→(0,0) (h2 + k 2 )3/2 h3 1 = = 6= 0 2 3/2 (2h ) (2)3/2 El teorema que sigue es muy importante en la práctica, pues nos permite establecer la diferenciabilidad de una función que tiene derivadas parciales más una propiedad adicional. Teorema 4. Si f : Rn → R tiene derivadas parciales continuas en una bola Br (p) ⊂ Rn , entonces la función es diferenciable en p. Demostración. Haremos la demostración para dimensión n = 2. Los argumentos pueden generalizarse fácilmente para n arbitrario. Tomando (h, k) suficientemente pequeños y por el teorema del valor medio para funciones de una variable, f (a + h, b + k) − f (a, b) = f (a + h, b + k) − f (a, b + k) + f (a, b + k) − f (a, b) ∂f ∗ ∂f = (a , b + k)h + (a, b∗)k ∂x ∂y ∂f ∂f (a, b)h + (a, b)k + r(h, k) = ∂x ∂y en donde r(h, k) =     ∂f ∗ ∂f ∂f ∂f (a , b + k) − (a, b) h + (a, b∗) − (a, b)k ∂x ∂x ∂y ∂y 1.8. MATRIZ JACOBIANA, GRADIENTE 39 en donde a∗ está entre a y a+h, b∗ está entre b y b+k. Por Por la continuidad de las derivadas parciales los factores entre paréntesis tienden a cero, en tanto que k h √ √ , h2 + k 2 h2 + k 2 son acotados cuando (h, k) → (0, 0) luego r(h, k) √ = 0. (h,k)→(0,0) h2 + k 2 lim La recı́proca del teorema anteior es falsa, como lo muestra el siguiente ejemplo en una variable: Sea f (x) = x2 sin(1/x), f (0) = 0. Su derivada es f ′ (x) = 2x sin(1/x) − cos(1/x) para x 6= 0, y f ′ (0) = 0 (esta última debe calcularse a partir de la definición de derivada). Pero lim f ′ (x) 6= f ′ (0) x→0 Ası́ que la derivada, que es la única derivada parcial en este caso, no es continua en el origen, a pesar de que la función es diferenciable allı́. Definición 10. Si f : Rn → R tiene derivadas parciales continuas en D ⊂ Rn decimos que es continuamente diferenciable en D o bien, que es una función de clase C 1 (D). Ejemplo 1.8–26. Analice la diferenciablidad de la función del ejemplo 1.8.2, fuera del origen. Las derivadas parciales ∂f y 2x2 y = 2 − , ∂x x + y 2 (x2 + y 2 )2 ∂f x 2xy 2 = 2 − ∂y x + y 2 (x2 + y 2 )2 son funciones continuas en todo punto (x, y) 6= (0, 0) en particular dado (a, b) 6= (0, 0) ambas son continuas en una bola Br (a, b) de radio suficientemente pequeño. Por el teorema (??) la función es diferenciable en (a, b) 40 1.9 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Reglas de derivación Las reglas de derivación para combinaciones algebraicas de funciones diferenciables, junto con la regla de la cadena nos proporcionan la metodologı́a más general para el cálculo explı́cito de derivadas. Teorema 5. Sean f, g : Rn → Rm , h : Rm → R diferenciables entonces también lo son f ± g, hf , f /h ésta última siempre que h 6= 0. Además, D(f ± g)(x) = Df (x) ± Dg(x) D(hf )(x) = h(x)Df (x) + f (x)Dh(x)   h(x)Df (x) − f (x)Dh(x) f (x) = D h h(x)2 (1.10) (1.11) (1.12) Demostración. La parte (1.10) es fácil de establecer. Probaremos aquı́la fórmula para el producto y la del cociente queda como ejercicio. Tenemos que (convenimos en escribir primero los escalares) ∆(hf )(x; h) = h(x + h)f (x + h) − h(x)f (x) = h(x + h)f (x + h) ± h(x)f (x + h) − h(x)f (x) = [h(x + h) − h(x)]f (x + h) + g(x)[f (x + h) − f (x)] = [Dh(x) · h + r1 (h)]f (x + h) + g(x)[Df (x) · h + r2 (h)] = [Dh(x) · h]f (x + h) + g(x)[Df (x) · h] + r1 (h)]f (x + h) + g(x)r2 (h) = [Dh(x) · h]f (x) + g(x)[Df (x) · h] + r1 (h)f (x + h) + g(x)r2 (h) + [Dh(x) · h][f (x + h) − f (x)] = [Dh(x)f (x)] · h + [g(x)Df (x)] · h + r1 (h)f (x + h) + g(x)r2 (h) + [Dh(x) · h]∆f (x; h) donde r1 (h), r2 (h) = o(h). Ovserve también que Dh(x)f (x) + g(x)Df (x) ∈ L(Rn , Rm ) es una transfoformación lineal. Ası́, debemos probar que la última expresión es o(h). Analicemos cada término: Como f es continua en x entonces f (x + h) es acotada cuando h → 0, luego r1 (h)f (x + h) = o(h). Trivialmente g(x)r2 (h) = o(h). En cuanto al último término ||[Dh(x) · h]∆f (x; h)|| ≤ ||Dh(x)|| ||h|| ||∆f (x; h)||, ya que ||∆f (x; h)|| tiende a cero entonces este término es también o(h). 41 1.10. EJERCICIOS 1.10 Ejercicios 1. Para una función de una variable y = f (x) considere el siguiente problema: De todas las rectas que pasan por (a, f (a)) encuentre aquélla que mejor aproxime a f (x) en un entorno de (a, f (a)) en el sentido de que si y − f (a) = m(x − a) es tal recta y f (a + h) − (mh + f (a)) = r(h) entonces r′ (0) = 0. 2. Sea z = f (x, y) definida en Br (a, b) considere el siguiente problema: De todas los planos que pasan por (a, f (a)) z −f (a, b) = m(x−a)+n(y −b) encuentre aquél (i.e. m y n) que mejor aproxime a z = f (x, y)) en un entorno de (a, f (a)) en el sentido de que si ∆f (a, b) · (h, k) − (mh + nk) = r(h, k) entonces r tiene derivada en (0, 0) y r′ (0, 0) = 0 (como transformación lineal). 3. Comprobar la diferenciabilidad de f : R → R, f (x) = xn , con n natural. Obtener la derivada y el residuo. 4. Lo mismo para f : R2 → R, f (x, y) = sin(x) + cos(y). 5. Lo mismo para f : Rn → R, f (x) = xT Ax donde A es una matriz n×n. 6. Lo mismo que en el ejercicio anteior con A una matriz simétrica: AT = A. 7. 10. Suponga que f : Rn → Rn es bilineal, es decir B es lineal respecto del primer factor: B(x + y, z) = B(x, z) + B(y, z) y B(αx, z) = αB(x, z), y es lineal en el segundo factor. Encuentre DB(x)(h, k) Hint. La derivada DB(x) es una función lineal Rn × Rn → Rn , por lo que DB(x)(h, k) debe ser lineal en (h, k). 8. Dar un ejemplo de una función derivable que no tenga derivadas parciales continuas, usando la función f : R → R, f (x) = x2 sin(x), para x 6= 0, f (0) = 0. 42 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES 9. Probar que una transformación lineal Λ ∈ L(Rn , Rn ) es continua, i.e. satisface lim Λ · h = 0 h→0 10. Sea h·, ·i un producto interior. Encuentre la derivada de f : Rn → R, f (x) = hx, xi. 11. Encuentre la derivada de f : Rn × Rn → R, dada por f (x, y) = hx, yi. p 12. ¿Por qué no es derivable f : Rn → R, f (x) = hx, xi en x = 0? 13. Establecer la equivalencia de nuestra definición con la siguiente (v. gr. Spivak, “Cálculo en Variedades”): Definición. Decimos que f : Rn → Rn , es diferenciable en a ∈ Rn si existe Λ ∈ L(Rn , Rm ) que satisface lim h→0 f (a + h) − f (a) − Λ · h =0 ||h|| 14. Si f : Rn → Rn es f (x) = λx donde λ es un escalar, encontrar Df (x). 15. Encuentre Df (x) para: (a) f : Rn \ S n−1 → Rn , f (x) = (b) f : Rn → R, f (x) =  x . (1 − ||x||) exp(−1/||x||2 ) si x 6= 0 0 si x = 0 16. Las siguientes funciones están definidas en el origen como f (0, 0) = 0. Determinar si en el origen las siguientes funciones (a) son continuas, (b) tienen derivadas direccionales, y (c) son diferenciables. p (a) f (x, y) = xy/ x2 + y 2 (b) f (x, y) = (x1+a y 2 )/(x2 + y 2 ). p (c) f (x, y) = x2 sin y/ x2 + y 2 . 43 1.11. LA REGLA DE LA CADENA 1.11 La Regla de la Cadena El resultado más importante para combinar funciones diferenciables es el Teorema 6 (Regla de la Cadena). : Si f : Rn → Rm es diferenciable en x ∈ Rn g : Rm → Rp es diferenciable en y = f (x), entonces g ◦ f es diferenciable en x, y D(g ◦ f )(x) = Dg(f (x)) ◦ Df (x) En otras palabras el siguiente diagrama es conmutativo en el sentido de que ambos caminos dan lo mismo Rm E Df (x)  ED(g◦f )(x) E E"" // Rp RnDg(f (x)) Demostración. Calculemos el incremento finito de la composición ∆(g ◦ f )(x; h) = g(f (x + h)) − g(f (x)) = g(y + v) − g(y) donde y = f (x) y v = f (x + h) − f (x) = ∆f (x, h). Note que v depende de h. Por ser g diferenciable en y ∆(g ◦ f )(x; h) = Dg(y) · v + r(v) = Dg(y) · (f (x + h)) − f (x)) + r(v) = Dg(y) · (Df (x) · h + s(h)) + r(v) [por ser f diferenciable] = Dg(y) · (Df (x) · h) + Dg(y) · s(h) + r(v) [por linealidad] Aquı́ s(h) r(v) son residuos que satisfacen s(h) = o(h), r(v) = o(v) Provemos que el residuo total es Dg(y) · s(h) + r(v) = o(h) Para ello analicemos cada término. Por la desigualdad de Banach   ||Dg(y)|| ||s(h)|| ||s(h)|| ||Dg(y) · s(h)|| −→ 0 ≤ = ||Dg(y)|| ||h|| ||h|| ||h|| 44 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES cuando h → 0. Como el residuo r(v) = o(v) ||r(v)|| =0 v→0 ||v|| lim pero v = ∆f (x, h) y por la continuidad de f en x, luego v → 0 cuando h → 0. Ası́, ||v|| ||r(v)|| ||r(v)|| = lim h→0 ||h|| ||v|| h→0 ||h|| ||Df (x) · h + s(h)|| ||r(v)|| = lim h→0 ||h|| ||v||   ||s(h)|| ||r(v)|| ≤ lim ||Df (x)|| + h→0 ||h|| ||v||   ||s(h)|| ||r(v)|| = lim ||Df (x)|| + h→0 ||h|| ||v|| lim Como el término entre paréntesis permance acotado, se sigue que r(v) = o(h). Observación 8. Recordemos que en realidad, muchas funciones están definidas sólo en algún subconjunto de un espacio euclideano. Por ejemplo, la función √ f (x, y) = xy no está definida en todo R2 , sino únicamente en el conjunto D = {x, y) | xy ≥ 0} es decir, el plano euclideano menos el segundo y cuarto cuadrantes, incluyendo los ejes coordenados. Si f : D ⊂ Rn → Rm , Para cuestionarse sobre la diferenciabilidad f en un punto x ∈ D , debe tener sentido evaluar f (x + h) para ||h| suficientemte pequeño, es decir deberá existir una bola de radio r suficienemente pequeño tal que Br (x) ⊂ D –lo que se llama un punto interior de D. En la regla de la cadena, si además g : E ⊂ Rm → Rp , el punto y ∈ f (D) deberá ser un punto interior de E –el dominio de g– relativo a f (D) para poder evaluar g(y + v) con ||v|| pequeño, pero sólo para puntos de la forma y + v = f (x + h) ∈ f (D), es decir deberá existir una bola de radio suficientemente pequeño δ tal que Bδ (y) ⊂ f (D) ∩ E. Cuando nos cuestionamos sobre la diferenciabilidad global es decir sobre todo un conjunto entnces los dominios de las funciones necesitan ser conjuntos abiertos, es decir todos sus puntos deben ser interiores. En este contexto, un enunciado más preciso para la regla de la cadena serı́a: 1.12. LA VERSIÓN MATRICIAL DE LA REGLA DE LA CADENA 45 Teorema 7 (Regla de la cadena global). Sean U ⊂ Rn , V ⊂ Rm abiertos, Si f : U → Rm es diferenciable en U , g : V → Rp es diferenciable en V y f (u) ⊂ V , entonces g ◦ f es diferenciable en U , y además D(g ◦ f )(x) = Dg(f (x)) ◦ Df (x) para toda x ∈ U . Ejemplo 1.11–27. La función f (x, y) = cos(xy) es diferenciable en todo R2 , pues es la composición de las funciones diferenciables 1.12 R2 // R // R (x, y) // xy = z // cos(z) La versión matricial de la regla de la cadena De acuerdo a la regla de la cadena, si f, g son diferenciables, la derivada de la composicón g ◦ f es la composición de las derivadas Dg(y) ◦ Df (x) en puntos correspondientes: y = f (x). En relación al cálculo sabemos que toda transformación lineal tiene una matriz asociada, una vez elegida una base y que la composición de transformaciones lineales corresponde a la multipliación matricial. Especı́ficamente, si en el diagrama del Teorema 7 se eligen las bases canónicas en Rn , Rm , Rp , se tiene [D(g ◦ f )(x)] = [Dg(y)][Df (x)] por otro lado, en las bases canónica, [Dg(y)], [Df (x)] son las matrices de derivadas parciales, ası́,  j  j k ∂g ∂f ∂g = ∂xi ∂yk ∂xi o sea m ∂g j X ∂g j ∂f k = ∂xi ∂yk ∂xi k=1 para i = 1, 2, . . . , n y j = 1, 2, . . . , p. 46 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Ejemplo 1.12–28. Sean w = u2 − v 2 , z = 2uv u = x3 + xy + y 3 , v = x−y Se pide calcular las derivas parciales Por la regla de la cadena ∂w = ∂x = ∂w = ∂y = ∂w ∂w , . ∂x ∂x ∂w ∂u ∂w ∂v + , ∂u ∂x ∂v ∂x 2u(3x2 + y) − 2v(1) = 2(u(3x2 + y) − v) ∂z ∂u ∂w ∂v + , ∂u ∂y ∂v ∂y 2u(x + 3y 2 ) − 2v(−1) = 2(u(x + 3y 2 ) + v) De forma análoga se calculan  ∂z = 2 u + v 3x2 + y ∂x  ∂z = 2 −u + v x + 3y 2 ∂y Alternativmente, y este no es el camino más usual, se puede calcular la composición 2 w = x3 + xy + y 3 − (x − y)2  z = 2 x3 + xy + y 3 (x − y) ∂w ∂x ∂w ∂y ∂z ∂x ∂z ∂y = 2 3x2 + y   x3 + xy + y 3 − 2 (x − y) = 2 (x − y) + 2 x + 3y 2  x3 + xy + y 3    = 2 (x − y) 3x2 + y + 2 x3 + xy + y 3   = 2 (x − y) x + 3y 2 − 2 x3 + xy + y 3 1.12. LA VERSIÓN MATRICIAL DE LA REGLA DE LA CADENA 1.12.1 47 Casos particulares de la regla de la cadena Ya que este resultado es posiblemente el que más se utiliza de todo el cálculo diferencial, conviene que aprendamos a manejarlo correctamente y a aprovechar muchas de sus potencialidades. Vamos a presentar en detalle los casos particulares más relevantes. 1. El caso n = m = p = 1. Aquı́ se trata de funciones reales de una variable real. R f // R g // R El enunciado usual es (g ◦ f )′ (x) = g ′ (f (x))f ′ (x) o bien en la notación clásica, si hacemos u = f (x), y = g(u), tenemos dy du dy = . dx du dx 2. El caso n = 1, m ∈ N, p = 1. f g // R // Rm R Aquı́ conviene usar la variable t en vez de x, para recordar que es una variable real. Tenemos u(t) = g(f (t)) = g(f1 (t), f1 (t), . . . , fm (t)) de donde ′ u (t) = m X k=1 Dk g(f (t))fk (t) = ∇g · f ′ (t) 3. El caso n ∈ N, m = p = 1. Aquı́ f // R g // R Rn Con u(x) = g(f (x)), podemos escribir, Du(x) = g ′ (f (x))Df (x) donde g ′ (f (x)) es un escalar (i.e. una matriz 1 × 1) o bien por la definición de gradiente ∇u(x) · h = Du(x) · h = g ′ (f (x)) (Df (x) · h) = g ′ (f (x)) (∇(x) · h) = [g ′ (f (x))∇(x)] · h 48 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES y como h ∈ Rn es arbitrario ∇u(x) = g ′ (f (x))∇f (x). Ejemplo 1.12–29. Sea f = (f1 , f2 ) : R2 → R, g : R2 → R. En este caso, u(x, y, z) = g(f1 (x, y, z), f2 (x, y, z)) = g(u1 , u2 ) donde u1 = f1 (x, y), u2 = f2 (x, y). Tenemos Du(x, y, z) = D1 g(u1 , u2 )Df1 (x, y, z) + D2 g(u1 , u2 )Df2 (x, y, z) Evaluando en h ∈ R3 arbitario y usando la definición de gradiente Du(x, y, z) · h = D1 g(u1 , u2 )Df1 (x, y, z) · h + D2 g(u1 , u2 )Df2 (x, y, z) · h ∇u(x, y, z) · h = D1 g(u1 , u2 )Df1 (x, y, z) · h + D2 g(u1 , u2 )Df2 (x, y, z) · h en donde D1 g(u1 , u2 ), D2 g(u1 , u2 ) son escalares, luego ∇u(x, y, z) = D1 g(u1 , u2 )∇f1 (x, y, z) + D2 g(u1 , u2 )∇f2 (x, y, z) 1.13 Aplicaciones de la regla de la cadena La fórmula de Euler. Decimos que g : Rm → R es homogénea de grado si g(tx) = ts g(x) para toda t ∈ R, y x ∈ Rm . Las funciones homogéneas son muy importantes, e incluyen en particular a los polinomios homogéneos, por ejemplo g(x, y, z) = xy 2 + x3 + xz 2 − xyz es una función polinomial R3 → R homogénea de grado 3. Otro ejemplo, es g(x, y) = exp(y/x) que es una función R2 → R homogénea de grado 0. Vamos a demostrar la llamda fórmula de Euler para funciones homogéneas ∇g(x) · x = sg(x) 1.13. APLICACIONES DE LA REGLA DE LA CADENA 49 o en notación clásica poniendo u = g(x1 , x2 , . . . , xm ) m X i=1 xi ∂u = su. ∂xi En efecto, sea x ∈ Rn fijo y sea u(t) = g(tx). Por la regla de la cadena tenemos u′ (1) = ∇g(x) · x, por otro lado u(t) = ts g(x), de donde u′ (1) = sg(x). Comparando ambos resultados se prueba la fórmula. El gradiente y el hiperplano tangente Consideremos una función real de varias variables reales, vgr. g : Rm → R. De la definición de derivada y gradiente, tenemos que si g es diferenciable en p ∈ Rm entonces para h ∈ Rm arbitrario g(p + h) − g(p) = Dg(p) · h + r(h) = ∇g(p) · h + r(h) donde r(h) = o(h). Haciendo z = g(p + h), z0 = g(p) y tomando h = x − p, para x próximo de p se puede despreciar el término o(h) dando la aproximación ˙ − p) z − z0 = ∇g(x)(x la cual es la ecuación de un hiperplano en Rm cuyo vector normal es n = (∇g(x), −1). Dicho hiperplano es tangente a la superficie M ⊂ Rm definida por la gráfica de la función graf (g) = {(x, z) | z = g(x)}. como habremos de probar en un momento. Lo que se quiere resaltar aquı́ que esta es la idea intuitiva que hemos estado persiguiendo desde un principio para el concepto de función diferanciable: la existencia de un plano tangente a la gráfica. Verifiquemos entonces la afirmación anterior. Para ello consideremos una curva diferenciable arbitraria contenida en graf (g), que pase por el punto p, digamos γ : R → Rm con γ(0) = p. Debemos entonces verificar que γ ′ (0), 50 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES el vector tangente a la curva, pertence el plano que tiene por normal ∇g(p). Pero escribiendo γ(t) = (x(t), z(t)) entonces z(t) = g(x(t)) por estar la curva sobre graf (g), luego z ′ (0) = ∇g(p) · x′ (0) o bien (x′ (0), z ′ (0)) · (∇g(p), −1) = 0 que era lo que se querı́a probar. Las ideas anteriores se pueden generalizar como sigue (véase también la sección § 1.3). Consideremos la hipersuperficie de nivel Mc = F −1 (c) que pasa por un punto y ∈ Rm+1 , i.e. F (y) = c, donde F : Rm+1 → R. En este caso ∇F (y) es normal a la superficie Mc . En efecto, si ν : R → Rm+1 es una curva en Mc por definición F (ν(t)) = c para toda t de donde, por la regla de la cadena, 0 = ∇F (y) · ν ′ (0) que muestra que la superficie Mc es perpendicular al vector gradiente. Veamos que ésta es una generalización del caso anterior. En efecto, si g : Rm → R es diferenciable en p y z0 = g(p), podemos considerar a F : Rm ×R = Rm+1 → R definida como F (x, z) = g(x) − z. Entonces F es diferenciable en (p, z0 )y el gradiente en (p, z0 ) es ∇F (p, z0 ) = (∇g(p), −1). Ası́, si γR → graf (g) ⊂ Rm entonces z(t) = g(γ(t)) satisface que ν(t) = (γ(t), z(t)) es una curva ν : R → Rm+1 contenida en M0 cuyo vector tangente en t = 0 es (γ ′ (0), −1). 1.14 Ejercicios 1. Enuncie con precisión y muestre que se sigue de la regla de la cadena, las siguientes afirmaciones tı́picas en libros de cálculo: 51 1.14. EJERCICIOS (A) “Sustituyendo las coordenadas cartesianas x, y por las coordenadas polares x = r cos θ, y = r sin θ en la función w = f (x, y) se obtiene ∂f ∂f ∂w = cos θ + sin θ, ∂r ∂x ∂y 1 ∂w ∂f ∂f =− sin θ + cos θ”. r ∂θ ∂x ∂y (B) “Sean w = w(u, v), u = u(x, y, z), v = v(x, y, z) funciones diferenciables. Considerando a w como función de x, y, z, su gradiente en cada punto (x0 , y0 , z0 ) está en el mismo plano que los gradientes de u y v de en ese punto”. 2. ¿Por qué está equivocado el siguiente argumento? Si a w = f (x, y, z) y z = g(x, y) le aplicamos la Regla de la Cadena, ∂w ∂w ∂x ∂w ∂y ∂w ∂z ∂w ∂w ∂z = + + = + , ∂x ∂x ∂x ∂y ∂x ∂z ∂x ∂x ∂z ∂x por lo tanto ∂w ∂z = 0. ∂z ∂x de modo que alguna de las derivadas parciales ∂w , ∂z ∂z ∂x es cero. 3. Use la regla de la cadena para mostrar que bajo las bajo hipótesis adecuadas (enunciarlas!): Z x Z x d ∂f f (x, y) dy = f (x, x) + (x, y) dy dx 0 0 ∂x 4. (El teorema de transporte en dimensión 1) Haga las hipótesis necesarias para calcular la derivada Z d b(t) f (t, y) dy dt a(t) Se denomina teorema de transporte pues el dominio Dt = [a(t), b(t)] “se mueve” con el tiempo t y f (t, y) es una cantidad que depende del tiempo y de la variable espacial y ∈ Dt . 52 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES 5. (La diferencial parcial) Sea F : Rn × Rm → Rp y (a, b) ∈ Rn × Rm . Fijando b podemos considerar la diferencial de la función Fb : Rn → Rp en el punto a: DFb (a) ∈ L(Rn , Rp ) que si existe, se llama la diferencial de F respecto de la primera variable y se denota por D1 F (a, b) = DFb (a) ∈ L(Rn , Rp ) Análogamente la diferencial de F respecto de la segunda variable, si existe, se denota por D1 F (a, b) = DFa (b) ∈ L(Rm , Rp ). Muestre que si la función F : Rn × Rm → Rp es diferenciable en (a, b) entonces existen las diferenciales parciales D1 F (a, b), D2 F ((a, b) y si (h1 , h2 ) ∈ Rn × Rm entonces DF (a, b) · (h1 , h2 ) = D1 F (a, b) · h1 + D2 F (a, b) · h2 . (1.13) Muestre el recı́proco: Si D1 F (x, y) ∈ L(Rn , Rp ), D2 F (x, y) ∈ L(Rm , Rp ) son continuas como funciones de (x, y) ∈ Rn × Rm , para (x, y) en una bola con centro en (a, b) y radio r, Br (a, b) ⊂ Rn × Rm , entonces F es diferenciable en (a, b) y es válida (1.13). *Note que los espacios lineales L(Rn , Rp ), L(Rm , Rp ) son en sı́mismos espacios vectoriales normados, ası́que tiene sentido decir que D1 F : Br (a, b) ⊂ Rn × Rm → L(Rn , Rp ), D2 F : Br (a, b) ⊂ Rm × Rm → L(Rn , Rp ) sean funciones continuas. 6. Considere la ecuación diferencial dx = f (x) dt (1.14) 53 1.14. EJERCICIOS donde f : D ⊂ Rn → Rn es de clase C 1 (D)– es decir f tiene derivadas continuas en D–. Sea x = ϕ(u, t) la solución de (1.14) que tiene por condición inicial x(0) = u. Muestre que la función D1 ϕ(x, t) ∈ L(Rn , Rn ) definida para (x, t) donde esté definida ϕ(x, t), satisface la ecuación diferencial “matricial” d D1 ϕ(x, t) = Df (ϕ(x, t))D1 ϕ(x, t) dt llamada también ecuación variacional a lo largo de la solución ϕ(x, t). 7. Este ejercicio muestra que la regla de la cadena no necesariamente se cumple si alguna de las dos funciones en la composición no es diferenciable. Considere ( xy 2 si (x, y) 6= (0, 0), 2 +y 2 x f (x, y) = 0 si (x, y) 6= (0, 0) Pruebe que: (a) Existen las dos derivadas parciales de f en el origen. (b) Si g : R2 → R está dada por g(t) = (at, bt) donde a, b ∈ R son constantes no ambas nulas, entonces f ◦ g es diferenciable y D(f ◦ g)(0) = ab2 , a2 + b 2 pero Df (0, 0) ◦ Dg(0) = 0. 8. La ecuación en derivadas parciales de Black-Scholes ∂C ∂C 1 2 2 ∂ 2 C + σ s + rs − rC = 0, s > 0, 0 < t < T 2 ∂t 2 ∂s ∂s y la condición de frontera C(s, T ) = max{s − K, 0} gobiernan el comportamiento de los valores C(s, t) de una opción de compra (call europeo). Muestre que esta ecuación puede reducirse a la ecuación de calor mediente dos cambios de variables sucesivos. (a) Sea s = K exp(x), t = T − 2τ /σ 2 y C(s, t) = Kv(x, τ ). La ecuación queda ∂v ∂2v ∂v = + (λ − 1) − λv, ∂τ ∂x2 ∂x −∞ < x < ∞, y v(x, 0) = max{exp(x) − 1, 0}, con λ = 2τ /σ 2 . τ > 0. 54 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES (b) Hacemos   1 1 2 v(x, τ ) = exp − (λ − 1)x − (λ + 1) τ w(x, τ ) 2 4 y la ecuación anterior se transforma en ∂w ∂2w = , ∂τ ∂x2 −∞ < x < ∞, τ > 0. con       1 1 (λ + 1)x − exp (λ − 1)x , 0 w(x, 0) = max exp 2 2 1.15 El teorema del valor medio Recordemos primero el caso de una variable. Teorema 8 (TVM en una variable). Si g : [a, b] → R es continua y diferenciable en (a, b), entonces existe c ∈ (a, b) tal que g(b) − g(a) = f ′ (c)(b − a). Mediante la Regla de la Cadena y el TVM en una variable podemos probar la versión más general Teorema 9 (TVM para funciones Rn → R). Sea f : D ⊂ Rn → R diferenciable en un disco D ⊂ Rn , entonces dados p, q ∈ Rn existe c perteneciente al segmento que une p con q tal que f (p) − f (q) = Df (c) · (p − q) Demostración. Ya que D es un disco, entonces si p, q ∈ Rn entonces el segmento (1−t)p+tq, 0 ≤ t ≤ 1, pertence también al disco D. Considérese entonces g : [0, 1] → R definida por g(t) = f ((1 − t)p + tq), que es diferenciable por ser composiciı́on de funciones diferenciables. Además por el TVM en una variable real, existe c ∈ (0, 1) tal que g(1) − g(0) = g ′ (c). 1.15. EL TEOREMA DEL VALOR MEDIO 55 Figure 1.14: Contraejemplo al TVM para funciones a valores vectriales. Calculando la última derivada por la regla de la cadena nos queda g ′ (c) = Df ((1 − c)p + cq) · (p − q). Como g(1) = f (p), g(0) = f (q), tomando c = (1 − c)p + cq se obtiene el resultado. Observe que por tratarse de una función a valores reales, se puede escribir f (p) − f (q) = ∇f (c) · (p − q) Observación 9. Desafortunadamente, el TVM que establecimos para funciones a valores reales no puede extenderse a funciones a valores vectoriales. Considere como ejemplo, la curva mostrada en la figura 1.14: ningún punto de la curva el vector tangente es horizontal. En el caso general de funciones a valores vectoriales, ya no se tiene una igualdad del valor medio como en el caso de funciones a valores reales. Sin embargo, existen algunas variantes que mencionaremos a continuación. Teorema 10. Sea f : D ⊂ Rn → Rm diferenciable en un disco D ⊂ Rn , entonces dados p, q ∈ Rn Z 1  f (p) − f (q) = Df ((1 − t)p + tq) dt · (p − q) 0 56 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Este resultado se puede interpretar como un TVM “promedio” Demostración. Consideremos de manera análoga al caso de funciones a valores reales g : [0, 1] → R definida por g(t) = f ((1 − t)p + tq), por el Teorema Fundamental del Cálculo, Z 1 Z ′ g(1) − g(0) = f (p) − f (q) = g (t) dt = 0 0 1 Df ((1 − t)p + tq) · (p − q) dt de donde se sigue el resultado. Corolario 1. Sea f : D ⊂ Rn → Rm diferenciable en un disco D ⊂ Rn . Dados p, q ∈ Rn , si ||Df ((1 − t)p + tp)|| ≤ M, 0≤t≤1 para cierta constante M ≥ 0, entonces ||f (p) − f (q)|| ≤ M ||(p − q)|| Demostración. Basta aplicar la desigualdad de Banach ||Df ((1 − t)p + tq) · (p − q)|| ≤ ||Df ((1 − t)p + tq)|| ||p − q|| Proposición 10. Sea f : D ⊂ Rn → Rm diferenciable en un disco D ⊂ Rn , k ∈ Rm . Dados p, q ∈ Rn , entonces existe c perteneciente al segmento que une p con q tal que (f (p) − f (q)) · k = (Df (c) · (p − q)) · k Demostración. La función a valores reales fk (x) = f (x) · k, donde (·) denota el producto interior usual, cumple con las hipótesis del Teorema 9, luego fk (p) − fk (q) = Dfk (c) · (p − q) pero (verifique) Dfk (c) · h = (Df (c) · h) · k –observe el distinto significado de (·)–. De aquı́ que se sigue el resultado 1.16. EL TEOREMA DE LA FUNCIÓN INVERSA 57 Corolario 2. Sea f : D ⊂ Rn → Rm diferenciable en un disco D ⊂ Rn . Dados p, q ∈ Rn , entonces existe una transformación lineal Λ ∈ L(Rn , Rm ) tal que f (p) − f (q) = L · (p − q) Demostración. Consideremos la base canónica ej , j = 1, 2, . . . , m de Rm y apliquemos la proposición anterior tomando sucesivamente k = ej . Observe que fej = fj , la j–ésima función componente, luego existe cj perteneciente al segmento que une p con q tal que fj (p) − fj (q) = Dfj (cj ) · (p − q) La transformación lineal Λ = (Λ1 , Λ2 , . . . , Λm ) ∈ L(Rn , Rm ) se puede tomar como Λj = Dfj (cj ) ∈ L(Rn , R). Observación 10. En el último corolario, observe que la transformación lineal Λ no concide necesesariamente con Df (c), para algún c entre p y q, ya que los ci no son en general iguales. 1.16 El Teorema de la función inversa Los teoremas de la funciń inversa e implı́cita constituyen uno de los pilares del cálculo diferencial. Ambos tienen múltiples aplicaciones y conexiones con otras ramas de la matemática. En esta sección enunciaremos el teorema de la función inversa en una y varias variables. Comenzaremos por motivar la versión en una variable y gradualmente con ejemplos en varias –pocas– variables. Consideremos una función de una variable y = f (x). Nos preguntamos bajo qué condiciones podemos “despejar a y en función de x”. En la figura 1.15 se muestran dos ejemplos En el ambos casos la función es invertible ya que y = f (x) es creciente, por lo cual la inversa x = g(y) está bien definida, lo cual es el significado preciso de “despejar3 a y”; sin embargo 3 El término “despejar” sigue siendo ambiguo, por ejemplo, ¿se puede despejar a x de la ecuación y = xex ?. La respuesta es no en términos de funciones elementales, como polinomios, cocientes de polinomios (funciones racionales), raices (aún de exponentes fraccionarios) de funciones racionales, logaritmos o exponenciales. Puede uno simplemente darle un nombre a la función inversa, digamos x = LogExp(y) y mostrar sus propiedades. 58 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Figure 1.15: La función inversa en el segundo caso la inversa no resulta una función diferenciable ya que la derivada de la función original se anula en un punto. Teorema 11 (TFINV en R → R). Sea f : R → R de clase C 1 (R). Si f ′ (x0 ) 6= 0 y y0 = f (x0 ), entonces existen vecindades Ix0 = (x0 − δ, x0 + δ) de x0 , Iy0 = (y0 −δ ′ , y0 +δ) de y0 , y una función g : Iy0 → Ix0 tal que x = h(f (x)) para toda x ∈ Ix0 , y y = f (h(y)) para toda y ∈ Iy0 . Además, la función g es diferenciable en y0 y 1 h′ (y0 ) = ′ . f (x0 ) Ejemplo 1.16–30. Sea y = ax, entonces si a 6= 0, entonces se puede despejar x = a−1 y. Observe que a = dy/dx. Antes de proceder al siguiente ejemplo, mencionemos el siguiente resultado útil. Lema 1. Sea f : R → R de clase C 1 en una vecindad de 0 y f (0) = 0. Entonces f (x) = xh(x) con h continua en 0 Finalmente queremos saber el comportamiento de la función, si es monótona, si es continua, sus derivadas, el rango de valores, etc. En este sentido, en el enunciado del teorema de la función inversa, la existencia y la diferenciabildad de la función inversa es lo realmente importante, y no como se hace énfasis en los libros elementales, que la derivada de 1 la inversa es dx dy = dy . dx 1.16. EL TEOREMA DE LA FUNCIÓN INVERSA 59 Demostración. Por el teorema del valor medio f (x) = xf ′ (x∗ ) para algún x∗ entre 0 y x, luego x∗ → 0 si x → 0. Sea h(x) = f ′ (x∗ ), como f ′ es continua entonces limx→0 h(x) = f ′ (0) = h(0), ası́ que h es coninua en 0. Ejemplo 1.16–31. La siguiente es una generalización no lineal del ejemplo anterior: Sea y = ax + r(x), donde r(x) = xm(x), m es de clase C 1 y m(0) = 0. Entonces x = a−1 y + k(y), donde k(y) = yn(y), n es de clase C 1 y n(0) = 0. Primeramente (justifique!) r(0) = r′ (0) = 0, es decir, r comienza con términos cuadráticos. Sea f (x) = ax + r(x) entonces f es de de clase C 1 en una vecindad de 0. Si a 6= 0, entonces existe una función x = g(y) definida para |y| < δ ′ con rango |x| < δ, tal que y = f (g(y)) = a g(y) + r(g(y)) o bien, si x = g(y) x = a−1 y + k(y) donde k(y) = a−1 r(g(y)) Como g(0) = 0, entonces k(0) = r(g(0)) = 0 luego k(y) = yn(y) para cierta n(y) continuamente diferenciable. Además n(0) = k ′ (0) = r′ (g(0))g ′ (0) = r′ (0)g ′ (0) = 0. Ejemplo 1.16–32. El siguiente ejemplo generaliza el anterior a más dimensiones. Sean x, y ∈ Rn y considere la ecuación y = Ax + r(x), 60 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES donde A ∈ Rn×n es no singular; r(x) = xm(x), m es de clase C 1 y m(0) = 0. Entonces x = A−1 y + k(y), donde k(y) = yn(y), n es de clase C 1 y n(0) = 0. El lector puede verificar que el lema 1, se generaliza a Rn , es decir, si f : Rn → Rn es de clase C 1 en una vecindad de 0 y f (0) = 0; entonces f (x) = xh(x) con h : Rn → R es continua en 0. En cierto sentido, el último ejemplo muestra la esencia del TFIN: Si la parte lineal es no singular en un punto, entonces la función es localmente invertible en un entorno del punto. En la dirección de dar una demostración del TFINV y del TFIM para funciones de varias variables, probaremos primeramente el TFin y basado en ello daremos una prueba del TFIm. Primeramente veremos una propiedad en norma, de una función lineal invertible, también llamada coercitividad Proposición 11. Sea Λ ∈ L(Rn , Rn ). Si Λ es invertible entonces existe k > 0 tal que para toda x ∈ Rn , k||x|| ≤ ||Λ · x|| Demostración. Defina k = inf{||Λ · x|| | ||x|| = 1} Se afirma que m > 0, si Λ es invertible. En caso contrario, podrı́amos encontrar una sucesión {xn } en Rn de vectores unitarios, tales que ||Λ·xn || < 1/n. Pasando a una subsucesión si fuese necesario, podemos suponer4 que xn converge a algún punto x∗ de norma unitaria. Por continuidad Λ · x∗ = lim Λ · xn = 0 n→∞ ası́ hemos encontrado x∗ 6= 0 tal que Λ · x∗ = 0, una contradicción. Ahora, para x ∈ Rn arbitrario, naturalmente   x k ≤ Λ· ||x|| 4 Aquı́usamos el siguiente resultado del Análisis que probaremos más adelante: Toda sucesión en un conjunto compacto, tiene una subsucesión convergente. En este caso el compacto es la esfera unitaria en Rn . 1.16. EL TEOREMA DE LA FUNCIÓN INVERSA 61 de donde por linealidad k||x|| ≤ ||Λ · x||. Recuerde que hemos definido una función de clase C 1 (D) si su derivadas parciales existen y son funciones continuas en D.La siguiente es una forma alternativa de ver a las funciones de clase C 1 , independientes de coordenadas. Definición 11. Una funcińo f : D ⊂ Rn → Rm , definida en un disco abierto D, se dice de clase C 1 en D, si la diferencial Df : D → L(Rn , Rm ) es continua. Observación 11. Se puede dotar al espacio L(Rn , Rm ) de diversas normas, de modo que tiene sentido hablar de la continudad de la diferencial vista como función del punto. Ante la elecciń de bases dicho espacio no es sino Rmn donde todas las normas son equivalentes. Observación 12. Sea ei , i = 1, 2, . . . , n una base de Rn . Notemos que la función evei : L(Rn , Rm ) → Rm , dada por L → L · ei es continua, ya que evidentemente es lineal y por la desigualdad de Banach, ||evei · L|| = ||L · ei || ≤ ||L|| ||ei || se sigue la continuidad. La Derivada parcial se obtiene como la composición Di f = evei ◦ Df , es decir, Di f (p) = Df (p) · ei , ası́ recuperamos la definición 1 anterior Pn de función de clase C . El recı́proco es también cierto ya que Df (p)· h = i=1 Di f (p)hi , es decir Df = n X Di f πi i=1 donde π : Rn → R son las proyecciones: π(h) = hi , para h ∈ Rn , y Di f πi es la multiplicación de funciones a valores reales. El siguiente resultado muestra cómo la diferencial aproxima linealmente a la función en toda una vecindad donde la función se a de clase C 1 . Lema 2. Si f : D ⊂ Rn → Rm es de clase C 1 en el disco Br (p) ⊂ D, entonces dado ǫ > 0 existe δ > 0 tal que ||f (x1 ) − f (x2 ) − Df (p) · (x1 − x2 )|| ≤ ǫ||x1 − x2 || 62 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Demostración. Como f es de clase C 1 , escoja δ > 0 tal que ||Df (x) − Df (p)||L(Rn ,Rm ) ≤ ǫ/m De acuerdo al corolario 2 existe una transformación lineal Λ ∈ L(Rn , Rm ) tal que f (x1 ) − f (x2 ) = Λ · (x1 − x2 ) luego ||f (x1 ) − f (x2 ) − Df (p) · (x1 − x2 )|| = ||(Λ − Df (p)) · (x1 − x2 )|| ≤ ||Λ − Df (p)|| ||x1 − x2 || en la demostración del corolario 2, la transformación lineal Λ se contruye como Λ = (Df2 (c1 ), Df2 (c2 ), . . . , Dfm (cm )) donde cj son puntos contenidos en el segmento que une x1 con x2 , en particular están contenidos en Br (p) donde f es de clase C 1 ,luego considerando la norma 1 en L(Rn , Rm ), ||Λ − Df (p)||L(Rn ,Rm ) = ≤ ≤ m X j=1 m X j=1 m X j=1 ||Dfj (cj ) − Dfj (p)||L(Rn ,R) ||Df (cj ) − Df (p)||L(Rn ,Rm ) ǫ ≤ǫ m finalmente ||f (x1 ) − f (x2 ) − Df (p) · (x1 − x2 )|| ≤ ||Λ − Df (p)|| ||x1 − x2 || ≤ ǫ||x1 − x2 || Teorema 12 (TFINV débil). Si f : D ⊂ Rn → Rm es de clase C 1 en el disco Br (p) ⊂ D, y Df (p) es inyectiva, entonces existe δ > 0 tal que la restricción de f al disco cerrado Bδ (p) tiene inversa continua definida en la imagen f (Bδ (p)). 63 1.16. EL TEOREMA DE LA FUNCIÓN INVERSA Demostración. Como Df (p) es invertible, existe r > 0 tal que r||h|| ≤ ||Df (p) · h|| (1.15) Por otra parte del lema 2 con ǫ = r/2, ||f (x1 ) − f (x2 ) − Df (p) · (x1 − x2 )|| ≤ r ||x1 − x2 || 2 de la desigualdad del triángulo ||Df (p) · (x1 − x2 )|| − ||f (x1 ) − f (x2 )|| ≤ ||f (x1 ) − f (x2 ) − Df (p) · (x1 − x2 )|| r ||x1 − x2 || ≤ 2 por lo tanto r ||Df (p) · (x1 − x2 )|| ≤ ||x1 − x2 || + ||f (x1 ) − f (x2 )||, 2 y aplicando la desigualdad 1.15 con h = x1 − x2 , obtenemos r r||x1 − x2 || ≤ ||Df (p) · (x1 − x2 )|| ≤ ||x1 − x2 || + ||f (x1 ) − f (x2 )||, 2 de donde r ||x1 − x2 || ≤ ||f (x1 ) − f (x2 )|| 2 lo cual muestra que la función es inyectiva, ya que si x1 6= x2 entonces f (x1 ) 6= f (x2 ). La continuidad de la inversa se sigue de las siguientes propiedades que serán justificadas en la segunda parte de estas notas: Proposición 12. Sea f : K ⊂ Rn → Rm continua con K compacto. Si f tiene inversa g : f (K) → Rn entonces la inversa es una función continua. El teorema anterior muestra que el sistema de ecuaciones y1 = f1 (x1 , x2 , . . . , xn ), y2 = f2 (x1 , x2 , . . . , xn ), .. . yn = fm (x1 , x2 , . . . , xn ), 64 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES y donde q = f (p), tiene una solución única x1 x2 xn = h1 (y1 , y2 , . . . , yn ), = h2 (y1 , y2 , . . . , yn ), ··· = hn (y1 , y2 , . . . , yn ), (1.16) siempre que el determinante del jacobiano ∂(y1 , y2 , . . . , yn ) ∂(x1 , x2 , . . . , xn ) sea distinto de cero en p = (p1 , p2 , . . . , pn ), y para (x1 , x2 , . . . , xn ) suficientemente próximo de (p1 , p2 , . . . , pn ). Además la solución 1.16 depende continuamente de (y1 , y2 , . . . , yn ) en un entorno de q. El teorema, sin embargo, no dice nada acerca de la estructura de los puntos imagen, es decir en que rango es posibe variar (y1 , y2 , . . . , yn ), por ejemplo los puntos imagen podrı́an estar en algún conjunto que no fuese abierto. Ejemplo 1.16–33. La función f : R2 → R2 , f (x1 , x2 ) = (x1 + x2 , ex1 +x2 ), tiene por imagen {(y1 , y2 ) | y2 = ey1 } que no es abierto en R2 . Ejemplo 1.16–34. Considere la función en R2 → R ( 2 2 (x −y )(x+y) si (x, y) 6= (0, 0), x2 +y 2 f (x, y) = 0 si (x, y) = (0, 0) Las derivadas parciales en el origen son: 1 D1 f (0, 0) = lim f (h, 0) = h→0 h 1 D2 f (0, 0) = lim f (0, k) = k→0 k 1 h3 = 1, h h2 1 −k 3 = −1, k k2 Cosidere ahora la función F : R2 → R2 definida como F (x, y) = (f (x, y), x + y). La matriz Jacobiana en el origen es   1 1 −1 1 65 1.16. EL TEOREMA DE LA FUNCIÓN INVERSA 1 1 0.5 0.5 -1 -0.5 0.5 1 -1 -0.5 0.5 1 -0.5 -0.5 -1 -1 1 0.4 0.5 0.2 -0.4-0.2 -0.2 0.2 0.4 -0.4 -0.2 0.2 0.4 -0.5 -0.4 -1 Figure 1.16: Imagen del disco y el cuadrado unitario bajo la función F del ejemplo 1.16 que evidentemente es no singular, pues el determinante es 2. Sin embargo en la figura ?? se muestra, en la columna izquierda el disco y el rectángulo de lado 1 con centro en el origen y en la columna derecha sus imágenes bajo F , como se puede apreciar las imagenes no son vecindades de F (0, 0) = (0, 0), pues no existe un disco con centro en (0, 0) contenido en la imagen, en ningún caso. Otro inconveniente del teorema anterior, es que se busca tener resultados sobre la diferenciabilidad de la función inversa. La primera dificultad es que la imagen f (Bδ (p)) deberı́a ser al menos una vecindad de f (p) para poder hablar de la diferencial de la inversa; la segunda dificultad es probar que en efecto la inversa es diferenciable. Debido a que la demostración de este resultado es un tanto más complicada que la demostración del teorema más débil 12, dejaremos la de- 66 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES mostración para el siguiente capı́tuo que puede ser opcional en una primera lectura, sin embargo daremos ahora el enuciado preciso. En lo que sigue preferiremos desarrollar con más detalles ejemplos concretos e ideas más intuitivas. Teorema 13 (TFINV). Sea f : D ⊂ Rn → Rm de clase C 1 en un disco Br (p) ⊂ D. Si Df (p) es invertible, entonces: 1. Existe un disco Bδ (p) ⊂ Br (p) tal que la imagen V = f (Bδ (p)) es una vecindad de f (p). 2. La función inversa g : V → Rn existe y es continua 3. Si y ∈ V es un punto interior de V , con y = f (x), entonces g es diferenciable en y con derivada Dg(y) = Df (x)−1 . En la práctica, el análisis de una transformación f : Rn → Rn comienza con calcular el conjunto singular donde la diferencial no sea inyectiva y su imagen, los valores crı́ticos. Ası́, fuera del conjunto singular y de los valores crı́ticos, el TFIN garantiza la existencia de una inversa local que además es diferenciable. Vamos a precisar Definición 12. Sea f : Rn → Rn diferenciable. Se dice que x ∈ Rn es un punto crı́tico de f , si Df (x) ∈ L(Rn , Rn ) no es invertible5 . Un punto y ∈ Im(f ) ⊂ Rn es un valor crı́tico, si es la imagen de un punto crı́tico, en caso contrario se dice que es un valor regular. Los puntos donde Df (x) es invertible se llaman puntos regulares. El conjunto de puntos crı́ticos de f se llama el conjunto de singularidades de f , o conjunto singular y se denota por Σf = {x ∈ Rn | Df (x) es singular}. Ejemplo 1.16–35. El cambio de coordenadas polares a cartesianas x = r cos θ y = r sin θ 5 (1.17) Recuerde que para una transformación lineal son equivalentes las propiedades de ser: (a) inyectiva ⇔, (b) suprayectiva, ⇔ (c) invertible, ⇔ (d) determinante distinto de cero 1.16. EL TEOREMA DE LA FUNCIÓN INVERSA 67 puede considerarse como una función T : R2 (r, θ) → R3 (x, y). Como es usual, distinguimos el dominio y el contradominio por las coordenadas y llamamos a (r, θ) el plano polar y (x, y) el plano cartesiano. El determinante de la matriz jacobiana es cos θ −r sin θ sin θ r cos θ =r de donde el conjunto de singularidades es el eje r = 0, en el plano polar. La imagen del conjunto singular es el origen en el plano cartesiano, ya que x2 + y 2 = r 2 . Fuera del conjunto de singularidades la función es localmente invertible con inversa diferenciable. En la figura 1.17 se muestra la imagen de los rectángulos [0, 1] × [0, π] y [0, 1] × [0, 2π]. Ambos tienen una arista sobre el conjunto singular r = 0 del plano polar la cual se mapea en el origen, la arista derecha r = 1, se mapea en cada caso a la semicircunferencia exterior o la circunferencia completa, respectivamente. Observe también que las aristas horizontales [0, 1]×{0} y [0, 1]×{2π} del rectángulo mayor, se aplican ambas sobre el rayo 0 ≤ x ≤ 1, y = 0 del plano cartesiano. Esto muestra una dificultad de las coordenadas polares para representar de manera única puntos en el plano cartesiano. En el ejericio (?) se muestra una manera de lidiar con esta dificultad, esencialmente identificando θ con θ + 2πk, cuando k sea cualquier entero. Esta manera de pensar obliga a pensar a la transformación como una función f : [0, ∞) × S 1 → R2 donde [0, ∞) × S 1 es un cilindro, el producto cartesiano de un intervalo con la circunferencia de radio 1. Esta manera de pensar nos lleva a rehacer el cálculo para funciones de la forma f : M → Rm donde M es alguna superficie en Rp de dimensión n. En la figura 1.18 se muestra la imagen bajo la transformación polar en la vecindad un punto (r, θ) = (0, π/4) sobre el conjunto singular en cambio en la figura 1.19 se muestra la imagen de un pequeño rectángulo en una vecindad de un punto regular (1, π/4) en el plano polar y su imagen en el plano cartesiano. En la figura 1.20 se muestra la imagen de un rectángulo más grande que toca al conjunto singular, su imagen en el plano cartesiano revela que la función no es biyectiva en esta vecindad. Ésto último muestra que el TFIV garantiza bajo las hipótesis adecuadas , la existencia de la inversa pero sólo localmente. 68 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES q 6 5 4 3 2 1 y 1 0.8 0.6 0.4 0.2 0.25 0.5 0.7511.25 1.5 1.752 r -1 -0.5 0.5 1 x y 1 q 6 5 4 3 2 1 0.5 0.5 1 x -1 -0.5 -0.5 0.25 0.5 0.7511.25 1.5 1.752 r -1 Figure 1.17: Imagen bajo la transformación polar 1.17 de dos rectángulos de base unitaria y alturas θ = π/2, 2π. q y 0.075 0.85 0.05 0.025 0.8 x -0.075 -0.05 -0.0250.025 0.05 0.075 -0.025 0.75 -0.05 -0.1-0.05 r 0.05 0.1 -0.075 Figure 1.18: Imagen bajo la transformación polar 1.17 de un rectángulo alrededor de (0, π/4) en el plano polar y su imagen bajo la transformación 1.17. 1.16. EL TEOREMA DE LA FUNCIÓN INVERSA q 69 y 0.85 0.85 0.8 0.75 0.8 0.7 0.75 0.9 0.95 0.65 x 0.650.70.750.80.85 r 1.05 1.1 Figure 1.19: Imagen bajo la transformación polar 1.17 de un pequeño rectángulo mayor alrededor de (1, π/4) en el plano polar y su imagen bajo la transformación 1.17. y q 0.8 0.85 0.6 0.8 0.4 0.75 -0.5 -0.25 0.250.50.751 0.2 r 0.2 0.4 0.6 0.8 x Figure 1.20: Imagen bajo la transformación polar 1.17 de un rectángulo mayor alrededor de (0, π/4) en el plano polar y su imagen bajo la transformación 1.17. 70 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Ejemplo 1.16–36. El cambio de coordenadas esféricas a cartesianas x = r sin θ cos ϕ y = r sin θ sin ϕ z = r cos θ puede considerarse como una función T : R3 (r, θ, ϕ) → R3 (x, y, z). Analicemos la invertibilidad de la derivada DT (r, θ, ϕ) mediante la matriz Jacobiana     ∂x ∂x ∂x sin θ cos ϕ r cos θ cos ϕ −r sin θ sin ϕ ∂r ∂θ ∂ϕ  ∂y ∂y ∂y    ∂r ∂θ ∂ϕ  = sin θ sin ϕ r cos θ sin ϕ r sin θ cos ϕ  ∂z ∂z ∂z cos θ −r sin θ 0 ∂r ∂θ ∂ϕ cuyo determinante es r2 sin θ, por lo tanto si r 6= 0 y θ 6= kπ para algún k entero, la diferencial es invertible. Observe que los valores crı́ticos constituyen el eje z en el espacio cartesiano, ya que x2 + y 2 = r2 sin2 θ Por el teorema de la función inversa, fuera del conjunto singular es posible despejar a (r, θ, ϕ) en función de (x, y, z). En este caso esto es posible con algún esfuerzo pues hay que manipular fórmulas no lineales, sin embargo la derivada de la función inversa se puede calcular aún cuando no se conozca explı́citamente la función inversa:   sin θ cos ϕ r cos θ cos ϕ −r sin θ sin ϕ  sin θ sin ϕ r cos θ sin ϕ r sin θ cos ϕ  cos θ −r sin θ 0 1.17 El teorema de la función implı́cita Consideremos la curva de nivel f (x, y) = c y un punto sobre ésta: f (x0 , y0 ) = c. Nos preguntamos bajo qué condiciones es posible ver esta curva como la gráfica de una función y = φ(x). Ejemplo 1.17–37. Considere la curva x2 +y 2 = 1. Alrededor del punto (1, 0) sobre la curva se puede despejar a y: √ y = ± 1 − x2 1.17. EL TEOREMA DE LA FUNCIÓN IMPLÍCITA 71 y x Figure 1.21: La curva f (x, y) no es la gráfica de una función y = φ(x). donde el signo ± significa que debemos elegir una rama de la raiz cuadrada, en este caso elegimos el signo más pues queremos que √ la graáfica de y = φ(x) satisfaga 1 = φ(0). Claramente la función φ(x) = 1 − x2 sólo está definida y es diferenciable en (0, 1). Esto muestra que no podemos espera que la función φ esté definidas sino en un entorno de x0 . Geométricamente, serás posible despejar a y en función de x cuando toda recta vertical cercana a x = x0 corte a la curva de nivel f (x, y) = c en un solo punto, es decir la curva no se doble sobre sı́ misma como en la Figura 1.21 Observe que si ocurre un doblez, la tangente a la curva es vertical y por lo tanto el gradiente es horizontal. Como   ∂f ∂f ∇f (x, x) = , ∂x ∂y la tangente a la curva es vertical precisamente cuando ∂f = 0. Este resultado ∂y está contenido en el Teorema de la Función Implı́cita (TFIm)para funciones de una variable real. Teorema 14 (TFIM en R → R). Sea f (x, y) : Br (x0 , y0 ) ⊂ R2 → R de clase C 1 en Br (x0 , y0 ), y f (x0 , y0 ) = c. Si ∂f (x0 , y0 ) 6= 0 ∂y entonces existe una función diferenciable φ : (x0 − δ, x0 + δ) → (y0 + δ, y0 + δ) 72 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES tal que f (x, φ(x)) = c y viceversa, |x − x0 | < δ, f (x, y) = c, |y − y0 | < δ implica que y = φ(x). Además ∂f (x, φ(y)) ′ ∂x . φ (x) = − ∂f (x, φ(y)) ∂y Ejemplo 1.17–38. Considere el sistema lineal ax + by + cz = 0, dx + ey + f z = 0 el cual “tiene una variable libre”. Con más precisión, si ∆1 = ae − bd 6= 0 entonces se puede escribir ax + by = −cz, dx + ey = −f z y para cada z se obtienen valores únicos de x y y; en otras palabras existen funciones x = ϕ1 (x), y = ψ1 (z) que satisfacen el sistema aϕ1 (z) + bψ1 (z) + cz = 0, dϕ1 (z) + eψ1 (z) + f z = 0 para toda z ∈ R. Las funciones ϕ1 , ψ2 se encuentran explı́citamente, usando la regla de Cramer, como x = ϕ1 (z) = (−ce + bf )z , ae − bd Observe que ϕ1 (0) = 0 y ψ1 (0) = 0 y = ψ1 (z) = (−af + cd)z . ae − bd 1.17. EL TEOREMA DE LA FUNCIÓN IMPLÍCITA 73 Ejemplo 1.17–39. Considere el mismo sistema lineal que en el ejemplo anterior ax + by + cz = 0, dx + ey + f z = 0 pero suponga ahora que ∆2 = af − cd 6= 0 entonces se despejar a x, z en función de y, x = ϕ2 (z) = (−bf + ce)y , af − cd z = ψ2 (z) = (−ae + bd)y . af − cd es decir aϕ2 (y) + by + cψ2 (y) = 0, dϕ2 (y) + ey + f ψ2 (y) = 0 para toda y ∈ R. Ejemplo 1.17–40. Para el mismo sistema que en el ejemplo anterior, si ∆3 = bf − ce 6= 0 entonces es posible despejar a a y, z en función de x. Ejemplo 1.17–41. Considere la versión no lineal del ejemplo (1.17), ax + by + cz + r(x, y, z) = 0, dx + ey + f z + s(x, y, z) = 0 donde ae − bd 6= 0, y donde r, s son funciones continuamente diferenciables tales que r(x, y, z) ≤ k(|x|2 +|y|2 +|z|2 ), s(x, y, z) ≤ k ′ (|x|2 +|y|2 +|z|2 ), para ciertas constantes k, k ′ y para (x, y, z) suficientemente pequeño. Inspirados por el caso lineal y notando que x = y = z = 0 satisface el sistema, podrı́amos conjeturar que existen funciones ϕ1 (z), ψ1 (z) diferenciables, definidas para |z| < δ, tales que ϕ(0) = 0,ψ(0) = 0 y aϕ1 (z) + bψ1 (z) + cz + r(ϕ1 (z), ψ1 (z), z) = 0, dϕ1 (z) + eψ1 (z) + f z + s(ϕ1 (z), ψ1 (z), z) = 0 74 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES para toda z. Si tal es el caso, observe que derivando respecto de z, aϕ′1 (z) + bψ1′ (z) + cz+ rx (ϕ1 (z), ψ1 (z), z)ϕ′1 (z) + ry (ϕ1 (z), ψ1 (z), z)ψ1′ (z) + rz (ϕ1 (z), ψ1 (z), z) = 0, dϕ′1 (z) + eψ1′ (z) + f z+ sx (ϕ1 (z), ψ1 (z), z)ϕ′1 (z) + sy (ϕ1 (z), ψ1 (z), z)ψ1′ (z) + sz (ϕ1 (z), ψ1 (z), z) = 0, y evaluando en z = 0 y recordando que ϕ1 (0) = 0, ψ1 (0) = 0, obtenemos aϕ′1 (0) + bψ1′ (0) = 0, dϕ′1 (0) + eψ1′ (0) = 0, de donde podemos obtener ϕ′1 (0) = (−ce + bf ) , ae − bd ψ1′ (0) = (−af + cd) . ae − bd es decir x = ϕ1 (z) = (−ce + bf ) z + ··· , ae − bd y = ψ1 (z) = (−af + cd) z + ··· . ae − bd donde (· · · ) significa términos de orden 2 en adelante. Teorema 15 (Teorema de la función implı́cita). Sea F : Rn ×Rm → Rm , de clase C 1 en un disco alrededor de (a, b) ∈ Rn × Rm . Si F (a, b) = c y D2 F (a, b) ∈ L(Rm , Rm ) es no singular, entonces existe ϕ : Bδ (a) ⊂ Rn → V ⊂ Rm tal que V es una vecindad de b, ϕ(a) = b y F (x, ϕ(x)) = c para toda x ∈ Bδ (a). Además ϕ es diferenciable en Bδ (a) y su derivada es Dϕ(x) = −D2 F (x, ϕ(x))−1 ◦ D1 F (x, ϕ(x)) (1.18) En otras palabras, las soluciones de la ecuación F (x, y) = c cercanas de una solución (a, b) se pueden parametrizar diferenciablemente como y = ϕ(x). 1.17. EL TEOREMA DE LA FUNCIÓN IMPLÍCITA 75 Observación 13. Observe la estructura de la composición en (1.18) (omitimos el punto de evaluación): m R EE z<< EE−D2 F −1 zz EE z z EE z zz "" Dϕ n // Rm R D1 F Observación 14. Un resultado similar se aplica para F : Rn × Rm → Rn , de clase C 1 en un disco alrededor de (a, b) ∈ Rn × Rm . Bajo la condición de que F (a, b) = c y D1 F (a, b) ∈ L(Rn , Rn ) sea no singular, entonces existe ψ : Bδ (b) ⊂ Rm → U ⊂ Rn tal que U es vecindad de a, ψ(b) = a y F (ψ(y), y) = c para toda y ∈ Bδ (b). Además ψ es diferenciable y Dψ(y) = −D1 F (ψ(y), y)−1 ◦ D2 F ((ψ(y), y)). en otras palabras, el siguiente diagrama conmuta: n R CC z<< CC−D1 F −1 D2 F zz CC z z CC z !! zz Dψ m // Rn R Ejemplo 1.17–42. Retomemos el ejemplo (1.17). ax + by + cz + r(x, y, z) = 0, dx + ey + f z + s(x, y, z) = 0 donde r, s son funciones de clase C 1 de orden cuadrático en el origen, i.e. |r(x, y, z)| ≤ k(x2 + y 2 + z 2 ) para (x, y, z) próximo de cero. Para aplicar el TFIM, reformulemos el problema como sigue: Sean F1 (z, (x, y)) = ax + by + cz + r(x, y, z), F2 (z, (x, y)) = kx + my + f z + s(x, y, z) es decir, F : R(z) × R2 (x, y) → R2 , con F = (F1 , F2 ) y Fi : R2 → R, para i = 1, 2 [suponemos sin pérdida de generalidad que dichas funciones están definidas para toda (z, (x, y)) ∈ R × R2 , aunque solo es necesario que estén 76 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES definidas en un entorno de (0, (0, 0))]. Como r, s son de orden cuadrático, (0, (0, 0)) es solución del sistema F1 (z, (x, y)) = 0, F2 (z, (x, y)) = 0 Claramente F es de clase C 1 en un entorno de (0, (0, 0)). Procedamos con el análisis, por un lado D2 F (z0 , (x0 , y0 )) ∈ L(R2 , R2 ), luego D2 F (z0 , (x0 , y0 ))·(dx, dy) = (D2 F1 (0, (0, 0)) · (dx, dy), D2 F2 (0, (0, 0)) · (dx, dy)) donde6 D2 F1 (0, (0, 0)) · (dx, dy) ∂F1 ∂F1 (0, 0, 0)dx + (0, 0, 0)dy = ∂x ∂y ∂r ∂r (0, 0, 0)dx + (0, 0, 0)dy = adx + bdy + ∂x ∂y = adx + bdy y D2 F2 (0, (0, 0)) · (dx, dy) ∂F2 ∂F2 = (0, 0, 0)dx + (0, 0, 0)dy ∂x ∂y ∂s ∂s = k dx + m dy + (0, 0, 0)dx + (0, 0, 0)dy ∂x ∂y = k dx + m dy por ser r, s de orden cuadrático. Por lo tanto D2 F (z0 , (x0 , y0 )) · (dx, dy) = (a dx + b dy, k dx + m dy) =  a b k m   dx dy es decir la matriz asociada a D2 F (z0 , (x0 , y0 )) en la base canónica de R2 es   a b [D2 F (z0 , (x0 , y0 ))] = k m 6 Observe como identificamos Fi : R × R2 → R con una función Fi : R3 → R, es decir identificamos (z, (x, y)) con (z, x, y). 1.17. EL TEOREMA DE LA FUNCIÓN IMPLÍCITA 77 por lo cual, la condició para poder despejar a x, y en función de z es precisamente a b 6= 0. k m Ejemplo 1.17–43. Sea F : R2 × R2 → R2 definda para x = (x1 , x2 ), y = (y1 , y2 ) por F (x, y) = (x31 + x2 x1 + y2 , x1 y2 + x22 − y1 ). ¿Para cuáles puntos (x, y) se puede resover la ecuación F (x, y) = 0 para x en términos de y? Sean F1 (x, y) = x31 + x2 x1 + y2 , F2 (x, y) = x1 y2 + x22 − y1 Necesitamos calcular la diferencial parcial ∂F (x0 , y0 ) ∈ L(R2 , R2 ) ∂x que se representa la matriz  ∂F1  ∂x1   ∂F2 ∂x1 2 × 2,  ∂F1   2 3x + x x ∂x2  2 1 1 = y2 2x2 ∂F2  ∂x2 Por lo tanto, si 2x2 (3x21 + x2 ) − x1 y1 6= 0 se puede despejar a x = (x1 , x2 ) en función de y = (y1 , y2 ) en un entorno del punto. 1.17.1 Aplicaciones Mecánica El estado de movimiento de una partı́cula en un potencial gravitacional Newtoniano se puede describir por su energı́a y momento angular 1 1 , e = ||v||2 − 2 ||x|| h=x×v que son constantes de movimiento, i.e. permanecen constantes todo el tiempo. 78 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES La pregunta es cómo describir todos los posibles estados de movimiento con el menor número de parámetros. Para comenzar definamos F (x1 , x2 , x3 , v1 , v2 , v3 ) = (e, h1 , h2 , h3 ) donde e y hi son la energı́a y las componentes del momento angular. Por ejemplo, si fijamos la energı́a e = e0 y el momento angular h = h0 , solo podemos esperar despejar cuatro variables del total de seis: (x1 , x2 , x2 , v1 , v2 , v3 ). Veamos cuándo se puede despejar la velocidad v y x3 en función de x1 , x2 : Para ello debemos verificar que el siguiente discriminante ∆3 = ∂e ∂v1 ∂e ∂v2 ∂e ∂v3 ∂e ∂v4 ∂h1 ∂v1 ∂h1 ∂v2 ∂h1 ∂v3 ∂h1 ∂v4 ∂h2 ∂v1 ∂h2 ∂v2 ∂h2 ∂v3 ∂h2 ∂v4 ∂h3 ∂v1 ∂h3 ∂v2 ∂h3 ∂v3 ∂h3 ∂v4 6= 0 El lector deberá verificar que el determinant anterior es ∆3 = −h3 (x · v) Por lo tanto, si la componente en la dirección z del momento angular es distinta de cero y la velocidad no es perpendicular al vector de posición, entonces es posible despejar a v y a x3 en función de x1 , x2 .Una pregunta de interés es entonces determinar la región de Hill, es decir la región en el plano x1 , x2 que sea compatible con los valores de energı́a y momento angular dados. Por ejemplo, de la ecuación de la energı́a se deduce que 1 1 ||v1||2 = e + ≥0 2 ||x|| por lo tanto, si e < 0 la región de Hill en x es la esfera 1 ||x|| < − e menos el origen. Si e ≥ 0 la región de Hill en x es todo R2 \ {0} En el plano x1 –x2 sucede que q 1 x21 + x22 ≤ ||x|| < − e y la región de Hill en el plano x1 –x2 , para e < 0, está contenida en el disco de radio −e−1 menos el origen. En la frontera del disco v = 0 por lo tanto no podemos aplica el teorema de la función implı́cita. 1.18. DERIVADAS PARCIALES DE ORDEN SUPERIOR 1.18 79 Derivadas parciales de orden superior En esta sección estudiaremos las diferenciales de orden superior. Para ello consideremos una función f : Rn → Rm diferenciable en un disco Br (x0 ) ⊂ Rn . La diferencial es una función Df : Br (x0 ) ⊂ Rn → L(Rn , Rm ). Mencionamos anteriormente que L(Rn , Rm ) constiuye un espacio vectorial en sı́ mismo, por lo que tiene sentido preguntarse sobre la diferencial de Df en un punto, digamos x0 . En caso de existir tendrı́amos D(Df )(x0 ) ∈ L(Rn , L(Rn , Rm )) Definición 13. Sea f : Rn → Rm diferenciable en un disco Br (x0 ) ⊂ Rn . Decimos que f es dos veces diferenciable en x0 , si Df : Br (x0 ) → Rm es diferenciable en x0 . El espacio vectorial L(Rn , L(Rn , Rm )) parece tener una estructura complicada, por ello vamos a hacer una disgresión sobre las funciones multililneales que al final nos permitirá identificar la diferencial de orden k en un punto con una función multilineal. El espacio de funciones multilineales Definición 14. El espacio de funciones multilineales en k argumentos vectoriales en Rn a valores en Rm , o brevemente k–multilineales vectoriales, es n o n m n k Lk (R , R ) = B : (R ) → R | B es multilineal Los espacios L(Rn , L(Rn , Rm )) y L2 (Rn , Rm ) se pueden identificar de manera canónica, vgr. existe. En efecto, si B ∈ L(Rn , L(Rn , Rm )) definamos B̂ como, (B · x) · y = B̂ · (x, y) Dejamos al lector probar que la aplicación L(Rn , L(Rn , Rm )) B→B̂ // L2 (Rn , Rm ) es un isomorfismo lineal (i.e. es lineal y biyectiva). k−f actores De manera análoga, los espacios L(Rn , L(Rn , . . . , L(Rn , Rm )) y Lk (Rn , Rm ) se pueden indentificar de manera canónica mediante el isomorfismo 80 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES k−f actores B→B̂ L(Rn , L(Rn , . . . , L(Rn , Rm )) // Lk (Rn , Rm ) donde, (· · · ((B · x1 ) · x2 ) · · · )xk = B̂ · (x1 , x2 , . . . , xk ) Observación 15. En consonancia con la notación Λ · h para denotar la evaluación de una transformación lineal Λ en un vector h, denotaremos por B·(h, k) la evaluación de la transformación bilineal B en la pareja de vectores (h, k). Análogamente B(h1 , h2 , . . . , hk ) denota la evaluación de la función multilineal B. En el conjunto Lk (Rn , Rm ) están definidas las operaciones de suma y producto por un escalar, de modo que es un espacio vectorial sobre los reales. Se puede también dotar de una norma a Lk (Rn , Rm ) definiendo ||B|| = sup{B(h1 , h2 , . . . , hk ) | ||x1 || = ||x2 || = · · · = ||xk || = 1} (1.19) con lo cual se satisface la desigualdad de Banach: ||B(h1 , h2 , . . . , hk )|| ≤ ||h1 || ||h2 || · · · ||hk || Por supuesto se puede probar que el supremo en (1.19) existe por tratarse de funciones multilineales en espacios vectoriales de dimensión finita. Definición 15. Una función B(h1 , h2 , . . . , hk ) se dice simétrica, si B(hσ1 , hσ2 , . . . , hσk ) = B(h1 , h2 , . . . , hk ) para cualquier permutación (σ1 , σ2 , . . . , σk ) se los ı́ndices (1, 2, . . . , k). Por ejemplo, una función bilineal es simétrica si B(x, y) = B(y, x). Proposición 13. Si f : Rn → Rm es 2 veces diferenciable en x0 entonces D(Dfˆ)(x0 ) es una función bilineal simétrica. 1.18.1 Derivadas de orden superior Definición 16. Sea f : Rn → Rm diferenciable en un disco Br (x0 ) ⊂ Rn , si Df : Br (x0 ) → Rm es diferenciable en x0 , la diferencial de orden dos se define como la función bilineal \ D2 f (x0 ) = D(Df )(x0 ). 1.18. DERIVADAS PARCIALES DE ORDEN SUPERIOR Si k−1 81 k D(D(D(· · · D f ) · · · )) : Br (x0 ) → L(Rn , · · · L(Rn , Rm ) es diferenciable en x0 , entonces la diferencial de orden k se define como la función k-multilineal Dk f (x0 ) = D(D(D(· ·\ · Df ) · · · ))(x0 ). En otras palabras (D(Df )(x0 ) · h) · k = D2 f (x0 ) · (h, ·k) ((D(D(Df ))(x0 ) · h) · k) m = D3 f (x0 ) · (h, k, m), etc. El siguiente resultado nos permite calcular de manera efectiva la segunda diferencial Proposición 14. Sea f : Rn → Rm continuamente diferenciable en un disco Br (x0 ) y dos veces diferenciable en x0 . Para h ∈ Rn defina fh′ : Br (x0 ) ⊂ Rn → Rm como fh′ (x) = Df (x) · h entonces fh′ es diferenciable en x0 y para k ∈ Rn se cumple que Dfh′ (x0 ) · k = D2 f (x0 ) · (h, k) Corolario 3. Sea f : Rn → Rm , r : R → Rn . Bajo las hipótesis apropiadas, d Df (r) · h = D2 f (r(t)) · (r′ (t), h) dt Demostración. Por la regla de la cadena   d d Df (r(t)) · h = Df (r(t)) · h dt dt = (D(Df )(r(t)) · r′ (t)) · h = D2 f (r(t)) · (r′ (t), h) 82 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Corolario 4. Sea f : Rn → Rm , r : R → Rn . Bajo las hipótesis apropiadas, d 2 D f (r) · (h, k) = D3 f (r(t)) · (r′ (t), h, k) dt Ejemplo 1.18–44. Considere la función f : R3 → R, f (x1 , x2 , x3 ) = x1 x2 − x2 x3 + x3 x1 . Sean h = (h1 , h2 , h3 ), k = (k1 , k2 , k3 ), entonces fh′ = ∂f ∂f ∂f h1 + h2 + h3 = h3 (x1 − x2 ) + h2 (x1 − x3 ) + h1 (x2 + x3 ) ∂x1 ∂x2 ∂x3 de donde D2 f (a, b, c) · ((h1 , h2 , h3 ), (k1 , k2 , k3 )) = (h2 + h3 )k1 + (h1 − h3 )k2 + (h1 − h2 )k3 (nóte que D2 f (a, b, c) no depende de (a, b, c)) Ejemplo 1.18–45. Sea f : R3 → R2 , f (x, y, z) = (3xy 2 , x2 − z 3 ). Sean h = (h1 , h2 , h3 ), k = (k1 , k2 , k3 ) entonces fh′ = (3y 2 h1 + 6xyh2 , 3x2 h1 − 3z 2 h3 ) de donde D2 f (a, b, c)·((h1 , h2 , h3 ), (k1 , k2 , k3 )) = (6bh2 k1 + (6bh1 + 6ah2 )k2 , 6(ah1 k1 − ch3 k3 )) Proposición 15. Sea f : Rn → Rm de clase C 2 en un disco Br (x0 ) ⊂ Rn . Sea fh (t) = f (x0 + th), entonces en el desarrolo de Taylor de fh (t), t2 fh (t) = a + tb + c + R3 , 2 a = f (x0 ), b = Df (x0 ) · h, c = D2 f (x0 ) · (h, h). Demostración. Evaluando fh (0) y fh′ (t) obtenemos fh (0) = f (x0 ), fh′ (t) = Df (x0 + th) · h en particular, fh′ (0) = Df (x0 ) · h (1.20) 1.18. DERIVADAS PARCIALES DE ORDEN SUPERIOR 83 derivando una vez más (1.20) respecto de t, obtenemos del Corolario (3), fh′′ (0) = D2 f (x0 ) · (h, h) El resultado anterior nos permite calcular la forma cuadrática D2 f (x0 )(h, h). El siguiente resultado nos permite recuperar la forma bilineal Proposición 16. Sea B : Rn × Rn → Rm bilineal simétrica, Q(x) = B(x, x), entonces 1 B(x, y) = (Q(x + y) − Q(y) − Q(x)) . 2 Ejemplo 1.18–46. Calcule la segunda diferencial de f : R3 → R, f (x1 , x2 , x3 ) = x1 x2 − x2 x3 + x3 x1 en el punto (a, b, c). Tenemos f(h1 ,h2 ,h3 ) (t) = (a + h1 t)(b + h2 t) + (a + h1 t)(c + h3 t) − (b + h2 t)(c + h3 t) Expandiendo en serie de Taylor a orden 2 se obtiene f(h1 ,h2 ,h3 (t) = (a(b + c) − bc) + (a(h1 + h3 ) + b(h1 − h3 ) + c(h1 − h2 )) t + (h1 (h2 + h3 ) − h2 h3 ) t2 + O(t3 ) si denotamos por B la forma bilineal D2 f (a, b, c) y por Q la correspondiente forma cuadrática, entonces Q(h1 , h2 , h3 ) = 2 (h1 (h2 + h3 ) − h2 h3 ) luego B((h1 , h2 , h3 ), (h1 , h2 , h3 )) = (h2 + h3 )k1 + (h1 − h3 )k2 + (h1 − h2 )k3 . ahora podemos generalizar la 1.18.2 El teorema de Taylor Las diferenciales de orden superior permiten aproximar los valores de una funcion en un entorno de un punto x0 y es la generalización para funciones de una variable real. 84 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Teorema 16 (Teorema de Taylor). Suponga que f : Rn → Rm tiene diferenciales continuas de todos los órdenes hasta el k y que además posea diferencial de orden k + 1 en un disco Br (x0 ). Entonces f (x0 + h) = f (x0 ) + Df (x0 ) + +··· + 1 2 1 D f (x0 ) · (h, h) + D3 f (x0 ) · (h, h, h) 2! 3! 1 k D f (x0 ) · (h, h, · · · , h) + Rk k! donde el residuo Rk depende de x0 y h. Especı́ficamente Rk (x0 , h) = 1 Dk+1 f (x∗0 ) · (h, h, · · · , h) (k + 1)! para algún punto x∗0 contenido en el segmento que une x0 con h. 1.19 Máximos y mı́nimos de funciones de varias variables En esta sección abordaremos el problema de determina cuándo una función real de varias variables posee un mı́nimo o un máximo (valor exremo). Obviamente habremos de considerar funciones a valores reales pues habremos de comparar distitintos valores de la función, cosa que es imposible en funciones a valores vectoriales. Existe sin embargo un concepto de optimalidad que en cierta forma balancea valores antagónicos llamada otpimización de Pareto pero que no habremos de considerar en estas notas, sino de pasada. Para funciones de una variable real, (a) un punto extremo en un punto interior del dominio es un punto crı́tico, i.e. la primera derivada se anula, además, tratandose de un punto crı́tico, existen dos criterios para determinar si tal punto crı́tico es extremo: (c) el cambio de signo de la primera derivada o, (c) el signo de la segunda derivada en el punto crı́tico, si esta existe. Para funciones de dos o más variables, el criterio (a) se generaliza para más variables. Definición 17. Sea f : Rn → Rn decimos que f tiene un máximo (resp. mı́nimo) local en x0 si f (x0 ) ≥ f (x) (resp. f (x0 ) ≤ f (x) para toda x en un disco Br (x0 ) ⊂ Rn . 1.19. MÁXIMOS Y MÍNIMOS DE FUNCIONES DE VARIAS VARIABLES85 Ejemplo 1.19–47. La función lineal f (x) = x + 1, x ∈ [0, 1] tiene un mı́nimo y un máximo en los extremos del invervalo y la derivada es siempre postiva. En cambio la función f (x) = x(1 − x) tiene un máximo en un punto interior x = 1/2. Observe que en este caso f ′ (1/2) = 0. Definición 18. Un punto x ∈ D ⊂ Rn se dice interior, si existe un disco Br (x) ⊂ D. Proposición 17. Sea f : → Rn una función diferenciable en U ⊂ Rn . Si f tiene un extremo en un punto interior de U , x0 , entonces Df (x0 ) = 0. Demostración. Sea r tal Br (x) ⊂ U y sea û un vector unitario cualquiera. El segmento r(t) = x0 + tû está contenido en D para |t| suficientemente pequeño, pues x0 es punto interior. De la hipótesis se sigue que la función real de una variable real φ(t) = f (r(t)) tiene un máximo en t = 0, por lo que su derivada se anula en t = 0. Por la regla de la cadena: 0 = φ′ (0) = Df (r(0)) · r(0) = Df (x0 ) · û y como û es arbitrario, entonces Df (x0 ) = 0 El teorema anterior nos da condiciones necesarias para la existencia de un máximo (o mı́nimo) en un punto interior, lo que queremos es un criterio suficiente para determinar si un punto crı́tico es un máximo o mı́nimo. Para comenzar, la situación es un poco más complicada que para funciones de una variable real pues a partir de un punto x0 , la función puede aumentar en unas direcciones o disminuir en otras o de plano mantenerse constante. En la Figura 1.22 se muestran las gráficas de dos funciones z = f (x, y) en un entorno del punto crı́tico (0, 0). 1.19.1 Clasificación de formas cuadráticas Comencemos por clasificar funciones f : Rn → R de orden cuadrático con un punto crı́tico en el origen, vgr., f (x) = Ax + B(x, x) donde B es una función bilineal y por lo tanto B(h, h) = O(h). Por definición A = Df (0) = 0, ası́que estamos considerando una forma cuadática f (x) = 86 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES 0.1 z0 -0.1 -1 -0.5 1 0.5 0y -0.5 0 x 0.5 -1 1 0.4 0.2 z0 -0.2 -0.4 -2 -1 0 x 1 2 1 0y -1 2-2 Figure 1.22: Puntos crı́ticos de funciones z = f (x, y). B(x, x). En términos de la base canónica δ i , i = 1, 2, . . . , n podemos escribir por bilinealidad ! n n n X X X B(x, x) = xi xj B(δ i , δ j ) ≡ Bij xj xi i,j=1 i=1 j=1 donde la matrix de coeficientes B = (Bij ) es simétrica. Si los elementos x ∈ Rn se representan por vectores columna, entonces se puede escribir en forma compacta B(x, x) = xT Bx. El siguiente resultado de álgebral lineal será muy útil para nuestro análisis. Teorema 17. Sea B ∈ Rn×n una matriz simétrica. Entonces existe una matriz ortogonal Q ∈ Rn×n tal que QT BQ = D donde D es una matriz diagonal. Las columnas de Q forman un conjunto ortonormal de vectores propios de B. Ejemplo 1.19–48. La matriz simétrica √   2 2 B= √ 2 1 1.19. MÁXIMOS Y MÍNIMOS DE FUNCIONES DE VARIAS VARIABLES87 se diagonaliza mediante la matriz ortogonal √   1 −1 2 Q= √ √ 2 1 3 en efecto √  √  √  2 2 2 2 −1 √ √ 1 2 1 2 1 √   √  1 −1 0 3 2 √2 √ = 0 3 2 1 2 3     λ1 0 0 0 = = 0 λ2 0 3 1 Q BQ = 3 T  −1 √ 2 Por supuesto, si conocemos solo la matriz simétrica la pregunta es cómo calcular Q. El siguiente resultado muestra que vectores propios correspondientes a valores propios distintos son ortogonales: Proposición 18. Sea B simétrica. Si λ1 , e1 , λ1 , e1 son parejas de valores y vectores propios asociadas a valores propios distintos, entonces e1 y e2 son ortogonales. Demostración. Multipliquemos las ecuaciones Be1 = λ1 , Be2 = λ2 , la primera escalarmente por e2 y la primera por e1 ; al restar se obtiene eT2 Be1 − eT1 Be2 = (λ1 − λ2 )eT2 e1 El lado izquierdo es cero, por simetrı́a, luego si λ1 6= λ2 entonces eT2 e1 = 0. En otras palabras, si B tiene n valores propios distintos Λi , i = 1, 2, . . . , n, entonces la base de vectores propios se obtiene resolviendo los sitemas de ecuaciones Bei = λi ei . 88 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES Ejemplo 1.19–49. Diagonalice la matriz simétrica   3 0 √0 0 4 3 √ 3 6 0 El polinomio caracterı́stico p(λ) = (λ − 3)2 (7 − λ) tiene λ1,3 = 3 como raiz (doble) y λ3 = 7. No es difı́cil ver que para λ3 = 7 el sistema lineal a resolver es      −4 0 √0 0 x      0 −3 y = 0 . 3 √ 0 z 3 −1 0 Claramente la segunda y tercera ecuación son linealmente dependientes ası́ que el sistema a resolver se reduce a −4x = 0 √ −3y + 3z = 0 cuya solución general es tomando z = √  z 0, √ , z 3  3/2 obtenemos un valor propio unitario √ 1 3 ). e3 = (0, , 2 2 Para λ1,2 = 3 el sistema      0 0 √0 0 x     0 1 3 y = 0 . √ 0 z 3 1 0 se reduce a una sola ecuación independiente z y+√ =0 3 cuya solución general depende de dos parámetros, x y z: √ (x, − 3z, z) 1.19. MÁXIMOS Y MÍNIMOS DE FUNCIONES DE VARIAS VARIABLES89 Tomando x = 1, z = 0 obtenemos el vector propio unitario e1 = (1, 0, 0). haciendo x = 0, z = 1 otro vector propio linealmente independiente del primero √ (0, − 3, 1). un vector unitario es √ 3 1 , − ). 2 2 En resumen, la matriz ortogonal que diagonaliza la forma cuadrática es   1 √0 0 Q = 0 23 √12  0 − 12 23 e2 = (0, y se comprueba directamente que QT BQ = diag(3, 3, 7). Observación 16. Aún cuando haya valores propios repetidos, digamos que λk tenga multiplicidad k < n, el sistema lineal (A − λk I)x = 0 tiene rango k, es decir existen k soluciones linealmente independientes. Por el proceso de ortogonalización de Gramm-Scmidt se pueden obtener k vectores propios asociados al mismo valor propio que sean orgogonales entre sı́, (k) (k) (k) e1 , e2 , . . ., ek . Estos vectores propios se completan con el resto hasta completar una base. Definición 19. Una matriz simétrica B se dice: 1. Definida, si para toda x 6= 0; xT Bx 6= 0 2. No negativa, si xT Bx ≥ 0; 90 CAPÍTULO 1. CÁLCULO EN VARIAS VARIABLES 3. Positiva definida, si xT Bx > 0 y xT Bx = 0, solo si, x = 0; 4. Positiva (negativa) semidefinida, si es no negativa (no positiva), y para cada x existe x′ tal que xT Bx′ = 0. El siguiente criterio permite decidir si una forma cuadrática es definda positiva o no. Teorema 18. Una matriz simétrica B es: 1. Definida si y solo si todos los valores propios son distintos de cero. 2. Positiva (negativa) definda si y solo si todos los valores propios son positivos (negativos). 3. Positiva semidefinda si y solo si todos los valores propios son no negativos y al menos uno es cero. Ejemplo 1.19–50. La matriz asociada a la forma cuadrática √ B(x, x) = 2x21 + 2 2x1 x2 + x22 es √   2 2 B= √ 2 1 cuyo polinomio caracterı́stico es p(λ) = λ(λ − 3) de donde los valores propios son λ1 = 0 y λ2 = 3. Se sigue que la forma cuadrática es positiva semidefinida. El lector puede comprobar la matriz √   1 −1 2 Q= √ √ 2 1 3 1.19. MÁXIMOS Y MÍNIMOS DE FUNCIONES DE VARIAS VARIABLES91 reduce la matriz B a su forma diagonal D = QT BQ = diag(0, 3) por lo tanto si en la forma bilineal B(x, x) = xT Qx se efectúa el cambio de variable x = Qy, entonces la forma cuadrática B(x, x) se transforma en la forma cuadática B′ (y, y) = xT Qx(Qy)T Q(Qy) = yT (QT BQ)y = yT Dy = 3y22 . 1.19.2 Aplicación a la determinación de máximos y mı́nimos Nuestro interés en diagonalizar una forma cuadática es que la forma diagonal es tan más simple que se puede determinar el carácter de máximo o mı́nimo. Teorema 19. Sea f : Rn → R una función diferenciable en Br (x0 ) ⊂ Rn que posee diferencial de orden dos en x0 . Sea B la matriz asociada a la forma cuadrática D2 f (x0 ). Entonces 1. Si B es positva definida, entonces x0 es un máximo local. 2. Si B es negativa definida, entonces x0 es un mı́nimo local. 3. Si B es definida, pero no es negativa ni positiva, entonces x0 es un punto silla