B Aplicaciones de Alg Lineal PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 95

Y a m qu

e me importa?
(aplicaciones del
algebra lineal)
con res
umenes de teora
Fernando Chamizo Lorente

Algebra
II, 1o de ingeniera inform
atica
Curso 2008-2009

r
o
L

t e Fe rn
en
a
2008/2009
o z
i

m a h

n
d
o
C

Pr
ologo

Entre las preguntas dinamiteras que se suelen disparar contra las investigaciones y resultados matematicos esta el famoso Y eso para que sirve?.
Los matematicos tampoco ayudamos mucho pues por una parte creemos en
general que las Matematicas son un arte con una justificacion primordialmente estetica, y por otro lado no solemos estar involucrados en sus aplicaciones
reales que consideramos propiedad privada de los ingenieros.
Evidentemente cualquiera con un mediano conocimiento sabe que las aplicaciones estan ah y que las Matematicas viven en objetos cotidianos convenientemente agazapadas para no asustar a las buenas gentes y nuestra era
tecnologica y su paladn el ordenador han multiplicado esa presencia. Por
ejemplo, los codigos correctores de errores en tiempo real empleados en la
reproduccion de un CD se basan en espacios vectoriales y polinomios sobre
Zp ; la criptografa mayoritariamente empleada en las comunicaciones seguras
por la red requiere propiedades de los n
umeros primos y otra cada vez mas
pujante propiedades de las curvas elpticas; en nuestro videojuego favorito lo
que llega a nuestra pantalla proviene de unas transformaciones lineales que
indican la posicion de la camara y el resto de la geometra de la escena; el
metodo por el que las fotos extradas de nuestra maquina fotografica ocupan
tan poco en el ordenador en relacion con su detalle depende del analisis de
Fourier. . . No deberamos saber mas Matematicas? Bajemos de las nubes.
No podemos sugerir a los pacientes que estudien fsica cuantica porque las
resonancias magneticas se basen en el espn, ni tampoco debemos esperar una
correlacion entre la audiencia y las solicitudes de libros de electromagnetismo
porque haya unas ecuaciones en derivadas parciales creadas por Maxwell y
otros que permitan que se vea la television. Con esto llegamos a la pregunta
clave: Y a m que me importa?. Si no eres ingeniero, fsico, informatico
o ciudadano curioso probablemente nada. Sin embargo como estudiante de
informatica al escribir programas mnimamente complejos te encontraras con
problemas que tras un proceso mas o menos arduo de traduccion son ejercicios de las Matematicas que has cursado y dominar esas asignaturas que te
pueden parecer accesorias te dara un poder extraordinario. Ademas siempre
es una inversion segura porque quiza dentro de unos a
nos haya nuevos sistemas operativos, se cambien los protocolos de comunicacion, se hable de la

Web n.0, haya formatos de audio y vdeo totalmente diferentes y tengas que
estudiar muchas cosas de nuevo relegando a la inutilidad parte de los temarios de algunas asignaturas pero, no te preocupes, el teorema de Pitagoras
lleva muchsimos siglos en los libros y sigue siendo extremadamente u
til.
Trataremos de mostrar en las paginas siguientes algunas aplicaciones del
algebra lineal, posiblemente sesgadas, incompletas o inexactas por provenir
de un matematico no aplicado en el sentido que se prefiera, esperando que
sean suficientes para justificar las lneas anteriores. Debido al p
ublico al que
esta dirigido el nivel matematico esta rebajado en perjuicio de los detalles,
se incluye bibliografa para el que quiera conocerlos.

Fernando Chamizo
Departamento de Matematicas
Universidad Autonoma de Madrid
Febrero 2008

Finalmente estos apuntes no suscitaron interes el curso 2007-2008. Nuestro proposito es retomar su redaccion en este.

Fernando Chamizo
Departamento de Matematicas
Universidad Autonoma de Madrid
Febrero 2009

Indice general
I

Aplicaciones

1. Valorando p
aginas
1.1. El modelo basico . . . . . . . .
1.2. Limitaciones teoricas y practicas
1.3. Un algoritmo iterativo . . . . .
1.4. Un modelo revisado . . . . . . .
1.5. Bibliografa . . . . . . . . . . .
2. Une los puntos
2.1. Union exacta . . . . . . . . . .
2.2. Interpolacion de Lagrange . . .
2.3. Splines c
ubicos . . . . . . . . .
2.4. Un ejemplo en mas dimensiones
2.5. Bibliografa . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

3
3
7
8
10
13

.
.
.
.
.

15
16
16
20
25
26

3. No unas los puntos


3.1. La idea general . . . . . . . . . . .
3.2. Curvas de Bezier generales . . . . .
3.3. B-splines c
ubicos . . . . . . . . . .
3.4. Las curvas de Bezier en la practica
3.5. Bibliografa . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

27
28
29
32
36
40

4. Comprobar, corregir y mezclar


4.1. Corrigiendo errores . . . . . .
4.2. Codigos de todos los das . . .
4.3. Reordenar con matrices . . . .
4.4. Ocultar informacion . . . . . .
4.5. Bibliografa . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

41
41
45
49
53
57

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

II

Res
umenes de teora

5. Temario
5.1. Ecuaciones lineales y su resolucion . . . . . . . . . . .

5.2. Algebra
matricial . . . . . . . . . . . . . . . . . . . .
5.3. Espacios vectoriales . . . . . . . . . . . . . . . . . . .
5.4. Bases y dimension . . . . . . . . . . . . . . . . . . .
5.5. Operaciones con espacios vectoriales . . . . . . . . . .
5.6. Rango y cambio de base . . . . . . . . . . . . . . . .
5.7. Determinantes y sus aplicaciones . . . . . . . . . . .
5.8. Diagonalizacion de aplicaciones lineales . . . . . . . .
5.9. Espacios vectoriales eucldeos . . . . . . . . . . . . .
5.10. Vectores y proyecciones ortogonales . . . . . . . . . .
5.11. Aplicaciones ortogonales y aplicaciones autoadjuntas
5.12. Diagonalizacion de formas cuadraticas . . . . . . . .

59
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

61
63
66
68
71
73
74
76
78
81
83
85
87

Parte I
Aplicaciones

n 1
Aplicacio
Valorando p
aginas
La popularizacion de la red ha estado ligada al propio desarrollo de la
empresa Google y de su producto estrella, el motor de b
usqueda conocido
bajo el mismo nombre. Hay una gran diferencia para empresas y particulares
entre que su pagina este en los primeros lugares al buscar un termino com
un
o que aparezca en la pletora de paginas que nadie mira. Probablemente el
funcionamiento preciso del motor de b
usqueda o incluso el detalle de como
ordena las paginas es un secreto celosamente guardado, pero el algoritmo
basico usado en Google Directory que asigna la importancia de cada pagina
para su ordenacion en el proceso de b
usqueda es p
ublico y constituye una idea
sencilla, desafortunadamente patentada, para cualquiera que sepa algebra
lineal. Seg
un Google este algoritmo es el corazon de su motor de b
usqueda.

1.1.

El modelo b
asico

El objetivo es asignar a cada pagina un n


umero positivo, una puntuacion,
que indica su importancia. Al igual que se puede puntuar sobre 10, sobre 30
o sobre 100, estos n
umeros solo tienen valor relativo: una pagina con un 2,4
es el doble de importante que otra puntuada con un 1,2. Saber esto es suficiente para ordenarlas aunque no especifiquemos donde esta la Matrcula de
Honor. Con una vision posiblemente muy simplista, Google tiene gigantescos
ndices de paginas y cuando buscamos un termino los consulta resultando
una infinidad de ellas. Para que el buscador sirva de algo hay que establecer una jerarqua de paginas y mostrar en primer lugar las importantes. Es
ah donde radica la potencia del buscador, si al introducir un termino nos
3

diera una seleccion al azar de las paginas que lo contienen, sera bastante
in
util. La puntuacion de cada pagina se debe guardar en una gran base de
datos que hay que consultar en las b
usquedas y actualizar de vez en cuando.
Una pagina con muchos enlaces apuntando a ella seguramente es muy
importante pero esta idea necesita precisarse si queremos tener relaciones
cuantitativas. Por un lado no es lo mismo que haya un enlace a tu pagina
desde la de Microsoft que desde la de tu primo (si no se apellida Gates)
as que la importancia debe transmitirse por los enlaces. Por otra parte si en
una pagina importante, por ejemplo un portal muy visitado, hay enlaces a
mil paginas de usuarios, no es justo que estas hereden toda la importancia
del portal, a fin de cuentas como cada pagina es una entre mil, solo debiera
heredar la milesima parte de la importancia del portal.
Matematicamente formulamos el modelo diciendo que la importancia de
cada pagina es la suma ponderada de las importancias de las paginas que
apuntan a ella, donde ponderada significa que debemos dividir estas importancias entre el n
umero de enlaces salientes. El modelo refleja lo que ocurrira
si uno navegase siguiendo enlaces al azar (en Matematicas a esto se le llama
una cadena de Markov ), la importancia convenientemente normalizada sera
el porcentaje de visitas.
Veamos un ejemplo muy simplificado de una red con solo tres paginas que
aclare el torrente de palabras anterior. Indicaremos las paginas con puntos y
los enlaces con flechas (en Matematica Discreta de 2o se dira que esto es un
grafo dirigido).
1

x1
x2
x3

= importancia de la pagina 1
= importancia de la pagina 2
= importancia de la pagina 3

Seg
un nuestro modelo x1 = x2 /2 + x3 , la importancia de x2 cuenta la mitad
porque se reparte entre dos paginas; x2 = x1 porque desde 1 solo se puede
llegar a 2 y es la u
nica forma de hacerlo, si nos obligan a navegar siempre
que visitemos 1 tambien visitaremos 2; finalmente x3 = x2 /2 porque a 3 solo
llega media importancia de x2 , un enlace de dos.
Si pensamos un poco antes de hacer nada, solo mirando al esquema nos
daremos cuenta de que x3 es menos importante que las otras. Ahora con lapiz
4

y papel resolvamos el sistema, obteniendo

x1 = x2 /2 + x3
x2 = x1
=

x3 = x2 /2

x1 = 2t
x2 = 2t
x3 = t

Es normal que salgan infinitas soluciones? S, porque ya hemos explicado


que la importancia solo tiene un valor relativo. Podemos decir que las importancias son (x1 , x2 , x3 ) = (2, 2, 1) o (1, 1, 0,5) o (20, 20, 10) dependiendo
de sobre cuanto puntuemos y eso es irrelevante para la ordenacion.
Otro ejemplo podra ser una red central donde todos los nodos necesitan
pasar por uno especial para comunicarse. Intuitivamente ese nodo es tan
importante como todos los otros juntos porque sin el no habra ninguna
comunicacion. El esquema, el sistema y su solucion cuando hay 3 nodos
satelites son los siguientes:
1

4
3

x1
x2
x3
x4

= x4 /3
= x4 /3
x = x2 = x3 = t
= 1
= x4 /3
x4 = 3t
= x1 + x2 + x3

Seg
un lo que caba esperar cada nodo satelite importa la tercera parte que
el nodo central.
Ya que sabemos el truco, ejerzamos de cientficos (o de SMSianos) empleando un poco de lenguaje sintetico. Un momento de reflexion nos permite
deducir que los sistemas que tenemos que resolver son de la forma ~x = A~x
donde A MN N (R) es la matriz que tiene como columna j el vector de
probabilidades de ir a los otros nodos: sus coordenadas son 0 o 1/no enlaces
desde j. El modelo nos sugiere que hay infinitas soluciones, entonces supongamos que nos podemos permitir xN = 1. El nuevo sistema sera ~y = B~y + ~v
donde B es el primer bloque N 1 N 1 de A y ~v son las N 1 primeras coordenadas de la u
ltima columna. El sistema de ecuaciones lineales a
resolver es por tanto (I B)~y = ~v .
Como aspirantes a informaticos deberamos ser capaces de escribir un
programa que haga el trabajo por nosotros. Afortunadamente no tendremos
que teclear y depurar lneas de codigo en C o en Java, o buscar bibliotecas,
5

si disponemos de alguno de los paquetes matematicos que resuelven sistemas


lineales, como Maple o Matlab, que estan en algunas aulas de informatica. Los
linuxeros taca
nos podemos emplear para esto Octave como clon de Matlab.
El siguiente codigo funciona en ambos, basta escribirlo en un fichero de texto
fichero.m y despues teclear en la consola de Octave o Matlab fichero para
tener la solucion del u
ltimo ejemplo:
% Matriz de probabilidades
A=
[0,0,0,1/3
0,0,0,1/3
0,0,0,1/3
1,1,1,0];
N=length(A); % Tama~
no de la matriz
B=A(1:N-1,1:N-1); % Se queda con la submatriz N-1xN-1
v=A(1:N-1,N:N); % Toma la
ultima columna como vector
x=[ (eye(N-1)-B)\v;1] % Resuelve el sistema (I-B)x=v y a~
nade x_N=1

Modificando la definicion de la matriz A se puede jugar con redes mas


complejas. Por ejemplo, para la mara
na
1
6
2
8

5
4

la matriz A y la solucion son

0
0 1/3 1/3 0
0 0 0
1/4 0
0
0
0
0 0 0

0 1/2 0
0
0
0 0 0

0
0 1/3 0 1/2 0 0 1

A=
0
0
0
0 1/2 0 0
0

1/4 1/2 0 1/3 0


0 0 0

1/4 0
0 1/3 1/2 1/2 0 0
1/4 0
1/3
0
0
0 1 0

0,400000
0,100000

0,050000

1,150000

.
~x =

0,266667
0,533333

0,883333
1,000000

Es decir, que de acuerdo con su importancia las paginas vienen ordenadas


como 3 < 2 < 5 < 1 < 6 < 7 < 8 < 4. Notese que no es la que recibe mas
enlaces. Por otro lado, la pagina 1 no esta en el u
ltimo puesto porque recibe
un poderoso enlace de la 4, la pagina mas importante.
6

1.2.

Limitaciones te
oricas y pr
acticas

Hemos hecho unos ejemplos con unos pocos nodos y un programilla. Se


puede escalar y generalizar el procedimiento o es una simplificacion ilusoria? Analicemos las dificultades teoricas y practicas que presenta el modelo.
Respecto a las primeras hay configuraciones especiales problematicas. Por
ejemplo las dos siguientes:
4

Si escribimos las matrices de estas dos configuraciones y las introducimos


en nuestro programa Octave o Matlab nos diran nanay, eso s con refinadas
formas inglesas e incluso despues del aviso nos pueden dar un sustituto de
solucion por si queremos arriesgarnos. Que sucede? En el primer caso el
espacio de soluciones depende de dos parametros x1 = x2 = t, x3 = x4 =
u; esto es logico porque los bloques 1-2 y 3-4 no tienen nada en com
un,
no se pueden comparar, no hay criterio com
un que podamos aplicar para
juzgarlos relativamente. El segundo caso es mas sutil: al conectar los dos
bloques la mitad de la importancia de 4 se fuga al otro bloque y 3 recibe
la otra mitad, pero por otra parte toda la importancia de 3 va a 4, esto
lleva a una contradiccion excepto si 3 y 4 tienen importancia cero, lo cual
parece extra
no y ademas contradice la suposicion x4 = 1 que empleamos en
el programa.
Inferimos que habra problemas siempre que dadas dos paginas no podamos ir de una de ellas a la otra navegando por la red (se dice que el grafo
dirigido no es fuertemente conexo). En el primer diagrama era imposible ir
de 4 a 1 perdiendo con ello la valoracion relativa mientras que en el segundo
era imposible ir de 1 a 4 lo que implicaba un deficit de importancia en el
bloque 3-4 que llevaba a cero. Si nos aferramos al modelo, ninguna de estas configuraciones es intrnsecamente conflictiva, u
nicamente choca con las
hipotesis que hemos hecho implcitamente al escribir nuestro programa. A
saber, que el primer bloque N 1 N 1 de I A es invertible.

Ocupemonos ahora de las limitaciones puramente practicas. Seg


un los libros de calculo numerico o un simple analisis cuidadoso, aplicar eliminacion
de Gauss para N variables requiere del orden de 2N 3 /3 operaciones. Si consideramos que hay 8 109 paginas web (se ha dicho que estas eran las visibles
por Google en 2004, seg
un sus propios informes ya se han triplicado) y trabajamos en el PC de casa que en condiciones ideales es capaz de hacer 3 109
operaciones por segundo (el sistema operativo y el compilador o el interprete ya se encargan de reducir este n
umero), la solucion tardara en aparecer
1,14 1020 segundos, que son unos cuantos billones de a
nos, mas que la edad
estimada del universo. A modo de ilustracion del alcance de nuestro programa, cambiemos la primera lnea por N=20000; A=rand(N); que genera una
matriz aleatoria N N o quiza tomemos N un poco mayor dependiendo de
la capacidad de nuestro ordenador. De nuevo nos dira que nones. Todava
peor, para N del orden de unos miles el ordenador empezara a calcular y
el programa acabara en un error fatal con sus capacidades excedidas. Las
dificultades practicas se tornan entonces muy serias si lo mas que podemos
dise
nar es un motor de b
usqueda para una red con unos pocos miles de paginas. Eso se quedara muy corto incluso solo para buscar en el sitio web de la
UAM.

1.3.

Un algoritmo iterativo

Si con todas estas dificultades Google funciona, donde esta el truco?


Consideremos el primero de los ejemplos estudiados, la red de tres paginas
cuya matriz A tiene a12 = a32 = 1/2, a21 = a13 = 1 y el resto de las
componentes nulas. Elijamos al azar un vector
de importancia ~x, para ser
originales digamos x1 = , x2 = e, x1 = 10. Si calculamos ~x1 = A~x,
~x2 = A~x1 , ~x3 = A~x2 ,. . . se obtiene

4,2994
3,1519
3,7205
3,6071
~x1 = 3,1416 , ~x2 = 4,2994 , ~x3 = 3,1519 , . . . ~x15 = 3,6160
1,5811
1,5708
2,1497
1,7990
y esto se acerca mucho a un vector de importancia valido que resuelve el
sistema ~x = A~x, dividiendo entre la u
ltima coordenada obtenemos algo muy
parecido a (2, 2, 1). Es una casualidad? Procedemos de la misma forma con
la matriz de la mara
na y para no cansarnos calculando escribimos unas lneas
con un peque
no bucle partiendo por ejemplo del vector con todo unos. Ya
8

puestos con las manos al teclado podemos normalizar el resultado para que
la u
ltima coordenada sea uno y comparar con el resultado exacto.
% Matriz de probabilidades
A=[
0/4,0/2,1/3,1/3,0/2,0/2,0/1,0/1; 1/4,0/2,0/3,0/3,0/2,0/2,0/1,0/1;
0/4,1/2,0/3,0/3,0/2,0/2,0/1,0/1; 0/4,0/2,1/3,0/3,1/2,0/2,0/1,1/1;
0/4,0/2,0/3,0/3,0/2,1/2,0/1,0/1; 1/4,1/2,0/3,1/3,0/2,0/2,0/1,0/1;
1/4,0/2,0/3,1/3,1/2,1/2,0/1,0/1; 1/4,0/2,1/3,0/3,0/2,0/2,1/1,0/1;
];
niter=15; %n
umero de iteraciones
x=ones(length(A),1); %todo unos
for n=1:niter %Bucle
x=A*x;
endfor
x/x(length(A)) %divide entre la
ultima coordenada

Con las 15 iteraciones elegidas la maxima diferencia de las coordenadas del


valor exacto es 0,000615, un n
umero despreciable porque no cambia la ordenacion relativa.
No todo son noticias tan buenas. Si partimos por ejemplo de x1 = 4,
x2 = 3, x3 = 2, x4 = 1 en las dos configuraciones especiales antes se
naladas
el resultado es oscilante y no lleva a soluciones:




4
3
6
4
3
4
4
6


~xpar =
y
~xpar
2 , ~ximpar = 1
0 , ~ximpar 0 .
1
2
0
0
Se pueden buscar otros ejemplos raros oscilantes con periodos mas grandes.
Parece entonces que excepto en casos patologicos la sucesion ~xn = A~xn1
converge a una solucion de ~x = A~x. La palabra magica suena a analisis y
el profesor de esa asignatura te dira que si supones que la sucesion converge
a algo, digamos ~l = lm ~xn entonces tomando lmites obtendras ~l = A~l, es
decir, que ese algo es una solucion.
Usando la teora de autovalores y autovectores que veremos en este curso,
se infiere que en cierto sentido la situacion habitual debera ser la convergencia. Experimentando un poco se observa que para redes suficientemente
interconectadas este es de hecho el caso.
Revisemos ahora nuestras estimaciones del n
umero de operaciones. Si
9
hay 8 10 paginas y cada una tiene en promedio, digamos, 10 enlaces A~x
requerira 8 1010 operaciones que es el n
umero de componentes no nulas de
un los informes Google hace entre 50 y 100)
A. Si hacemos 80 iteraciones (seg
9

tenemos 6,4 1012 operaciones que en el ordenador de nuestra casa requieren


en condiciones optimas menos de cuarenta minutos. Ademas el proceso es
facilmente susceptible de computacion distribuida y con 3000 ordenadores (y
Google tiene mas) reduciramos en principio el tiempo a una cantidad menor
que un segundo. Por supuesto no hay que tomar en serio estos n
umeros
porque el tiempo de acceso a bases de datos y otras cosas son la parte del
leon que estamos despreciando, se pretende mostrar u
nicamente que esta
parte del proceso ya no es una barrera infranqueable. Seg
un los informes,
Google tarda algunos das en hacer el calculo y se dice que recalcula el vector
de importancias una vez al mes.

1.4.

Un modelo revisado

Tenemos un modelo matematico razonable y un algoritmo pero desafortunadamente no podemos afirmar con seguridad que funciones correctamente
para el mapa de todas las webs y la eficiencia del algoritmo esta extrapolada
de lo que ocurre con algunos ejemplos demasiado simples. Podramos cerrar
los ojos y aplicarlo igualmente o utilizar alg
un truco como promediar los resultados para eliminar oscilaciones (notese que en los dos contraejemplos los
promedios dan soluciones). Google no toma ese riesgo y modifica levemente el modelo haciendolo un poco menos realista para estar en situacion de
asegurarse el exito gracias a un resultado matematico y de paso tener cierto
control sobre la eficiencia.
El resultado matematico es un teorema de O. Perron y data de 1907
(quiza entonces le dijeron y eso para que sirve?). Traducido a nuestro lenguaje implica como caso particular que si A es una matriz cuyas columnas
son vectores con coordenadas estrictamente positivas y de suma uno, entonces ~xn = A~xn1 converge para cualquier vector inicial (positivo). Ya hemos
se
nalado que la convergencia implica que la sucesion tiende a la solucion
buscada de ~x = A~x.
A primera vista el teorema parece poco aplicable porque en nuestro caso
la matriz A esta tpicamente llena de ceros y eso era fundamental para que
los calculos fueran posibles en un tiempo razonable. La solucion pasa por un
cambio del modelo suponiendo que cierto porcentaje peque
no de veces nos
cansamos y en vez de seguir la lnea de enlaces saltamos a una pagina al
azar (que puede ser incluso la propia de partida). Esto no suena mal aunque
en rigor es poco realista que saltemos a paginas desconocidas. Tomemos por
10

ejemplo la primera configuracion conflictiva. Con el modelo modificado es


como si hubieran aparecido enlaces debiles nuevos.
4

Si suponemos arbitrariamente que la relacion entre las probabilidades de un


enlace debil y de uno normal es del 10 % al 90 %, la nueva matriz sera el 90 %
de la anterior y el 10 % restante de probabilidad se reparte entre los 4 enlaces
debiles que salen de cada pagina, uno por pagina (algunos se superponen con
los existentes). El cambio de matriz es entonces
0,1/4 0,9+0,1/4 0,1/4
!

0,1/4
0 1 0 0
0,1/4
0,1/4
e = 0,9+0,1/4 0,1/4
A= 1000
A
.
0 0 0 1
0 0 1 0

0,1/4
0,1/4

0,1/4
0,1/4

0,1/4 0,9+0,1/4
0,9+0,1/4 0,1/4

El metodo iterativo ~xn = A~xn1 ahora converge sin problemas a una solucion
ex que es el objetivo del nuevo modelo. Como A y A
e son parecidas
de ~x = A~
es de esperar que las soluciones de ambos modelos se parezcan.
Escribamoslo en general. Si U es una matriz N N con uij = 1 lo que
hemos hecho es aplicar la formula
e = cA + 1 c U
A
N

con 0 < c < 1,

donde en el caso anterior c = 0,9. La relacion de recurrencia ~xn = A~xn1


se traduce en ~xn = cA~xn1 + (1 c)sn1~u/N donde sn1 es la suma de las
coordenadas de ~xn1 y ~u es el vector con todas sus componentes 1. Es un
ejercicio comprobar que dicha suma es independiente de n. Entonces si s0
es la suma de las componentes del vector inicial, el proceso iterativo con el
nuevo modelo es
1c
~xn = cA~xn1 +
s0~u.
N
Con esta formulacion el n
umero de operaciones es practicamente igual al del
primer modelo.
El u
nico cabo suelto es que valor elegir para c. Se puede probar matematicamente que la rapidez de convergencia se acelera si c se aleja de uno pero
11

por otra parte el nuevo modelo se parecera mas al original cuanto mas cercano este c a uno. Como solucion de compromiso los creadores de Google
tomaron c = 0,85. Si alg
un da decidieran tomar por ejemplo c = 0,92 para hacer el modelo mas realista, argumentos con autovalores y autovectores
sugieren que el n
umero de iteraciones debera duplicarse para conseguir la
misma precision.
Respecto al vector inicial, sin informacion adicional lo mas razonable es
tomar un m
ultiplo de ~u. Probablemente en la practica se emplea el resultado
de la anterior actualizacion porque lo mas posible es que las importancias de
la mayora de las paginas no sufran cambios repentinos.
Modificando los aleda
nos del bucle del u
ltimo programa a:
c=0.85;
for n=1:niter %Bucle
x=c*A*x+(1-c);
endfor

se puede utilizar para el segundo modelo, obteniendose un vector de importancias (con niter = 15) cuyas coordenadas son x1 = 0,45779, x2 = 0,18673,
x3 = 0,16880, x4 = 1,13119, x5 = 0,33876, x6 = 0,58660, x7 = 0,90052.
x8 = 1,00000, lo cual no esta muy lejos de la solucion hallada para el primer
modelo.
Para mostrar fehacientemente que todo esto no son entelequias teoricas,
incluimos un codigo en C que permite llevar a cabo el algoritmo en una red
creada aleatoriamente con N = 106 paginas y E = 10 enlaces salientes de
cada una de ellas. Un buen reto para el lector es crear un programa eficiente
que permita tratar el caso en el que n
umero de enlaces no este fijado de
antemano.
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#define
#define
#define
#define

N 1000000
E 10
ITER 80
C 0.85

void redalea(unsigned int *ind){


int i=N*E;
while(i--)
*(ind++)=(rand()%N);
}

12

void inicia(double *x,double r){


int i=N;
while(i--)
*(x++)=r;
}
int main(){
unsigned int ind[N*E]; /* matriz de
ndices */
double x[N]; /* vector de importancia */
double xn[N]; /* nuevo vector de importancia */
int i,j,k; /* auxiliares */
unsigned int t=time(NULL); /* tiempo */
srand(t);
redalea(ind); /* Crea red aleatoria */
inicia(x,1.0/N); /* x=1/N */
for(k=0; k<ITER; ++k){ /* Bucle principal */
printf("iteraciones=%d, tiempo=%d\n",k, time(NULL)-t);
inicia(xn,(1.0-C)/N); /* xn=(1-C)/N */
for(i=0;i<N;++i) /* bucle c
alculo de matriz por x */
for(j=0;j<E;++j)
xn[ind[i*E+j]]+=C*x[i]/E;
for(i=0;i<N;++i) /* copia el resultado a x */
x[i]=xn[i];
}
return 0;
}

Notese que no se almacena la matriz A sino la lista de las posiciones de


los elementos no nulos. Probando el programa en un ordenador normal y
corriente, tardo 70 segundos en realizar las 80 iteraciones para conseguir una
aproximacion del millon de coordenadas del vector de importancias.

Nota: Para saber mas se recomienda especialmente la lectura del artculo


[Fe] que obtuvo un premio de divulgacion de la Real Sociedad Matematica
Espa
nola. [Br-Pa] es el artculo original de los creadores de Google.

1.5.

Bibliografa

[Fe] P. Fernandez Gallardo. El secreto de Google y el Algebra


lineal. Boletn
de la Sociedad Espa
nola de Matematica Aplicada 30 (2004), 115-141.
Disponible en www.uam.es/pablo.fernandez donde tambien hay una
version en ingles mas concisa.
13

[Au] D. Austin. How Google Finds Your Needle in the Webs Haystack. Feature Column Archive, December 2006. American Mathematical Society.
En www.ams.org/featurecolumn/archive/pagerank.html
[Br-Le] K. Bryan, T. Leise. The $25, 000, 000, 000 eigenvector: the linear algebra
behind Google. SIAM Rev. 48 (2006), no. 3, 569581. Disponible en
www.rose-hulman.edu/$\sim$bryan/google.html
[Br-Pa] S. Brin, L. Page. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems 33, 107-17, 1998.
Disponible en infolab.stanford.edu/pub/papers/google.pdf

14

n 2
Aplicacio
Une los puntos
Muchas veces uno se ve forzado a inventar datos de los que carece y
no necesariamente para enga
nar. Por ejemplo, la inflacion, las ganancias de
una empresa, la altura de nuestro sobrino, las representamos como una lnea
continua, cuando es obvio que hemos tomado una cantidad discreta y peque
na
de datos. El dibujo de unos pocos puntos sera menos interpretable para
nosotros pues no dara una idea tan clara de la evolucion.

Otro ejemplo es que si en un programita grafico queremos que nuestro


monigote pase por los puntos A, B, C, D y E, para crear automaticamente
una animacion suave tendra que inventar todos los fotogramas intermedios.
Una variacion de ello son los programas de dise
no grafico. Los mas sencillos
editores vectoriales (como Xfig) tienen opciones para crear curvas ajustandolas a puntos fijos o modificables estirando unos puntos de control, otros mas
complicados de modelado tridimensional (como Blender) permiten trabajar
con superficies dando impresionantes resultados. Incluso algo tan basico como
ampliar una imagen de tama
no x y a tama
no x0 y 0 requiere inventar pixels
que no tenemos: en otro caso quedaran sustituidos por unos feos agujeros.
15

En una herramienta como GIMP al reescalar se admiten varias opciones de


calidad con nombres tan misteriosos como interpolacion lineal o interpolacion
c
ubica. Todo ello cobrara sentido en este captulo y en el proximo.

2.1.

Uni
on exacta

Basicamente en las diferentes situaciones hay dos posibilidades: buscar


una curva suave que pase exactamente por los puntos seleccionados o buscar
una que solo pase cerca. La segunda posibilidad parece imperfecta pero posiblemente es la que mas veces se emplea en las aplicaciones. En este captulo
nos ocuparemos de la primera describiendo un par de metodos (el segundo
es el bueno) sin entretenernos en optimizar los algoritmos ni en profundizar
en propiedades teoricas interesantes (vease [Ki-Ch] y [St-Bu]).
Dados n + 1 puntos Pi = (xi , yi ), 0 i n, el problema general que nos
planteamos es encontrar una curva : [0, 1] R2 , (t) = (x(t), y(t)) que
pase por el punto Pi cuando t = ti . Para simplificar supondremos que los ti ,
llamados nodos son ti = i/n, esto se lo que se llama interpolaci
on uniforme.
En la practica a veces es conveniente romper esta hipotesis y trabajar con
una distribucion de nodos no uniforme a cambio de admitir dificultades en
la programacion. Por ejemplo, si n = 4 y P2 y P3 estan muy cercanos parece
[
que dedicar 1/4 del tiempo al arco P
a ridculo usar
2 P3 es un derroche y ser
(t) como trayectoria de una animacion.
Sin embargo si quisieramos hacerlo bien tendramos que entrar en consideraciones acerca de la longitud de la curva, o examinar si en el punto hay
mucha curvatura y quiza decidir eliminarlo. Como introducir estos conceptos
matematicos de longitud y curvatura en un programa? Como se generalizaran estas ideas al caso tridimensional (tan importante por las pelculas de
animacion y los videojuegos)? Las respuestas no son obvias [Bus], [Ha-St].

2.2.

Interpolaci
on de Lagrange

El primer metodo (poco usado para un n


umero grande de nodos) busca
x(t) e y(t) dentro de Rn [t], el espacio vectorial de los polinomios reales de
grado menor o igual que n. Consideremos los polinomios de Lagrange de este
16

espacio asociados a los nodos definidos como


Lj (t) =

Y t tk
tj tk
k6=j

para 0 j n. Lo que tienen de particular es la sencilla propiedad


(
1 si i = j
(2.1)
Lj (ti ) =
0 si i 6= j
que prueba casi inmediatamente que B = {L0 (t), . . . , Ln (t)} es base de Rn [t]
ya que 0 L0 (t) + + n Ln (t) = 0 conduce a i = 0 al sustituir t = ti , con
lo cual tenemos n + 1 vectores linealmente independientes en un espacio de
dimension n + 1.
La propiedad (2.1) asegura que la coordenada i-esima de un polinomio
de Rn [t] en la base B es justamente su valor en t = ti . Releyendo esto con
cuidado el n
umero de veces que sea necesario, se tiene que la solucion a
nuestro problema es

x(t) = x0 L0 (t) + x1 L1 (t) + + xn Ln (t)


y(t) = y0 L0 (t) + y1 L1 (t) + + yn Ln (t)
Para ver el resultado graficamente creemos el (o la?) siguiente applet en
Java1 que realiza la interpolacion de Lagrange de unos puntos que podemos
mover con el raton. La constante (por que en Java no hay constantes?) que
indica el n
umero de puntos a interpolar es N.
import java.awt.*;
import java.applet.Applet;
public class Lagrange extends Applet {
Point[] puntos;
//Puntos de interpolaci
on
int pcurso;
// N
umero del punto en curso
Image lienzo;
Graphics grafico;
// Constantes
static final int N = 5; // N
umero de puntos
static final int R = 8; // Radio de los puntos
public void init() {
puntos = new Point[N];
pcurso = N; // Desactiva el punto en curso
// Equidistribuye
for(int i=1;i < N+1;++i)
puntos[i-1] = new Point(i*(int)(size().width/(double)(N+1)),

Los fans de Java sabran que algunas de las funciones empleadas estan anticuadas o
mal vistas (deprecated ) pero ellos las corregiran facilmente, y si se dan prisa antes de que
las modernas se queden tambien anticuadas.

17

(int)(size().height/2));
// Crea imagen ajustada al tama~
no especificado en
lienzo = createImage(size().width,size().height);
grafico = lienzo.getGraphics();

<APPLET>

}
// Calcula el valor del polinomio de Lagrange j-
esimo
private double lagr(int i, double t){
double pr=1.0;
for(int j=0; j < N; ++j)
if(j != i) pr*=(t*(N-1.0)-j)/(i-j);
return pr;
}
public void paint(Graphics g) {
// Pinta el segmento (px,py), (qx,qy)
double qx=puntos[0].x, qy=puntos[0].y, px, py;
// Rellena de blanco
grafico.setColor(Color.white);
grafico.fillRect(0,0,size().width,size().height);
grafico.setColor(Color.black);
// Dibuja los puntos
for(int i=0;i < N;++i)
grafico.fillOval(puntos[i].x-R/2,puntos[i].y-R/2,R,R);
// Los interpola
for(double t=0.0; t<=1.0; t+=0.01){
// nuevo-> antiguo
px=qx; py=qy; qx=0.0; qy=0.0;
// Calcula nuevo
for(int i=0; i<N; ++i){
qx+=(double)(puntos[i].x)*lagr(i,t);
qy+=(double)(puntos[i].y)*lagr(i,t);
}
grafico.drawLine((int)(px-.5),(int)(py-.5),(int)(qx-.5),(int)(qy-.5));
}
grafico.drawLine((int)qx,(int)qy,puntos[N-1].x,puntos[N-1].y);
g.drawImage(lienzo,0,0,this); // Al lienzo
}
public void update(Graphics g) {
paint(g);
}

public boolean mouseDown(Event evt, int x, int y) {


Point p = new Point(x,y);
for(int i=0;i < N;++i)
if( Math.abs(p.x-puntos[i].x) + Math.abs(p.y-puntos[i].y) < R )
pcurso=i; // punto i en curso
return true;
}
public boolean mouseDrag(Event evt, int x, int y) {
if(pcurso < N) { // Si hay un punto activado
puntos[pcurso].move(x,y);
repaint(); // actualiza
}
return true;
}
public boolean mouseUp(Event evt, int x, int y) {
pcurso = N; // Suelta punto
return true;
}
}

Con el programa tal como esta, con N = 5 las cosas van relativamente
bien:
18

Puestos a quejarnos, en la u
ltima figura no hay razon aparente para continuar la primera ondulacion tan arriba y las dos u
ltimas ondulaciones parecen
un poco superfluas.
Las deficiencias intolerables se muestran inequvocamente cuando el n
umero de puntos crece. Por ejemplo si modificamos el programa anterior escribiendo N = 15 al separar ligersimamente el punto central de la altura inicial
com
un a todos los puntos se obtiene la figura de la izquierda.

Menos drastica pero aun as insostenible es la situacion representada en


la figura derecha en la que una elevacion del segundo punto de interpolacion
provoca una ondulacion desmesurada al comienzo y otra menor inexplicable y
superflua al final. Si a un ni
no le hubieramos pedido que uniera los puntos con
un trazo, no habra producido esas ondulaciones innecesarias tan acusadas.
Con mala idea y Matematicas se pueden encontrar funciones normalitas
tales que cuantos mas puntos de su grafica interpolemos con este metodo,
peor sea la aproximacion de la funcion. Esta situacion problematica y extra
na
(mas experimentos peores resultados?) se llama fenomeno de Runge (vease
en [Ki-Ch] 6 lo sutil de la situacion).
Una alternativa es agrupar los puntos de interpolacion en grupos peque
nos, digamos de tres en tres o de cuatro en cuatro y emplear en cada
19

trozo la interpolacion de Lagrange, pero el resultado tendra en general unas


feas esquinas. El u
nico caso empleado en la practica es el que corresponde
a tomar los nodos de dos en dos y por tanto polinomios lineales, llamado
interpolaci
on lineal. El resultado es un grafico como el de la fiebre de los
enfermos (al menos en los dibujos animados).

2.3.

Splines c
ubicos

Antes de la llegada de los programas de dise


no grafico, la palabra spline
era la denominacion en ingles de una plantilla ajustable para trazar curvas,
sin embargo a da de hoy el significado predominante es el de un artificio
matematico ampliamente usado en multitud de areas de la ingeniera.
El objetivo es solventar la aparicion de esquinas en la interpolacion a
trozos, donde cada trozo es un polinomio c
ubico, para ello se pide que las
funciones tengan derivadas continuas. Para ser mas academico, lo que se exige
es que x(t) e y(t) pertenezcan al espacio vectorial de splines c
ubicos definido
como

V = f : [0, 1] R tal que f , f 0 son continuas y f [ti ,ti+1 ] R3 [t]

donde f I significa el trozo de f definido en el intervalo I.


Un teorema matematico asegura que entre todas las funciones de V usadas
para interpolar, la que en alg
un sentido (que no indicamos) se curva menos es
la u
nica que cumple ademas que f 00 es continua y que f 00 (0) = f 00 (1) = 0. En
[Lo] hay un enunciado preciso del teorema y una demostracion asequible en
este curso. Lo que nosotros veremos aqu es que estas condiciones analticas
se traducen en un sistema lineal y una vez un problema ingenieril nos lleva
la territorio del algebra lineal.
Si f como antes interpola las coordenadas yi , 0 i n de los puntos Pi ,
definamos los polinomios de R3 [t], Qi (t) = f [ti ,ti+1 ] , 0 i < n. Para dar un
tratamiento uniforme a todos ellos, estiramos [ti , ti+1 ] con un
cambio lineal
a [0, 1], matematicamente consideramos Si (t) = Qi (t + i)/n , de este modo
Si (0) = Qi (ti ) = yi y Si (1) = Qi (ti+1 ) = yi+1 . Digamos que
(2.2)

Si (t) = si1 t3 + si2 t2 + si3 t + si4 R3 [t].

Nuestro objetivo es hallar los coeficientes sij . Para ello debemos utilizar las
propiedades antes citadas de f . En primer lugar, como interpola los yi , ya
20

hemos mencionado que Si (0) = yi y Si (1) = yi+1 , lo que se traduce en las


ecuaciones:
(2.3)
(2.4)

si4 = yi
si1 + si2 + si3 + si4 = yi+1

para 0 i < n. Por otra parte en cada uno de los nodos interiores, 0 < i < n,
se tiene que cumplir que las primeras y segundas derivadas son continuas y
por tanto su calculo por la derecha y por la izquierda debe coincidir. Es decir,
0
00
Si1
(1) = Si0 (0) y Si1
(1) = Si00 (0) que en ecuaciones lineales es
(2.5)
(2.6)

3si1 1 + 2si1 2 + si1 3 = si3


6si1 1 + 2si1 2 = 2si2 .

00
Por u
ltimo imponemos S000 (0) = Sn1
(1) = 0 que se escribe como

(2.7)
(2.8)

2s02 = 0
6sn1 1 + 2sn1 2 = 0.

Tenemos que resolver el complejo sistema (2.3)(2.8) donde los sij son las
incognitas y las yi son los datos conocidos. Parece muy difcil pero no lo es
tanto con una organizacion ingeniosa. Definamos Di = f 0 (ti ), entonces cualquiera de los dos miembros de (2.5) es Di , en particular si3 = Di . Restando
(2.4) y (2.3) se sigue si1 + si2 + si3 = yi+1 yi , y por otra parte Di+1 + Di =
(3si1 + 2si2 + si3 ) + si3 , por consiguiente si1 = Di+1 + Di 2(yi+1 yi ). De
forma similar se obtiene si2 . En definitiva, si hallamos Di tendremos resuelto
el sistema con

si1 = Di+1 + Di 2(yi+1 yi ),


si3 = Di
(2.9)
si2 = Di+1 2Di + 3(yi+1 yi ),
si4 = yi .
Nos falta una ecuacion para despejar Di y la u
nica de las ecuaciones generales
(2.3)(2.6) que no hemos empleado es (2.6). Sustituyendo en ella (2.9) se sigue
Di1 + 4Di + Di+1 = 3(yi+1 yi ),
valido para 0 < i < n, mientras que en los nodos extremos se ve modificada
21

ligeramente por (2.7) y (2.8). Lo que resulta es en notacion matricial:

..
D0
y1 y0
2
1
0
0
.

y2 y0

..

D1
1
4
1
0
.
y3 y1

D2

..

0
y

y
D
1
4
1
.
2 .

3 = 3 4

..
.
..
.. . . . . ..

.
.
. . ..
.
.

yn yn2
. . . 0
1 4 1 Dn1
yn yn1
Dn
... ... 0 1 2
Despues a partir de los Di se pueden construir los polinomios Si (t) sustituyendo en (2.9) y en la definicion (2.2). En resumidas cuentas, aunque la
deduccion teorica ha sido un poco larga e incompleta, en la practica la interpolacion con splines c
ubicos se reduce a resolver un sistema con una matriz
tridiagonal, computacionalmente muy sencillo [St-Bu], y a hacer unas sustituciones.
Con el siguiente codigo Matlab u Octave2 definimos una funcion que realiza el proceso y eval
ua f en param. Hemos empleado practicamente la misma
notacion que en el desarrollo anterior, con la excepcion mas notable de que
la n esta trasladada en 1 para evitar ndices nulos (no permitidos en estos
paquetes pero s en C).
function resul = mifspline(param,y)
n=length(y);
% Crea los nodos
t=linspace(0,1,n);
% Crea el sistema y lo resuelve
incr=(y(2:end)-y(1:end-1));
A=spdiags([ones(n,1),4*ones(n,1),ones(n,1)],-1:1,n,n);
A(1,1)=2;
A(n,n)=2;
S=zeros(n,4);
S(:,3)=A\(3*[y(2)-y(1);incr(2:end)+incr(1:end-1);y(n)-y(n-1)]);
% Construye los coeficientes de los polinomios
n=n-1;
2

Si se dispone de una version antigua de Octave que no manipule matrices dispersas,


hay que decidirse entre actualizarla o sustituir instrucciones como spdiags por un codigo
alternativo.

22

nk=n;
for m=1:n
S(m,1)=-2*incr(m)+S(m,3)+S(m+1,3);
S(m,2)=3*incr(m)-2*S(m,3)-S(m+1,3);
S(m,4)=y(m);
end
S=S(1:n,1:4)*diag([nk*nk*nk,nk*nk,nk,1]);
% Eval
ua los polinomios
resul=ppval(mkpp(t,S),param);
end

Las dos u
ltimas instrucciones deshacen el cambio para pasar de Si a Qi y
construyen la funcion f a partir de los coeficientes de los polinomios c
ubicos.
Por supuesto, para comprobar los resultados queremos ver dibujos mas
que leer n
umeros. La siguiente funcion dibuja con precision suficiente la curva
(t) obtenida al interpolar los puntos Pi con coordenadas en la las listas x
e y.
function dibujaspline(x,y)
% Cien puntos entre nodos
param=linspace(0,1,100*length(y));
% Dibuja el resultado
plot(x,y,+,mifspline(param,x),mifspline(param,y))
end

Veamos en primer lugar que si dibujamos un n


umero grande de puntos,
el resultado de la interpolacion es logico, sigue la forma sin artificios. Por
ejemplo, seleccionamos 15 puntos formando una espiral con
a=linspace(0,6.0,15);
x = a.*cos(a);
y = a.*sin(a);
dibujaspline(x,y);

La figura de la derecha es el resultado de interpolar los puntos de la izquierda


2

5
4

5
4

23

Buscando la analoga con el problema detectado en la interpolacion de


Lagrange veamos lo que ocurre al interpolar 19 puntos todos al mismo nivel
y uno saltado en la posicion central:
1.2

a=linspace(0,1,20);
x = a;
y = 0*a;
y(length(y)/2) = 1;
dibujaspline(x,y);

0.8

0.6

0.4

0.2

0.2

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Esta vez las oscilaciones se aten


uan rapidamente y el punto saltado no act
ua
a larga distancia.
Al interpolar curvas conocidas como la grafica de la funcion seno o una
elipse, tambien se obtienen buenos resultados.
1

0.8

1.5

0.6
1
0.4
0.5

0.2
0

0.2

0.5

0.4
1
0.6
1.5

0.8
1

2
3

Puestos a poner pegas, hay una peque


na deficiencia en el segundo diagrama,
un pico que ocurre en el primer y u
ltimo punto. Hay una variante para
curvas cerradas que en los razonamientos anteriores impone que la derivada
sea continua en el punto de cierre, procediendo como si t0 fuera adyacente
a tn . La implementacion es ligeramente distinta, por ello los programas de
dise
no grafico que muchos tenemos en nuestro ordenador tienen dos teclas
diferentes para crear la curva que une varios puntos, una para curvas abiertas
y otra para cerradas. Si usamos la primera en una curva cerrada, tpicamente
aparece una esquina en la union del primer y el u
ltimo punto.
24

2.4.

Un ejemplo en m
as dimensiones

Nada impide que con las tecnicas anteriores se interpolen igualmente puntos de tres, cuatro o cualquier n
umero de coordenadas. Otra cosa distinta es
que los nodos vivan en un espacio bidimensional, entonces el objeto con el
que interpolamos es mas bien una superficie para cada coordenada y hay que
considerar polinomios en dos variables. Uno de los ejemplos mas simples es la
ampliacion de imagenes planas. Los pixels de que disponemos son los puntos
de interpolacion que en este caso tendran tres coordenadas dadas por sus tres
componentes de color RGB (o cuatro, RGBA, si hay transparencias) mientras
que los nodos son de la forma ~tij = (i/n, j/m) con n m correspondiendo al
tama
no original de la imagen.
Creando con GIMP una esferita 3232 y escalandola a tama
no 256256,
el resultado visual es mucho mejor empleando la opcion de interpolacion
c
ubica3 que usando la opcion sin interpolacion consistente en aumentar simplemente el tama
no de cada pixel (los informaticos, siempre tan amigos de la
jerga, a vece3s llaman a esto de no hacer nada nearest neighbor scaling por
razones que puede imaginar el lector).

Escalado directo de los pixels

Interpolacion c
ubica

Evidentemente la interpolacion no puede adivinar que queremos dibujar una


esfera de bordes bien definidos y en la frontera toma una decision que no
es la optima. Una alternativa para escalar imagenes con bordes duros es
combinar la interpolacion con un algoritmo de deteccion de bordes pero no
entraremos en ese tema aqu.
3

Sin revisar el codigo no sabemos si esta interpolacion es por splines como los explicados aqu o por otra variante. Nos inclinamos por la segunda opcion ya que en para esta
situacion no es necesaria mucha precision y posiblemente los programadores se decidan por
implementaciones sencillas utilizando los B-splines que se tratan en el siguiente captulo.

25

La diferencia entre las opciones de interpolacion lineal y c


ubica que admite
GIMP visualmente no son tan distintas en muchos ejemplos pero como regla
general la segunda da mejores resultados. Por ejemplo, si ampliamos una
porcion de la frontera del ejemplo anterior, con la interpolacion lineal hay
unos extra
nos picos que son convenientemente limados con la c
ubica.

2.5.

Bibliografa

[Bus] S.R. Buss. 3D Computer Graphics: A Mathematical Introduction with


OpenGL. Cambridge University Press, 2003.
[Ha-St] A. Hardy, W.H. Steeb. Mathematical tools in computer graphics with
C# implementations. World Scientific 2008.
[Ki-Ch] D. Kincaid, W. Cheney. Numerical analysis. Mathematics of scientific
computing. Second edition. Brooks/Cole Publishing Co., 1996.
[Lo] B. Lopez. C
alculo Numerico I (2007/2008). Disponible en http://www.
uam.es/bernardo.lopez/CNI_07/cni_07.html
[St-Bu] J. Stoer, R. Bulirsch. Introduction to numerical analysis. Third edition.
Springer-Verlag, 2002.

26

n 3
Aplicacio
No unas los puntos
En el captulo anterior estudiamos como conseguir una curva suave que
pase exactamente por una coleccion de puntos dados y los splines c
ubicos
permitan hacerlo de manera optima en alg
un sentido. Supongamos que sacrificamos la exactitud por una mayor sencillez en la programacion o por
una interfaz mas intuitiva para el usuario, exigiendo solo cierto grado de
aproximacion a los puntos dados.
Por dar un ejemplo mas preciso, la mayor parte de la veces que en un
programa de dise
no grafico necesitamos trazar una curva sinuosa, deseamos
una forma suave de cierto tipo mas que un ajuste exacto a unos puntos destacados. En estos programas aparecen tpicamente los puntos de control de
los que estiraremos para deformar la curva de forma imprecisa pero muy intuitiva y local (en contraste con la interpolacion donde mover un solo punto
altera el aspecto global de la curva). Un ejemplo mas complicado, que simplificamos con fines academicos y es mas esquematico que real, podra ser
la trayectoria de un bot (un personaje que se mueve autonomamente) en un
videojuego1 . Internamente el mapa de cada nivel esta discretizado y hay algoritmos que seleccionan un camino de puntos que acaba en el punto elegido
(el mas famoso es el algoritmo A ). Para que los bots amigos o enemigos se
dirijan a cierto punto con una trayectoria natural, poco robotica, hay que
impedir que el jugador note que hay ciertos puntos de paso comunes a todos
ellos (los de la discretizacion) y es logico construir una curva que pase solo
cerca.
1

La situacion real en un videojuego es normalmente mas compleja porque hay que


esquivar a otros personajes en movimiento y evitar situaciones sin salida. El tema se trata
ampliamente en [Bu].

27

3.1.

La idea general

Como hemos apuntado, deseamos determinar una curva : [0, 1] R2 ,


(t) = (x(t), y(t)) a partir de ciertos puntos de control Pi = (xi , yi ), 0
i n, de manera que al moverlos la curva se deforme de manera intuitiva.
Indudablemente es difcil traducir algo tan sicologico como la intuicion en
terminos matematicos pero despues de la experiencia con la interpolacion de
Lagrange sabemos al menos que esta no lo es y podemos tratar de subsanar
sus inconvenientes.
Guardando la analoga, consideremos con cada una de sus coordenadas
en el espacio vectorial sobre R generado por cierto conjunto de funciones
reales = {0 (t), 1 (t), . . . , n (t)} de forma que la curva (t) = (x(t), y(t))
venga dada por la combinacion lineal
(t) =

n
X

j (t)Pj

j=0

donde t [0, 1] y se consideran (t) y Pj como vectores de R2 . Si j (tj ) = 1


y j (ti ) = 0 para i 6= j se tiene que la curva descrita por pasa exactamente
por los Pj ya que (tj ) = Pj (conservamos la notacion del captulo anterior
tj = j/n). El problema al escoger j igual a los polinomios de Lagrange es
que son funciones muy oscilatorias para n grande y los resultados fuera de
los nodos son incontrolables. Las oscilaciones son evidentes examinando el
aspecto de su grafica:
1,0
1,0

0,5

0,75

t
0,0

0,25

0,5

0,75

1,0

0,0
0,5
0,5

1,0

0,25

1,5
0,0

2,0

0,0

0,25

0,5

0,75

1,0

Polinomio de Lagrange n = 8

Funciones alternativas

Una opcion natural es elegir como j una funcion suave sin oscilaciones
(como la representada en lnea discontinua) pero necesariamente la condicion j (tj ) = 1, j (ti ) = 0, i 6= j, obligara a que sea muy puntiaguda y la
interpolacion dara lugar a una curva con bultos poco naturales. Es mucho mas
28

intuitivo pensar que un punto tira de los puntos adyacentes repartiendo


parte delP
1 que asignara j al nodo tj con los nodos de alrededor preservando
siempre
j (ti ) = 1. Si ya no se cumple j (tj ) = 1 entonces tpicamente la
curva no pasara por Pj pero si conserva una proporcion suficiente del 1 que
se ha repartido, todava controlara la curva en sus alrededores atrayendola
hacia s.

3.2.

Curvas de B
ezier generales

Antes de nada hay que hacer notar que las curvas de Bezier que se usan
habitualmente en los programas de dise
no grafico o retoque fotografico se
trataran en otro apartado posterior y constituyen una variante del caso particular de las estudiadas aqu.
Retomando la idea general buscamos sustituir los polinomios de Lagrange
por otros menos ondulantes que hagan una funcion parecida. Las curvas de
Bezier emplean los polinomios de Bernstein:

n j
t (1 t)nj
Bj (t) =
j
que pertenecen a Rn [t] y que solo consideraremos para t [0, 1]. Unas lneas
en Maple nos ayudan a visualizar las graficas de algunos de los Bj para
distintos valores de n y j:
F:=(N,j)->binomial(N,j)*t^(j)*(1-t)^(N-j);
plot([F(10,2),F(10,4),F(10,6),F(10,8)], t=0..1);
plot([F(10,5),F(20,10),F(30,15),F(40,20),F(50,25)], t=0..1);

0,25

0,3

0,25

0,2

0,2
0,15
0,15
0,1
0,1
0,05

0,05

0,0

0,0
0,0

0,25

0,5

0,75

1,0

0,0

0,25

0,5
t

29

0,75

1,0

El primer grafico muestra que realmente los Bj avanzan con tj , para n fijado.
En el segundo se representa el polinomio central Bn/2 y deducimos que seg
un
crece n disminuye su altura. Este efecto se traduce en que para un n
umero
grande de nodos la influencia del punto central sobre el resultado sera poca.
Por otra parte, los polinomios B0 = (1 t)n y Bn (t) = tn tienen una grafica
con una forma distinta y llegan a alcanzar el valor 1 en t = 0 y t = 1, lo
que les sit
ua fuera de la escala de los graficos anteriores e implica que los
puntos extremos tienen mucha influencia. Ademas las igualdades B0 (0) =
Bn (1) = 1, y Bj (0) = Bj (1) = 0 para 0 < j < n implica que la curva siempre
comenzara en P0 y acabara en Pn .
Facilmente se comprueba que cada funcion Bj es no negativa, alcanza un
maximo en t = tj = j/n (Analisis Matematico P
I), es peque
na lejos de este
n
valor (las potencias decrecen rapido) y ademas j=0 Bj (t) es identicamente 1
(binomio de Newton).
La curva de Bezier asociada a los puntos de control P0 , . . . , Pn viene
dada por la combinacion lineal
(t) =

n
X

Bj (t)Pj ,

t [0, 1].

j=0

Los graficos anteriores sugieren que los polinomios Bj estan concentrados en


cierto grado alrededor de su maximo pero, evidentemente, no son de soporte
compacto, por tanto un cambio en alguno de los puntos Pi = (xi , yi ) modifica
toda la curva.
La prueba de fuego es, como siempre en informatica, la practica. Renombramos el applet Lagrange del captulo anterior como Bezier y sustituimos
las llamadas a lagr por otras a bezi, una funcion definida por
// Calcula binom(N-1,i)*t^{i}*(1-t)^{N-1-i}
private double bezi(int i, double t){
double pr=1.0;
int j;
for(j=1;j<=i;++j)
pr*=t*(N-1-i+j)/(double) j;
for(j=1;j<=N-1-i;++j)
pr*=1.0-t;
return pr;
}

Notese que el factor (N-1-i+j)/j en el primer bucle sirve para calcular el


30

n
umero combinatorio despues de haber simplificado algunos factores comunes.
Experimentando con un n
umero peque
no de nodos los resultados son
aceptables. Se nota una falta de sensibilidad en algunos casos al movimiento
de los puntos de control representada en la primera de las siguientes figuras
por la separacion entre la curva y los tres puntos de control intermedios. Por
otra parte hay una aproximacion bastante buena cuando los puntos estan
ordenados y proximos a una recta.

Para un n
umero grande de nodos examinando uno de los casos problematicos para la interpolacion de Lagrange vemos en el primer grafico que al saltar el punto central no hay una gran variacion y de hecho hay que separarlo
mucho para que tenga influencia notable.

En el segundo grafico planteamos una situacion que por logica debiera dar
oscilaciones: con la mitad de los puntos a una altura y la otra mitad a otra.
Las oscilaciones no se producen y el resultado es extra
no. Los puntos de los
extremos tiran de la curva produciendo dos pendientes muy pronunciadas
mientras que el resto de los puntos no parecen tener influencia alguna.

31

Las propiedades de los polinomios de Bernstein


X

Bj (t) = 1

Bj (t) 0

en [0, 1]

implican que el dibujo de una curva de Bezier siempre esta dentro del conjunto llamado envoltura convexa de los puntos de interpolacion Pi , que esta definido por las siguientes combinaciones lineales restringidas (donde, como
antes, consideramos los puntos como vectores):
{0 P0 + 1 P1 + + n Pn : i 0,

n
X

i = 1}.

i=0

Geometricamente representa el menor polgono que contiene a todos los Pi


en su interior o su frontera (es un buen ejercicio probar esta afirmacion). Esto
explica por que las curvas de Bezier dan buenos resultados para puntos casi
alineados y tambien por que no tienen los inconvenientes tan acusados de la
interpolacion de Lagrange.

Conjunto de puntos

0000000000000000000000000000
1111111111111111111111111111
1111111111111111111111111111
0000000000000000000000000000
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111
0000000000000000000000000000
1111111111111111111111111111

Su envoltura convexa

Seg
un hemos visto, teorica y practicamente el problema aqu es el contrario al de la interpolacion de Lagrange: no hay mucha sensibilidad al movimiento de los puntos que no estan cerca de los extremos y para un n
umero
grande de nodos es difcil ajustar intuitiva y comodamente una curva de este
manera.

3.3.

B-splines c
ubicos

La B de los B-splines es por basis (base en ingles) y viene de que consideraremos bases muy sencillas formadas por splines c
ubicos (esencialmente
una funcion y sus trasladados) que a pesar de perder la interpolacion exactas
son todava suficientemente intuitivas como para ser practicas.
32

Hay que a
nadir que la definicion de B-splines tiene varias versiones y la
mas general incluye las curvas de Bezier y otros metodos que no mencionaremos aqu. Lo que examinaremos son los B-splines c
ubicos uniformes2 .
Para remediar los problemas de las curvas de Bezier buscamos funciones
mas parecidas a los pulsos que dibujamos en la primera seccion cuyo soporte
se limite a unos cuantos nodos adyacentes. Ademas escogeremos como base
una funcion y sus trasladados, lo que simplificara computacionalmente mucho
el metodo y dara uniformidad al resultado.
En terminos matematicos consideramos:
X
(3.1)
(t) =
(t tj )Pj
j

donde es una funcion que vive en un entorno de cero y por tanto (t tj )


vive
en un entorno de tj . Ademas para que la masa total sea 1 queremos
P
que
olo tiene una cantidad
j= (j/n) = 1 (por supuesto esta suma s
finita de elementos no nulos).
Por un lado deseamos que la grafica de no sea muy picuda para no crear
oscilaciones antinaturales y por otra no queremos que sea muy achatada para
salvaguardar la influencia local.
En el captulo anterior mencionamos que los splines c
ubicos dan soluciones al problema de interpolacion que, en cierto sentido, se curvan lo menos
posible. Busquemos por tanto cada trasladado de , esto es, (ttj ), en el espacio de splines c
ubicos identicamente nulos fuera del intervalo I = [tk , tk+r ].
Aparentemente hay r 1 grados de libertad: los valores de la funcion en
tk+1 ,. . . , tk+r1 pero la anulacion fuera de I impone f 0 (tk ) = 0, f 0 (tk+r ) = 0,
reduciendo estas dos condiciones la dimension a r 3 = (r 1) 2. El primer
caso en el que existira una funcion no nula es por tanto r = 4 y recordando
que la suma de sus valores en los nodos debe ser 1, la solucion es u
nica. Re2
capitulando, debemos construir entonces la u
nica funcion C nula fuera de
[tk , tk+4 ] definida por polinomios c
ubicos en cada subintervalo [tj , tj+1 ] cuyos
valores en tk+1 , tk+2 y tk+3 sumen uno.
2

Los usuarios de herramientas de dise


no en 3D reconoceran la palabra NURBS, pues
bien, es el acrostico de Non-uniform rational B-splines, mas complicados que los que
veremos aqu. Esencialmente non-uniform significa que se permiten nodos con diferentes
espaciamientos y rational que se permiten cocientes de B-splines, lo cual es u
til para
dibujar en perspectiva.

33

Para simplificar escalemos el eje horizontal de manera que el intervalo


[tk , tk+4 ] pase a ser [2, 2]. Unos calculos prueban que la funcion que satisface
las propiedades requeridas es:

Q1 (t + 2)

Q2 (t + 1)
S(t) = Q3 (t)

Q4 (t 1)

si 2 t 1
si 1 t 0
si 0 t 1
si 1 t 2
en otro caso.

0,6

0,5

0,4

0,3

0,2

0,1

0,0
2

donde Q1 (t) = t3 /6, Q2 (t) = (1 + 3t + 3t2 3t3 )/6, Q3 (t) = Q2 (1 t) y


Q4 (t) = Q1 (1 t).
La relacion con (t) sera (t) = S(nt), de este modo cada trasladado
(t tj ) = S(n(t tj )) es una funcion que se extiende dos nodos a la derecha
y a la izquierda de tj con el perfil indicado. Al sustituir en (3.1) nos percatamos de que el metodo es computacionalmente muy barato puesto que en el
subintervalo [tj , tj+1 ] se tiene
(t) = Q4 (u)Pj1 + Q3 (u)Pj + Q2 (u)Pj+1 + Q1 (u)Pj+2

con u = n(t tj ).

En resumen, en la practica todo se reduce a hacer cuatro cuentas. Un peque


no
problema es que la formula anterior pierde sentido en los casos j = 0 y
j = n 1, para solucionarlo uno puede definir artificialmente P1 = P0 y
Pn+1 = Pn .
Para que el programa java que hemos usado para la interpolacion de
Lagrange y las curvas de Bezier permita representar interactivamente las
curvas asociadas a los B-splines c
ubicos basta reemplazar el bucle for(double
t=0.0; ...) en paint por
for(int i=0;i < N-1;++i){
for(double t=0.0; t<=1.0; t+=0.01){
// Polinomios
q4=(1.0-t)*(1.0-t)*(1.0-t)/6.0;
q3=(4.0-6.0*t*t+3.0*t*t*t)/6.0;
q2=(1.0+3.0*t+3.0*t*t-3.0*t*t*t)/6.0;
q1=t*t*t/6.0;
// nuevo-> antiguo
px=qx; py=qy;

34

qx=(double)(puntos[i].x)*q3+(double)(puntos[i+1].x)*q2;
qy=(double)(puntos[i].y)*q3+(double)(puntos[i+1].y)*q2;
if( i==0 ){
qx+=(double)(puntos[0].x)*q4;
qy+=(double)(puntos[0].y)*q4;
}
else{
qx+=(double)(puntos[i-1].x)*q4;
qy+=(double)(puntos[i-1].y)*q4;
}
if( i==N-2 ){
qx+=(double)(puntos[N-1].x)*q1;
qy+=(double)(puntos[N-1].y)*q1;
}
else{
qx+=(double)(puntos[i+2].x)*q1;
qy+=(double)(puntos[i+2].y)*q1;
}
grafico.drawLine((int)(px-.5),(int)(py-.5),(int)(qx-.5),(int)(qy-.5));
}
}

despues de haber definido double q1, q2, q3, q4; al comienzo.


Jugando un poco con la aplicacion resultante sentimos que los puntos
realmente tiran de la curva independientemente del n
umero de nodos. Visualmente es intuitivo y no cuesta nada aproximar curvas mas o menos complicadas, sobre todo porque el resultado es local, afecta solo a los alrededores,
y bastante suave:

Los ejemplos con pocos nodos funcionan tambien muy bien, y el ejemplo
alocado con la mitad de los puntos a cada lado da un resultado razonable:

35

3.4.

Las curvas de Bezier en la pr


actica

En esta seccion combinamos los objetivos planteados en el captulo anterior y en este. Construiremos una curva que pase exactamente por una parte
de los puntos mientras que el resto se utilizan para controlar la forma.
El metodo esta basado en curvas de Bezier c
ubicas, esto es, en
(t) = (1 t)3 P0 + 3t(1 t)2 P1 + 3t2 (1 t)P2 + t3 P3 .
Se cumple (0) = P0 y (1) = P3 , de modo que la curva interpola estos
puntos mientras que P1 y P2 controlan su forma. Ademas lo hacen de una
forma intuitiva porque 0 (0) = 3P0 + 3P1 , 0 (1) = 3P2 + 3P3 , implican

que P0 P 1 y P2 P 3 son vectores tangentes a la curva en P0 y P3 .


P1

P2

P3

P0

Si a
nadimos a la derecha otra curva de Bezier c
ubica resultara una curva
que conecta P0 , P3 y P6 y se controla con P1 , P2 , P4 y P5 . En general con
k curvas de Bezier c
ubicas unidas logramos conectar k + 1 pntos por medio
de una curva controlada por 2k puntos. Con el abuso de notacion evidente
se llama curva de Bezier a esta curva construida a trozos, cuyo uso se ha
popularizado en programas de dise
no grafico.
Si tenemos el vicio o la virtud de leer las caractersticas tecnicas o los avisos del proceso de configuracion, sabremos que la mayor parte de las impresoras entienden o simulan PostScript. Si ademas utilizamos LATEX es posible
que incluyamos figuras PostScript por medio de ficheros con apellidos .ps o
.eps. Lo que es menos conocido es que mas que un formato, PostScript es
un lenguaje de programacion (muy simplificado y orientado a graficos) y que
dichos ficheros son simplemente documentos de texto con algunas instrucciones. A veces las instrucciones son tan burdas como indicar el contenido de
todos los pixels, por ejemplo cuando el fichero representa una foto (para ello
PostScript es poco aconsejable). Sin embargo es posible programar figuras
sencillas usando unas pocas instrucciones (vease [Bo]) que permiten emplear
curvas de Bezier. Si en el fichero curvaps.eps incluimos las lneas
36

%!PS-Adobe-2.0 EPSF-2.0
% %Title: curvaps.eps
% %BoundingBox: 0 0 300 300
% %EndComments
newpath
300 200 moveto
220 100
100 200
50 150
curveto
4 setlinewidth
stroke
% %EOF

entonces obtendremos la curva de la derecha, que es la curva de Bezier c


ubica
correspondiente a los puntos (300, 200), (220, 100), (100, 200) y (50, 150).
Un resultado bastante bueno teniendo en cuenta que no hemos gastado ni
200 bytes, que podemos imprimirlo directamente y que no pierde calidad
al reescalar. Para visualizar el resultado muchos de los usuarios de Linux
no tendran que instalar nada, el resto pueden buscar en la red ghostview.
En [Ca] hay informacion acerca del trazado de curvas mas complejas (ver
tambien el ejemplo sencillo en [Ge]).
Nosotros lo que vamos a hacer es un programa en C que a partir de
unos puntos de interpolacion calcule unos puntos de control adecuados y
genere como salida el texto de un fichero PostScript con la figura resultante
(en Linux ./programa.out > figura.eps creara este fichero). Comenzamos por
una cabecera que se explica a s misma, excepto el significado de SUAV sobre
el que volveremos despues.
#include <stdio.h>
#include <stdlib.h>
#define
#define
#define
#define
#define

ANCH
ALT
SUAV
GROS
N 10

640 /* Ancho de la imagen */


400 /* Alto de la imagen */
2.0 /* Control de la suavidad */
2 /* Grueso de l
nea */
/* N
umero de nodos */

/* Coordenadas de los puntos de interpolaci


on */
int px[N]={ 60, 120, 180, 240, 300, 360, 420, 480, 540, 600};
int py[N]={ 60, 200, 300, 250, 60, 60, 160, 200, 250, 360};

La rutina main imprime primero la cabecera del fichero PostScript y despues los comandos que dibujan crculos rellenos en los puntos de interpolacion
para que sean facilmente identificables. El bucle principal llama a las funciones que crean los puntos de control e imprime el comando curveto que
completara cada curva de Bezier c
ubica.
int main(int argc, char *argv[]){
double pcx, pcy; /* Punto de control */
int i;
/* Imprime cabecera */
printf("%%!PS-Adobe-2.0 EPSF-2.0\n%%%%Title: curva.eps\n");

37

printf("%%%%BoundingBox: 0 0 %d %d\n", ANCH, ALT);


printf("%%%%EndComments\nnewpath\n%d setlinewidth\n",GROS);
/* Imprime puntos */
for(i=0; i<N; ++i)
printf("%d %d 5 0 360 arc\nclosepath\nfill\nstroke\n", px[i], py[i]);
/* Posici
on inicial */
printf("%d %d moveto\n", px[0], py[0]);
/* Bucle principal */
for(i=0; i<N-1; ++i){
/* Calcula el punto de control izquierdo */
p_cont_izq(i,&pcx,&pcy);
/* Lo imprime */
printf("%d %d\n", (int) pcx, (int) pcy);
/* Calcula el punto de control derecho */
p_cont_dch(i,&pcx,&pcy);
/* Lo imprime */
printf("%d %d\n", (int) pcx, (int) pcy);
/* Punto i+1 y traza curva */
printf("%d %d\ncurveto\n", px[i+1], py[i+1]);
}
/* Imprime fin de fichero */
printf("stroke\n%%%%EOF\n");
}

El metodo que usaremos para seleccionar los puntos de control intenta


conservar la regularidad de la curva. Si tenemos tres puntos de interpolacion
consecutivos, Pi1 , Pi y Pi+1 , buscaremos los puntos de control a la derecha

y a la izquierda de Pi en la recta r paralela a Pi1 P i+1 que pasa por Pi . El


alineamiento de los puntos de control asegurara que las rectas tangentes en
Pi a la derecha y a la izquierda coinciden con r y por tanto la curva sera C 1 .

Parece que una mayor longitud de Pi P i1 o Pi P i+1 debera implicar un mayor


alejamiento del punto de control correspondiente, por ello los escogeremos
como las proyecciones de estos vectores sobre r divididos por SUAV (el valor
por defecto las reduce a la mitad).
P
i

Pi+1

Pi1

~ d/k
~ dk
~ 2
La proyeccion de un vector ~v en la direccion d~ viene dada por (~v d)
donde ~v d~ indica el producto escalar, y esto es lo que aparece en las funciones
p cont izq y p cont dch con las excepciones l
ogicas para el primer y el u
ltimo
nodo.
void p_cont_izq(int i, double *x, double *y){
double pe;
if(i!=0){
*x=px[i+1]-px[i-1];
*y=py[i+1]-py[i-1];
}

38

else{
*x=2*(px[1]-px[0]);
*y=2*(py[1]-py[0]);
}
pe=(px[i+1]-px[i])*(*x) + (py[i+1]-py[i])*(*y);
pe/=((*x)*(*x) + (*y)*(*y))*SUAV;
*x=px[i]+pe*(*x);
*y=py[i]+pe*(*y);
}
void p_cont_dch(int i, double *x, double *y){
double pe;
if(i!=N-2){
*x=px[i+2]-px[i];
*y=py[i+2]-py[i];
}
else{
*x=2*(px[N-1]-px[N-2]);
*y=2*(py[N-1]-py[N-2]);
}
pe=(px[i+1]-px[i])*(*x) + (py[i+1]-py[i])*(*y);
pe/=((*x)*(*x) + (*y)*(*y))*SUAV;
*x=px[i+1]-pe*(*x);
*y=py[i+1]-pe*(*y);
}

Para puntos de interpolacion situados naturalmente los resultados son


bastante buenos:

Por mostrar tambien algunos casos conflictivos, al generar los puntos de


interpolacion al azar obtenemos la primera figura que dista mucho de ser
regular. En la segunda figura se muestra que al situar los puntos en una
circunferencia aparece una fea esquina ademas de que la aproximacion es
mejorable.

En el primer caso la explicacion es que proyecciones muy cortas dan lugar


a puntos de control cercanos a los puntos de interpolacion y por la propiedad de envoltura convexa las curvas estara demasiado rectificadas, a esto
39

se une que las coordenadas de los pixels son n


umeros enteros perdiendose

precision. Este problema no se presenta cuando los vectores Pi1 P i varan


lentamente que es lo que ocurre cuando los puntos estan situados en una curva regular. Con respecto al problema de la circunferencia, lograramos una
aproximacion mejor con splines c
ubicos y la esquina (que ya vimos menos
acusada usando splines) se debe a que para tratar con exito curvas cerradas deberamos imponer que el primer punto de interpolacion y el u
ltimo
(coincidentes) tuvieran puntos de control adyacentes alineados con ellos. El
programa se podra modificar con este fin.

3.5.

Bibliografa

[Bo] P. Bourke. PostScript Tutorial. Disponible en http://local.wasp.


uwa.edu.au/~pbourke/dataformats/postscript/.
[Bu] M. Buckland. Programming Game AI by Example. Wordware Game
Developers Library. Wordware Publishing, Inc. 2005.
[Ca] B. Casselman. Notes on Bezier curves. Mathematics 308. http://www.
math.ubc.ca/~cass/gfx/curves.pdf.
[Ge] N.A. Gershenfeld. The Nature of Mathematical Modeling. Cambridge
University Press 1998.
[Ve-Bi] J.M. Van Verth, L.M. Bishop. Essential Mathematics for Games and
Interactive Applications: A Programmers Guide (2nd edition). Morgan
Kaufmann, 2008.

40

n 4
Aplicacio
Comprobar, corregir y mezclar
Algunas de las aplicaciones mas relevantes en el mundo de hoy de las
matematicas a la informatica se enmarcan dentro de la teora de codigos y
la criptografa. En general se trata de cambiar la forma de un mensaje y el
objetivo practico que se busca es o bien producir redundancia para detectar
y corregir errores, o bien eliminar redundancia para economizar memoria
o bien ocultar la informacion para protegerla. Ejemplos cotidianos de estas
situaciones son, respectivamente, los lectores de CD, que corrigen multitud de
errores en tiempo real, los ficheros con formatos de compresion sin perdidas
(*.gz, *.zip, etc.) y las transacciones seguras por internet. En los u
ltimos
a
nos estas tecnicas han crecido de una manera espectacular y no son una
parcela del algebra lineal, por ello lo mas que haremos aqu es poner algunos
ejemplos para capturar la atencion del lector que debe buscar entre la amplia
bibliografa existente para tener informacion mas completa.

4.1.

Corrigiendo errores

Supongamos que tenemos palabras de cuatro bits a3 a2 a1 a0 y queremos


transmitirlas por un canal que comete a lo mas un error por cada 12 bits que
se transmiten. Como podemos asegurarnos de que no hay error al transmitir
una palabra. Muy facil, basta con enviarla tres veces, entonces aunque haya
un error en un bit, como lo tenemos repetido tres veces, los buenos ganan
por mayora. Por ejemplo, partiendo de la palabra 1101 podra ocurrir:
canal defectuoso

1101 110111011101 ;;;;;; 110111111101


41

Observando la salida deducimos que en el bloque marcado el tercer 1 debe


ser incorrecto ya que no coincide con las otras dos repeticiones del bit y
concluimos que la palabra inicial es 1101, la que aparece en las repeticiones
correctas.
Nos preguntamos si podramos traducir a3 a2 a1 a0 en una palabra de menos de 12 bits y aun as ser capaces de detectar y corregir un error, por
ejemplo queremos saber si un byte puede almacenar a3 a2 a1 a0 con suficiente
redundancia como para que una tasa maxima de error de un bit por byte no
corrompa el mensaje. La respuesta parece negativa pues a primera vista el
procedimiento anterior es inmejorable. Si un bit se transmite solo dos veces
y una de ellas es defectuoso, es imposible recomponerlo.
No obstante, consideremos el siguiente programa codifica.c, tan breve
que ni da pereza teclearlo:
/* codifica.c */
#include <stdio.h>
#include <stdlib.h>
#define P argv[1]
int main(int argc, char **argv) {
int x=0,i;
int bas[4]={112,76,42,105};
printf("%s -> ",P);
for (i = 0; i < 4; ++i)
if( P[i]==1 ) x^=bas[i];
i=128;
while( i/=2 )
if( x&i ) printf("1");
else printf("0");
printf("\n");
return EXIT_SUCCESS;
}

Despues de compilarlo con gcc codifica.c -o codifica en nuestra consola Linux ejecutamos ./codifica abcd con abcd un n
umero (en binario) de cuatro
bits a nuestro antojo (los usuarios de Windows o los que prefieran no usar la
consola deben introducir los parametros con ayuda de su IDE, lo mismo se
aplica a otros programas de esta seccion). Por ejemplo, la salida tras ejecutar
./codifica 0110 es 1100110 y la de ./codifica 1101 es 1010101. De esta forma
los n
umeros de 4 bits se condifican en otros de 7 bits (para hacer el programa
medianamente profesional el lector debera incluir como ejercicio una funcion
comprobante de que la entrada es realmente de cuatro bits).
42

Seg
un lo dicho anteriormente, si modificamos un bit de la salida no parece posible recuperar la entrada. Teclear para ver. Consideremos el programa descodifica.c casi tan breve como el anterior que compilaremos con gcc
descodifica.c -o descodifica y que de nuevo deberamos completar con una
funcion comprobante de que el parametro de entrada es un n
umero de 7 bits:
/* descodifica.c */
#include <stdio.h>
#include <stdlib.h>
#define P argv[1]
int main(int argc, char **argv) {
int i;
int w=0;
for (i = 0; i < 7; ++i)
if( P[i]==1 ) w^=i+1;
printf("%s -> ",P);
if ( w!=0 ) {
printf("Error en el bit %do (por la izqda)\n",w);
if ( P[w-1]==0 ) P[w-1]=1;
else P[w-1]=0;
printf("%s -> ",P);
}
printf("%c%c%c%c\n",P[2],P[4],P[5],P[6]);
return EXIT_SUCCESS;
}

La salida de ./descodifica 1100110 es 0110 y la de ./descodifica 1010101 es


1101. El programa entonces en estos ejemplos hace honor a su nombre invirtiendo a codifica. El milagro ocurre cuando introducimos un error en alguno
de los resultados. Por ejemplo, si en vez de ./descodifica 1010101 escribimos
./descodifica 1010111, el programa nos dice diligentemente Error en el bit
6o (por la izqda) y lo corrige y muestra la descodificaci
on 1101 correspondiente a la entrada corregida. No es casualidad, podemos hacer todas las
pruebas que queramos e incluso completar los programas o dise
nar un script
para que se comprueben todas las posibilidades. Lo creamos o no, nuestro ordenador siempre acierta donde estamos intentando colar un error y es capaz
de corregirlo. En contra de nuestra intuicion no ha sido necesario ni siquiera
duplicar el tama
no de la palabra inicial para ser capaces de corregir un error.
La pregunta desde el punto de vista matematico es: donde radican estos
poderes adivinatorios de estos simples programas? y la respuesta sera en el
n
ucleo de una aplicacion lineal entre ciertos espacios vectoriales.
Para un informatico principiante la pregunta sera: tiene esto sentido en
43

un mundo donde la tecnologa ha llegado a tal perfeccionamiento que puedo


mover de aqu a alla gigas y gigas sin un solo error? La respuesta es un
rotundo s. Es mas, parte de la responsabilidad de que tal cosa sea posible
radica en la teora de codigos que con sus algoritmos ha permitido corregir
errores en tiempo real. La grabacion en soportes fsicos como el DVD esta al
lmite de la tecnologa y es imposible asegurar que las marcas micrometricas
que indican los bits estan bien hechas. Un bit erroneo no sera posiblemente
desastroso al ver el vdeo del u
ltimo efmero dolo del pop pero imaginemos
que ocurrira si cambiase la direccion de llamada de la rutina main de nuestra
obra de arte informatica.
Los espacios vectoriales naturales para tratar problemas de codificacion
y de correccion de errores son los definidos sobre cuerpos finitos. Cuerpos de
este tipo son los Zp con p primo (clases de residuos modulo p) que se suelen
denotar mediante Fp cuando se quiere hacer hincapie en que son cuerpos
(field es el termino ingles para cuerpo) y de paso se elimina la posibilidad
de confusion con otra cosa que tambien se llama Zp en matematicas. El caso
p = 2 es de singular interes en informatica porque F2 = {0, 1} representa
el posible valor de un bit y una palabra de n bits queda reflejada en un
vector ~x Fn2 .
Los c
odigos lineales sobre F2 son vectores de Fn2 (palabras de n bits) que
pertenecen al n
ucleo de una aplicacion lineal sobreyectiva f : Fn2 F2nk .
De la formula para la dimension
dim Nuc(f ) = n dim Im(f ) = n (n k) = k.
Cada elemento ~x Nuc(f ) esta en Fn2 pero a su vez esta caracterizado por los
k bits que conforman sus coordenadas con respecto a una base de Nuc(f ).
En definitiva, Nuc(f ) contiene 2k vectores de n coordenadas (bits) y cada
uno de ellos se puede considerar la codificacion de una palabra de k bits.
Un error en ~x se representa con un cambio de ~x por ~y = ~x + ~ei donde
~ei Fn2 es el vector que tiene un 1 en la coordenada i y ceros en el resto.
Detectaremos que ~y es erroneo si ~y 6 Nuc(f ), es decir, si f (~ei ) 6= ~0. Para
poder corregir el error debemos asegurarnos ademas de que f (~ei ) permite
reconstruir ~ei , esto es, que no existe j 6= i tal que f (~ei ) = f (~ej ). Escribamos
f (~x) = H~x donde H M(nk)n (F2 ), a esta matriz de la aplicacion lineal se
le denomina matriz de paridad del codigo. Entonces la condicion para que se
pueda corregir un error es que todas las columnas de H sean distintas y no
44

nulas. La opcion mas simple es elegir como columnas todos los vectores no
nulos de k coordenadas. En el ejemplo anterior n = 7, k = 4 y elegimos
* 1 1 0 1 +

0
1
1
1

0 0 0 1 1 1 1
1
0
0
0

0
Nuc(f ) =
, 1 , 1 , 1
.
H = 0110011
1
0
0
00

1 0 1 0 1 0 1
0
1
0
0

Los vectores ~v1 , ~v2 , ~v3 , ~v4 indicados como generadores del n
ucleo forman una
base y lo u
nico que hace el primer programa al ejecutar ./codifica abcd
es calcular la combinacion lineal ~x = a~v1 + b~v2 + c~v3 + d~v4 .
Si un error ha reemplazado ~x por ~y = ~x +~ei entonces el segundo programa
lo detecta porque ~y 6 Nuc(f ), ademas f (~y ) es la i-esima columna de H y se
puede saber facilmente donde esta el error (el n
umero binario que representa
la i-esima columna es i). Las coordenadas tercera, quinta, sexta y septima
de ~x son respectivamente a, b, c y d, entonces una vez subsanado el posible
error la descodificacion se reduce a una lnea de programa: printf("%c%c%c%
c\n",P[2],P[4],P[5],P[6]).
Como podramos subsanar no uno, sino hasta dos errores en una palabra
de n bits? Repitiendo el razonamiento anterior habra que verificar que no
existen ~ei , ~ej , ~ek , ~el distintos tales que
f (~ei ) = ~0 o f (~ei ) = f (~ej ) o f (~ei ) = f (~ej + ~ek ) o f (~ei + ~ej ) = f (~ek + ~el ).
Gracias a la linealidad y a que en F2 solo hay dos n
umeros, el cero y el
1, todo esto equivale a que cuatro columnas cualesquiera de H sean linealmente independientes sobre F2 . En general hallar un codigo lineal sobre F2
que sea capaz de subsanar hasta t errores es lo mismo que hallar una matriz H M(nk)n (F2 ) tal que 2t columnas cualesquiera sean linealmente
independientes sobre F2 (Th.3.2.11 [Mu-Mu]).
Es un buen ejercicio computacional dise
nar un programa que busque por
fuerza bruta codigos que corrijan muchos errores con n/k no demasiado grande (para economizar bits). Naturalmente la materia gris ha llegado a lmites
inalcanzables por la fuerza bruta y en la actualidad disponemos de varios
metodos para crear codigos eficientes [Hi], [Li-Xi], [Mu-Mu].

4.2.

C
odigos de todos los das

Si en el esquema de la seccion anterior n k = 1 entonces el codigo es


demasiado simple como para corregir errores sin embargo se utiliza en varios
45

contextos cotidianos cambiando F2 por otro cuerpo con mas elementos para
detectar errores con cierta probabilidad. Al terminar de leer mas de un lector
concedera que las matematicas no quedan tan lejos de nuestra vida diaria,
simplemente permanecen escondidas.
La letra del DNI. El Documento Nacional de Identidad contiene un
n
umero n de 8 dgitos acompa
nado de una letra. A cada n le asignaremos
el elemento correspondiente de F23 calculando su resto al dividir por 23,
mientras que a la letra le asignaremos el lugar que ocupa en la cadena
TRWAGMPYDFXBNJZSQVHLCKE
comenzando por cero, es decir, T 7 0 y E 7 22. De esta forma el n
umero y
la letra dan lugar a un elemento de F223 . Se utiliza el codigo viene dado por
la aplicacion lineal

f : F223 F23 ,
f (~x) = H~x,
con H = 1 1 .
En palabras sencillas, la letra esta determinada por el resto modulo 23
del n
umero como muestra el siguiente programa brevsimo:
#include <stdio.h>
#include <stdlib.h>
/* Calcula la letra del DNI/NIF */
int main(int argc, char *argv[]){
unsigned char a[23]="TRWAGMPYDFXBNJZSQVHLCKE";
printf("N
umero=%s, Letra=%c\n",argv[1],a[ (atoi(argv[1]) %23) ]);
}

Ejecutando ./dni 12345678 averiguaremos que la letra que corresponde al


n
umero de DNI 12345678 es la Z. Entonces la letra funciona como un codigo
de control que permite detectar (pero no corregir) errores en la mayor parte de las ocasiones. Por ejemplo, si al copiar el DNI anterior escribieramos
erroneamente 12345687 Z nuestro sencillo programilla sabra que algo no va
bien pues ./dni 12345687 indica que la letra es la T en vez de la Z.
El ISBN-10 y los c
odigos de barras. Todo libro se identifica con un
n
umero de diez dgitos (a menudo separadas en grupos por guiones o espacios)
que aparece en la portada interior o en la cubierta o aleda
nos, en algunas
ocasiones el u
ltimo dgito no es tal, sino una X. Recientemente este codigo
llamado ISBN se complementa o reemplaza por 13 dgitos acompa
nados de
46

un codigo de barras, de los que tambien hablaremos, y que posiblemente


llegaran a sustituir al ISBN. Para distinguir ambos se especifica que el ISBN
de toda la vida es el ISBN-10.
Cada ISBN se puede considerar un vector de F10
gito en el
11 donde el d
lugar i es la coordenada i-esima y si el u
ltimo caracter es una X en lugar de
un dgito, suponemos que representa 10 (recuerdense los n
umeros romanos).
El ISBN-10 esta basado en la matriz de paridad:

H = 1 2 3 4 5 6 7 8 9 10 .
que corresponde a una aplicacion lineal f : F10
11 F11 .
Con esta informacion, un script muy sencillo en python (seguramente
no muy bien programado) permite comprobar si un ISBN (que se puede
introducir con o sin guiones) es valido:
import string
tab={X:10,x:10}
for i in range(10):
tab[string.digits[i]]=i
cod = str(raw_input("Posible ISBN: ")).replace(-, )
if len(cod)!=10:
print Debe tener 10 caracteres
else:
j=0
for i in range(10):
j+=(i+1)*tab[cod[i]]
if j %11 == 0:
print Es un ISBN-10 admisible
else:
print No es un ISBN-10 admisible

Los trece dgitos que posiblemente sustituyan al ISBN-10 responden al


formato EAN-13 que se emplea para detectar errores en codigos de barras
(de nuevo hay mas de un formato de codigos de barras pero no entraremos
en ello). Como las barras representan tradicionalmente dgitos nos debemos
olvidar del caracter especial X. La matriz de paridad que se considera es:

H= 1 3 1 3 1 3 1 3 1 3 1 3 1 .
sobre Z10 . El problema (teorico) es que Z10 no es un cuerpo, ya que en el no
se puede dividir: por ejemplo 2 0 = 2 5 = 0 implica que 0/2 debera dar
a estrictamente un
a la vez 0 y 5. Si Z10 no es un cuerpo Z13
10 tampoco ser
47

espacio vectorial. Ciertamente aun as es algo que se le parece (esta especie de


espacios vectoriales en los que no es posible dividir por n
umeros se llaman en
algebra m
odulos) y en este ejemplo practico tan sencillo no es muy relevante
pero la teora no se puede copiar ya que hay sorpresas desagradables por
ejemplo cuando se trata de extender el concepto basico de independencia
lineal.
El C
odigo Cuenta Cliente. Nuestra cuenta corriente tiene asignada un
n
umero de 20 dgitos que se emplea en cualquier transaccion, es el Codigo
Cuenta Cliente (CCC). Los cuatro primeros dgitos indican la entidad, los
cuatro siguientes la sucursal y los diez u
ltimos constituyen el n
umero de
cuenta propiamente dicho. Los dos dgitos restantes son los dgitos de control
(marcados con DC) y estan determinados por el resto. Imaginemos que desde
un cajero automatico hacemos una transferencia y por una equivocacion en
un n
umero enviamos el dinero a otra persona. El n
umero de veces que nos
preguntan si estamos seguros y los dgitos de control son la manera de que
esta posibilidad sea remota.
Los 20 dgitos se pueden considerar conformando un vector de F20
11 . Salvo
una peque
na chapuza que indicaremos a continuacion. El codigo lineal sobre
F11 es el que corresponde a la matriz de paridad
2 3 4 5 6 7 8 9

H = 2 2 2 2 2 2 2 2 1 0 00 01 02 03 04 05 06 07 08 09 .
0 0 0 0 0 0 0 0 0 1 2 2 2 2 2 2 2 2 2 2

Naturalmente todas estas potencias de 2 pueden reducirse modulo 11.


Dado un banco, una sucursal y un n
umero de cuenta, cada dgito de
control es un n
umero de 0 a 10, ambos incluidos. Entonces no puede representarse realmente con un dgito, recordemos que en el ISBN esto se resolva
introduciendo la X. Aqu se hace una chapucilla permitiendo que el 1 valga
1 o 10. De esta forma los dgitos de control que contienen al 1 son menos
seguros pues en realidad representan mas de una posibilidad.
El siguiente programa sirve para calcular los dgitos de control a partir
del resto de los dgitos y comprobar si coinciden con los que se introducen
en la entrada.
/* cocucu.c */
#include <stdio.h>
#include <stdlib.h>
#define P argv[1]

48

int main(int argc, char **argv) {


int dc1=11000,dc2=11000;
int i;
/* Comprueba formato */
for(i=0; i<20; ++i)
if( (P[i]<0)||(P[i]>9) ) i=100;
if( (P[20]!=0)||(i==100) ){
printf("Formato err
oneo: Deber
a tener 20 d
gitos 0-9\n");
return EXIT_SUCCESS;
}
/* Calcula d
gitos de control */
for (i = 2; i < 10; ++i) dc1-=(1<<i)*(P[i-2]-48);
for (i = 0; i < 10; ++i) dc2-=(1<<i)*(P[i+10]-48);
if( (dc1%=11)==10 ) dc1=1;
if( (dc2%=11)==10 ) dc2=1;
/* Comprueba si coinciden */
if( (dc1+48!=P[8])||(dc2+48!=P[9]) )
printf("Los d
gitos de control deber
an ser %d y %d y son %c y %c\n",
dc1,dc2,P[8],P[9]);
else
printf("C
odigo cuenta cliente %s validado\n",P);
return EXIT_SUCCESS;
}

Tras crear el ejecutable cocucu, con ./cocucu 23571111210123456789 sabremos


que el n
umero indicado es un codigo cuenta cliente admisible. Si intercambiamos los dos u
ltimos dgitos el programa protestara lanzando el mensaje Los
d
gitos de control deber
an ser 2 y 4 y son 2 y 1 que sugiere que el error
esta en el n
umero de cuenta, pues el primer dgito de control es correcto. Si
deseamos saber por ejemplo que dgitos de control corresponden a la entidad 1927, la sucursal 0429 y al n
umero de cuenta 2999409504 basta ejecutar
./cocucu 19270429872999409504 (los dgitos de control se han escrito al azar)
y esperar a que los corrija.

4.3.

Reordenar con matrices

La funcion f que asigna a cada n el resto de an al dividir por p (primo) es


biyectiva de {1, 2, . . . , p 1} en s mismo cuando a es lo que se llama una raz
primitiva (vease [Ro]). Computacionalmente es muy facil hallar f (n + 1) a
partir de f (n) multiplicando por a y calculando el resto pero por otra parte
es difcil reconocer a simple vista un patron en f (1), f (2), f (3), . . . f (p 1).
Por esta razon a la funcion f se utiliza en ocasiones como generador de
49

n
umeros (pseudo)aleatorios. Por ejemplo, la funcion RND del prehistorico ZXSpectrum lo u
nico que haca era multiplicar por a = 75 y reducir modulo
p = 65537, presentando el resultado normalizado en (0, 1]. Con n
umeros
mayores mas en lnea con las tecnologas actuales el procedimiento sigue
en vigor. La biyectividad de f implica que se puede emplear para hacer
repartos evitando repeticiones sin tener que ocupar memoria para recordar
los n
umeros ya asignados.
Aqu vamos a introducir una variante bidimensional de este proceso con
fines academicos y la aplicaremos para crear un efecto de pulverizado en una
imagen.
Trabajaremos con p = 31 y lo que buscamos es una manera de desordenar
los elementos de X = F231 {(0, 0)}, es decir, los puntos {(x, y) : 0 x, y <
31} salvo el origen. En analoga con lo anterior tomaremos
f (n) = An~v0

para alg
un

~v0 X

y queremos que f : {1, 2, 3, . . . , 312 1} X sea biyectiva.


Si A diagonaliza en F231 entonces

0
1 0
n
1
A=C
C
=
A =C
C
0
0 n

pero un resultado de Algebra


I (el peque
no teorema de Fermat) afirma que
si , F31 {0} entonces 30 30 1 modulo p y se estropea la
biyectividad porque todo se repite de 30 en 30. Y si consideramos A tal que
no tenga autovalores en F31 ? Por ejemplo

0 3
=
|A I| = 2 9
3 1
y 2 9 = 0 no tiene races en F31 . Donde estan entonces las races?
Pues en un cuerpo formado por una especie de n
umeros complejos modulo 31.
Ademas la teora asegura que siempre algunos de los elementos del cuerpo (los
analogos de las races primitivas) cumplen que sus potencias tardan 312 1 en
repetirse. Como habra adivinado el lector, la matriz A citada anteriormente
tiene autovalores y con esta propiedad. En esta situacion no es difcil ver
que para ~v0 X la coleccion finita
~v1 = A~v0 ,

~v2 = A~v1 ,

~v3 = A~v2 , . . .
50

~v312 1 = A~v312 2

da lugar a la reordenacion buscada de los elementos de X.


Dicho sea de paso, esta es una de esas funciones hash que son difciles de
invertir. Con un ordenador aqu sera trivial por fuerza bruta pero cambiando
31 por un primo de cien cifras el calculo de f (n) quedara todava dentro
de lmite computacionales razonables mientras que el de f 1 (n) sera casi
siempre impracticable. Este crculo de ideas tiene gran interes en criptografa
[Ro].
Es muy facil hacer un programa que con esta tecnica cambie de forma
aparentemente aleatoria y secuencialmente los puntos de una imagen de tama
no 31 31 del color de fondo, digamos el negro. Ello crea un efecto de que
la imagen se pulveriza. Lo u
nico malo es que el programa dependera de la biblioteca grafica favorita de cada cual. Una muy sencilla, eficiente y totalmente
multiplataforma es SDL. El sitio oficial es http://www.libsdl.org/ y [Ga]
contiene una descripcion sencilla y razonablemente exhaustiva al respecto.
Las siguientes lneas incorporan una variante que permite graduar el tama
no del pixel (parametro ZOOM) para manejar imagnes mayores. Todo lo
que hay que saber para entender esta funcion es que SDL_FillRect(imd,&r,0)
rellena de negro el rectangulo r de imd, que es la pantalla en este caso,
SDL_Flip(imd) actualiza la pantalla y SDL_Delay(ESP) espera unos milisegundos.
#include <SDL/SDL.h>
#include <stdio.h>
#include <stdlib.h>
#define ZOOM 2 /* Tama~
no en comparaci
on con 31 */
#define ESP 3 /* Tiempo de espera en ms */
void pulveriza(SDL_Surface *imd){
int i,a,b;
SDL_Rect r={0,0,ZOOM,ZOOM};
a= rand() % 31; b= rand() % 30; /* Primer punto al azar */
SDL_FillRect(imd,&r,0); /* Quita el origen */
SDL_Flip (imd); /* Actualiza */
r.x=a*ZOOM;

r.y=++b*ZOOM;

/* Bucle quita puntos */


for(i=0; i<960; ++i){
SDL_FillRect(imd,&r,0);
SDL_Flip (imd); /* Actualiza */
SDL_Delay(ESP); /* Espera */
r.x = (3*b) %31;
r.y = b = (3*a+b) %31;
a = r.x;
r.x*=ZOOM;
r.y*=ZOOM;
}
}

El resto del programa es la incializacion de SDL y la carga de la imagen.


51

#define ANCHO (31*ZOOM) /* Ancho de pantalla */


#define ALTO (31*ZOOM) /* Alto de pantalla */
#define IMG "bolota.bmp" /* Nombre de la imagen */
int main(int argc, char** argv) {
SDL_Surface *screen; /* La pantalla */
SDL_Surface *image; /* La imagen */
/* Inicia SDL */
if((SDL_Init(SDL_INIT_VIDEO)==-1)) {
printf("Error al iniciar SDL: %s.\n", SDL_GetError());
exit(-1);
}
atexit(SDL_Quit);
/* Crea pantalla */
putenv("SDL_VIDEO_CENTERED=1"); /* Centra la ventana */
if ( (screen = SDL_SetVideoMode(ANCHO, ALTO, 32, SDL_SWSURFACE)) == NULL ) {
printf( "No se puede crear la pantalla: %s\n", SDL_GetError());
exit(-1);
}
/* Carga la imagen en la pantalla */
if ( (image = SDL_LoadBMP(IMG)) == NULL) {
printf("Error al cargar " IMG ": %s\n", SDL_GetError());
exit(-1);
}
SDL_BlitSurface(image, NULL, screen, NULL); /* A la pantalla */
SDL_FreeSurface(image); /* Libera la imagen */
pulveriza(screen);
SDL_Delay(1000); /* Espera un segundo */
SDL_Quit(); /* Cierra SDL */
return EXIT_SUCCESS;
}

Una vez instalada la biblioteca SDL se compila con


gcc

pulveriza.c -o pulveriza sdl-config --cflags --libs -lm

(notese que las comillas son comillas derechas, como acentos graves). Si al
ejecutar ./pulveriza se produjese un error relativo a un formato de pantalla
no soportado, cambiense (31*ZOOM) y (31*ZOOM) en las definiciones de ANCHO y
ALTO por ejemplo por 320 y 240.
Teniendo en el directorio la imagen bolota.bmp (en este caso de tama
no
62 62) el resultado fue:

52

La primera imagen es la original y despues se muestra lo ocurrido tras 100,


200, etc. iteraciones del bucle. Al cabo de 960 = 312 1 la imagen sera completamente negra.

4.4.

Ocultar informaci
on

El codigo ASCII (American Standard Code for Information Interchange)


representa con n
umeros del 0 al 127 letras, cifras y algunos caracteres de
control y smbolos. Su version extendida contiene caracteres especiales de
ciertas lenguas y mas smbolos, empleando n
umeros de 0 a 255, un byte.
Aqu trabajaremos en F251 que tambien cabe en un byte y cubre todos los
caracteres habituales y muchos mas. De este modo una cadena de caracteres
es una cadena de n
umeros para un ordenador:
unsigned char a[]="Soy una cadena";
int i=-1;
while( a[++i]!=0 ) printf("%c %d\n",a[i],a[i]);

produce la tabla (que giramos por razones tipograficas):


S o

n a

c a d

n a

83 111 121 32 117 110 97 32 99 97 100 101 110 97

Supongamos que tenemos un texto secreto que deseamos ocultar a ojos


curiosos. Una solucion sera recodificarlo por medio de cierta funcion f . Distingamos dos casos lmite: Si el texto tiene N caracteres y f act
ua globalN
N
mente sobre el, se tendra f : F251 F251 , mientras que si f act
ua sobre
el texto modificandolo caracter a caracter, f : F251 F251 . Ambas situaN
ciones no son muy convenientes. Si N es grande f : FN
a ser
251 F251 podr
muy costosa de manejar, ademas cuando se cambia la longitud del texto, N ,
hay que cambiar la funcion. Si act
ua caracter a caracter entonces una simple
comparacion de la frecuencia de cada n
umero con la de las letras en un texto
tpico permitira al curioso desvelar un texto suficientemente grande.
Un modo muy sencillo de evitar el analisis de frecuencias es considerar
k
Fk251 con k mayor que la longitud media de una
una funcion f : F251
palabra. Aqu tomaremos k = 4 por simplicidad. No es muy gravoso suponer
que N es m
ultiplo de k (siempre es posible a
nadir uno, dos o tres espacios
aqu o alla si fuera necesario o completar la cadena de caracteres con unos
pocos caracteres superfluos). En esta situacion, los N caracteres que forman
53

el texto se representan con N/k vectores de Fk251 . Cada uno de estos vectores ~v
se codifica con f (~v ) y se descodifica con f 1 (~v ).
Las aplicaciones lineales son un buen instrumento para este fin, ya que es
posible hallar su inversa algortmicamente. Pero seamos todava mas exigentes: es posible que el mismo algoritmo codifique y descodifique? Si f (~v ) = A~v
con A M44 (F251 ) entonces f = f 1 equivale a A2 = I y como inventarse una matriz con esta propiedad? Obviamente una matriz diagonal D
con dii {1, 1} (= {1, 250} en F251 ) es una solucion trivial pero poco u
til
porque no oculta la informacion de manera significativa: simplemente deja
los caracteres igual o los cambia de signo. Para esconder su aspecto basta
cambiar de base:
1
!
A = C 1 DC

con D =

A2 = I.

1
1

Sirve cualquier matriz C de cambio de base para la que A no sea sencilla. Lo mejor es escoger C M44 (Z) con determinante uno y as no
habra que calcular ning
un inverso modulo 251, ya que los elementos de C 1
seran automaticamente enteros. Crear matrices enteras de determinante uno
no es difcil, por ejemplo usando transformaciones elementales sobre la matriz identidad o inventando elementos al azar dejando algunos de ellos como
parametros para ajustar el determinante. Elegimos
180 221 169 119 !
71 30 82 132 !
7 3 4 9!
5 5 2 8
7 3 3 8
3 0 5 6

C=

C 1 DC =

182 79 202 332


210 90 235 384
210 90 236 385

A =
F251

69 172 49 170
41 161 16 118
210 90 236 134

A pesar de su feo aspecto esta matriz cumple A2 = I en F251 por construccion.


Digamos que nuestro texto misterioso comienza con En un lugar de la
Mancha. . . , en ASCII
69,
100,

110,
101,

32,
32,

117,
108,

110,
97,

32,
32,

108,
77,

117,
97,

103,
110,

97,
99,

114,
104,

32,
97,

...

Para codificar agrupamos de 4 en 4 y aplicamos A. Los tres primeros


bloques dan lugar a
103 ! 50 !
110 ! 62 !
69 ! 88 !
A

110
32
117

210
219
181

32
108
117

=
54

124
96
129

97
114
32

179
89
57

y los tres siguientes a:


100 ! 98 !
A

101
32
108

24
234
157

97 !
,

32
77
97

143 !
=

81
221
204

110 !
,

99
104
97

179,
20,

89,
176,

16
20
176
25

!
.

Entonces la codificacion del texto comenzara por


88,
98,

210,
24,

219,
234,

181,
157,

62,
143,

124,
81,

96,
221,

129,
204,

50,
16,

57,
25,

...

En ASCII esto corresponde a la obra de arte:


X`
O^
U>|`

129

2 3 Y9b 24 e
^ 157

143

Q
Y`
I 16

20

25

donde los n
umeros recuadrados indican los caracteres no imprimibles con el
codigo ASCII se
nalado.
Para ver mejor los caracteres podemos escribir todo en hexadecimal. El
siguiente conversor act
ua sobre un fichero de texto y muestra la traduccion
hexadecimal en pantalla:
/* Texto a hexadecimal */
#include <stdio.h>
#include <stdlib.h>
int main(int argc, char* argv[]){
char c; /* Car
acter */
FILE *ifp; /* Fichero de entrada */
if(argc<2){
printf("Hay que especificar un fichero.\n");
return EXIT_FAILURE;
}
ifp=fopen(argv[1],"r");
if(ifp==NULL){
printf("No se puede abrir el fichero \"%s\"\n",argv[1]);
return EXIT_FAILURE;
}
while ((c=getc(ifp))!=EOF) printf("%X",c);
fclose(ifp);
printf("\n");
return EXIT_SUCCESS;
}

Si el ejecutable es texto2hex hay que teclear ./texto2hex texto.txt para hacerlo actuar sobre el fichero texto.txt. Este proceso se puede invertir con un
programa hex2texto identico salvo definir char c[]="00"; reemplazar el bucle
while por
55

while ((c[0]=getc(ifp))!=EOF){
c[1]=getc(ifp);
printf("%c",strtol(c,NULL,16));
}

De esta forma, al aplicar texto2hex sobre nuestro texto se obtiene


456E20756E206C75676172206465206C61204D616E636861...
La accion del algoritmo antes descrito viene representado por el siguiente
programa que llamaremos autoinv ya que es autoinvertible. Lo que hace es
aplicar la matriz A a la traduccion hexadecimal de cada grupo de 4 codigos
ASCII. La funcion mat_vec lleva a cabo la multiplicacion matricial mientras
que en main se encuentra el bucle que recorre la cadena e imprime los resultados:
/* C
odigo autoinverso */
#include <stdio.h>
#include <stdlib.h>
#define P argv[1]
void mat_vec(int *v){
int a,b,c;
/* Matriz de orden 2 por vector */
a=180*v[0]+221*v[1]+169*v[2]+119*v[3];
b= 69*v[0]+172*v[1]+ 49*v[2]+170*v[3];
c= 41*v[0]+161*v[1]+ 16*v[2]+118*v[3];
v[3]= (210*v[0]+ 90*v[1]+236*v[2]+134*v[3])%251;
v[0]= a%251;
v[1]= b%251;
v[2]= c%251;
}
int main(int argc, char *argv[]){
int i=0;
int j;
char s[2]="00";
int v[4];
while( P[i]!=0 ){
for(j=0; j<4; ++j){
s[0]=P[i+2*j];
s[1]=P[i+2*j+1];
v[j]= strtol(s,NULL,16);
}
i+=8;
mat_vec(v);
printf("%X%X%X%X",v[0],v[1],v[2],v[3]);
}
printf("\n");
}

56

Aplicar ./autoinv sobre la cadena anterior conduce a:


58D2DBB53E7C608132B359396218EA9D8F51DDCC1014B019...
que es justamente la traduccion hexadecimal del texto ilegible. Aplicando de
nuevo ./autoinv, ahora sobre esta cadena, obtenemos la cadena inicial que
se descodifica con hex2texto para obtener el texto. En comandos de consola
./autoinv (cadena anterior) >hextexto.txt y ./hex2texto hextexto.txt mostraran en pantalla En un lugar de la Mancha. . . , el texto descodificado,
mientras que en hextexto.txt se guardara su traduccion hexadecimal.

4.5.

Bibliografa

[Ga] A. Garca Serrano. Programacion de videojuegos con SDL en Windows


y Linux. Ediversitas multimedia, Sevilla, 2003.
[Hi] R. Hill. A first course in coding theory. The Clarendon Press, Oxford
University Press, New York, 1986.
[Li-Xi] S. Ling, C. Xing. Coding theory. A first course. Cambridge University
Press, Cambridge, 2004.
[Mu-Mu] G.L. Mullen, C. Mummert. Finite fields and applications. American
Mathematical Society, Providence, 2007.
[Ro] K.H. Rosen. Elementary number theory and its applications. Fourth
edition. Addison-Wesley, Reading, MA, 2000.

57

58

Parte II
Res
umenes de teora

59

menes 5
Resu
Temario
El temario comentado empleado en los u
ltimos a
nos esta recogido en la
siguiente lista:
1. Sistemas de ecuaciones lineales. Reducci
on de Gauss. Reducci
on de Gauss-Jordan.
Metodos basicos para resolver sistemas de ecuaciones lineales. El resto
del curso los usa para resolver distintos problemas dentro del algebra
lineal.
2. Matrices. Operaciones entre matrices. Matriz inversa. Matrices y sistemas de ecuaciones lineales.
Las matrices son el instrumento basico para realizar calculos efectivos
en algebra lineal. Se incluye el algoritmo para calcular la matriz inversa
usando la reduccion de Gauss-Jordan.
3. Espacios y subespacios vectoriales. Aplicaciones lineales.
Definicion y propiedades basicas de los espacios vectoriales y sus subespacios. Todo subespacio vectorial de k n dado mediante generadores
se puede tambien describir mediante ecuaciones lineales.
4. Bases y dimensi
on.
Definiciones y calculo de bases y dimensiones de subespacios vectoriales de k n . Matriz de una aplicacion lineal en una base dada. N
umero
mnimo de ecuaciones lineales que describen un subespacio.
5. Suma e intersecci
on de subespacios.
Se incluye la formula de Grassmann y se discute como calcular la suma
y la interseccion de subespacios.
61

6. Rango. Teorema de Rouch


e-Frobenius. Cambio de base para
matrices de aplicaciones lineales.
Se estudia el teorema del rango y se utiliza para caracterizar la resolubilidad de los sistemas lineales.
7. Determinantes. Regla de Cramer.
Definicion y propiedades de los determinantes. Caracterizacion de la
independencia lineal y de la invertibilidad de matrices mediante determinantes.
8. Valores y vectores propios. Diagonalizaci
on. Aplicaciones.
Se incluye el teorema de diagonalizacion, con aplicacion a la resolucion
de los sistemas de ecuaciones diferenciales lineales de primer orden con
coeficientes constantes. Tambien se tratara el caso discreto.
9. Producto escalar. Formas bilineales.
Definiciones y desigualdades basicas (Cauchy-Schwarz, Minkowski y
triangular). Matriz de una forma bilineal y cambio de base para la
matriz de una forma bilineal.
10. Ortogonalizaci
on. Proyecci
on ortogonal.
Algoritmo de Gram-Schmidt y calculo de la aplicacion de proyeccion
ortogonal sobre un subespacio.
11. Aplicaciones ortogonales y autoadjuntas. Teorema espectral.
Diagonalizacion de aplicaciones autoadjuntas.
12. Formas cuadr
aticas
Algoritmo de Gauss para la reduccion de formas cuadraticas. Signatura.

62

5.1.

Ecuaciones lineales y su resoluci


on

Sistemas de ecuaciones lineales Un sistema de ecuaciones lineales es de


la forma indicada a la izquierda y se suele representar por una matriz (una
tabla) como la de la derecha:

a11 x1 + a12 x2 + + a1n xn


= b1
a11 a12 . . . a1n b1
a21 a22 . . . a2n b2
a21 x1 + a22 x2 + + a2n xn
= b2


. . . . . . . . . . . . . . .
...
...
...
...
= ...

am1 x1 + am2 x2 + + amn xn = bm


am1 am2 . . . amn bm
Como veremos mas adelante en el curso, un sistema de este tipo puede tener solucion u
nica (compatible determinado), infinitas soluciones (compatible
indeterminado) o no tener solucion (incompatible).
Reducci
on de Gauss La matriz de un sistema es una matriz escalonada
(o el sistema esta en forma escalonada) si cada fila no nula tiene siempre
mas ceros a la izquierda que la que esta por encima y las filas nulas, si las
hubiera, estan colocadas al final.
Siempre es posible reducir un sistema a forma escalonada empleando tres
transformaciones elementales sobre las ecuaciones (o equivalentemente sobre
las filas de la matriz):
1. Sumar a una ecuacion un m
ultiplo de otra.
2. Multiplicar una ecuacion por un n
umero no nulo.
3. Intercambiar dos ecuaciones.
Todas ellas se pueden invertir, as que no se pierden soluciones del sistema
al aplicarlas.
El algoritmo de reducci
on de Gauss consiste en aplicar estos tres procesos
(el segundo no es estrictamente necesario) para producir ceros por columnas
en la matriz y llegar a la forma escalonada.
Por ejemplo, consideremos el sistema:
x +2y +3z
x y +z
x +3y z
3x +4y +3z
63

=2
=0
= 2
=0

Primero se crean los ceros en la primera columna bajo el primer elemento:

1
1
3

2
-1
3
4

3
1
-1
3

2
0

-2
f2 7f2 f1
0

0
0
0

f3 7f3 f1

2
-3
1
-2

3
-2
-4
-6

2
-2
-4
-6

f4 7f4 3f1

Intercambiar las filas es superfluo pero nos permite evitar los calculos con
fracciones al crear los ceros de la segunda columna:

0
0

f2 f3

2
1
-3
-2

3
-4
-2
-6

2
1
0
-4

0
-2
f3 7f3 +3f2
-6
0
f4 7f4 +2f2

Con un paso mas llegamos a la forma escalonada:

f4 7f4 f3

|1
0
0
0

2
|1
0
0

3
-4
|-14
0

2
1
0
0

3
-4
-14
-14

2
-4
-14
-14

2
-4
-14
0

Los elementos se
nalados se llaman elementos pivote y se
nalan el principio
de los escalones. Con mas rigor, un elemento pivote en una matriz escalonada es un elemento no nulo que tiene ceros a la izquierda. Las columnas
que contienen a los elementos pivote se llaman columnas pivote.
Una vez que se ha llegado a la forma escalonada es facil resolver el sistema
(o deducir que no tiene solucion), despejando de abajo a arriba las ecuaciones.
As en el ejemplo anterior la tercera ecuacion de la forma escalonada implica
z = 1, sustituyendo en la segunda se tiene y = 0 y estos resultados en la
primera dan x = 1.
Reducci
on de Gauss-Jordan El algoritmo de reducci
on de Gauss-Jordan
es similar al del Gauss pero cuando se ha finalizado este se procede a crear
ceros encima de los elementos pivote empleando las filas de abajo a arriba sin
modificar la estructura escalonada. Multiplicando por un n
umero adecuado
(transformacion 2) tambien se consigue que los elementos pivote sean unos.
Esta forma escalonada en la que los elementos pivote son unos y el resto
64

de los elementos de las columnas pivote son ceros a veces se llama forma
escalonada reducida.
En el ejemplo anterior dividiendo entre 14 en la tercera fila los pivotes
seran unos:

0 1
0 0

2
1
0
-4

0
-14
f3 7f3 /14
0
0

3
-4
-14
0

2
1
0
0

3
-4
1
0

2
-4
1
0

Ahora creamos ceros encima del tercer elemento pivote y despues del segundo:

f2 7f2 +4f3
f1 7f1 3f3

0 1
0 0

0
0
1
0

-1
1
0
0

0
1
f1 7f1 2f2
0
0

0
1
0
0

0
0
1
0

-1
0
1
0

Al emplear la reduccion de Gauss-Jordan en la columna de la derecha


leeremos la solucion del sistema, si es que es u
nica. Si una de la u
ltimas ecuaciones fuera 0 =constante no nula entonces se llegara a una contradiccion y
no habra solucion. En otro caso, si hay columnas que no son columnas pivote
las incognitas correspondientes se pueden elegir como parametros arbitrarios.
El algorimto de Gauss Jordan es conveniente para resolver simultaneamente varios sistemas que comparten la misma matriz de coeficientes (la formada por los aij ). Para ello simplemente se a
naden nuevas columnas correspondientes a los diversos sistemas.
Por ejemplo, para resolver simultaneamente
x 2y +z = 0
3x 6y +2z = 0
La matriz a considerar sera

1
3

x 2y +z = 2
3x 6y +2z = 1

-2
-6

1
2

0
0

2
1

que se reduce a forma escalonada en un solo paso

1 -2 1 0 2
1 -2

3 -6 2 0 1
0 0
f2 7f2 3f1

65

1
-1

0
0

2
-5

Creamos ahora un cero encima del segundo elemento pivote y lo reducimos


a uno:

1 -2 1 0 2
1 -2 0 0 -3

.
0 0 1 0 5
0 0 1 0 5
f2 7f2

f1 7f1 f2

En ambos casos la segunda variable es un parametro arbitrario, digamos


y = y se tiene como soluciones del primer y del segundo sistema, respectivamente:

x = 2
x = 3 + 2
y=
y=
y

z=0
z = 5.

5.2.

Algebra
matricial

Matrices y sus operaciones Ya habamos visto que una matriz A es


simplemente una tabla de n
umeros. La notacion habitual es llamar aij al
elemento que esta en la fila i y en la columna j.
Denotaremos mediante Mmn (K) al conjunto de todas las matrices de
m filas y n columnas con coeficientes en un cuerpo1 K.
Las matrices de Mmn (K) se suman de la forma esperada: sumando
los elementos en las mismas posiciones. Para multiplicarlas por K se
multiplica cada elemento por .
La multiplicacion de dos matrices solo se define si el n
umero de columnas
de la primera coincide con el n
umero de filas de la segunda. Si A Mmn (K)
y B Mnl (K) entonces
P AB Mml (K). El elemento ij del producto se
calcula con la formula aik bkj . Esto equivale a decir que se hace el producto
escalar habitual de la fila i de A por la columna j de B.
Por ejemplo:

0 0

1 2
1 1
2 1
1 2 3
8
3
1 0 =
+
=
,
.
3 4
0 1
3 5
4 5 6
17 6
2 1
1

Un cuerpo es, intuitivamente, un conjunto en el que se puede sumar, restar, multiplicar


y dividir (salvo por cero) con las propiedades habituales. En este curso el cuerpo mas com
un
sera R pero tambien estan Q, C o las clases de restos modulo un n
umero primo.

66

Dada una matriz A, se llama matriz traspuesta, y se denota con At , a la


obtenida al intercambiar las filas por las columnas en A.

1 4
1 2 3
M23 (R),
At = 2 5 M32 (R).
A=
4 5 6
3 6
Con respecto a la suma y el producto, la traspuesta tiene las propiedades:
1) (A + B)t = At + B t ,

2) (AB)t = B t At

Tipos de matrices y matrices especiales:


Las matrices de Mnn (K), por razones obvias, se dice que son matrices
cuadradas.
Las matrices cuadradas A tales que aij = 0 cuando i 6= j se denominan
matrices diagonales.
La matriz diagonal A Mnn (K) tal que aii = 1 para todo i se dice
que es la matriz identidad y se suele denotar con I. Es el elemento neutro
de la multiplicacion en Mnn (K), es decir A = IA = AI para cualquier
A Mnn (K).
La matriz de Mmn (K) que tiene todos sus elementos cero se llama matriz
nula y a veces se denota con O. Es el elemento neutro de la suma, es decir
A = A + O = O + A.
Matriz inversa Dada una matriz cuadrada A Mnn (K) se dice que es
invertible y que su matriz inversa es B Mnn (K) si I = AB = BA. A la
matriz inversa de A se la denota con A1 .
La inversa puede no existir, pero si existe es u
nica.
Algunas propiedades de la inversa:
1) (AB)1 = B 1 A1 ,

2) (At )1 = (A1 )t ,

3) (A1 )1 = A.

Para hallar la matriz inversa de A Mnn (K) uno puede tratar de


resolver la ecuacion matricial AX = I donde X es una matriz n n cuyos
elementos son incognitas. Esto conduce a n sistemas de ecuaciones, todos ellos
con la misma matriz de coeficientes e igualados a cada una de las columnas
de I. Con ello se deduce que el calculo de la inversa equivale a aplicar el
algoritmo de Gauss-Jordan a (A|I). Si existe la inversa (y solo en ese caso)
el final del algoritmo sera (I|A1 ).
67

Por ejemplo, calculemos la inversa de

1 2
0
3 .
A = 0 1
2 1 8
Los pasos del algoritmo de Gauss-Jordan son:
!

1
0
0

f3 7f3 2f1

f3 7f3 /7

1
0
0

f1 7f1 2f2

2
1
0

1
0
0

2
1
-5

1
0
-2/7

0
3
1

0
1
0

0
3
-8

0
0
1

-5/7
6/7
-2/7

1
0
-2

0
1
0

0
1
5/7

16/7
-8/7
5/7

0
0
1

0
0
1/7

f3 7f3 +5f2

f2 7f2 3f3

6/7
-3/7
1/7

1
0
0

2
1
0

0
3
7

1
0
-2

1
0
0

2
1
0

0
0
1

1
6/7
-2/7

!
= A1

0
1
5

0
0
1

0
-8/7
5/7

0
-3/7
1/7

5/7 16/7 6/7


= 6/7 8/7 3/7 .
2/7 5/7
1/7

Matrices y sistemas de ecuaciones lineales Los sistemas de ecuaciones


lineales se pueden escribir como una simple ecuacion matricial A~x = ~b donde



a11 . . . a1n
x1
b1
..

.
.
~b = ...
.. ,
A= .
~x = .. ,
.
am1 . . . amn
xn
bm
Si A es una matriz invertible entonces el sistema tiene solucion u
nica dada
1~
por ~x = A b.
Las transformaciones elementales en los algoritmos de Gauss y GaussJordan pueden escribirse en terminos de multiplicaciones de matrices.

5.3.

Espacios vectoriales

Espacios y subespacios vectoriales. Un espacio vectorial sobre un cuerpo es intuitivamente un conjunto en el que tenemos definida una suma y una
multiplicacion por n
umeros (los elementos de un cuerpo) con las propiedades
68

habituales. La definicion rigurosa es mas complicada requiriendo la estructura algebraica de grupo abeliano con la suma y cuatro propiedades que ligan
la suma y la multiplicacion.
Los elementos de un espacio vectorial se llaman vectores y los elementos
del cuerpo (los n
umeros) escalares.
Los ejemplos de espacios vectoriales de espacios vectoriales sobre un cuerpo K mas importantes en este curso son:
1. K n que es el producto cartesiano K .n. veces
. . . . K con la suma y el
producto por elementos de K definidos de la manera obvia. Por razones
que seran claras mas adelante, escribiremos en columna la coleccion de
n elementos de K que representan cada vector de K n . El ejemplo mas
com
un en el curso sera Rn .
2. P[x], el conjunto de polinomios en la variable x con coeficientes en K.
3. Mmn (K).
Un subespacio vectorial es un espacio vectorial incluido en otro con las
mismas operaciones. Las propiedades de espacio vectorial se cumplen inmediatamente en un subconjunto siempre que las operaciones esten bien definidas, por ello para demostrar que cierto subconjunto S de un espacio vectorial
sobre K es un subespacio basta comprobar:
1) ~u, ~v S ~u + ~v S

2) ~u S, K ~u S

Por ejemplo, Rn [x], el conjunto de todos los polinomios con coeficientes reales
de grado menor o igual que n (incluyendo al polinomio cero) son un subespacio de P[x] y en particular un espacio vectorial. Sin embargo los polinomios de
grado exactamente 3 no lo son porque 1 x3 y x + x3 estan en este conjunto
pero su suma no.
Un ejemplo de subespacio vectorial muy frecuente este curso es el subconjunto de K n dado por las soluciones ~x K n del sistema A~x = ~0 donde
A Mmn (K) (el convenio de los vectores columna hace que el producto de
matrices tenga sentido).
Dados vectores ~v1 , ~v2 , . . . ~vn , una combinaci
on lineal de ellos es cualquier
expresion del tipo 1~v1 + 2~v2 + + n~vn con 1 , . . . n K.
69

Los vectores que se obtienen como combinaciones lineales de elementos


de un conjunto de vectores C forman el subespacio generado por C que se
denota con hCi o L(C). Es facil ver que realmente es un subespacio vectorial.
Dado un subconjunto finito de C de K n se puede escribir hCi con ecuaciones, es decir, como {~x K n : A~x = ~0} eliminando parametros por
reduccion de Gauss en una combinacion lineal generica de los elementos de
C.
Por ejemplo

1
1
C = 0 , 2

3
1





1
1
x
x
hCi = y R3 : y = 0 + 2 .

3
1
x
x

Empleando la reduccion de Gauss

1
0
-1

1
-2
3

x
y
z

1
0
0

1
-2
4

x
y
x+z

1
0
0

1
-2
0

x
y
x + 2y + z

!
.

Entonces la ecuacion que define hCi es x + 2y + z = 0 (la matriz A sera en


este caso (1 2 1), una matriz fila).
Recprocamente, dado un subespacio de la forma S = {~x K n : A~x =
~0}, resolviendo esta ecuacion se llegara a una solucion en terminos de parametros (o simplemente la solucion ~0 que da lugar al subespacio trivial) que puede
escribirse como una combinacion lineal de ciertos vectores de K n . El conjunto
formado por dichos vectores satisface hCi = S.
Aplicaciones lineales. Una aplicaci
on lineal es una funcion entre espacios
vectoriales que preserva las operaciones. Es decir, es una funcion f : V W
tal que
1) ~u, ~v V f (~u +~v ) = f (~u)+f (~v ) y 2) ~u V, K f (~u) = f (~u).
El ejemplo que mas utilizaremos en el curso (y al cual reduciremos practicamente todos los ejemplos) es f : K n K m dada por f (~x) = A~x con
A Mmn (K).
Hay dos subespacios asociados a una aplicacion lineal f : V W , el
n
ucleo y la imagen, definidos respectivamente como:
Nuc(f ) = {~v V : f (~v ) = ~0},

Im(f ) = {w
~ W : ~v con f (~v ) = w}.
~
70

La aplicacion lineal f : V W es inyectiva si y solo si Nuc(f ) = {~0}


y es sobreyectiva si y solo si Im(f ) = W . Las funciones que son inyectivas y
sobreyectivas se dice que son biyectivas (y el caso de aplicaciones lineales se
dice que establecen un isomorfismo entre V y W ). Las funciones biyectivas
tiene una funcion inversa, que en nuestro caso sera la aplicacion lineal f 1 :
W V tal que f 1 f es la identidad en V y f f 1 es la identidad en W
(esto significa que dejan todos los elementos invariantes en estos espacios).
Por ejemplo, si f : Rn Rn viene dada por f (~x) = A~x con A
Mnn (R) invertible, entonces la funcion inversa es f 1 (~x) = A1~x.
En el caso f : K n K m con A Mmn (K), utilizando la definicion
obtenemos una descripcion de Nuc(f ) con ecuaciones, A~x = ~0, que una
vez resueltas conduce a un conjunto que genera este subespacio. Por otro
lado, las columnas de A siempre generanP
Im(f ) porque la estructura de la
multiplicacion de matrices hace que A~x =
xi~ci con ~ci la columna i-esima de
A. Con el procedimiento introducido antes, a partir del conjunto de columnas
se pueden obtener las ecuaciones que determinan Im(f ).
Por ejemplo, dada la aplicacion lineal f : R2 R3 definida por


1
x
f
= 0
y
1

1
x
2
,
y
3

hallemos su n
ucleo y su imagen.
Al igualar a ~0 y resolver el sistema se obtiene u
nicamente la solucion trivial
x = y = 0, por tanto Nuc(f ) = {~0}. Las columnas forman un conjunto C
que genera un subespacio de R3 que seg
un hemos visto antes responde a la
ecuacion x + 2y + z = 0. De aqu concluimos que f es una aplicacion lineal
inyectiva pero no sobreyectiva, en particular no tiene inversa.

5.4.

Bases y dimensi
on

Bases y dimensi
on Una base B de un espacio vectorial V es un subconjunto que verifica hBi = V (sistema de generadores) y que es linealmente
independiente.
En este curso solo trataremos el caso de bases con un n
umero finito de
elementos. Es conveniente considerar las bases como conjuntos ordenados (es
decir, no cambiaremos la ordenacion de los vectores que la componen).
71

Dada una base B = {~b1 , . . . , ~bn } cada vector ~v se puede escribir de forma
u
nica como combinacion lineal ~v = 1~b1 + + n~bn . Los n
umeros 1 , . . . , n
se llaman coordenadas o componentes de ~v en la base B.
Un espacio vectorial V puede tener muchas bases pero todas ellas tienen
el mismo n
umero de elementos, llamado dimensi
on que se indica con dim V .
n
En K se llama base can
onica a {~e1 , . . . , ~en } donde ~ei es el vector que
tiene en el i-esimo lugar un uno y en el resto ceros. Esta base canonica se
puede extender al espacio de matrices Mmn (K) considerando {~e1 , . . . , ~emn }
donde ~ei es la matriz que tiene en el i-esimo lugar un uno y en el resto ceros,
donde se cuentan los lugares de izquierda a derecha y de arriba a abajo. En
el espacio Kn [t] formado por los polinomios de grado menor o igual que n en
la variable t, la base llamada canonica es {1, t, . . . , tn }. Con estos ejemplos
se tiene dim K n = n, dim Mmn (K) = mn y dim Kn [t] = n + 1. El espacio
vectorial trivial V = {~0} tiene dimension cero.
En un espacio vectorial de dimension n siempre n vectores linealmente
independientes forman una base. As por ejemplo {1 + x x2 , 7 + x, 5 7x}
es una base de R2 [x] porque claramente estos polinomios son linealmente
independientes y sabemos que dim R2 [x] = 3.
Una aplicacion lineal f : K n K m se puede escribir siempre como
f (~x) = A~x con A Mmn (K). Las columnas de A son las imagenes de los
vectores de la base canonica.
Fijada una base B de un espacio vectorial V de dimension n, la aplicacion que asigna a cada vector de V sus coordenadas en la base B define un
isomorfismo (una aplicacion lineal biyectiva) de V en K n . Esto prueba que
cualquier espacio vectorial (de dimension finita) es isomorfo a alg
un K n , es
decir, es igual salvo renombrar sus vectores. Con ello podemos asignar una
matriz a una aplicacion lineal entre espacios que no son necesariamente K n
siempre que hayamos fijado bases.
Por ejemplo f (P ) = P + P 0 (con P 0 la derivada de P ) es una aplicacion
lineal f : R2 [x] R2 [x] y si fijamos la base canonica, cada polinomio
a + bx + cx2 estara asociado al vector de R3 con coordenadas a, b y c. El
efecto de la aplicacion f se puede traducir a R3 :
f (a+bx+cx2 ) = (a+b)+(b+2c)x+cx2



a
a+b
1
e

b
b
+
2c
f
=
= 0
c
c
0

1
1
0


0
a
2 b .
1
c

Esta u
ltima matriz 3 3 diremos que es la matriz asociada a f cuando se
emplea la base B.
72

Problemas acerca del n


ucleo y la imagen pueden ser mas naturales o
n
mecanicos en K . En el ejemplo anterior es facil ver que Nuc(fe) = {~0} y de
ello se concluye Nuc(f ) = {0}. De hecho, la matriz obtenida es invertible y
as fe es un isomorfismo (una aplicacion ~x 7 A~x define un isomorfismo si y
solo si A es cuadrada e invertible) y se deduce que f tabien lo es.
Dada una aplicacion lineal f : V W siempre se cumple la relacion:
dim V = dim Nuc(f ) + dim Im(f ).
En el ejemplo anterior a partir de Nuc(f ) = {0} se tiene por esta formula
dim Im(f ) = 3 sin necesidad de hallar la imagen, porque dim R2 [x] = 3, que
con la inclusion Im(f ) R2 [x] implica Im(f ) = R2 [x] (porque los elementos
de la base de Im(f ) seran tres vectores linealmente independientes en R2 [x]
y por consiguiente deben generar este espacio).

5.5.

Operaciones con espacios vectoriales

Suma e intersecci
on de subespacios Hay dos operaciones naturales que
se pueden aplicar sobre los subespacios para producir otros nuevos.
1. Dados dos subespacios V y W de un mismo espacio vectorial, su interseccion V W tambien es un subespacio.
2. Dados V y W como antes, se define el subespacio suma como
V + W = {~v + w
~ : ~v V, w
~ W }.
Para calcular la interseccion de dos subespacios de K n dados por ecuaciones, simplemente se a
naden las ecuaciones del primero a las del segundo.
Para calcular la suma de dos subespacios dados por generadores, simplemente se a
naden los generadores del primero a los del segundo.
Por ejemplo, digamos que queremos calcular la interseccion y la suma
de los subespacios de R4 , V y W , que tienen bases BV = {~u1 , ~u2 } y BW =
{~u3 , ~u4 } con

1
2

~u1 =
1 ,
0

0
1

~u2 =
0 ,
1

73


1
0

~u3 =
0 ,
2

2
1

~u4 =
1 .
1

La suma es el subespacio de R4 generado por {~u1 , ~u2 , ~u3 , ~u4 }. Un calculo, que
no se incluye, prueba que no es linealmente independiente pero {~u1 , ~u2 , ~u3 }
s lo es. As pues este u
ltimo conjunto es una base de V + W y se tiene
dim(V + W ) = 3.
Para hallar la interseccion hallamos las ecuaciones de V y W por el procedimiento ya estudiado, obteniendose

V = ~x R4 :

1 0 1 0
~x = ~0 ,
2 1 0 1

W = ~x R4 :

0
2

1 1 0
~x = ~0 .
3 0 1

El subespacio V W se obtiene poniendo estas cuatro ecuaciones juntas.


Resolviendo el sistema cuatro por cuatro resultante, se sigue que hay un solo
vector que genera el subespacio, por tanto dim(V W ) = 1.
Se verifica siempre la f
ormula de Grassman:
dim V + dim W = dim(V W ) + dim(V + W ).
En el ejemplo anterior, a partir de dim V = 2, dim W = 2, dim(V W ) = 1
podramos haber deducido que dim(V +W ) = 3 y por tanto que en el conjunto
{~u1 , ~u2 , ~u3 , ~u4 } sobraba un vector para llegar a una base.
Si E = V + W y V W = {~0}, se dice que E es suma directa de V y W
y se suele escribir E = V W . En ese caso cada vector ~e E se escribe de
forma u
nica como ~e = ~v + w
~ con ~v V , w
~ W.

5.6.

Rango y cambio de base

Rango Dada una matriz A Mmn (K) se define su rango, y se denota con
rg(A), como el n
umero maximo de columnas de A linealmente independientes.
Seg
un hemos visto, si f : K n K m viene dada por f (~x) = A~x entonces
rg(A) = dim Im(f ).
El rango se puede calcular aplicando el algoritmo de reduccion de Gauss
sobre la matriz. El n
umero de columnas pivotes (que es el n
umero de escalones) coincide con el rango y ademas las columnas de A en los lugares de
las columnas pivotes dan una base del subespacio de K m generado por las
columnas. Esto es u
til para calcular bases de Im(f ) y en general de cualquier
m
subespacio de K expresado mediante generadores.
74

Por ejemplo, sea la matriz de M45 (R)

1
3
2 5
A=
3
11
1
7

5 1
8
0
19 7
13 5

5
17

1
3

y llamamemos ~v1 , ~v2 , ~v3 , ~v4 , ~v5 a sus columnas, que generan Im(f ) para f
como antes. Con unos calculos la reduccion de Gauss lleva a

1
0

0
0

3
1
0
0

5
2
0
0

1
2
4
0

5
7
.
20
0

El rango es tres y como las columnas pivote son la primera, la segunda y la


cuarta, se tiene que {~v1 , ~v2 , ~v4 } es una base de Im(f ).
Notese entonces que para cualquier aplicacion lineal f : K n K m (y
todas entre espacios vectoriales de dimension finita se podan reducir a este
caso), los calculos de la reduccion de Gauss para hallar el n
ucleo se pueden
aprovechar para hallar una base de la imagen.
Teorema de Rouch
eFrobenius Consideremos un sistema de ecuaciones
lineales A~x = ~b con A Mmn (K) e introduzcamos la matriz aumentada
A+ = (A|~b) obtenida al a
nadir ~b a A como u
ltima columna.
2
El teorema de RoucheFrobenius afirma que el sistema es
1. Compatible determinado (solucion unica) si y solo si rg(A) = rg(A+ ) = n.
2. Compatible indeterminado (tiene solucion pero no es unica) si y solo si
rg(A) = rg(A+ ) 6= n.
3. Incompatible (no tiene solucion) si y solo si rg(A) 6= rg(A+ ).
En ejemplos numericos el mismo calculo que lleva al rango tambien lleva
a la solucion o a que no existe, por tanto su interes practico en estos casos
es limitado.
Cambio de base para matrices de aplicaciones lineales Si en V (espacio vectorial de dimension finita) se fija una base B entonces cada aplicacion
lineal f : V V tiene asociada una matriz cuadrada A. Al cambiar la
2

Este nombre practicamente solo se usa en los textos escritos por autores hispanos,
parece ser que por influencia del matematico hispanoargentino J. Rey Pastor (18881962).

75

base B por otra base B 0 , la matriz cambia a una nueva matriz A0 mediante
la formula:
A0 = MBB 0 A MB 0 B
donde MB 0 B es la llamada matriz de cambio de base de B 0 a B. Sus columnas
son las coordenadas en la base B de los elementos de la base B 0 . Se cumple
MBB 0 = MB10 B .
Por ejemplo, si tenemos la aplicacion lineal
f : R2 R2 ,

f (~x) = A~x,

con A =

1 2
,
3 4

entonces A es la matriz de f en la
base
can
onica B. Si queremos averiguar
la matriz A0 de f en la base B 0 = 21 , 32
(estas son las coordenadas con
respecto a la base canonica) se tiene seg
un la formula

MB 0 B =

2 3
1 2

A =

2 3
1 2

1
1
3

2
4

2
1

3
2

22
=
16

37
.
27

Si llamamos ~v1 y ~v2 a los vectores de B 0 , una forma alternativa de proceder


es calcular f (~v1 ) y f (~v2 ) es expresarlos como combinaci
o4nlineal de ~v1 y ~v2 .
0
Las coordenadas
seran las columnas de A , as f (~v1 ) = 10 = 22~v1 + 16~v2 ,
7
f (~v2 ) = 17 = 37~v1 + 27~v2 .

5.7.

Determinantes y sus aplicaciones

Determinantes A cada matriz cuadrada A Mnn (K) se le asigna un


elemento de K llamado determinante que se denota con |A| o det(A).
La definicion del determinante de A es recursiva. Si A es una matriz 1 1
se define como el u
nico elemento de A y en dimensiones superiores como
|A| = a11 |A11 | a21 |A21 | + a31 |A31 | + (1)n+1 an1 |An1 |
donde Aij es la matriz obtenida a partir de A tachando la fila i y la columna
j.
A partir de esta definicion es facil deducir algunas formulas comunes como
los determinantes 2 2 o el determinante de una matriz triangular

a b

c d = ad bc,

a11

..
.

a22
0
..
.

a33
..
.

...
...
...
..
.

...

76

= a11 a22 a33 ann .

ann

..
.

Desde el punto de vista computacional la formula que define el determinante es muy costosa para matrices generales de tama
no moderadamente
grande.
Algunas propiedades de los determinantes son:
1. |A| = |At |.
2. |AB| = |A| |B|.
3. Al intercambiar dos columnas (o dos filas) el determinante cambia de
signo.
Regla de Cramer Los determinantes estan ligados a la resolucion de sistemas de ecuaciones lineales n n. La relacion mas conocida (aunque muy
poco practica) es la llamada regla de Cramer :
Sea el sistema A~x = ~b con A Mnn (K) y |A| =
6 0, entonces la solucion
(
unica) viene dada por la formula
x1 =

|A1 |
,
|A|

x2 =

|A2 |
,
|A|

x3 =

|A3 |
,
|A|

...

xn =

|An |
,
|A|

donde Ai es la matriz A sustituyendo la columna i por ~b.


La relacion entre resolucion de sistemas y determinantes queda clara sabiendo que frente a los tres procesos de la reduccion de Gauss, un determinante
1. queda invariante al sumar a una fila un m
ultiplo de otra.
2. se multiplica por al multiplicar una fila por .
3. cambia de signo al intercambiar dos filas.
De ello se podran deducir todas las propiedades de los determinantes y
permite dar un algoritmo basado en el de Gauss para calcularlos. Por ejemplo:

1
0
A=
4
2

2
2
2
2

3
2
0
1

4
3

3
1

0
|A| =
0
0

2
2
6
2

3
2
12
5


4 1
3 0
=
13 0
7 0

2
2
0
0

3
2
6
3

4
3
,
4
4

aunque no es estrictamente necesario intercambiamos ahora las dos u


ltimas
columnas para hacer los calculos con mayor comodidad:

0
|A| =
0
0

2 3
2 2
0 3
0 6

1 2
4

0 2
3

0 0
4

0 0
4

77

3
2
3
0

4
3
= 1 2 (3) 4 = 24.
4
4

La relacion con la reduccion de Gauss tambien sirve para probar que las
columnas de una matriz cuadrada A son linealmente independientes si y solo
si |A| =
6 0 y esta u
ltima condicion equivale a que A sea invertible.
Se pueden emplear determinantes para hallar la matriz inversa. Si |A| 6= 0,
se tiene
1 t
A1 =
C
|A|
donde C es la matriz de cofactores, es decir cij = (1)i+j |Aij |. Por ejemplo,
si A = 31 21 se tiene |A11 | = 1, |A
2, |A22
12 | = 1, |A21 | = 1
|1 =23, y la matriz
1 1
de cofactores resulta C = 2
y
la
inversa
es
A
=
3
1 3 .

5.8.

Diagonalizaci
on de aplicaciones lineales

Valores y vectores propios Dado un endomorfismo, esto es, una aplicacion lineal f : V V , se dice que un vector ~v V no nulo es un autovector
o vector propio si verifica f (~v ) = ~v para alg
un K. Este n
umero se
llama autovalor o valor propio.
Cualquier m
ultiplo no nulo de un vector propio es tambien vector propio.
Si se tiene una aplicacion f : K n K n dada por f (~x) = A~x con A
Mnn (K), entonces el sistema A~x = ~x debe tener soluciones no triviales
(que son autovectores) cuando sea autovalor. Esto prueba que los valores
propios son las races de la ecuacion algebraica |AI| = 0, llamada ecuaci
on
caracterstica. Una vez hallados los autovalores, los autovectores se obtienen
resolviendo el sistema (A I)~x = ~0.
Todas las aplicaciones lineales f : V V tienen una matriz, una vez
fijada una base, y se corresponden con el caso anterior. A veces, con un poco
de falta de rigor, se habla de los valores y vectores propios de una matrices
para referirse a los de la aplicacion del tipo anterior con A especificada.
Calculemos todos los autovalores y autovectores de f : R3 R3 dada
por f (~x) = A~x donde

4 1 6
A = 2 1 6 .
2 1 8

78

Unos calculos, que se pueden simplificar con las propiedades de los determinantes, prueban que la ecuacion caracterstica es
|A I| = 3 + 132 40 + 36 = (9 )( 2)2 = 0.
Por tanto hay dos autovalores: 1 = 9 y 2 = 2. Resolviendo los sistemas
lineales (A 9I)~x = ~0 y (A 2I)~x = ~0 se tiene que los autovectores con
autovalores 1 y 2 son, respectivamente, los vectores no nulos de los subespacios:


* 1 +
V1 = 1
1

+
* 1
0

2 , 6
.
V2 =
1
0

Un teorema asegura que los autovectores correspondientes a diferentes


autovalores son siempre linealmente independientes.
Diagonalizaci
on Se dice que una aplicacion lineal f : V V es diagonalizable si existe una base B de V en la que su matriz es diagonal.
Una aplicacion lineal es diagonalizable si y solo si existe una base formada
por autovectores (y esta es una base B valida en la definicion anterior).
Con el abuso de notacion obvio muchas veces se dice que una matriz
cuadrada A Mnn (K) es diagonalizable para indicar que la aplicacion
f (~x) = A~x, definida de K n en K n , lo es.
Por ejemplo, la matriz A indicada anteriormente es diagonalizable porque

1
0
1
1 , 2 , 6

1
0
1

es una base de R3 formada por autovectores.


No todas las aplicaciones lineales son diagonalizables. El caso mas obvio
ocurre cuando no podemos resolver la ecuacion caracterstica en el cuerpo K
2
2
en elquetrabajamos.
x Por ejemplo, la aplicacion lineal f2 : R R dada por
x
0 1
f y = 1 0
on caracterstica + 1 = 0 que no tiene
y lleva a la ecuaci
solucion en los reales. Podramos extender la aplicacion a F : C2 C2
con
la misma formula y tendramos los autovalores 1 = i, 2 = i (con
i= 1)
s sera diagonalizable en la base de vectores propios complejos
y
i y i
. Incluso con este tipo de extensiones a los complejos no todas
1
1
n
las aplicaciones lineales de Rn en R
son
diagonalizables. Por ejemplo, f :

x
x
2
2
1
1
R R dada por f y = 0 1 y tiene solo el autovalor 1 = 2 y el
79

subespacio formado por los autovectores (y el ~0) tiene dimension uno, por
tanto no hay suficientes autovectores para formar una base.
En el caso diagonalizable, la formula de cambio de base relaciona la matriz
original con la matriz diagonal a traves de las coordenadas de los vectores
de la base en que estamos diagonalizando. En general la formula responde al
esquema D = C 1 AC.
En el ejemplo que hemos venido manejando, se tendra

9
0
0

0
2
0


0
1
0 = 1
2
1

1
2
0

1
0
4
6 2
1
2

1 6
1
1 6 1
1 8
1

0
6 .
1

1
2
0

Es importante el orden relativo en que se ordenan los autovalores y autovectores, as el primer elemento de la matriz diagonal, d11 = 9, es un autovalor
que corresponde al autovector indicado por la primera columna en la matriz
de cambio de base.
Aplicaciones Hay varias aplicaciones de la diagonalizacion a temas fuera
de la propia algebra lineal. Revisamos dos de ellas a traves de sendos ejemplos:
1) Resolucion de sistemas de ecuaciones diferenciales lineales con coeficientes constantes.
Deseamos hallar las funciones regulares x = x(t) e y = y(t) que satisfacen
la relacion
0
x = x 2y

y 0 = x + 4y

que en forma matricial es f~ = Af~ con f~ = y

Diagonalizando se tiene
D=C

AC

2
donde D = 0

0
3

yC=

y A= 1

2
.
4

1
.
1

2
1

As pues f~ = CDC 1 f~. Escribiendo ~g = C 1 f~ se transforma en g~ 0 =


K1 e2t
D~g que es muy facil de resolver como ~g = K
con K1 , K2 constantes
3t
2e
~
arbitrarias. La solucion del sistema inicial sera f = C~g .
2) Resolucion de ecuaciones de recurrencia.

Supongamos que queremos hallar todas las sucesiones {an }


n=0 , {bn }n=0
que satisfacen

an+1 = an 2bn

o equivalentemente ~sn+1 = A~sn con ~sn =

bn+1 = an + 4bn

80

an
1
, A=
bn
1

2
4

que en cierta manera es la variante discreta del problema anterior (las derivadas vienen de incrementos infinitesimales). Iterando obtenemos que la
solucion es ~sn = An~s0 y el problema consiste en hallar una formula para la
potencia n-esima de una matriz. Diagonalizando como antes A = CDC 1
implica An = CDn C 1 y se obtiene

~sn =

5.9.

2
1

1
1

2n
0

0
3n

2
1

1
1

1
~s0 .

Espacios vectoriales eucldeos

Producto escalar En Rn el producto escalar usual se define como ~x ~y =


x1 y1 + + xn yn donde xi e yi son las coordenadas de ~x e ~y (en la base
canonica).
En general se dice que una funcion f : V V R define un producto
escalar en V si satisface las propiedades siguientes
1. f (~x, ~x) 0 y f (~x, ~x) = 0 ~x = ~0
2. f (~x, ~y ) = f (~y , ~x)
3. f es lineal en cada variable, esto es,
f (1~x1 + 2~x2 , ~y ) = 1 f (~x1 , ~y ) + 2 f (~x2 , ~y )
f (~x, 1 ~y1 + 2 ~y2 ) = 1 f (~x, ~y1 ) + 2 f (~x, ~y2 )
Los espacios vectoriales en los que se ha definido un producto escalar
se dice que son espacios vectoriales eucldeos. Las notaciones mas empleadas
para indicar productos escalares son f (~x, ~y ) = ~x~y y f (~x, ~y ) = h~x, ~y i. Tambien
a veces se emplea (~x, ~y ).
R 1 Por ejemplo en Rn [x] (los polinomios nreales de grado n) hP, Qi =
P Q define un producto escalar. En R existen productos escalares di1
ferentes del usual. Por ejemplo
~x ~y = x1 y1 + 2x2 y2 + x3 y3 + x1 y2 + x2 y1
define un producto escalar en R3 . Para comprobar la primera propiedad es
conveniente escribir ~x ~x = (x1 + x2 )2 + x22 + x23 . Mas adelante veremos un
algoritmo para decidir esta la primera propiedad.
81

Dado un vector
~x de un espacio vectorial eucldeo, se define su norma

como k~xk = ~x ~x y se dice que el vector es unitario si k~xk = 1. Dos


vectores son ortogonales si su producto escalar es nulo. Al dividir un vector
no nulo por su norma se obtiene siempre un vector unitario. A este proceso
se le llama normalizacion.
Cualquier producto escalar satisface siempre las desigualdades de CauchySchwarz y de Minkowski, dadas respectivamente, por
~x ~y k~xkk~y k

k~x + ~y k k~xk + k~y k.

Con un producto escalar se pueden definir distancias y angulos (que pueden no coincidir con los medidos con el producto escalar usual): d(~x, ~y ) =
k~x ~y k, cos = ~x ~y /(k~xkk~y k).
Formas bilineales Una forma bilineal es una funcion f : V V K
que es lineal en cada variable. En este curso K = R y una forma bilineal
sera simplemente una funcion que cumple la tercera propiedad del producto
escalar.
Se dice que una forma bilineal es simetrica si f (~x, ~y ) = f (~y , ~x) y que
es definida positiva si f (~x, ~x) > 0 para todo ~x 6= ~0. Con estas definiciones
se tiene que un producto escalar es una forma bilineal simetrica y definida
positiva.
No todas las formas bilineales son productos escalares. Por ejemplo, en
R2 la funcion f que asigna a cada par de vectores el determinante de sus
coordenadas puestas en columna, es bilineal pero no un producto escalar
porque f (~x, ~x) = 0 para todo ~x.
Fijada una base B = {~e1 , . . . , ~en } a cada forma bilineal f se le asigna la
matriz A que tiene como elemento aij a f (~ei , ~ej ).
Por ejemplo, al producto escalar definido antes en el espacio de polinomios
en el caso n = 2 con la base canonica {1, x, x2 } le correspondera la matriz:
R1
A=

1 1 dx

1
R1
1 x 1 dx
R1 2
x 1 dx
1

R1

1 x dx

R 1
1
x x dx
R 11 2
x x dx
1

R1

1 x2 dx
R 1

1
x x2 dx
R 11 2 2
x x dx
1

2
= 0
2/3

0
2/3
0

2/3
0 .
2/5

Al emplear otra base B 0 = {~


e 01 , . . . , e~ 0n }, la matriz A de una forma bilineal
f cambiara a una nueva matriz A0 que se puede calcular o bien directamente
e 0i , e~ 0j ) o bien con la formula de cambio de base
con la definicion a0ij = f (~
82

para formas bilineales A0 = C t AC donde C es la matriz de cambio de base


de B 0 a B.
2
Por ejemplo, empleando la base B 0 =
R 1{1, x, 3x 1} la matriz correspondiente al producto escalar hP, Qi = 1 P Q sera ahora rehaciendo los
calculos

2 0
0
A0 = 0 2/3 0 ,
0 0 8/5

Reconocemos que los vectores de B 0 son ortogonales porque la matriz es


un la formula de cambio de base
diagonal (f (~
e 0i , e~ 0j ) = 0 si i 6= j). Seg
0
anterior, A coincide con

1 0
C t AC = 0 1
0 0

t
1
2
0 0
2/3
3

1
0 2/3
2/3 0 0
0
0 2/5

0
1
0

1
0
3

donde C se ha construido con las coordenadas de los elementos de B 0 (respecto de la base B).

5.10.

Vectores y proyecciones ortogonales

Ortogonalizaci
on Dada una base ortogonal de un espacio vectorial eucldeo es facil ortonormalizarla sin mas que normalizar cada uno de sus vectores
(es decir, dividiendolos por su norma).
Si {~b1 , ~b2 , . . . , ~bn } es una base de un espacio vectorial eucldeo V el proceso
de Gram-Schmidt produce una base ortogonal {~x1 , ~x2 , . . . , ~xn } de V . Este
proceso es un algoritmo definido por

~x1 = b1
i1 ~
X
bi ~xj
~

~xi = bi
~x ,
i = 2, 3, . . . , n.

2 j

k~
x
k
j
j=1
Se puede interpretar el algoritmo diciendo que a cada ~bi se le resta su proyeccion ortogonal (vease el siguiente apartado) sobre h{~x1 , . . . , ~xi1 }i.
2
Por ejemplo, la
R 1 base {1, x, x } de R2 [x] no es ortonormal con el producto
escalar hP, Qi = 1 P Q. Con el proceso de Gram-Schmidt conseguimos una
base ortogonal {P1 , P2 , P3 } tomando P1 = 1 y
R1

P2 = x

1 1x dx
1
R1
2
1 1 dx

R1

= x,

P3 = x

83

2
1 1x dx
1
R1
2
1 1 dx

R1

x3 dx

1
x = x2 .
2
3
1 x dx

R1
1

Para ortonormalizarla se divide por la norma obteniendose


1
,
2

3
x,
2

45 2 1
x
.
8
3

De esta forma se concluye que todo espacio vectorial eucldeo (de dimension finita) tiene bases ortonormales.
Proyecci
on ortogonal Dado un subespacio W de un espacio vectorial
eucldeo V se define el complemento ortogonal de W (en V ) como el subespacio
W = {~v V : ~v w
~ = 0, w
~ W }.
Se prueba que V = W + W y es facil ver que W W = {~0} de modo
que V es suma directa de W y W . En consecuencia cada vector ~v V se
descompone de manera u
nica como ~v = w
~ + ~u con w
~ W y ~u W . Se dice
que w
~ es la proyecci
on ortogonal de ~v en W y se escribe w
~ = PrW (~v ). De la

propiedad (W ) = W se sigue que, con la notacion anterior, ~u = PrW (~v ).
En consecuencia
~v = PrW (~v ) + PrW (~v ).
Si {~x1 , ~x2 , . . . , ~xn } es una base ortogonal de W entonces la proyeccion
ortogonal responde a la formula:
PrW (~v ) =

~v ~x1
~v ~x2
~v ~xn
~x1 +
~x2 + +
~xn .
2
2
k~x1 k
k~x2 k
k~xn k2

Cuando W es un espacio particularmente sencillo puede ser mas facil hallar


primero PrW (~v ) y de ah despejar PrW (~v ).

1
1
1
1

Por ejemplo, para hallar la proyeccion ortogonal de ~v =

sobre el

subespacio de R4 (con el producto escalar usual) W = {~x R4 : x2


4
x3 + 2x4 = 0}, podemos
proceder rapidamente notando que W = {~x R :
~n ~x = 0} con ~n =

0
1
1
2

y por ello ~n genera W . Entonces

~v ~n
~n =
PrW (~v ) = ~v PrW (~v ) = ~v
k~nk2
84

1
2/3
4/3
1/3

!
.

Por otro lado, la forma general de proceder sera extraer primero una base
ortogonal de W . En este caso el algoritmo de Gauss aplicado de la forma
habitual produce una base B que se ortogonaliza utilizando el proceso de
Gram-Schmidt
0
0
1
0
1
0
Gram-Schmidt
0
2
0
1
0
B=
, 1 , 0

B =
, 11 , 1
.
0
0
1
0

Con esta nueva base ya se puede aplicar la formula de la proyeccion ortogonal




0 1 !
2 01
1 1
1 10
2/3
+
+
= 4/3
PrW (~v ) =
0
1
1
1 0
2 0
3 1
1/3
que coincide con el resultado obtenido antes.

5.11.

Aplicaciones ortogonales y aplicaciones


autoadjuntas

Aplicaciones ortogonales y autoadjuntas Consideremos un espacio


vectorial eucldeo V . Se dice que una aplicacion lineal f : V V es una
aplicaci
on ortogonal si preserva el producto escalar, es decir, si
hf (~x), f (~y )i = h~x, ~y i

para todo ~x, ~y V.

Una matriz cuadrada A Mnn (R) se dice que es una matriz ortogonal
si verifica At A = I, donde I es la matriz identidad. De esta definicion se sigue
facilmente |A| = 1, A1 = At y que las columnas de A son ortonormales.
La relacion entre ambas definiciones es que si consideramos Rn con el
producto escalar usual y f : Rn Rn dada por f (~x) = A~x entonces f es
una aplicacion ortogonal si y solo
una matriz
(3x4y)/5
ortogonal.
xsi A es
Por ejemplo, la aplicacion f y = (4x+3y)/5 de R2 en R2 (con el producto escalar usual) es ortogonal porque
f

x
y

3/5 4/5 x
4/5 3/5

y se verifica

85

3/5 4/5 3/5 4/5


4/5 3/5
4/5 3/5

1 0
0 1

Dada una aplicacion lineal f : V V con V un espacio vectorial


eucldeo, se dice que f 0 : V V es la aplicaci
on adjunta de f si
hf (~x), ~y i = h~x, f 0 (~y )i

para todo ~x, ~y V.

Consecuentemente se dice que f es una aplicaci


on autoadjunta si f = f 0 .
De nuevo si consideramos Rn con el producto escalar usual y f : Rn
R dada por f (~x) = A~x estos conceptos tienen una interpretacion matricial sencilla: La aplicacion adjunta de f es f 0 (~x) = At~x y por tanto f es
autoadjunta si A es una matriz simetrica (A = At ).

3x+4y
Por ejemplo, la adjunta de la aplicacion antes citada es f xy = 51 4x+3y
.
n

Estos criterios para decidir si f es ortogonal o autoadjunta se extienden a


cualquier espacio eucldeo siempre que se usen bases ortonormales. Es decir,
dada una aplicacion f : V V cuya matriz en una base ortonormal es A,
entonces f es ortogonal si y solo si At A = I (la matriz es ortogonal) y es
autoadjunta si y solo si A = At (la matriz es simetrica). En cualquier caso
At sera la matriz de la aplicacion adjunta en dicha base.
Teorema espectral Sea V un espacio vectorial eucldeo sobre R. El teorema espectral asegura que dada una aplicacion autoadjunta f : V V
existe una base ortonormal de V formada por autovectores de f . Dicho de
otra forma, cualquier aplicacion autoadjunta diagonaliza en una base ortonormal.
En particular, toda matriz simetrica A Mnn (R) es diagonalizable.
El teorema espectral un resultado teorico, para llevar a efecto la diagonalizacion hay que emplear los metodos de los temas anteriores.
Por ejemplo, diagonalicemos la matriz


3 2 2
A = 2 3 2
2

2 2

en una base ortonormal (con el producto escalar usual de R3 ).


Unos calculos (que es mejor abreviar usando las propiedades de los determinantes) prueban que la ecuacion caracterstica |A I| = 0 es ( 1)2 (6
) = 0, entonces los valores propios son 1 = 1 y 2 = 6.
86

Al resolver (A I)~x = ~0 y (A 6I)~x = ~0 por Gauss se obtiene que los


autovectores correspondientes a 1 = 1 y a 2 = 6 son los vectores (salvo ~0)
respectivamente de los subespacios

Dn 1 oE
2/2
2
E1 =
1
,
y
E2 =
.
0
2
0

El teorema espectral asegura que los vectores de E1 y los de E2 son ortogonales pero no que los generadores que nosotros elijamos formen una base ortonormal. Si ortogonalizamos los generadores de E1 con el proceso de
Gram-Schmidt, debemos sustituir el segundo por
2/2 1 2/4
2/2
1
= 2/4 .

0
2

Con estos tres vectores tenemos una base ortogonal de R3 formada por vectores propios de A, que ortonormalizada (dividiendo cada vector por su norma)
es
2/25 2/5
1/ 2

5
2/ 5
B=
,
.
, 2/2
1/ 2

2/ 5

1/ 5

La matriz C de cambio de base de B a la canonica es la que tiene como


columnas estos vectores y se cumple
1 0 0
0 1 0
= C 1 AC.
0 0 6

Notese que C es una matriz ortogonal (porque sus columnas son vectores
ortonormales) y por tanto C 1 = C t .

5.12.

Diagonalizaci
on de formas cuadr
aticas

Formas cuadr
aticas Una forma cuadratica es una funcion Q : V R
tal que Q(~x) = f (~x, ~x) donde f es una forma bilineal.
de ~x en una base B, entonces Q(~x) =
coordenadas
n
PnSi x1 , . . . , xn son las
f
x
x
donde
f
es
la
matriz
de f en la base B. Tomando
ij i,j=1
i,j=1 ij i j
Pn
aij = (fij + fji )/2 tenemos Q(~x) = i,j=1 aij xi xj = v~ t A~v donde A es una
matriz simetrica y ~v es un vector (columna) en Rn de coordenadas x1 , . . . , xn .
En definitiva, una forma cuadratica no es otra cosa que un polinomio
cuadratico homogeneo en las coordenadas. Ademas se puede escribir como
v~ t A~v con A = At , la matriz de la forma cuadratica en la base elegida.
87

Se dice que una forma cuadratica Q es definida positiva si Q(~x) > 0 para
~x 6= ~0, se dice que es definida negativa si Q(~x) < 0 para ~x 6= ~0 y, suponiendo
que su matriz tiene determinante no nulo, se dice que Q es indefinida si no
es ni definida positiva ni definida negativa.
Si A con |A| 6= 0 es la matriz de una forma cuadratica Q, por el teorema
espectral A diagonaliza en una base ortonormal. En dicha base Q se expresa
como 1 x21 + . . . n x2n donde 1 , . . . , n son los autovalores y Q sera definida positiva si todos ellos son positivos y definida
p negativa si todos son
0
negativos. Un posterior cambio de base xi 7 xi / |i | combinado con un
reordenamiento de las variables permiten llegar a que Q en cierta base se ex2
2
). A esta expresion
+ + yl+k
presa en coordenadas como y12 + + yk2 (yl+1
se le llama forma normal de Q y al par de n
umeros (k, l) signatura de Q (si
l = 0, Q es definida positiva).
Por
Q(~x) = x2 + 8xy 7y 2 con ~x = ( xy ) tiene como matriz

1ejemplo,
4
A = 4 7 , Q(~x) = x~ t A~x. Los autovalores de A son 1 = 1 > 0 y 2 =
9 < 0 entonces su signatura es (1, 1) y es indefinida. De la misma forma
si consideramos el ejemplo en R3 dado por Q = x2 + 5y 2 + 2z 2 + 4yz los
autovalores son 1 = 1 > 0 (doble) y 2 = 6 > 0 por tanto Q es definida
positiva.
El criterio de Sylvester es un criterio simple y eficiente en dimensiones bajas para decidir si una forma cuadratica es definida positiva. Lo que establece
es:
a11 ... a1k

t
.. > 0 para todo k.
x~ A~x definida postiva k = ...
.
ak1 ... akk

Evidentemente, Q es definida negativa si y solo si Q es definida positiva y


el criterio se extiendo de la forma obvia.
Por ejemplo, la forma cuadratica en R3 dada por x2 + 11y 2 + 5z 2 4xy +
2xz 2yz es definida positiva porque
1 2 1
1 2

1 = | 1 | > 0,
2 = 2 11 > 0 y 3 = 2 11 1 > 0.
1 1 5

Usando el criterio de Sylvester, la forma cuadratica antes mencionada Q(~x) =


x2 + 8xy 7y 2 , no es definida positiva porque 1 < 0, tampoco es defi88

nida negativa porque cambiando de signo la matriz se tiene 2 < 0, por


consiguiente es indefinida, como ya habamos visto de otro modo.
Un tercer metodo para comprobar si una forma cuadratica es definida
positiva es el algoritmo de Gauss que se basa en completar cuadrados para
eliminar todos los productos cruzados y conseguir expresar la forma cuadratica como una combinacion de cuadrados.
Por ejemplo si Q = x2 y 2 + 4z 2 2xy + 6xz 2yz, elegimos una
variable, digamos x, y queremos eliminar los productos 2xy + 6xz para ello
se completan cuadrados escribiendo x2 2xy +6xz = (xy +3z)2 y 2 9z 2 +
6yz (notese que los coeficientes 1 y 3 son la mitad de 2 y 6). Sustituyendo
obtenemos
Q = (x y + 3z)2 2y 2 5z 2 + 4yz.
Ahora ya no hay productos cruzados con x. Se repite el mismo procedimiento
con la variable y para eliminar 4yz. Lo mas comodo es sacar el el coeficiente

2 factor
com
un antes de completar cuadrados: 2(y 2 2yz) = 2 (y

z)2 z 2 . Sustituyendo se llega a


Q = (x y + 3z)2 2(y z)2 3z 2 .
Con esto ya esta claro que la
forma cuadratica
es indefinida. El cambio de
base X = x y + 3z, Y = 2 (y z), Z = 3 z lleva a la forma normal
X 2 Y 2 Z 2.
Un caso excepcional en el algoritmo de Gauss es cuando la forma cuadratica solo tiene productos cruzados y entonces no hay ninguna variable en la
que comenzar completando cuadrados. Por ejemplo, Q = xy + 3xz + 5yz. En
ese caso, antes de comenzar se hace un cambio de base previo que provoque
la aparicion de alg
un cuadrado. Tpicamente x = X + Y , y = X Y (o con
otros nombres de variables) que llevara la Q anterior a X 2 Y 2 + 8Xz 2Y z
sobre la cual ya se pueden completar cuadrados hasta llegar a (X + 4z)2
(Y + z)2 15z 2 que prueba que la signatura es (1, 2).

89

También podría gustarte