Matlab

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 124

UNIVERSIDAD CARLOS III DE MADRID

ESCUELA POLITÉCNICA SUPERIOR

INGENIERÍA TÉCNICA DE TELECOMUNICACIÓN


SISTEMAS DE TELECOMUNICACIÓN

PROYECTO FIN DE CARRERA

LIBRERÍA EN MATLAB PARA RECONOCIMIENTO


DE PATRONES EN RESONANCIA MAGNÉTICA
FUNCIONAL DEL CEREBRO HUMANO

AUTOR: MÓNICA ROMÁN PERELA


TUTOR: MANEL MARTÍNEZ RAMÓN

DICIEMBRE 2007
Título: "LIBRERÍA EN MATLAB PARA RECONOCIMIENTO DE
PATRONES EN RESONANCIA MAGNÉTICA FUNCIO-
NAL DEL CEREBRO HUMANO".

Autor: Mónica Román Perela

Tutor: Manel Martínez Ramón

La defensa del presente Proyecto Fin de Carrera se realizó el día 20 de diciembre de 2007;
siendo calicada por el siguiente tribunal:

Presidente: Dra. Ascensión Gallardo Antolín

Secretario Sr. Luis Antonio Azpicueta Ruiz

Vocal Dra. Mónica Chinchilla Sánchez

Habiendo obtenido la siguiente calicación:

Calificación:

Presidente Secretario Vocal

3
Agradecimientos

A toda mi familia, en especial a mis padres (Eduardo y MªAngeles) y a mi hermano (Alber-


to), que gracias a su apoyo, su conanza y su cariño han hecho posible que haya llegado a la
culminación de esta etapa universitaria.
A toda la gente de la FAM (Colegio Mayor Residencia de estudiantes Fernando Abril Mar-
torell), como cariñosamente la llamamos todos los que hemos pasado por ella. De la cual me
llevo buenos amigos: Aida, Duarte, Tin, Dani, Fer, Juan Carlos...Porque estos años universita-
rios no hubieran sido lo mismo sin ellos. Han sido un gran apoyo y una gran ayuda en los malos
momentos, pero sobretodo me han regalado muy buenos momentos.
A Jorge, una persona especial, por su conanza, paciencia y cariño. Por apoyarme y animarme
a seguir adelante, porque con él todo ha sido más fácil.
A mis compañeros de carrera, por su ayuda y apoyo prestados. De los cuales me llevo también
buenos amigos: Miriam, Leticia, Rosana...y muy buenos momentos.
A Manel, tutor de mi proyecto, por su ayuda prestada.
En denitiva, a toda la gente que ha compartido conmigo estos años universitarios.

Gracias a todos.

5
Si lloras por haber perdido el sol,
las lágrimas no te dejarán ver las estrellas.
Rabindranath Tagore

Nuestra recompensa se encuentra en el esfuerzo y no en el resultado,


un esfuerzo total es una victoria completa.
Mahatma Gandhi

Si una persona es perseverante, aunque sea dura de entendimiento,


se hará inteligente; y aunque sea débil se transformará en fuerte.
Leonardo Da Vinci

A veces navegamos con el viento, a veces en contra;


pero debemos navegar, no estar a la deriva, ni echar el ancla.
Oliver Wendell Holmes

7
Resumen

Este es el proyecto que elegí para realizar mi proyecto n de carrera: "Librería en matlab
para reconocimiento de patrones en resonancia magnética funcional del cerebro humano". Me
decidí por este proyecto porque ví que tenía una aplicación muy práctica, como es el campo de
la bioingeniería, campo que me llama bastante la atención.
En líneas muy generales, trataré de explicar en qué se basa dicho proyecto. A partir de
unos datos de entrada consistentes en imágenes de fMRI (imágenes de resonancias magnéticas
funcionales) se realiza una librería de algorimos de reconocimiento de patrones capaces de obtener
un porcentaje de error para los distintos tipos de entrenamiento y de indicar de forma precisa las
zonas del cerebro que son importantes para la clasicación. Mediante un conjunto de máscaras
se divide el cerebro en catorce áreas funcionales, debido a la alta dimensionalidad de los datos
de entrada. Se enmascarara la secuencia de imágenes, de tal forma que se tendrán divididos
los datos en 14 grupos. Cada grupo de datos va a una SVM (máquina de vectores soporte). Se
dividen los datos de cada grupo en dos subconjuntos, de forma diferente dependiendo del tipo de
entrenamiento que estemos realizando; uno de ellos servirá para entrenar las SVM's y el boosting.
El otro subconjunto se reserva para hacer el test una vez se haya nalizado el entrenamiento de las
SVM's y el boosting. En la fase de test, el boosting genera a la salida de cada SVM un parámetro
(λ). Este parámetro indica la importancia de cada área funcional. Se realizarán cuatro tipos de
entrenamientos diferentes con los mismos datos de entrada: entrenamiento, entrenamiento y test,
V-Fold y LOO. Realizando varios experimentos para cada tipo. Se generan unos resultados para
el estudio estadístico de las prestaciones de los clasicadores.
Hay varias herramientas y técnicas que se dedican a esto, sin embargo hay muchos caminos
que siguen sin explorarse. En uno de estos caminos es donde nos hemos hecho un hueco.

9
Índice general

1. Resonancia Magnética Funcional 19


1.1. Motivación de este proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.2. ¾Qué es lo que se pretende en este PFC? . . . . . . . . . . . . . . . . . . . . . . . 21

1.3. Introducción a la generación de secuencias MR . . . . . . . . . . . . . . . . . . . 21

1.3.1. El experimento básico NMR . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.3.2. Movimiento de precesión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.3.3. Relajación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.3.4. Equilibrio de magnetización . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.3.5. Pulso RF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.3.6. Señal deteriorada inducida . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.3.7. Repetición del experimento básico NMR . . . . . . . . . . . . . . . . . . . 27

1.3.8. Secuencias básicas de pulsos . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.4. Efecto BOLD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.4.1. Introducción al efecto BOLD . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.4.2. Base biofísica del efecto BOLD . . . . . . . . . . . . . . . . . . . . . . . . 30

1.4.3. Base siológica del efecto BOLD . . . . . . . . . . . . . . . . . . . . . . . 36

1.5. BOLD-fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

1.5.2. Respuesta hemodinámica del efecto BOLD . . . . . . . . . . . . . . . . . . 37

1.5.3. Optimización de la adquisición de la imagen BOLD . . . . . . . . . . . . . 44

11
2. Máquinas de Vectores Soporte (SVM) 49
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2. Límites de la generalización de una máquina de aprendizaje . . . . . . . . . . . . 50
2.2.1. Clasicación de puntos con hiperplanos orientados en <n . . . . . . . . . . 51
2.2.2. Minimización del límite minimizando h . . . . . . . . . . . . . . . . . . . . 52
2.2.3. Riesgo de minimización estructural (SRM) . . . . . . . . . . . . . . . . . . 52
2.3. Máquinas lineales de vectores soporte . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3.1. Caso separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3.2. Las condiciones de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . 55
2.3.3. Fase de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.3.4. Caso no separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4. Máquinas de vectores soporte lineales para regresión (SVR) . . . . . . . . . . . . 58
2.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4.2. Formulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5. Máquinas de vectores soporte no lineales . . . . . . . . . . . . . . . . . . . . . . . 60
2.5.1. Condición de Mercer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.5.2. Notas de φ y H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.5.3. kernels de SVMs no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.4. Soluciones globales y únicas . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.6. Máquinas de vectores soporte no lineales para regresión . . . . . . . . . . . . . . 64
2.7. Multirregresor SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.8. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3. Adaboost y boosting distribuido 69


3.1. Introducción al Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2. AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.3. Análisis del error de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.4. Análisis del error de generalización . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.5. Relación con máquinas de vectores soporte . . . . . . . . . . . . . . . . . . . . . . 74
3.6. Algorimos de Boosting distribuido . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.6.1. Adaboost distribuido I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

12
3.6.2. Adaboost distribuido II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.7. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4. Estructuras del algoritmo, software desarrollado y datos 81


4.1. Estructura del algoritmo desarrollado . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.2. Estructura del software desarrollado . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.3. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.4. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5. Experimentos y Resultados 97
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2. Caso 1: Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.3. Caso 2: Entrenamiento y test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4. Caso 3: V-Fold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5. Caso 4: Leave One Out (LOO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.6. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6. Conclusiones 109
6.1. Descripción del problema y discusión de los resultados . . . . . . . . . . . . . . . 109
6.2. Campos de investigación futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

APÉNDICES 115

A. PRESUPUESTO DEL PROYECTO 115

13
14
Lista de Figuras

2.1. El procedimiento SVM consiste en poner el hiperplano tan lejos como sea posible de las muestras m
2.2. Hiperplanos de separación para el caso no separable. . . . . . . . . . . . . . . . . 56
2.3. Únicamente las muestras que estén fuera del margen ±ε, serán parte de la solución 59
2.4. Vapnik o función de coste ε-insensible. . . . . . . . . . . . . . . . . . . . . . . . . 59
2.5. Regiones de decisión para el caso separable (izquierda) y no separable (derecha) siendo el kernel un

3.1. Comparación de las tasas de error para AdaBoost y otros cuatro métodos . . . . 73

4.1. Aplicación de un clasicador local para cada una de las 14 áreas cerebrales. . . . 87
4.2. Combinación de las salidas de los clasicadores para generar el mapa de boosting. 88
4.3. Máscara aplicada a las imágenes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.4. Áreas del cerebro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5. Diagrama de bloques: muestra la secuencia de las funciones del algoritmo desarrollado. 95

5.1. Resultados del ejemplo 1 para el caso de entrenamiento. . . . . . . . . . . . . . . 98


5.2. Resultados del ejemplo 2 para el caso de entrenamiento. . . . . . . . . . . . . . . 99
5.3. Resultados del ejemplo 3 para el caso de entrenamiento. . . . . . . . . . . . . . . 99
5.4. Resultados del ejemplo 1 para el caso de entrenamiento y test. . . . . . . . . . . . 100
5.5. Resultados del ejemplo 2 para el caso de entrenamiento y test. . . . . . . . . . . . 100
5.6. Resultados del ejemplo 3 para el caso de entrenamiento y test. . . . . . . . . . . . 101
5.7. Resultados del ejemplo 1 para el caso V-Fold con v=5. . . . . . . . . . . . . . . . 102
5.8. Resultados del ejemplo 2 para el caso V-Fold con v=5. . . . . . . . . . . . . . . . 102
5.9. Resultados del ejemplo 3 para el caso V-Fold con v=5. . . . . . . . . . . . . . . . 103

15
5.10. Resultados del ejemplo 4 para el caso V-Fold con v=2. . . . . . . . . . . . . . . . 104
5.11. Resultados del ejemplo 5 para el caso V-Fold con v=8. . . . . . . . . . . . . . . . 104
5.12. Resultados del ejemplo 1 para el caso LOO. . . . . . . . . . . . . . . . . . . . . . 105
5.13. Resultados del ejemplo 2 para el caso LOO. . . . . . . . . . . . . . . . . . . . . . 106

16
Lista de Tablas

1.1. Tiempos de relajación para los distintos tejidos: T1 y T2 . . . . . . . . . . . . . . 26

4.1. Número de t-maps adquiridos con diferentes longitudes de campo, diferentes resulociones espaciales

5.1. Valores del porcentaje de error para el caso de entrenamiento y test. . . . . . . . 101
5.2. Valores del porcentaje de error para el caso de V-Fold. . . . . . . . . . . . . . . . 103
5.3. Valores del porcentaje de error para el caso de V-Fold con diferentes valores del parámetro V.104
5.4. Valores del porcentaje de error para el caso de LOO. . . . . . . . . . . . . . . . . 106
5.5. Valores mínimos del porcentaje de error de cada tipo de entrenamiento. . . . . . . 107

A.1. Fases del Proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116


A.2. Costes de personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
A.3. Costes de material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
A.4. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

17
18
Capı́tulo 1
Resonancia Magnética Funcional

1.1. Motivación de este proyecto

Las técnicas de imagen por resonancia magnética funcional (fMRI) del cerebro humano, mag-
netoencefalografía (MEG) y electroencefalografía (EEG) permiten obtener secuencias tempora-
les de imágenes que revelan los cambios de activación cerebral en respuesta a tareas sensoriales,
motoras, cognitivas o emocionales. También permiten descubrir variabilidad en la actividad cere-
bral interindividual, por ejemplo, entre sujetos sanos y enfermos. Enfermedades como Parkinson,
demencia, Alzheimer, esquizofrenia y la epilepsia son estudiadas para la búsqueda de cura o
diagnóstico exacto, y el electroencefalograma (EEG) sigue siendo la principal herramienta de
análisis para el estudio de estos desórdenes neurológicos.

Incluso las respuestas a tareas extremadamente sencillas involucran una red muy distribuida
de áreas funcionales del cerebro. La información contenida espacialmente en la intensidad y la
forma de los patrones de activación cerebral y sus variaciones temporales no se puede cuanticar
fácilmente utilizando métodos clásicos de análisis tales como el mapeado paramétrico estadístico
(SPM)[31, 31]. Son necesarios métodos más versátiles y que necesiten de una intervención mo-
derada por parte del usuario, dada la gran cantidad y variedad de información disponible y de
las actuales dicultades para su análisis.

Los métodos de aprendizaje máquina aplicados a estas tecnologías son una aproximación
novedosa para el campo de la medicina, que prometen detectar y caracterizar diferencias sutiles
en patrones de activación entre diferentes tareas, lo que facilite la obtención de información de
interés para aumentar el conocimiento neuroanatómico y clínico del cerebro humano.

19
20 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

El reconocimiento automático de patrones able es difícil debido a la alta dimensionalidad


de los datos. Por ejemplo, en MEG, cada imagen contiene unas 3000 fuentes, y en fMRI cada
una contiene entre 10.000 y 100.000 voxels, dependiendo de la intensidad del campo magnético
aplicado. Usualmente, el número de imágenes disponible es pequeño en comparación con el nú-
mero de dimensiones de cada patrón. Para aumentar el número de patrones, se suelen utilizar
diferentes sujetos, entre los cuales existirán diferencias signicativas interindividuales; y diferen-
tes escáneres, entre los que habrá variabilidad. Recientes trabajos [15] han demostrado que el
discriminante lineal (LD) y las máquinas de vectores soporte (SVM) [9] permiten discriminar
entre 10 clases diferentes de patrones de activación visual excitadas por la presentación visual
de varias categorías de objetos en experimentos con un solo sujeto. En [28], se usó una SVM
lineal para demostrar que si bien la información de la orientación de estímulos visuales yace
en estructuras microscópicas en el tejido neuronal, que no pueden ser observadas con ninguna
de las tecnologías de imagen mencionadas, esta información puede ser detectada observando las
áreas del cerebro mediante fMRI, lo que indica que la información está distribuida macroscó-
picamente. En [33] se uso una SVM lineal para reconocimiento en línea, de activación motora
izquierda o derecha, en experimentos con un solo sujeto. En [63] se aplicó una SVM para detectar
estados cognitivos en diferentes sujetos. Se compararon clasicadores gausianos naifs (GNBC),
k-vecinos más próximos (KNN), y SVM lineal aplicada a varias tareas. Estos autores señalaron
por primera vez que la reducción de dimensionalidad mejora ostensiblemente los resultados. En
el resto de artículos mencionados no se plantea el problema de la dimensionalidad. Otros au-
tores sugieren el uso de técnicas de reducción de la dimensionalidad que, sin embargo, puede
destruir información. Otras técnicas utilizan análisis en componentes principales (PCA), pero
en imágenes de alta dimensionalidad, y con pocos datos, esta técnica no es adecuada; además,
su coste computacional es en ocasiones inabordable. En general, en todos los trabajos previos,
se utilizan las técnicas de aprendizaje máquina como cajas negras, no aportando en ninguno de
ellos trabajo original desde el punto de vista teórico. Por un lado, sólo se aborda el fundamental
problema de la localización y caracterización espacial de los patrones de activación cuando se
utilizan técnicas lineales, presuponiendo que al utilizar métodos no lineales, las transformaciones
espaciales irreversibles que se aplican, impiden analizar la ubicación y la forma de la información
relevante para la clasicación, predicción o regresión aplicadas al estudio del cerebro. Por otro
lado, los problemas a resolver no se abordan desde el punto de vista del procesado de la señal, por
lo que los métodos máquina utilizados se reducen a ser un mero instrumento de reconocimiento
1.2 ¾Qué es lo que se pretende en este PFC? 21

de patrones. En [32] se presentó un método que combina SVMs y boosting [21] en una versión
distribuida, y que se benecia de la división del cerebro en áreas funcionales [55], y la combi-
nación óptima de clasicadores mediante boosting para reducir la dimensionalidad sin destruir
información. Además, aún utilizando cualquier tipo de clasicación no lineal, se puede encontrar
la ubicación de la información dentro del cerebro. En [37] se presentó un método más general
validado por un conjunto de experimentos con diferentes sujetos.

1.2. ¾Qué es lo que se pretende en este PFC?


Los objetivos de este proyecto son los siguientes:

Construir una librería de clasicación adaptada al problema de clasicación de estímulos


sensoriales y motores del cerebro humano.

Se parte de un software preexistente de clasicación y regresión.

Se modican y se estructuran las funciones básicas del software.

Se corrigen errores del proceso en:

ˆ Normalización.

ˆ Preprocesado.

ˆ Entrenamiento.

Se genera un conjunto de funciones para el estudio estadístico de las prestaciones de los


clasicadores.

1.3. Introducción a la generación de secuencias MR


La RM o MR (Resonancia Magnética) es un fenómeno físico por el cual ciertos elementos
como el H+ pueden absorber selectivamente energía electromagnética de radiofrecuencia al ser
colocados bajo un potente campo magnético. Para obtener una imagen de RM se necesita: una
fuente creadora de un campo magnético (imán), una antena que emita pulsos de radiofrecuencia
de diversos valores y separados a intervalos de tiempo adecuados (secuencias de pulso), una antena
que reciba las señales emitidas por los tejidos examinados, y un ordenador con un sistema de
representación de imágenes o de análisis espectrométrico que construya las imágenes.
22 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

Un volumen de tejido del organismo tiene una densidad especíca en núcleos de H+. Así,
el agua tendrá una densidad diferente a la sangre, al hueso y al parénquima de cada músculo
o víscera. Cada uno de estos compartimentos o tejidos se llamaran voxels. Cuando los núcleos
de H+ de un determinado voxel son sometidos a un campo magnético, absorben energía de
radiofrecuencia y entran en resonancia. Cada voxel resonará de forma diferente a los otros voxels,
debido a las diferencias de densidades de H+, y un mismo voxel resonará diferentemente según
la secuencia de pulso al que sea sometido.
El exceso energético de los núcleos en resonancia será liberado en forma de emisión de ra-
diofrecuencia en un proceso llamado de relajación (liberación de energía de los núcleos de H+
para volver a su posición de equilibrio). Existen dos clases de relajación, la relajación en el plano
longitudinal (cuyo tiempo de relajación se denomina T1) y en el plano transversal (cuyo tiempo
de relajación es T2). Durante la relajación se induce una señal eléctrica que es captada por la
antena receptora que envía información a la computadora para obtener la imagen tomográca
en la RM. Esta imagen está determinada fundamentalmente por la densidad de los voxels y
por la secuencia de pulsos a la que se sometan los voxels en estudio, así como por el tiempo de
repetición o TR (tiempo en que se repiten las secuencias de pulso a lo largo de la obtención de
la imagen) y por el tiempo eco o TE (tiempo transcurrido entre la excitación de los núcleos de
H+ y la recogida de la señal a modo de eco).
Existen 3 tipos básicos de secuencias de pulso:

SE(Spin-Echo)que puede potenciar las imágenes en T1, T2 y densidad protónica. Es la


secuencia más utilizada por sus posibilidades diagnósticas.

IR(Inversion-Recovery), que potencia la imagen en T1.

GE(Gradient-Echo),que potencia las imágenes en T1, T2 y T2*.La imagen potenciada en


T2* tiene su máxima representatividad en el estudio del sistema músculo esquelético.

Las imágenes de resonancia magnética (MRI) son una herramienta indispensable en el diag-
nóstico de radiologías. MRI revela sutiles detalles de la anatomía, y no es dañino ya que no
requiere radiación ionizante como los rayos X. MRI es una técnica altamente exible. Para en-
tender todo el rango de aplicaciones de MRI, es necesario entender los principios físicos de MR
y cómo la señal de resonancia magnética puede ser manipulada experimentalmente.
Hay varios libros y artículos, se distinguirán aquellos que tratan el tema desde el punto de
1.3 Introducción a la generación de secuencias MR 23

vista médico y físico (algunos de los cuales son [15], [62], [42]) y otros en los que hay una
conexión entre el fenómeno físico y la teoría del aprendizaje estadístico ( [36], [37], [33] entre
otros).

1.3.1. El experimento básico NMR

Cada vez que se realiza una imagen de resonancia magnética, se produce una variación en el
experimento básico. A continuación se explica cómo se produce la señal MR.
Una muestra se coloca en un campo magnético, y una espiral de cable se coloca cerca de la
muestra orientado según el eje de la espiral, de forma perpendicular al campo magnético. La es-
piral es usada como transmisor y como receptor. Durante la fase de transmisión del experimento,
se aplica una oscilación a la espira durante un tiempo breve (milisegundos), lo cual produce un
campo magnético oscilante en la muestra. Dichas oscilaciones están en el rango de las frecuen-
cias radio (RF). Debido a esto, a la espira se la denomina espira RF, y las breves oscilaciones
del campo magnético se denominan pulsos RF. Durante la fase de recepción del experimento,
la espira se conecta a un circuito detector que detecta pequeñas oscilaciones de corriente en la
espira.
El experimento básico consiste en aplicar un pulso RF a una muestra y después monitorizar
la corriente en la espira para ver si hay una señal de vuelta de la muestra. Si se realiza este
experimento con frecuencia RF arbitraria, puede ser que no se obtenga una señal de vuelta.
Pero para unas frecuencias especícas habrá una débil y transitoria oscilación en la corriente
detectada en la espira. Esta corriente, que oscila a la misma frecuencia que el pulso RF, es la
señal NMR. Estas frecuencias especícas para las que ocurre esto son las frecuencias de resonancia
de un núcleo particular. A esta frecuencia de resonancia el núcleo es capaz de absorver energía
electromagnética del pulso RF durante la fase de transmisión y devolver una pequeña porción
de esa energía a la espira durante la fase de recepción.

1.3.2. Movimiento de precesión

Considerando los efectos que tiene un campo magnético externo en el movimiento de un


núcleo de un átomo, con su spin intrínseco, se aprecia como el eje de rotación gira alrededor
de la dirección del campo magnético externo, este movimiento es conocido como precesión. La
frecuencia de Larmor es la frecuencia de precesión, la cual describe el movimiento de una partícula
24 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

en el espacio. No es de interés el estudio de núcleos de los átomos individualmente. El interés


se centrará en el estudio de la masa del cerebro humano, por lo tanto el estudio de muchos
protones con propiedades potencialmente distintas. El estudio se centrará en el comportamiento
de los átomos de hidrógeno ya que el cuerpo humano está compuesto principalmente de agua.
En ausencia de campo magnético, los ejes de los spins de todos los núcleos de la materia están
orientados en direcciones aleatorias, por lo tanto la magnetización de la red es cero.

La fuente de la resonancia en un experimento NMR es que los protones y los neutrones que
componen un núcleo poseen un momento angular intrínseco llamado spin. El concepto físico del
spin es puramente un fenómeno mecánico-cuántico. Para un protón, el momento angular es una
parte intrínseca del protón. Todos los protones, neutrones y electrones tienen la misma magnitud
del momento angular, y no puede ser aumentado ni decrementado. La única característica que
se puede modicar son los ejes del spin, es decir, la dirección del momento angular. Cuando
los protones se combinan para formar un núcleo, se combinan en pares con spins orientados
opuestamente y neutrones que se comportan similarmente.

Ahora se considera un protón situado en un campo magnético. Debido al momento magnético


del dipolo, el campo magnético se esfuerza en un par de torsión del protón, el cual, a falta de
otros efectos, rota el dipolo hacia la alineación con el campo. Como el protón también posee un
momento angular, esta alineación no se produce inmediatamente. En cambio, el eje del spin del
protón tiene un movimiento de precesión alrededor del eje del campo, o mejor dicho alineado con
él.

La frecuencia de este movimiento de precesión, v0 , es la frecuencia de resonancia del núcleo


magnético, y frecuentemente se conoce como frecuencia de Larmor. Esta frecuencia es directa-
mente proporcional a la fuerza del campo magnético debido a que el par de torsión aplicado al
dipolo es proporcional al campo.

La ecuación fundamental de la resonacia magnética es:

v0 = γ · B0 (1.1)

donde B0 es la principal fuerza del campo magnético y γ es una constante llamada radio
de giro electromagnético. El factor γ es diferente para cada núcleo y se expresa en MHz/T. La
ecuación 1.1 es la principal base de MRI, que utiliza pequeñas manipulaciones de la frecuencia
de resonancia para ubicar la localización de la señal.
1.3 Introducción a la generación de secuencias MR 25

1.3.3. Relajación

Junto con el movimiento de precesión, la relajación es el segundo proceso importante que


afecta a la orientación del spin de los protones. La relajación es un ejemplo de equilibrio de
energía.
La señal MR creada por el pulso de excitación no dura indenidamente sino que se desvanece
a lo largo del tiempo. A este fenómeno se le llama relajación de spin.
Un dipolo en un campo magnético tiene la energía más baja cuando se alinea con su campo, y
la energía más alta cuando está situado en oposición al campo. La orientación inicial de la energía
magnética debe ser disipada como calor. Para el núcleo de H en moléculas de agua, esta unión es
muy débil porque T1 es largo. Si colocamos un protón en un campo magnético largo, la tasa de
precesión es muy rápida v0 = 64M Hz en 1.5T. Si observamos el ángulo del eje del dipolo en unas
pocas rotaciones, podremos ver que no cambia. Aparece como un movimiento puro de precesión,
sin aparente tendencia del dipolo a alinearse con el campo. Pero si observamos la precesión por
millones de ciclos, podremos ver que el dipolo gradualmente tiende a alinearse con el campo
magnético. La constante de tiempo para este proceso de relajación se llama T1, y después de un
tiempo varias veces mayor que T1, el dipolo estará alineado con el campo magnético B0 .

1.3.4. Equilibrio de magnetización

En equilibrio, la diferencia entre el número de spin alineados con el campo y el número de


ellos opuestos al campo es sólo de 1 sobre 100000. Esto crea un débil equilibrio de magnetización
M0 alineado con el campo. Cada centrímetro cúbico de una muestra magnetizada uniformemente
implica un momento M0 en el dipolo.

1.3.5. Pulso RF

El equilibrio local de la magnetización M0 es la diferencia entre dipolos alineados con el campo


y opuestos al campo, pero esto no es directamente observable porque tiene algunos órdenes de
magnitud menos que B0 . Sin embargo, si todos los dipolos que contribuyen con M0 pueden ser
inclinados 90º, todos ellos tendrán un movimiento de precesión alrededor del campo con la misma
tasa. La magnetización M0 puede girar 90º y empezar la precesión alrededor del campo. Inclinar
la magnetización produce una señal medible y transitoria.
El campo magnético puede producir arbitrariamente largos ángulos volteados. Desde el punto
26 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

de vista energético, la inclinación de la magnetización desde B0 aumenta la energía en la orien-


tación de los dipolos: el núcleo absorve energía del pulso RF. Esta transferencia de energía es
posible con un pequeño campo B1 porque B1 oscila en la frecuencia de resonancia del núcleo, en
la frecuencia de precesión.

1.3.6. Señal deteriorada inducida

Un proceso de magnetización produce un campo magnético que cambia con el tiempo. Esto
induce una corriente creando una señal NMR proporcional en magnitud al proceso de magnetiza-
ción. Esta señal se llama FID (Free Induction Decay), free se reere al movimiento de precesión
del núcleo, induction al proceso electromagnético con el cual un cambio en el campo magnético
induce una corriente en la espira, y por último, decay se reere a la señal transitoria.
La señal se deteriora porque la componente del proceso de magnetización decae también. La
razón de esto es que la suma de dipolos individuales que producen una magnetización no realizan
el movimiento de precesión a la misma velocidad. El proceso de magnetización se deteriora
exponencialmente y la constante de tiempo para este deterioro se llama T2.
Al repetir el experimento después de que la señal se haya deteriorado, obtenemos una nueva
señal. El que estas dos señales sean iguales o no depende del tiempo entre los pulsos RF, llamado
tiempo de repetición (TR). Cuando TR es muy grande, la señal generada mediante el segundo
pulso RF es igual en magnitud que la generada mediante el primer pulso RF. Pero si TR es
pequeño, la señal generada por el segundo pulso RF es más débil.
Para generar una segunda señal con amplitud, el tiempo debe ser más grande que T1 para
permitir a los spin relajarse hacia el equilibrio. Este proceso es exponencial, está descrito por la
constante de tiempo T1. Este tiempo de relajación T1, también varía debido a las características
(materia gris, materia blanca...)

Tipo de Tejido T1 [ms] T2 [ms]


Materia gris 950 100
Materia blanca 600 80
Músculo 900 50
Fluído cerebro-espinal 4500 2200
Grasa 250 60
Sangre 1200 100-200

Tabla 1.1: Tiempos de relajación para los distintos tejidos: T1 y T2


1.3 Introducción a la generación de secuencias MR 27

1.3.7. Repetición del experimento básico NMR

Ahora se realiza el mismo experimento básico, pero en términos físicos.

Una muestra de agua es colocada en un campo magnético B0 . Tras un intervalo de tiempo


varias veces mayor que T1, el momento del dipolo magnético del núcleo H, tiende a alinearse
con B0 . Se aplica un pulso RF, el cual hace girar M0 hacia B0 , creando una magnetización local
MT . Se crea un movimiento de precesión a través de B0 , generando una señal detectable en la
espira (FID) con una amplitud proporcional a MT . Tras un tiempo, el proceso de magnetización
y por lo tanto la señal, decrecen exponencialmente, y después de un tiempo varias veces mayor
que T2, la señal se pierde. Después de T1 veces se vuelve a dónde se empezó, con el equilibrio
magnético M0 alineado con B0 .

Sin embargo, si otro pulso RF es aplicado antes de que la recuperación esté completa, la
magnetización longitudinal será menor que M0 . Cuando esta magnetización es inclinada, la mag-
netización transversal será menor y la señal MR también será menor. Otra vez la magnetización
longitudinal crece desde cero y si otro pulso RF es aplicado dentro del mismo intervalo TR,
otra FID se creará. Sin embargo, si el ángulo RF es volteado 90º, la recuperación durante cada
periodo sucesivo de TR es la misma: la magnetización longitudinal está reducida a cero después
de cada pulso a 90º y después se relaja por un tiempo TR antes del siguiente pulso RF. La señal
generada después de cada pulso RF posterior es la misma que la de después del segundo pulso.
Esta señal regenerada con cada pulso RF, es descrita como una señal de estado constante. Todas
las aplicaciones de imágenes MR implican aplicar una serie de pulsos RF con repeticiones de
tiempo jas, en las cuales la señal de estado constante es medida.

El equilibrio magnético M0 determina la máxima señal que puede ser generada.

La señal MR depende de al menos 3 parámetros intrínsecos del tejido: la densidad del protón,
la cual determina M0 , y los tiempos de relajación T1 y T2.

Una secuencia particular de pulsos implican varios parámetros que pueden ser ajustados para
hacer una imagen (MRI). Estos parámetros interactuan con parámetros intrínsecos del tejido que
afectan a la medida de la señal. Esta dependencia de la señal con múltiples parámetros hacen
que MRi sea exible.
28 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

1.3.8. Secuencias básicas de pulsos

En MRI, la intensidad de cada pixel de la imagen es directamente proporcional a la señal


MR local.
Cada imagen MR es un dibujo de la magnetización transversal local en el tiempo en que la
imagen fue recogida. Cada imagen MR es una instantánea de un proceso dinámico en un tiempo
determinado. La señal MR depende de varias propiedades intrínsecas del tejido y también de
parámetros particulares de la secuencia de pulsos utilizada.
El poder y la exibilidad del MRI deriva de que son posibles varias secuencias de pulsos, y
ajustando estos parámetros de las secuencias de pulsos como TR. La sensibilidad de la señal MR
para diferentes parámetros del tejido pueden ser ajustados para modicarlo en contraste con la
imagen. Habrá que elegir los parámetros de la secuencia de pulsos que maximicen la señal.
A continuación se consideran las secuencias de pulsos más usadas y cómo generan la imagen
contrastada:

Secuencia de pulsos de gradiente de eco (GE)

Series de pulsos RF crean un proceso de magnetización transversal y una señal medible.


Cuando una secuencia de pulsos FID es usada para imágenes, se llama secuencia de pulsos
de gradiente de eco.

En esta forma básica, la secuencia de pulsos depende de una combinación de parámetros


ajustables y de parámetros intrínsecos de los tejidos S0 , la densidad del protón y del tiempo
de relajación longitudinal T1.

La señal local MR siempre es proporcional a la densidad del protón ya que esta determina
el equilibrio de la magnetización M0 . Y esto produce la máxima magnetización transversal
que se puede producir.

Secuencia de pulsos de spin de eco (SE).

En una secuencia de pulsos SE la señal es medida en el pico del eco, donde los efectos del
campo no homogéneo son desenfocados. Esta es la implementación estandar de las imágenes
clínicas. Pero en aplicaciones como fMRI basadas en el efecto BOLD, las variaciones del
campo microscópico inducidas mediante cambios en la oxigenación de la sangre, hacen a
la señal MR sensible a la activación del cerebro.
1.4 Efecto BOLD 29

Secuencia de pulsos de recuperación de inversión (IR)

El pulso RF utilizado es el mismo que en el caso de una secuencia SE. La diferencia está
en el efecto en la magnetización transversal SE o en la magnetización longitudinal IR. En
IR no hay magnetización transversal para reenfocar en el tiempo 180º al pulso, y sólo nos
interesa el efecto inversión en la magnetización longitudinal.

1.4. Efecto BOLD

1.4.1. Introducción al efecto BOLD

El efecto BOLD (Blood Oxigenation Level Dependency) permite visualizar e identicar áreas
de incremento metabólico basándonos en el consumo neuronal de oxígeno.
fMRI ha creado una revolución en la búsqueda de las funciones básicas de la salud del cerebro
humano, mediante técnicas basadas en una sensibilidad intrínseca de la señal de resonancia
magnética para cambios locales en perfusión y metabolismo.
Cuando la actividad neuronal aumenta en una región del cerebro, la señal local MR produce en
esa parte del cerebro aumentos por una pequeña cantidad debido a los cambios en la oxigenación
de la sangre. Este efecto BOLD es la base de la mayoría de los estudios de fMRI hechos hoy en
día para construir mapas de patrones de la activación del cerebro humano.
El efecto BOLD está más marcado por las imágenes de gradiente de eco, que indican que
este efecto es ante todo un incremento del valor local T2*. Una reducción en T2* va unida a una
reducción de la oxigenación de la sangre. La activación produce un aumento de la señal local, lo
que sugiere que la sangre es más oxigenada con la activación.
El efecto BOLD viene dado debido a dos razones, una biofísica y otra siológica:

Biofísica: la deoxihemoglobina produce gradientes de campo magnético alrededor y a través


de los vasos sanguíneos, que hace que decrezca la señal MR.

Fisiológica: la activación del cerebro está caracterizada por un descenso en la extracción


local de oxígeno y en un correspondiente descenso en la concentración local de deoxihemo-
globina.

La reducción en deoxihemoglobina durante la activación produce un pequeño incremento en


la señal MR.
30 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

El efecto BOLD es generalmente usado para construir mapas de patrones de activación en


el cerebro humano y ha sido aplicado con éxito en un buen número de animales como mode-
los. Sin embargo, la interpretación de los resultados de estos estudios, requiere una cuidadosa
consideración de la naturaleza de la respuesta BOLD.

1.4.2. Base biofísica del efecto BOLD

Distorsiones en el campo magnético que reducen T2*

La base física de la sensibilidad de la señal MR es que la deoxihemoglobina altera la suscep-


tibilidad magnética de la sangre.
Cuando un material es colocado en un campo magnético, este se magnetiza ligeramente de-
bido al alineamiento parcial del material, y la susceptibilidad magnética es una medida de la
magnetización resultante. El efecto de esta magnetización es que el campo dentro del mate-
rial es ligeramente desplazado a través del principal campo magnético, y el desplazamiento es
proporcional a la susceptibilidad magnética.
La susceptibilidad magnética del material tiene varias contribuciones: spins de electrones,
movimientos orbitales de los electrones y spins nucleares.
La susceptibilidad magnética de la sangre varía linealmente con la oxigenación de la sangre.
Cuando dos materiales similares son colocados uno cerca del otro, los gradientes de campo
son producidos debido a la diferencia en la susceptibilidad magnética.
Un voxel de una imagen en el cerebro contiene sangre en las arterias, en los capilares y en las
venas.
Moviéndonos hacia abajo en el árbol vascular, el contenido de deoxihemoglobina aumenta
continuamente, desde cerca de cero en las arterias hasta 40 % del total de la concentración
de hemoglobina en las venas. La sangre venosa sufre el mayor cambio en la susceptibilidad
magnética, pero la sangre capilar está afectada. La presencia de deoxihemoglobina crea gradientes
de campo magnético alrededor de los glóbulos rojos y en el espacio del tejido entorno a los vasos
sanguíneos. Este gradiente de campo reduce T2* y reduce la señal MR hasta el reposo si no hay
deoxihemoglobina presente.
La activación del cerebro lleva a un mayor aumento en el ujo de la sangre que el metabolismo
del oxígeno.
Los capilares y las venas de la sangre están más oxigenadas y tienen menos deoxihemoglobina
1.4 Efecto BOLD 31

presente en el voxel. Con menos deoxihemoglobina, la susceptibilidad de la sangre es más cerrada


que la susceptibilidad alrededor del tejido, y el gradiente de campo se reduce, T2* se hace más
grande, y la señal medida aumenta.

Como por ejemplo: un largo cilindro rodeado en el centro con diferentes susceptibilidades
magnéticas, un modelo para un capilar o vena que contiene deoxihemoglobina. El patrón de
campo tiene la forma de un dipolo. Una importante característica de este patrón de campo
es que la magnitud del oset de campo en la supercie del cilindro depende solamente de la
diferencia de susceptibilidad y no del radio del cilindro, mientras que la medida espacial de la
distorsión del campo es proporcional con el radio.

Debido a que el índice de precesión de cada grupo de spins es directamente proporcional al


oset de campo, el histograma es también el espectro de NMR que se puede medir, y la red
de señales como una función de tiempo A(t) que es simplemente la transformada de Fourier de
dicho histograma. Para simplicar, nos olvidamos de que T2* decrece, ya que A(t) representa la
atenuación adicional de la señal debido a la diferencia en la susceptibilidad magnética entre los
vasos sanguíneos y los espacios de alrededor.

Las distorsiones de campo alrededor de los vasos sanguíneos magnetizados no es una simple
curva que decrece exponencialmente, debido a que la distribución de los oset de campo tienen
forma irregular. El mejor modelo para un voxel que contiene algunos vasos sanguíneos es una
colección de cilindros orientados al azar. Este es el caso más realista, la atenuación es cercana a
una exponencial, y se puede escribir dicha atenuación como:


A(t) = e−t·∆R2 (1.2)

1∗
donde ∆R2∗ es el cambio en el índice de relajación transversal R2∗ (R2∗ = T 2) debido a la
diferencia de la susceptibilidad magnética entre la sangre y el tejido de alrededor.

En una primera aproximación,∆R2∗ depende del total del volumen de las venas de los vasos
sanguíneos dentro del voxel, y no del tamaño de los vasos (esta conclusión será modicada cuando
se consideren los efectos de difusión).

El espectro del oset de campo depende del volumen total de sangre y no del tamaño de los
vasos.
32 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

El efecto moderado de difusión en los cambios de T2*

La atenuación de la señal extravascular depende solamente del volumen total de la sangre y


es independiente del tamaño de los vasos sanguíneos. Esta idea vista en el apartado anterior, no
es estrictamente verdad debido a los efectos de difusión.
Debido a que el índice de precesión no es constante, la atenuación no es simplemente la
transformada de Fourier de la distribución de los oset de campo. Cada spin debe introducirse
como su efecto de difusión al azar, ajustando su índice de precesión como si se moviese en una
región con diferentes oset de campo, y después sumar la red de señales de cada spin con su fase
de oset adquirida.
Cualquier difusión de las moléculas de agua reducirá el efecto GRE-BOLD.
La magnitud del efecto de difusión en la señal depende de cómo de lejos llegue una molécula
de agua difusa en el experimento, y cómo esta distancia se compara con la escala espacial de las
variaciones de campo.
La media de este desplazamiento de la molécula de agua con un coeciente de difusión D
durante un intervalo de tiempo T es dada por:

∆x2 = 2 · D · T (1.3)

Esto es el tamaño del desplazamiento esperado a través de algún eje espacial, así el despla-
zamiento completo en espacio es :

∆x2 + ∆y 2 + ∆z 2 = 6 · D · T (1.4)

Para considerar los efectos de difusión alrededor de los vasos sanguíneos magnetizados, los
desplazamientos a través de la longitud de los vasos no altera el oset de campo, y así los
desplazamientos no afectan al índice de relajación. Por esta razón, se puede tomar como una

típica distancia de difusión del desplazamiento esperado en un plano transversal, 4 · D · T .
La distancia del desplazamiento es mayor que el radio del capilar, y menor que el radio de
una pequeña vena. Si el vaso es más largo que la vena, la típica distancia movida de una molécula
debido a la difusión es mucho más pequeña que el radio del vaso, habrá una pequeña variación
en el oset de campo sentida por el spin. En este caso, el efecto GRE-BOLD es grande, y el
factor de atenuación es simplemente la transformada de Fourier de la distribución del oset de
campo. Por otra parte, para los capilares, la distancia movida es mayor que el radio de los vasos,
1.4 Efecto BOLD 33

y ∆R2∗ es reducida por la media de difusión. Para una señal de gradiente de eco, la atenuación
varía suavemente entre estos dos extremos.
Para el mismo nivel de saturación de oxígeno de hemoglobina, la atenuación alrededor de las
venas es aproximadamente 5 veces mayor que la atenuación alrededor de los capilares, debido
al efecto de la difusión. Además, la hemoglobina está signicativamente menos saturada en las
venas que en los capilares.
Los experimentos GRE-BOLD son ante todo sensibles en las venas y debido a que las venas
son grandes comparadas con una distancia típica de difusión, los efectos de difusión son pequeños.

Contribución intravascular a la señal BOLD

El compartimiento intravascular es una pequeña fracción del volumen total del tejido.
La contribución vascular a la señal BOLD es comparable a la contribución extravascular a
1,5T. La razón para esto es que el cambio intrínseco de la señal en la sangre es de más de un
orden de magnitud que el cambio extravascular de la señal.
Dentro de la sangre, gradientes de campo son producidos alrededor de los glóbulos rojos
llevando la deoxihemoglobina, así la señal sanguínea de las venas se reducirá como mucho un
50 % comparado con lo que sería si la sangre estuviera completamente oxigenada.
Para pequeños vasos sanguíneos dentro de un voxel, el movimiento uniforme de la sangre,
pero orientados al azar los vasos, produce un efecto de desfase similar al de difusión. Sin embargo,
las distancias movidas por la sangre uída son mucho mayores que los desplazamientos debido a
la difusión, así la señal de la sangre puede ser destruída con sólo la ponderación de la difusión.
Para fuerzas de campo de 1,5-3T una fracción sustancial de los cambios en la señal GRE son
intravasculares.

Cambios en la señal de spin echo BOLD

Al igual que con la señal GRE, se puede escribir esta atenuación adicional de la señal SE,
debido a la deoxihemoglobina en los vasos sanguíneos como:


A(t) = e−t·∆R2 (1.5)

donde ∆R2∗ es el cambio en el índice de la relajación transversal.


34 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

Debido al efecto parcial de enfoque del spin echo, ∆R2∗ es siempre menor que ∆R2∗ y así el
efecto SE-BOLD es siempre más débil que el efecto GRE-BOLD.
En un experimento típico de SE-BOLD el tiempo de eco es más grande que el experimento
de GRE-BOLD, que maximiza el cambio de la señal debido a un pequeño cambio en R2.
Debido a la sensibilidad del tamaño del vaso sanguíneo, SE-BOld es más selectivo para los
vasos más pequeños, los capilares y las pequeñas venas. Esto es principalmente una motivación
para el uso de SE-BOLD para identicar actividad en el cerebro a pesar de su baja sensibilidad
Sin embargo, el argumento para una mayor selectividad de la técnica SE está basada en
consideraciones del cambio extravascular de la señal. Como con la técnica GRE, el efecto total
de BOLD tiene una fuerte contribución del comportamiento intravascular.
Aunque los estudios de SE-BOLD indican una mayor selectividad para los capilares com-
parados con las venas, parece ser que esta selectividad no es completamente alcanzable en la
práctica hasta que los estudios sobre BOLD den mayor importancia a las fuerzas de los campos
magnéticos donde la señal de sangre es suprimida.

Modelado de la señal BOLD

El efecto BOLD surge cuando la susceptibilidad magnética de la sangre es alterada por un


cambio en la concentración de deoxihemoglobina, produciendo un gradiente de campo alrededor
de los vasos sanguíneos y una atenuación en la señal MR. Un modelo cuantitativo de este proceso
es importante para el entendimiento del mecanismo básico del efecto BOLD, para optimizar la
técnica de adquisición de la imagen maximizando la sensibilidad, y calibrando la señal BOLD
para medir el CM RO2 local. Se considerará solamente la señal de gradiente de eco, ya que así los
efectos de difusión no se tendrán en cuenta. El modelo más simple de la señal MR (S) envuelve
dos parámetros del tejido, una señal local intrínseca S0 y un índice tranversal decreciente R2∗ :


S = S0 · e−T E·R2 (1.6)

donde TE es el tiempo de eco. El objetivo del modelado de la señal BOLD es describir la


dependencia de R2∗ en el volumen de la sangre y en la oxigenación de la sangre:

R2∗ ≈ V [dHb]β (1.7)

donde [dHb] es la concentración de deoxihemoglobina en la sangre. El exponente β indica que


1.4 Efecto BOLD 35

la dependencia de la oxigenación de la sangre no es necesariamente una simple proporcionalidad.


Con difusión, el exponente β es mayor que uno, lo que proporciona una mejor descripción empírica
de los cambios de la señal, esta es principalmente la razón de que se elija β >1. Esta aproximación
es una buena aproximación para la media de R2∗ para estudios de fMRI.
Si el total de agua contenido en un voxel permanece jo, cuando se produzca un incremento
del volumen de la sangre debe existir una reducción del agua del tejido.
Un exponente β >1 es consistente con el efecto: una reducción de [dHb] produce una reducción
del índice de relajación, aunque V[dHb] permanezca constante.
β =1.5 es una buena aproximación para 1.5T.
Sin embargo, este modelo falla al describir el efecto del cambio en el volumen para elevados
campos magnéticos debido al T2 de la sangre, y así la señal intrínseca de la sangre, es menor
que la de los tejidos circundantes.
La diferencia de ∆R2∗ entre el estado activo (a) y el estado de reposo (r) es:

1
∆R2∗ ≈ (Va [dHb]βa − Vr [dHb]βr ) = (vcβ − 1) (1.8)
Vr [dHb]βr
[dBh]a
donde v= VV0 es el volumen de sangre activada normalizado con el valor de reposo y c = [dHb]r

es la concentración de deoxihemoglobina normalizada. Para pequeños cambios en la señal, la


medida fracional del cambio en la señal es:

∆S Sa − Sr
= ≡ −T E∆R2∗ = Smax (1 − vcβ ) (1.9)
S Sr
Todos estos parámetros son adimensionales.
La constante Smax describe el máximo cambio en la señal que puede ser observado.
Esta ecuación representa el lado biofísico del modelado, relacionando la señal BOLD con el
cambio en el volumen de la oxigenación de la sangre. El lado siológico del modelado relaciona el
cambio en la oxigenación de la sangre con los cambios en CM RO2 y CBF. El índice metabólico del
oxígeno puede escribirse en términos de CBF local y de la extracción de oxígeno E, la fracción de
oxígeno repartido en los capilares a través del ujo arterial que es consumido por el metabolismo
en el tejido:

CM RO2 = E · CBF [O2 ]art (1.10)

donde [O2 ]art es la concentración de oxígeno en las arterias.


36 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

La señal BOLD expresada en términos de los cambios locales en el volumen de la sangre v,


el ujo sanguíneo f, y el metabolismo de oxígeno m, es:

∆S m
= Smax (1 − v[ ]β ) (1.11)
S f

El parámetro Smax varía según las regiones del cerebro debido a las variaciones en el volumen
de la sangre, y esto se incrementará con campos altos, produciendo un mayor efecto BOLD.
Las técnicas MRI para medir los cambios dinámicos en el volumen de la sangre sin agentes
contrastantes está en desarrollo, pero los recientes estudios técnicos han asumido que los cambios
en el volumen de la sangre están unidos al cambio del ujo, con v = f α . El valor que se asume
normalmente es α = 0,4. No se conoce como varía α en el cerebro humano. Pero asumiendo el
poder de las relaciones, el único parámetro restante para poder medir es el valor local de Smax .

1.4.3. Base siológica del efecto BOLD

El efecto BOLD depende de una combinación de cambios en CBF,CM RO2 y CBV

El efecto BOLD no es una medida directa de la actividad neuronal. Las neuronas sanas
existen en un estado lejos del equilibrio termodinámico, así estos potenciales de acción y neu-
rotransmisores se ponen en marcha sin la necesidad de administrar una energía adicional. Es
decir, las señales neuronales dependen de un proceso termodinámico. Pero después de la acti-
vidad sináptica, los gradientes iónicos deben ser restaurados, y los neurotransmisores deben ser
limpiados de la sinapsis y reempaquetaados para preparar el siguiente evento. Este estado de
recuperación de la actividad neuronal requiere una energía de metabolismo.
El ujo sanguíneo, glucosa de metabolismo, y oxígeno de metabolismo todo incrementado
para suministrar los substratos necesesarios para la energía del metabolismo del cerebro.
Con estudios de PET sobre la activación del cerebro, la medida cuantitativa es un buen
parámetro siológico, tal como CBF(ujo sanguíneo cerebral), el índice metabólico de la glucosa
cerebral, CM RO2 (índice metabólico del oxígeno en el cerebro), o CBV (volumen de la sangre en
el cerebro). Todas estas cantidades aumentan con la activación.
El cambio en la oxigenación de la sangre con la activación depende del balance de los cambios
en CBF y CM RO2 . Si estos cambian en la misma fracción, la fracción de la extracción del oxígeno
(E) no cambia y no hay cambio en la oxigenación de la sangre venosa. Por otra parte, si CBF
1.5 BOLD-fMRI 37

aumenta mucho más que CM RO2 , lo cual es lo que se observa cuando E desciende y la sangre
venosa está más oxigenada.
Con la activación, los estudios de PET han encontrado que CBF aumenta dramáticamente,
CBV aumenta moderadamente y CM RO2 aumenta en una pequeña cantidad. La disminución
resultante en E tiende a aumentar la señal MR, mientras que el aumento en CBV tiende a decrecer
la señal MR. En un cerebro adulto, el resultado es un positivo efecto BOLD (un incremento de
la señal MR).

1.5. BOLD-fMRI

1.5.1. Introducción

fMRI basada en efecto BOLD es ahora una herramienta para probar el trabajo del cerebro.
El objetivo de los estudios de fMRI es ubicar patrones de los cambios locales de la señal MR
en el cerebro como un indicador de la actividad neuronal asociada con un estímulo particular.
El experimento fMRI alterna bloques de estímulos y períodos de control mientras una serie de
imágenes dinámicas es recogida con una secuencia de pulso de imágenes ecoplanares (EPI). La
trayectoria de la señal temporal de cada voxel de la imagen es analizada para probar si hay una
correlación signicante entre la señal y el estímulo.
La cadena de eventos entre un estímulo aplicado y la señal BOLD medida envuelve diferentes
pasos. El estímulo primero induce cambios locales en la actividad neuronal. La actividad neuronal
desencadena un aumento de la energía de metabolismo, junto con cambios en CBF, CBV y
CM RO2 , y estos cambios siológicos combinados producen una alteración de la señal MR.

1.5.2. Respuesta hemodinámica del efecto BOLD

Situación de los cambios en la señal BOLD

Una importante cuestión en la interpretación de los estudios sobre el efecto BOLD es la


precisión de la localización. Debido a que los vasos venosos experimentan los mayores cambios en
la deoxihemoglobina contenida, los mayores cambios en la señal BOLD ocurren probablemente
alrededor de las venas de desagüe. Tales venas deben ser quitadas del área de la activación
neuronal, así la situación de los cambios de la señal BOLD pueden diferir más o menos en un
centímetro del área del incremento de la actividad neuronal. En los experimentos de BOLD el
38 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

tamaño del voxel es tipícamente mayor que 30 mm3 , y a 1.5T las activaciones de BOLD son
un porcentaje menor. Sin embargo, cuando el tamaño del voxel de las imágenes se reduce, la
amplitud de los cambios en la señal BOLD aumentan dramáticamente, lo que sugiere que los
cambios son localizados en una región más pequeña que 1-2mm.

Los experimentos ASL (Arterial spin labeling) muestran que la situación de los mayores
cambios de CBF y la situación de los mayores cambios en la señal BOLD no siempre coinciden.

La localización de los cambios en la señal BOLD pueden mejorarse, pero a costa de la sen-
sibilidad. Con fuerzas de campos magnéticos elevados, los voxels junto con los mayores cambios
en la señal pueden ser ignorados, y solamente usar los cambios más débiles de la señal a ubicar.
Para experimentos con 1.5T, sin embargo, los cambios de la señal son inicialmente suciente-
mente pequeños que se desechan las señales más fuertes ya que podrían decrecer severamente
la sensibilidad. Dada esta fuerza a los campos menores fMRI, la estrategia experimental debe
estar gobernada por los objetivos del experimento. Si el objetivo es simplemente probar si una
región del cerebro está activada, después los desplazamientos debidos a las venas de desagüe no
deben ser criticados. Por otra parte, para estudios detallados de mapeados en los cuales la preci-
sa situación anatómica es crítica, un experimento ASL será más apropiado que un experimento
BOLD.

El experimento SE (spin echo) se ha propuesto como una mejor medida de localización ya


que el cambio extravascular en la señal con SE es más sensible a los vasos más pequeños debido
a los efectos de difusión. Por esta razón, un SE o un SE asimétrico deben revelar cambios a
nivel capilar. Sin embargo, los grandes cambios en la señal intravascular en un experimento SE
sugieren que a 1.5T la señal SE, como la señal GRE, está dominada por los cambios de la señal en
las venas. Por esta razón, la mayor selectividad de la secuencia de pulso SE no es efectiva hasta
que la principal fuerza de campo está en reposo y por lo tanto, la señal de sangre es suprimida
por T2. Alternativamente, los gradientes de difusión pueden ser aplicados con un experimento
SE en algún campo para destruir selectivamente la señal de la sangre, dejando solo el cambio
extravascular de la señal. Esto devuelve la selectividad espacial del experimento SE, pero a costa
de un mayor reparto de la sensibilidad. Esta selectividad espacial y la sensibilidad son unas
importantes razones para realizar experimentos BOLD y campos magnéticos elevados.
1.5 BOLD-fMRI 39

La relación entre el efecto BOLD y la actividad neuronal

En la mayoría de los experimentos BOLD, el investigador está interesado en el patrón de la


activación neuronal algo más que en el patrón del ujo sanguíneo y los cambios en la energía de
metabolismo que siguen.
Existen dos formas de cuanticar la actividad neuronal:

1. La tasa media de la generación de potenciales de acción dentro de una región del cerebro.

2. La tasa media de neurotransmisores reciclados en cada región.

Estas dos deniciones reejan diferentes aspectos de la actividad neuronal. Los potenciales de
acción enfatizan la salida neuronal, la tasa a la cual los impulsos cercanos están capacitados para
generar nuevos impulsos en la región. En contraste, los neurotransmisores liberan y reciclan en la
sinapsis que enfatiza la entrada neuronal, la actividad sináptica. Para la actividad excitatoria, las
dos tasas deben ser similares porque una mayor tasa de liberación del neurotransmisor debería
producir una mayor tasa en la generación de los potenciales de acción. Pero con actividad inhi-
bitoria, estas dos tasas de la actividad neuronal cambiarán en direcciones opuestas, con mayor
actividad sináptica decreciendo la tasa punzante en las neuronas locales.
Áreas ocasionales del cerebro muestran un decrecimiento de la señal, es decir, un efecto BOLD
negativo, durante tareas especícas. Estudios detallados de la situación precisa de los cambios en
el metabolismo de la glucosa medido con una técnica de deoxiglucosa que en animales encontró la
actividad que estaba concentrada en las regiones con una alta densidad de conexiones sinápticas
más bien asociadas con una celda del cuerpo.
Para responder a muchas de estas preguntas se requiere una combinación de fMRI y de
electrodos grabados en el mismo animal, y experimentos que solo son factibles con la demostración
de fMRI en comportamientos de primates no humanos. Esto es importante, pero difícil, los
experimentos deben tener una fundación muy rme para la interpretación de los cambios en la
señal BOLD en términos de la actividad neuronal.

Linealidad de la respuesta BOLD

La respuesta BOLD es una convolución lineal de los estímulos con una función de respuesta
hemodinámica ja . Esta idea es el corazón de la mayoría de los datos de los proyectos designados
para eliminar el ruido en las señales más débiles.
40 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

Varios estudios han comparado la respuesta al estímulo breve con la respuesta al estímulo más
largo. Muchos de estos estudios han utilizado estímulos visuales con diferentes duraciones, pero
los estímulos del oído y las tareas motoras también fueron utilizadas. El resultado consistente de
estos estudios es que, aunque la respuesta es aproximadamente lineal, hay una componente no
lineal. La naturaleza de esta no linealidad es que la respuesta a un breve estímulo (por ejemplo
menor de 4s) aparece más fuerte de lo esperado dada la respuesta de un estímulo de mayor
duración.

Existen varias explicaciones o posibilidades para esta no linealidad, y esto es una ayuda
para pensar que el proceso que va desde el estímulo hasta la respuesta BOLD consiste en 3
pasos. El primer paso es la traducción del patrón del estímulo en una secuencia temporal de
la actividad neuronal local. El segundo paso es la traducción de la trayectoria temporal de la
actividad neuronal en cambios en el ujo sanguíneo, el volumen de la sangre, y el metabolismo
del oxígeno. Y el tercer paso es la traducción de las trayectorias temporales de CBF, CM RO2 ,
y CBV en la respuesta BOLD. Cada uno de estos pasos puede ser lineal o bien no lineal.

En resumen, la respuesta BOLD es no lineal con respecto a la duración de los estímulos.


Existen varias fuentes aproximadas para esta no linealidad, pero el papel completo de ellas
no ha sido establecido. Una probable fuente de no linealidad es la respuesta neuronal, la cual
normalmente empieza con un pico inicial de actividad. Una segunda probable fuente de no
linealidad es la transformación del cambio de CBF a la respuesta de la señal BOLD, debido al
alisamiento de la repuesta BOLD en ujos altos. Dadas estas probables fuentes de no linealidad
en los dos nales de la cadena de los estímulos de la respuesta BOLD, es posible que un paso
intermedio entre la actividad neuronal y la respuesta CBF sea una simple convolución lineal,
pero no hay sucientes datos para apoyar esta idea.

A pesar de estas no linealidades, es normal asumir linealidad en el análisis de los datos


de BOLD. Esto indudablemente introduce un error en el análisis, pero en varias aplicaciones
el error es probable que sea pequeño. Sin embargo, el total impacto de estas no linealidades,
particularmente a los paradigmas experimentales que envuelven la separación de las respuestas
superpuestas, no han sido exploradas.
1.5 BOLD-fMRI 41

Dinámicas de la respuesta BOLD

En los experimentos fMRI, los estímulos normalmente son presentados en un bloque diseña-
do, ya que el patrón de los estímulos temporales es simplemente una onda cuadrada. Para una
primera aproximación, la respuesta BOLD en algunas áreas del cerebro parece una versión re-
trasada y suave del patrón de los estímulos. Sin embargo, una de las características interesantes
de la respuesta BOLD es que un número de patrones transitorios ocurren en las transiciones
entre el estado de reposo y el estado activo. Estos aspectos dinámicos incluyen aumento y un
decrecimiento temporal de la señal ambos al comienzo y al nal del estímulo.
Los transitorios en la respuesta BOLD pueden ser un reejo exacto de los transitorios de la
actividad neuronal. Sin embargo, porque la señal BOLD dependa de los cambios combinados
de CBF, CBV, y CM RO2 , transitorios semejantes también pueden aparecer si las respectivas
trayectorias temporales para estos cambios siológicos dieren.
Semejantes experimentos que combinan datos BOLD y datos ASL se han realizado para
investigar varias de esas características transitorias.
En resumen, se debe esperar normalmente que en un estímulo sufrido no se obtenga un nivel
uniforme de actividad neuronal, y variaciones de la señal BOLD durante los estímulos deben
reejar tales variaciones en la actividad neuronal. Una medida simultánea de la respuesta del
ujo pueden proporcionar un apoyo a tales interpretaciones. Pero el hecho que tales transitorios
como un postestímulo de decrecimiento temporal tiene que ser encontrado para que ocurra en
la señal BOLD pero no en la señal de ujo lo que sugiere que uno debe ser prudente sobre la
interpretación de las características transitorias de la señal BOLD sin medida de la respuesta del
ujo.

Fuentes biomecánicas de los postestímulos que sufren un decrecimiento temporal

Desde la teoría básica del efecto BOLD, un cambio en la señal es observado cuando la deo-
xihemoglobina local contenida es alterada, así existen dos maneras en las cuales la señal BOLD
puede mostrar un decrecimiento temporal aunque no haya señal de ujo. O bien el CM RO2
permanece elevado después de que el ujo ha vuelto al punto de partida, requiriendo un aumen-
to de la fracción de extracción de oxígeno, o que el CBV permanezca elevado. Ambos efectos
deberían causar que la deoxihemoglobina contenida permanezca elevada después de que el ujo
vuelva a su nivel de reposo. Estas dos hipótesis dieren en sus implicaciones para enganchar el
42 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

ujo sanguíneo, el volumen de la sangre, y el metabolismo de oxígeno durante la activación. El


retraso en el cambio de CM RO2 tras el retorno del ujo al punto de partida debería implicar un
desenganche de estas dos, en el sentido de que un elevado CM RO2 no requiere un elevado CBF.
El retraso en el cambio de CBV tras el cambio de ujo debería reejar un fenómeno biomecánico
más que un efecto metabólico.

Dos modelos biofísicos similares han sido propuestos para explicar cómo tales retrasos en la
recuperación del volumen de la sangre pueden ocurrir, el modelo del balón y el modelo de la
conformidad retrasada. Ambos modelos atribuyen al efecto las propiedades biomecánicas de los
vasos sanguíneos.

En el modelo del balón, los compartimentos de las venas son modelados como un balón
expandible, con una tasa del ujo de entrada Fin y una tasa del ujo de salida Fout . En estado
constante, Fin = Fout . Durante los cambios dinámicos, los dos ujos son diferentes, y el balón se
hincha cuando Fin >Fout y se deshincha cuando Fin <Fout . La tasa del ujo de entrada Fin (t)
es tomada como una función conductora del sistema, y la tasa del ujo de salida es tomada
para ser una función del volumen del balón, Fout (v). Como el balón se expande la presión en
el interior aumenta, aumentando la tasa del ujo de salida. La curva de Fout (v) depende de las
propiedades biomecánicas del balón. Las cantidades dinámicas de interés son el contenido total
de deoxihemoglobina y le volumen de sangre.

La respuesta rápida(La inclinación inicial)

La inclinación inicial es potencialmente uno de los más importantes aspectos de la respuesta


BOLD, pero también es uno de los más controvertidos. El interés en la inclinación inicial vie-
ne de estudios que usan señales ópticas intrínsecas que son sensibles a la oxihemoglobina y la
deoxihemoglobina.

La naturaleza de la inclinación inicial es también controvertida porque se reere a los mé-


todos ópticos. La separación de las señales en deoxihemoglobina y oxihemoglobina requiere la
estimación de una componente de dispersión que también contribuye al espectro reectante, y
los estudios originales han sido criticados por el uso de un método impreciso. Otro estudio usa la
misma técnica óptica que concluye que existe un incremento inicial de la deoxihemoglobina, pero
sin el correspondiente decrecimiento en la oxihemoglobina, sugiriendo un aumento del volumen
de la sangre. Sin embargo, un estudio de MR posterior en ratas encontró un crecimiento lento
1.5 BOLD-fMRI 43

del volumen y no encontró una inclinación inicial en la señal BOLD. Por estas razones, no existe
un claro consenso en si existe un aumento inicial de la deoxihemoglobina con la activación, y si
esta rápida respuesta es especíca en determinadas especies.
Finalmente, hasta tomar la inclinación inicial de la señal BOLD como un experimento, la
interpretación de este efecto no estará muy claro. La interpretación usual es que esto representa
un temprano aumento de CM RO2 antes de que el ujo aumente, con un correspondiente aumento
de la extracción de oxígeno. Pero un aumento temprano del volumen de la sangre puede también
producir una inclinación inicial, similar a la manera que lentamente el volumen de la sangre puede
causar un postestímulo de decrecimiento temporal. En el contexto del modelo del balón, si el
aumento inicial en el ujo sanguíneo causa un hinchazón inicial del balón de las venas, más bien
un aumento del ujo de salida, inicialmente la deoxihemoglobina contenida debería aumentar.
Después, como el ujo aumenta más, el cambio en la oxigenación de la sangre venosa debería
empezar a dominar el aumento del volumen de la sangre, y el total de deoxihemoglobina debería
decrecer, produciendo después una respuesta BOLD usual. Además, este efecto debería depender
fuertemente de la fuerza del campo porque la inclinación inicial debería reejar el balance entre
dos efectos potencialmente conictivos. Estos dos efectos son una disminución intrínseca de la
señal extravascular debido a la disminución de la deoxihemoglobina y al intercambio del espacio
extravascular para la sangre debido al aumento del volumen de la sangre. El primer efecto
siempre será la disminución intrínseca de la señal extravascular, pero el segundo efecto podría o
bien disminuir o bien aumentar la señal total, dependiendo de si la señal intravascular intrínseca
es mayor o menor que la señal extravascular intrínseca. A 1.5T la señal de la sangre típicamente
es más fuerte que la señal del tejido, así la señal intravascular aumentada debería compensar la
señal extravascular disminuida, haciendo más débil la inclinación inicial. Para campos elevados, la
señal sanguínea intrínseca es mucho más débil, y el volumen de la sangre aumentado con el gasto
del volumen extravascular luego tiende a reforzar la señal extravascular disminuida y crea una
inclinación inicial más profunda. Esto debería producir una dependencia lineal de la magnitud
de la inclinación inicial en la fuerza del campo, consistente en las observaciones experimentales.
Con deoxihemoglobina constante, la señal extravascular intrínseca debería permanecer igual,
pero el volumen de la sangre expandido debería reemplazar algo de la señal extravascular con la
sangre generando una señal mucho más débil, así la señal BOLD debería mostrar una inclinación
inicial a pesar de que la concentración de deoxihemoglobina sea constante.
El origen y el signicado de la inclinación inicial es un área activa de recientes descubrimientos.
44 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

Experimentos con BOLD y técnicas ópticas son requeridas para entender los cambios dinámicos
en CM RO2 y CBV con activación y para establecer los límites siológicos en la resolución
espacial con fMRI.

1.5.3. Optimización de la adquisición de la imagen BOLD

Dependencia del campo magnético

Un aspecto crítico del efecto BOLD es que los cambios fraccionales en la señal son grandes
con grandes campos magnéticos. Un campo magnético grande crea una magnetización grande
dentro de un cuerpo, y así los gradientes de campo debidos a las diferencias de la susceptibilidad
magnética aumenta en proporción con el campo. Por una razón similar, la señal a ruido (SNR)
también aumenta cuando aumenta el campo. Un campo grande produce un alineamiento más
pronunciado de los spins nucleares y crea un equilibrio de magnetización M0 mayor.
El primer efecto del aumento del campo magnético B0 es un aumento de la magnitud del
efecto BOLD, el cual naturalmente aumenta la SNR de un experimento BOLD.
Tal como con el efecto BOLD, los campos de oset debidos a los efectos de una gran suscep-
tibilidad magnética son proporcionales a B0 , así T2* decrece con el aumento del campo. Además
de los efectos de T2*, estos oset de campos producen distorsiones en las imágenes. Para com-
pensar estos efectos en los campos grandes, el tiempo de adquisición de datos Tacq puede ser
reducido, pero también se reduciría la SNR. Sin embargo, aunque algo del potencial aumente en
SNR es sacricado para compensar el aumento de la distorsión y los efectos de T2* debidos a
las inhomogeneidades del campo, existe una ganancia en SNR con el aumento de B0 .
A 4T y más, otro efecto que afecta a la calidad de las imágenes entra en juego en las imágenes
de humanos. Estos efectos hacen imágenes uniformes completas del cerebro más problemáticas
en grandes campos.

Parámetros de la adquisición de la imagen

La señal a ruido de la adquisición de la imagen es un factor crítico en la determinación de


la sensibilidad de uma imagen BOLD, y la SNR depende de varios parámetros a parte de la
principal fuerza de campo magnético. El primer parámetro de la secuencia de pulso que hace que
la señal MR sea sensible al efecto BOLD es el tiempo de eco TE. Si TE es mucho más pequeño,
la señal es insensible a T2*, y así el cambio de la señal con la activación es mínimo. Si TE es muy
1.5 BOLD-fMRI 45

grande, la mayoría de la señal decae antes de que sea medida, así la sensibilidad es baja debido
a que la señal se pierde con el ruido. Para maximizar la SNR, se debe maximizar el cambio en
la señal debido al cambio en T2*. En el cerebro las fuerzas de los campos a 1.5-3T, los valores
típicos de T2* están en el rango de 40-60 ms.

Las dimensiones del voxel afectan fuertemente a la SNR. En general, la SNR es proporcional
al número de spins que contribuyen a la señal de un voxel, y así un tejido uniforme de la SNR
es proporcional al volumen del voxel.

En la práctica, otro factor entra en juego: las inhomogeneidades del campo magnético.

Las distorsiones microscópicas de campo debidas al efecto BOLD deben ser independientes del
tamaño del voxel, pero para gradientes de campo anchos debido a las diferencias macroscópicas
de la susceptibilidad el rango de variaciones de campo es directamente proporcional al tamaño
del voxel. El efecto en una imagen es una señal marginada.

Por estas razones, la elección del tamaño del voxel es un intercambio entre la SNR y la
necesidad de una resolución espacial suciente para reducir los problemas de marginación de la
señal a un nivel aceptable. La SNR decrece con los voxels pequeños porque hay unos pocos spins
que contribuyen a la señal; esto también decrece con voxels muy grandes debido a las variaciones
de campo magnético dentro del voxel. El tamaño de voxel óptimo depende de la magnitud de
las variaciones de campo en el área del cerebro que se está investigando. En regiones del cerebro
propensas a las distorsiones de campo, tales como el lóbulo frontal y el temporal, los voxels más
pequeños producirán mejor SNR.

La sensibilidad de la medida de la señal BOLD depende del radio del cambio absoluto de
la señal para añadir ruido de amplitud. Un cambio en la oxigenación de la sangre produce un
correspondiente cambio fraccional en la señal MR; consecuentemente, se debe maximizar el resto
de la señal MR para maximizar el cambio absoluto de la señal. El resto de la señal primeramente
depende de dos parámetros de las secuencias de pulso, el tiempo de repetición TR y el ángulo
de giro α. Con diferentes imágenes con TR más pequeños que T1 existe un efecto de saturación.
Este efecto de saturación también es controlado parcialmente por el ángulo de giro: un α más
pequeño deja algo de la magnetización a lo largo del eje longitudinal y produce menos saturación.

En conjunto con el efecto de saturación, TR también controla cuantas medidas de separación


pueden hacerse en un tiempo jo.

Se puede armar que la SNR se puede calcular de la siguiente forma:


46 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

r −T R
1 T1 1 − e T1
SN R ∝ √ [ sinα −T R ] (1.12)
T1 TR 1 − cosαe T 1
Para la materia gris con T 1 ≈ 1s, a un TR de 1s con un ángulo de giro de 68º alcanza un
96 % del máximo teórico de la SNR, y con un TR de 4 s y un ángulo de giro de 90º produce
solamente un 69 % del máximo de la SNR.
El máximo SNR disponible para el uido cerebroespinal (CSF) es aproximadamente √1 del
4
máximo de la SNR para la materia gris. En la práctica, reduciendo TR a aproximadamente 1 s
crea un conicto con la cobertura del cerebro. Los escáners más modernos tienen un máximo de
10
adquisición de imágenes de aproximadamente s .

Para más estudios focales, cubriendo solo una parte limitada del cerebro, son posibles TRs
más óptimos.

Artefactos de movimiento

La trayectoria temporal de un voxel particular es la media de la señal en un pequeño volumen


del espacio centrado en una posición (x,y,z). Idealmente, esta posición también corresponde a
una localización ja en el cerebro. Por esta razón, un problema persistente en los experimentos
BOLD es estar sujeto al movimiento. Cualquier pequeño movimiento de la cabeza moverá partes
del cerebro de diferentes localizaciones del voxel. Si existen bordes marcados en el patrón intenso
de la imagen, tal como cerca del borde del cerebro, movimientos mucho más pequeños que una
dimensión del voxel puede producir un cambio en la señal más grande que el cambio esperado
en la señal debido al efecto BOLD. Este efecto es particularmente molesto si el movimiento está
correlado con el estímulo.
Existen varias aproximaciones para tratar con artefactos del movimiento. La mejor, quizá es
intentar prevenir el movimiento tanto como sea posible con cuidado para enseñar la importancia
de permanecer quieto y usando las restricciones de la cabeza.
Después de la colección de datos, algunos de los efectos del movimiento pueden ser corregidos
con un determinado software. El primer objetivo de tales técnicas es el alineamiento de las
imágenes individuales. Si el movimiento es en el plano de las imágenes, una imagen bidimensional
(2D) es la adecuada. Un problema para las imágenes 3D es que las imágenes 2D son adquiridas
secuencialmente en tiempo. Esto signica que en un determinado instante de tiempo no es posible
obtener una imagen 3D del cerebro completa para comparar con la imagen 3D con otro instante
1.5 BOLD-fMRI 47

de tiempo.

Sin embargo, existen otros problemas debidos a los movimientos que necesitan ser corregidos
para el registro de la imagen. El primero es el efecto del spin. Con un pequeño TR, la señal MR
no está completamente relajada, pero si todo se repite exactamente igual, un estado constante
se desarrolla tal que con cada repetición la señal generada es la misma.

Un problema más sutil es que el cuadro básico (que las medidas MRI de la señal desde un
conjunto de voxels jos en el espacio)no es correcto. Esto crea problemas en el alineamiento de
las imágenes EPI con imágenes anatómicas de mayor resolución que son menos sensibles a estas
distorsiones.

Distorsiones de la imagen

Las inhomogeneidades de la cabeza crean variaciones en los campos magnéticos, y el resultado


de la imagen está distorsionado.

La aproximación básica para corregir las distorsiones de la imagen debidas a las inhomogenei-
dades del campo es primero localizar la distribución del campo dentro del cerebro. Esto es dado
con una serie de imágenes de gradiente de eco con una progresión de espacios de eco temporales
cerrados, reconstruyendo la fase de la imagen además de la magnitud de las imágenes. En cada
voxel, los cambios de fase entre un tiempo de eco y el siguiente es proporcional al oset local del
campo. El espaciado de eco debe ser lo sucientemente pequeño para prevenir las ambigüedades
de fase debidas a una precesión mayor de 360º. Los mapas de campo se pueden hacer usando
técnicas estándar de imágenes 2D o 3D, las cuales no distorsionan demasiado, o con imágenes
EPI. Con mapas de campo EPI, las localizaciones están distorsionadas, pero desde las medidas
del oset de campo se puede calcular donde se ha originado esa señal.

La corrección de las distorsiones con mapeados de campo es normalmente de mucha ayuda.


Sin embargo, es importante notar que tales distorsiones no siempre pueden ser corregidas. La
naturaleza de estas distorsiones es que las señales desde dos diferentes regiones pueden ser añadi-
das dentro del mismo voxel distorsionado. Esto puede ocurrir si los gradientes de la imagen y las
inhomogeneidades intrínsecas del campo combinadas producen el mismo campo en dos regiones
separadas.

Así para diferentes partes del cerebro, algunas orientaciones de las imágenes pueden trabajar
mucho mejor que en otras para minimizar las distorsiones y para hacer las distorsiones más
48 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL

corregibles.
La magnitud de las distorsiones de la imagen dependen del tiempo de adquisición total de
cada imagen. Para una adquisición EPI, el tiempo total de recopilación de datos tipícamente
está en el rango de Tacq = 40 − 100ms.
Sin embargo, el problema con esta aproximación es que la SNR de la adquisición es propor-
p
cional a Tacq . Así minimizando las distorsiones también se minimiza la SNR, y obtenemos una
compensación entre maximizar la SNR y minimizar los artefactos. Se nota que el argumento de
que SNR aumenta cuando aumenta Tacq no se mantiene cuando Tacq se vuelve mucho más grande
que T2*. La elección óptima para la SNR es tener un Tacq aproximadamente igual a T2*, de tal
forma que toda la señal disponible sea utilizada.
Para imágenes de una pequeña región del cerebro, pueden ser tolerables distorsiones más
intensas que en otras partes del cerebro. Pero distorsiones en las imágenes EPI siempre son
complicadas para comparar detalladamente con otras imágenes. Es normal practicar con visuali-
zaciones de areas de activación calculadas desde las imágenes EPI como un color de revestimiento
en una alta resolución de la imagen anatómica. Las imágenes MR de alta resolución no están
distorsionadas como las imágenes EPI, así la corrección para las distorsiones es crítica para una
localización exacta.
Capı́tulo 2
Máquinas de Vectores Soporte (SVM)

El método de los vectores soporte (SV) es un método general para la resolución de problemas
de clasicación, regresión y estimación. El método fue propuesto por V. Vapnik en 1964 en
problemas de reconocimiento de patrones. En los años 90 el método fue generalizado y en la
actualidad es objeto de un gran interés.
Las Máquinas de Vectores Soporte son nuevas estructuras de aprendizaje basadas en la teoría
estadística del aprendizaje. Se basan en transformar el espacio de entrada en otro de dimensión
superior (innita) en el que el problema pueda ser resuelto mediante un hiperplano óptimo (de
máximo margen)y de forma lineal:

y = (w · x) + b

2.1. Introducción

Dada una tarea con un conjunto de datos de entrenamiento nito, la generalización del buen
funcionamiento de la máquina cuando se introducen nuevos datos se lleva a cabo si hay un
compromiso entre:
La precisión o la mayor probabilidad de acierto dentro del conjunto de datos de entrenamiento
y la capacidad (o complejidad) de la máquina, es decir la habilidad de la máquina a aprender
cualquier conjunto de entrenamiento sin error [60].

Una máquina sobreentrenada: No cometerá errores en el conjunto de datos de entrenamien-


to, pero a la hora de realizar la fase de test (datos nuevos) cometerá muchos errores. Todo

49
50 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

lo que no se ajuste rigurosamente a lo que ha aprendido en el entrenamiento lo clasicará


mal.

Una máquina subentrenada: Está tan poco entrenada que no tiene información suciente
para poder clasicar bien en la fase de test.

En ninguno de estos dos casos la generalización de la máquina será buena. Tiene que existir un
compromiso entre la precisión en el entrenamiento con un conjunto de datos jo y la capacidad
de la máquina para poder clasicar cualquier dato.
Para un conocimiento más profundo que el que se aporta en este capítulo, consultar [1] [44].

2.2. Límites de la generalización de una máquina de aprendizaje


Existen una familia de límites que gobiernan la relación entre la capacidad de la máquina y
su desarrollo.
Suponiendo que se tienen l observaciones, cada observación consiste en un par: xi ² <n ,
i=1,. . . ,l y su etiqueta asociada yi , que dene la clase a la que pertenece el dato de entrada. Por
ejemplo, si el dato de entrada es el patrón que estamos buscando (y=1), si no (y=-1). La tarea
de la máquina es aprender la correspondencia de yi dado un dato de entrada xi . Realmente,
la máquina está denida por un conjunto de posibles correspondencias x 7→ f (x, α), dada una
entrada (x) y la elección de un parámetro (α) la salida será siempre la misma (f (x, α)), por eso
se dice que la máquina es determinista. Una elección particular de α genera lo que se llama una
máquina entrenada.
El error en una máquina entrenada es:
Z
1
R(α) = ky − f (x, α)k dP (x, y) donde : dP (x, y) = p(x, y) · dx · dy (2.1)
2
A ese error se le llama riesgo esperado, riesgo real o simplemente riesgo; es desconocido porque
no se sabe lo que vale p(x,y).
El riesgo empírico: Remp (α), es la tasa de error medido en el conjunto de entrenamiento (para
un número nito de observaciones):
l
1 X
Remp (α) = kyi − f (xi , α)k (2.2)
2l
i=1

La complejidad de una máquina se puede medir en términos de la dimensión VC. La dimensión


VC(h) para un conjunto de funciones f (α) es denida como el número máximo de puntos de
2.2 Límites de la generalización de una máquina de aprendizaje 51

entrenamiento que pueden ser clasicados por f (α). Si la dimensión es h, existen al menos un
conjunto de h puntos que pueden ser clasicados de forma arbitraria, pero en general no todos
los conjuntos de h puntos pueden ser clasicados.
Existe otro tipo de riesgo que depende de la capacidad (o complejidad) de la máquina, a este
término se le llama conanza de Vapnik Chervonenkis (VC) [58], y depende de la dimensión
VC. La conanza de Vapnik Chervonenkis se expresa como:
s
η
h(log( 2l
h ) + 1) − log( 4 )
R= (2.3)
l
donde: η toma valores comprendidos entre 0 y 1; h es la dimensión VC.
Con probabilidad 1 − η se puede mantener el siguiente límite del riesgo [61]:

R(α) ≤ Remp (α) + R (2.4)

Sobre este límite se pueden señalar tres características:

Es independiente de P(x,y).

No es posible hallar el lado izquierdo de la ecuación.

Si se sabe h se puede hallar el lado derecho de la desigualdad fácilmente.

Dadas varias máquinas de aprendizaje, eligiendo un η jo sucientemente pequeño, se elegirá la


máquina que minimize el lado derecho de la ecuación.
El riesgo dado por la parte derecha de la ecuación, una vez la máquina haya sido elegida,
será el límite superior del mínimo riesgo real que se pueda obtener.

2.2.1. Clasicación de puntos con hiperplanos orientados en <n

Si se tienen unos datos en <2 y el conjunto f (α) consiste en líneas rectas orientadas tal que
dada una línea se pueden separar dos clases diferentes de puntos. De esta forma se pueden separar
tres puntos pero no más. Es decir, la dimensión VC del conjunto de líneas orientadas en <2 es
tres.
En <n , la complejidad de la máquina es n+1 ya que se pueden separar n+1 puntos como se
quiera si se consideran hiperplanos en <n .
Teorema: Considere un conjunto de m puntos en <n , si se elige un punto cualquiera como
origen, los m puntos pueden ser clasicados por hiperplanos orientados si y sólo si la posición de
los vectores de los puntos restates son linealmente independientes.
52 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

Corolario: La dimensión VC de un conjunto de hiperplanos en <n es n+1 ya que se pueden


coger siempre n+1 puntos de los cuales uno será el origen y las posiciones de los vectores de los
n puntos restantes son linealmente independientes. (Nunca se pueden coger n+2 puntos ya que
n+1 vectores en <n nunca serán linealmente independientes).

2.2.2. Minimización del límite minimizando h

La conanza VC es una función que se incrementa monótonamente con h. Si el riesgo empírico


es cero, se cogerá la máquina que tenga la dimensión VC mínima. Si no es cero, se cogerá la
máquina que minimice el término derecho (ecuación 2.4 [59] [51] [9].

Hay máquinas que con el mismo riesgo empírico y teniendo una dimensión VC mayor funcio-
nan mejor. Ejemplo:

Si se considera el clasicador de los k vecinos más próximos con k=1, la dimensión VC para
ese conjunto de funciones es innita y el riesgo empírico es cero (ya que cualquier número de
puntos serán aprendidos exitosamente por el algoritmo). Aunque para estos casos en los que la
dimensión VC es innita el límite del riesgo no es válido, el clasicador funciona bien. Es decir,
capacidad innita no quiere decir mal desarrollo.

2.2.3. Riesgo de minimización estructural (SRM)

El término de conanza VC depende de la clase de funciones elegidas. Mientras que el riesgo


empírico y el riesgo real dependen de una función particular elegida al hacer el entrenamiento.

Se quiere encontrar el subconjunto dentro del conjunto de funciones elegidas tal que el límite
del riesgo para ese subconjunto sea mínimo.

Se introduce una estructura dividiendo la clase entera de funciones en subconjuntos. Para cada
subconjunto se debe de poder calcular h. La minimización del riesgo estructural (SRM) consiste
en encontrar ese subconjunto de funciones que minimice el límite del riesgo actual (real) [61].
Para ello se entrenan una serie de máquinas, una para cada subconjunto, dentro del subconjunto
el objetivo es minimizar el riesgo empírico. Se toma la máquina entrenada de la serie cuya suma
de riesgo empírico y la conanza VC sea mínima.
2.3 Máquinas lineales de vectores soporte 53

2.3. Máquinas lineales de vectores soporte

2.3.1. Caso separable

Se etiquetan los datos de entrenamiento como {xi , yi }, dónde i=1, . . . ,l, xi ² <d e yi ² {1, −1}.
Se tiene un hiperplano que separa los ejemplos positivos de los negativos. Los puntos que están
en el hiperplano cumplen la ecuación:

w·x+b=0 (2.5)

donde b es cero si el hiperplano contiene al origen.

w es normal al hiperplano y kwk es la norma euclídea de w.

kbk
kwk es la distancia perpendicular del hiperplano al origen.

d+ (d− ) es la mínima distancia del hiperplano de separación a la muestra positiva(negativa)


más cercana. El margen de separación del hiperplano es d+ + d− .

Para el caso en el que los datos son linealmente separables, el algoritmo de vectores soporte
busca el hiperplano de separación con mayor margen, es decir maximizar la distancia d mostrada
en la gura 2.1. Todos los datos de entrenamiento satisfacen:

xi · w + b ≥ +1 para yi = +1 (2.6)

xi · w + b ≤ −1 para yi = −1 (2.7)

Se pueden combinar estas dos desigualdades en:

yi · (xi · w + b) − 1 ≥ 0 ∀i (2.8)

Los puntos que están en el hiperplano H1 cumplen: xi ·w+b = 1, cuya distancia perpendicular
|1−b|
al origen es: kwk .

Los puntos que están en el hiperplano H2 cumplen: xi · w + b = −1, cuya distancia perpendicular
|−1−b|
al origen es: kwk .
1 2
d+ = d− = kwk , el margen es igual a kwk H1 y H2 son paralelos (tienen la misma normal) y no
hay puntos de entrenamiento entre ellos.
Minimixando kwk2 y ajustándose a las restricciones de la desigualdad 2.8 se encuentran la
pareja de hiperplanos que maximizan el margen.
54 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

Figura 2.1: El procedimiento SVM consiste en poner el hiperplano tan lejos como sea posible de
las muestras más cercanas.

A los puntos de entrenamiento que están en los hiperplanos H1 H2 y que si se borraran


cambiarían la solución de los planos encontrados H1 y H2 (que son los que maximizan el margen)
se les llama vectores soporte.

Se considera este problema con una formulación de Lagrange ya que los multiplicadores de
Lagrange son más fáciles de tratar que las restricciones de la desigualdad 2.8 y los datos de
entrenamiento sólo aparecerán como productos escalares entre vectores (ayudará a la generaliza-
ción para el caso no lineal). Se introducen los multiplicadores de Lagrange: αi , con i=1,. . . ,l de
tal forma que:

X l X l
1
LP = kwk2 − αi yi (xi · w + b) + αi (2.9)
2
i=1 i=1

Se debe minimizar LP con respecto a w y b y simultáneamente se requiere que se anulen las deri-
vadas de LP con respecto a todos los αi , siendo siempre αi ≥ 0. A este conjunto de restricciones
se le llama C1 . Esto es un problema de programación cuadrática convexa, ya que la función ob-
jetivo es convexa y todos los puntos que satisfacen las restricciones forman un conjunto convexo.
Esto quiere decir que se puede solucionar el problema dual:

Maximizar LP , sujeto a que se anule el gradiente de LP con respecto a w y b para valores de


αi ≥ 0. A este conjunto de restricciones se le llama C2 . A esta formulación dual del problema
también se le llama formulación de Wolfe.
2.3 Máquinas lineales de vectores soporte 55

El máximo de LP sujeto a las restricciones de C2 ocurre en los mismos valores de w, b y α


que el mínimo de LP sujeto a las restricciones de C1 .
Si se quiere que el gradiente de LP se desvanezca con respecto a w y b se tiene que cumplir:
X
w= αi yi xi (2.10)
i
X
αi yi = 0 (2.11)
i
Al sustituir estas ecuaciones en la ecuación 2.9:
X 1X
LD = αi − αi αj yi yj xi · xj (2.12)
2
i i,j

Las etiquetas de las fórmulas quieren decir: P −→ principal (fundamental) y D −→ dual. LP y


LD surgen de la misma función objetivo pero con diferentes restricciones, la solución se encuentra
minimizando LP y maximizando LD .
Hay un multiplicador de Lagrange αi para cada punto de entrenamiento. Los vectores soporte
tienen un αi > 0 y yacen en H1 o en H2 . El resto de los puntos tienen αi = 0 y yacen en H1
o en H2 o tienen αi 6= 0 y están en el lado de H1 o en el de H2 . Los vectores soporte son los
elementos críticos del conjunto de entrenamiento.

2.3.2. Las condiciones de Karush-Kuhn-Tucker

Juegan un papel central en la teoría y en la práctica de la optimización de restricciones. Las


condiciones KKT son [9]:
∂ X
LP = wv − αi yi xiv = 0 v = 1, . . . , d (2.13)
∂wv
i
∂ X
LP = − αi yi = 0 (2.14)
∂b
i
yi (xi · w + b) − 1 ≥ 0 i = 1, . . . , l (2.15)

αi ≥ 0 ∀i (2.16)

αi (yi (w · xi + b) − 1 = 0 ∀i (2.17)

Solucionar el problema de SVM es equivalente a encontrar la solución de las condiciones KKT.


Aplicación: aunque w es explicitamente determinada por el procedimiento de entrenamiento,
el umbral de b no. Usando las condiciones KKT, se puede hallar b fácilmente (ecuación 2.17)
(eligiendo cualquier i para el cual αi 6= 0 se halla b, también se pueden tomar varias i y calcular
la media de b).
56 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

2.3.3. Fase de test

Una vez la máquina de vectores soporte está entrenada, dado un dato de test x (entrada) se
le asigna una etiqueta de clase dependiendo en qué lado del borde de decisión está el dato. La
clase que le corresponde a x es sgn(w · x + b).

2.3.4. Caso no separable

Si el algoritmo aplicado hasta ahora se aplica a datos no separables no se encontrará una


posible solución. Para tratar datos no separables hay que relajar las restricciones (ecuaciones
2.6 y 2.7) cuando sea necesario. Para ello se introducen unas variables positivas: εi , i=1,. . . ,l,
quedando las ecuaciones de la siguiente forma:

xi · w + b ≥ +1 − εi para yi = +1 (2.18)

xi · w + b ≤ −1 + εi para yi = −1 (2.19)

εi ≥ 0 ∀i (2.20)

Figura 2.2: Hiperplanos de separación para el caso no separable.

Si la muestra xi está bien clasicada y fuera del margen, εi = 0.

Si la muestra xi está bien clasicada pero dentro del margen, 0 < εi < 1.

Si hay un error, es decir la muestra está mal clasicada, εi > 1.


2.3 Máquinas lineales de vectores soporte 57

P
Por lo que es un límite superior del número de errores en el entrenamiento. Se asigna un
i εi
2 2 P
coste extra para los errores cambiando la función objetivo de kwk
2 a kwk k
2 + C( i εi ) , donde

C, parámetro escogido por el usuario, es un compromiso entre la maximización del margen y


la minimización de los errores. Es un problema de programación convexa para cualquier entero
positivo k.
Si se elige k=1, ni εi ni los multiplicadores de Lagrange aparecen en el problema dual de Wolfe
[25]. Las ecuaciones 2.10, 2.11 y 2.12 se siguen manteniendo igual con la única diferencia que
α tiene un límite superior que es C. Para el problema principal (fundamental) se necesitan las
condiciones de Karush-Kuhn-Tucker. La ecuación principal de Lagrange:
1 X X X
LP = kwk2 + C εi − αi {yi (xi · w + b) − 1 + εi } − µi εi (2.21)
2
i i i

dónde µi son multiplicadores de Lagrange para asegurar que εi sea positiva.


Las condiciones KKT para el problema fundamental (principal) son:

∂LP X
= wv − αi yi xiv = 0 (2.22)
∂wv
i
∂LP X
=− αi yi = 0 (2.23)
∂b
i
∂LP
= C − αi − µi = 0 (2.24)
∂εi
yi (xi · w + b) − 1 + εi ≥ 0 (2.25)

εi ≥ 0 (2.26)

αi ≥ 0 (2.27)

µi ≥ 0 (2.28)

αi {yi (xi · w + b) − 1 + εi } = 0 (2.29)

µi εi = 0 (2.30)

Donde 1 ≤ i ≤ número de puntos de entrenamiento y 1 ≤ v ≤ dimensión de los datos.


Como antes, se pueden utilizar las condiciones KKT (ecuaciones 2.29 y 2.30) para determinar
el umbral b. De la ecuación 2.22 y 2.30 se puede sacar que εi = 0 si αi < C . La justicación de
este hecho se puede encontrar en [35]. Se puede entrenar un punto para el cual 0 < αi < C para
usar la ecuación 2.29 con εi = 0 y así hallar b (también se puede hallar b como la media tomando
varios puntos de entrenamiento).
58 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

2.4. Máquinas de vectores soporte lineales para regresión (SVR)

2.4.1. Introducción

Un regresor lineal es una función f (x) = wT x + b que aproxima un conjunto de vectores x ²


Rn a un conjunto de escalares y ² a R.
Como en los problemas de clasicación, la regresión lineal ha sido tradicionalmente solucio-
nada usando las aproximaciones de mínimos cuadrados. Es decir, la función de regresión es el
hiperplano que ajusta los datos dados con el mínimo error cuadrático medio.
Sin embargo, el objetivo de SVR es diferente [52]: La idea principal es encontrar una función
que ajuste los datos con una desviación menor que una cantidad ε para cada par xi , yi . Al mismo
tiempo se requiere que la solución minimize kwk. Esto quiere decir que la SVR sólo minimizará los
errores que sean iguales o mayores que ε. Así, con estas restricciones, se construye una máquina
cuyos parámetros son una combinación lineal de aquellas muestras cuyo error es igual o mayor
que ε.

2.4.2. Formulación

Si se ponen las ideas dichas en la introducción de forma matemática se tiene que:

X N
1
LP = kwk2 + C (ξi + ξi ∗ ) (2.31)
2
i=1

Se trata de minimizar el error total más la norma de w.


Además, se tiene que cumplir:

yi − wT xi − b ≤ ξi + ε (2.32)

− yi + wT xi − b ≤ ξi ∗ + ε (2.33)

ξi , ξi ∗ ≥ 0 (2.34)

Lo que quiere decir que para cada muestra, los distintos casos posibles son:

Si el error es positivo/(negativo) y su valor absoluto es mayor que ε, el error total será


menor que ξi + ε/ (ξi ∗ + ε).

Si el valor absoluto del error es menor que ε, ξi (ξi ∗ ) serán cero.


2.4 Máquinas de vectores soporte lineales para regresión (SVR) 59

Figura 2.3: Únicamente las muestras que estén fuera del margen ±ε, serán parte de la solución

Este concepto se puede observar en la gura 2.3


Se trata de minimizar la suma de las variables ξi (ξi ∗ ). Únicamente aparecen las pérdidas de
las muestras para las cuales el error es mayor que ε, por lo tanto la solución va a ser sólo función
de esas muestras. La función de coste aplicada es lineal, de tal forma que el procedimiento es

Figura 2.4: Vapnik o función de coste ε-insensible.

equivalente a la aplicación de la llamada Vapnik o función de coste ε-insensible, se muestra en


la gura 2.4; Así la función de coste asociada a las pérdidas es:



0 |ei | < ε
`(ei ) = (2.35)

|e | − ε |e | > ε
i i

para e = ξi + ε, e = −ξi∗ − ε.
60 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

Este procedimiento es similar al aplicado a las SVM para los problemas de clasicación.
En teoría se debería tener errores menores que ε y minimizar la norma de los parámetros. Sin
embargo, en la práctica no se pueden tener todos los errores menores que ε. Para solucionar esto,
se introducen unas nuevas variables: ξi y luego se minimizan.
Para solucionar el problema planteado en las ecuaciones 2.31, 2.32 y 2.33 se lleva a cabo la
optimización de Lagrange, quedando la formulación dual de la siguiente manera:

N N N
1 XX X
Ld = (αi − αi 0)xTi xj (αi − αj 0) + ((αi − αi 0)yi − (αi + αi 0)ε) (2.36)
2
i=1 j=1 i=1

Sabiendo que:
0 ≤ (αi − αi 0) ≤ C (2.37)

El resultado importante de todo esto es la expresión del parámetro ω :


N
X
ω= (αi − αi 0)xi (2.38)
i=1

y que:
N
X
(αi − αi 0) = 0 (2.39)
i=1

Para hallar la desviación, b, es necesario encontrar las muestras que están dentro del margen.
El error para esas muestras es ε y αi , αi 0 < C . Una vez que se identican las muestras, se puede
hallar b a partir de:

yi − wT xi − b + ε = 0 (2.40)

− yi + w T x i + b + ε = 0 (2.41)

Para aquellas xi para las cuales αi , αi 0 < C


Para más información consultar [35].

2.5. Máquinas de vectores soporte no lineales


Para muchos problemas de clasicación o regresión, una solución lineal no da buenos resul-
tados, en esos casos es necesaria una aproximación no lineal. Para poder generalizar los métodos
empleados anteriormente a este caso en el que la función de decisión no es una función lineal de
los datos, hay que tener en cuenta:
2.5 Máquinas de vectores soporte no lineales 61

Los datos aparecen en el problema de entrenamiento en forma de producto escalar: xi · xj .

Los datos que inicialmente pertenecen al espacio Rd se mapean a otro espacio (posiblemente
de dimensión innita), este espacio es el espacio euclídeo (H), mediante φ [14] [3]. La
aplicación es de la forma:

φ : Rd 7→ H

El algoritmo de entrenamiento depende de los datos a través de los productos en H. Funciones


de la forma: φ(xi ) · φ(xi ). Si hubiera un kernel K ( [26], [39]), tal que K(xi , xj ) = φ(xi ) · φ(xj ),
sólo se necesitaría usar K en el algoritmo de entrenamiento sin necesidad de saber qué es φ.
kxi −xj k2

Ejemplo: K(xi , xj ) = e 2σ 2

En este ejemplo H es de dimensión innita por lo que no sería fácil trabajar con φ explí-
citamente. Sin embargo, si se reemplaza xi · xj por K(xi , xj ) en todas partes del algoritmo de
entrenamiento, el algoritmo producirá una máquina de vectores soporte en un espacio innito.
Todo lo que se ha considerado anteriormente puede ser válido ya que estamos haciendo una
separación lineal pero en diferente espacio.

En la fase de test para poder usar esa máquina no hace falta calcular w (para ello habría que
saber φ(si ) explícitamente), basta con calcular el signo de:

Ns
X Ns
X
f (x) = αi yi φ(si ) · φ(x) + b = αi yi K(si , x) + b (2.42)
i=1 i=1

donde si son los vectores soporte. Se evita calcular φ(x) explícitamete usando K(si , x) = φ(si ) ·
φ(x).

Es fácil encontrar kernels tales que el algoritmo de entrenamiento y la solución sean inde-
pendientes de la dimensión de los espacios en los cuales viven los datos L (dimensionalmente
pequeño) y H (dimensionalmente grande). Las máquinas de vectores soporte (SVM) se reeren
a H como un espacio de Hilbert. Este espacio es una generalización del espacio Euclídeo, un
espacio lineal con un producto interior denido, que es completo (cualquier secuencia de puntos
converge a un punto en el espacio), algunos autores requieren que sea separable (número contable
de subconjuntos cuya clausura sea el espacio mismo), hay autores que requieren que el espacio
de Hilbert sea dimensionalmente innito.
62 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

2.5.1. Condición de Mercer

Se va a estudiar para qué kernels existe un par {H, φ} con las propiedades descritas anterior-
mente y para cuales no. Las propiedades se cumplirán para los kernels que cumplan la condición
de Mercer [14] [3]. Existe una aplicación φ y una expansión:
X
K(x, y) = φ(x)i φ(y)i (2.43)
i=1

Si y solo si: Para cualquier g(x), tal que


Z
g(x)2 dx

es nita, entonces
Z
K(x, y) · g(x) · g(y)dxdy ≥ 0

.
P∞
Se puede probar que cualquier kernel expresado de la forma: K(x, y) = p=0 cp (x · y)p , donde
cp son coecientes positivos reales y la serie es uniformemente convergente, satisface la condición
de Mercer.

2.5.2. Notas de φ y H

El conjunto de hiperplanos {w,b} están parametrizados por dim(H)+1 números. Transfor-


mar los datos a un espacio con un enorme número de dimensiones podría llevar a una mala
generalización en el desarrollo de la máquina.
Con los kernels no homogeneos: K(xi · xj + 1)2 , φ puede transformar dos vectores que son
linealmente dependientes en L en dos vectores que son linealmente independientes en H.
Se puede empezar por φ y luego construir el kernel correspondiente. Ejemplo: Si L = R1 , una
expansión de Fourier en x tiene la forma:
N
a0 X
f (x) = + (a1r · cos(rx) + a2r · sin(rx)) (2.44)
2
r=1

a0
Eso es un producto escalar entre dos vectores en R2N +1 , dónde a = ( √ , a , . . . , a21 , . . .) y
2 11
φ(x) = ( √12 , cos(x), cos(2x), . . . , sin(x), sin(2x)...) y el kernel:

sin((N + 12 )(xi · xj ))
φ(xi ) · φ(xj ) = k(xi , xj ) = xi −xj
2 · sin( 2 )
2.5 Máquinas de vectores soporte no lineales 63

2.5.3. kernels de SVMs no lineales

Los primeros kernels investigados para el problema de reconocimiento de modelos fueron los
siguientes:
K(x, y) = (x · y + 1)p −→ polinomio de grado p.
2
K(x, y) = exp − kx−yk
2σ 2
−→ clasicador de base radial gausiana.
K(x, y) = tanh(kx · y − δ) −→ kernel sigmoidal, da una red neuronal de dos capas.
Existen muchos otros tipos de kernels mucho más complejos que se pueden estudiar en la
bibliografía ( [65], [24], [27], [53], [56])..

Figura 2.5: Regiones de decisión para el caso separable (izquierda) y no separable (derecha)
siendo el kernel un polinomio de grado tres

Si se coge como kernel un polinomio de grado tres, a pesar de aumentar el número de grados
de libertad, la solución es casi lineal para el caso linealmente separable. El caso linealmente no
separable se puede volver linealmente separable gracias al kernel elegido.
Aunque los clasicadores SVM tratados hasta ahora han sido binarios, son fácilmente com-
binados para tratar múltiples clases.

2.5.4. Soluciones globales y únicas

Se dice que una solución es global si no existe otro punto en la región en la cual la función
objetivo tome un valor menor.
Cada solución local es también global. Es una propiedad de cualquier problema de programa-
ción convexo. Además, la solución es única si la función objetivo (ecuación 2.12) es estrictamente
convexa. Es decir que Hessian debe ser denido positivamente, si es semidenido positivamente
la solución puede que todavía sea única.
Hay dos casos en los cuales la solución no es única:
64 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

Soluciones en las que w, b son únicas pero la expansión de w (ecuación 2.10) no lo es.

Soluciones en las que w, b no son únicas.

Es fácil encontrar soluciones que no son únicas ya que se pueden encontrar varias αi para hallar
w. Ocurre cuando: dada una solución α, se elige un α0 que está en el espacio nulo de Hessian:
Hij = yi yj xi · xj y requiere que α0 sea ortogonal al vector cuyas componentes son todas uno. Si
se añade α0 a α en la ecuación 2.12 dejará LD incambiable. Si 0 ≤ α + α0 ≤ C y α0 satisface la
ecuación 2.11 entonces α + α0 es también solución.
Soluciones en las que {w, b} no son únicas (esto sólo puede ocurrir si Hessian no es denido
positivamente e incluso entonces las soluciones son necesariamente globales). El siguiente teorema
muestra que si la solución no es única la solución en un punto óptimo es continuamente deformable
hasta llegar a la solución de otro punto óptimo, de tal forma que todos los puntos intermedios
son también solución.
Teorema: Si mediante X se representa el par de variables {w, b}. Se supone Hessian semide-
nido positivo tal que la función objetivo es convexa. Si X0 y X1 son dos puntos en los cuales la
función objetivo obtiene su valor mínimo, existe un camino

X = X(τ ) = (1 − τ )X0 + τ X1 τ ²[0, 1]

tal que X(τ ) es solución para todo τ .


Prueba: El valor mínimo de la función objetivo es Fmin , por lo que F (X0 ) = F (X1 ) = Fmin .
Por convexidad de F, F (Xτ ) ≤ (1 − τ )F (X0 ) + τ F (X1 ) = Fmin . Por linealidad X(τ ) satisface
las ecuaciones 2.18 y 2.19. Combinando ambas restricciones:

yi (wτ · xi + bτ ) = yi ((1 − τ )(w0 · xi + b0 ) + τ (w1 · xi + b1 )) ≥ (1 − τ )(1 − εi ) + τ (1 − εi ) = 1 − εi

El entrenamiento de SVM siempre encuentra una solución global en contraste con las redes
neuronales donde normalmente existen muchos mínimos locales.
Para más información consultar [9].

2.6. Máquinas de vectores soporte no lineales para regresión


La solución para las máquinas de vectores soporte lineales para aplicarlas a regresión es:
N
X
ω= (αi − αi 0)xi (2.45)
i=1
2.7 Multirregresor SVM 65

Si se aplica al caso no lineal:


N
X
ω= (αi − αi 0)φ(xi ) (2.46)
i=1
Siguiendo el mismo procedimiento que el aplicado a las SVMs para problemas de clasicación,
se puede encontrar la expresión para las SVRs no lineales:
N
X N
X
T
yj = (αi − αi 0)φ(xi ) φ(xj ) + b = (αi − αi 0)K(xi , xj ) + b (2.47)
i=1 i=1

2.7. Multirregresor SVM

2.7.1. Introducción

Es una extensión de la máquina de vectores soporte (SVM) usada para regresión (SVR) para
múltiples variables (M-SVR).
En vez de tener en cuenta cada componente individualmente, se usa una herramienta de
regresión multidimensional, de tal forma que la estimación nal es menos vulnerable al ruido.
Tratando múltiples variables a la vez, se puede hacer una estimación más precisa de la salida
disponiendo de pocos datos a la entrada de cada máquina de entrenamiento. Añadiendo la función
de coste ε − insensible, denida ya en SVR, hará el sistema más robusto cuando aparezcan
diferentes tipos de ruido y no linealidades.
Como se presentó en la sección 2.4.2 de las máquinas lineales SVR, el problema de estimación
de variables unidimensionales usando regresión (SVR) consiste en encontrar la correspondencia
entre un vector de entrada x ² Rd y su correspondiente salida y ² R dado un conjunto de muestras
independientes e idénticamente distribuidas (i.i.d) {(xi , yi )} donde i = 0, · · · , n.
En un caso general, SVR soluciona este problema encontrando el regresor w y b que minimize:
kwk2 P
2 +C N T
i=1 Lv (yi − (φ (xi )w + b)), dónde φ(.) es una transformación no lineal a un espacio de

mayores dimensiones (φ(.) ² RH y H ≥ d). SVR puede ser solucionado únicamente con productos
interiores entre φ(.), es decir, no se necesita saber la correspondencia de las funciones no lineales,
tan sólo hay que saber la función kernel k(xi , xj ) = φT (xi )φ(xj ) que tiene que cumplir el teorema
de Mercer 2.5.1 . Lv (.) es conocida como la función de Vapnik o función de coste ε-insensible
[60], gura 2.4, la cual es cero para |yi − (φT (xi )w + b)| < ε e igual a |yi − (φT (xi )w + b)| − ε
para |yi − (φT (xi )w + b)| ≥ ε. La solución (w, b), está formada por una combinación lineal de
las muestras de entrenamiento en el espacio transformado que tienen un error absoluto mayor o
igual a ε.
66 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)

En el caso en el que la salida sea un vector y ² RQ , se necesita resolver un problema de


regresión multidimensional en el que se tiene que encontrar un regresor wj y bj para (j =
1, · · · , Q) para cada salida. Se puede generalizar la SVR unidemensional para solucionar el caso
multidimensional, de tal forma que hay que minimizar:
Q n
1X j 2 X
LP (W, b) = kw k + C L(ui ) (2.48)
2
j=1 i=1

La función de Vapnik o función de coste ε-insensible puede ser extendida al caso multidimen-
sional; con la norma L1 , se necesitaría tener en cuenta cada dimensión de forma independiente, de
tal forma que la complejidad de la solución aumentaría linealmente con el número de dimensio-
nes. Si en vez de L1 se usase L2 , se consideraría una única restricción para todas las dimensiones,
produciendo un único vector soporte para todas las dimensiones. Se usaría:


0 u<ε
(u) = (2.49)

u2 − 2uε + ε2 u ≥ ε

q
Donde, ui = kei k = eTi ei , sabiendo que eTi = yiT − φT (xi )W − bT , W = [w1 , · · · , wQ ],
b = [b1 , · · · , bQ ]T , y φ(.) es una transformación lineal a un espacio de mayor dimensión.
Para ε = 0 este problema se reduce a una regresión de mínimos cuadrados usando un kernel
independiente para cada componente. Sin embargo, para ε 6= 0 la solución tendrá en cuenta
todas las salidas para construir cada regresor y será capaz de obtener predicciones más robustas.
El precio a pagar será que la resolución del problema no se puede hacer directamente, sino que
será necesario un procedimiento iterativo. Se ha ideado una aproximación cuasi-Newtoniana en la
cual cada iteración tiene como mucho la misma complejidad computacional que un procedimiento
de mínimos cuadrados para cada componente. Este es un problema de mínimos cuadrados y el
número de iteraciones necesarias para obtener el resultado nal es pequeño; así, el procedimiento
resultante es sólo un poco más complicado que el que se tenía cuando ε = 0. A este procedimiento
se le llama IRWLS Iterative (Re-Weighted Least Square) [1] [44]. Otro artículo de interés es [54].

2.8. Sumario
Dado un conjunto de datos de entrenamiento{xi , yi }, se trata de entrenar unas máquinas de
vectores soporte (SVM) mediante las cuales poder clasicar nuevas entradas. Para ello tiene que
haber un compromiso entre el número de muestras a entrenar y la complejidad de las máquinas.
2.8 Sumario 67

Se trata de encontrar la máquina que minimice el límite del riesgo. Las máquinas de vectores
soporte lineales a partir de las muestras de entrenamiento, denen un par de hiperplanos (me-
diante unos puntos característicos, vectores soporte); los nuevos datos pertenecerán a una clase u
otra dependiendo del hiperplano en el que se encuentren. En el caso no separable, se introducirá
un margen de error para poder realizar la clasicación. En el caso de las máquinas de vectores
soporte para regresión (SVR), se trata de ajustar todos los datos al par de hiperplanos denido;
se minimizarán los errores que sean mayores o iguales que la mitad del margen (ε). En el caso
no lineal,tanto para SVM's como SVR's, se dene un kernel mediante el cual se hace una trans-
formación de los datos a un espacio de dimensión mayor (puede ser innita) logrando así una
separación lineal en un espacio diferente; una vez hecho esto, todo lo denido para el caso lineal
puede ser aplicado. Para el caso del multirregresor SVM, en el que la salida es un vector y , se
generaliza la SVR unidimensional a través de un algoritmo iterativo. Algunas de las ventajas de
las Máquinas de Vectores Soporte (SVM) son las siguientes:

Construyen fronteras de clases muy complejas, esto permite un mejor aprendizaje de los
problemas difíciles.

Elevada capacidad de generalización, comparado con otras redes neuronales.

Tienen una sólida base matématica.

No tienen muchos parámetros congurables, comparadas con algunas redes neuronales.

Algunos de los inconvenientes de las Máquinas de Vectores Soporte (SVM) son los siguientes:

Las versiones estándard de la SVM no permiten un aprendizaje incremental.

Elevados requerimientos de tiempo de computación.


68 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
Capı́tulo 3
Adaboost y boosting distribuido

3.1. Introducción al Boosting


El Boosting es un método general que sirve para mejorar la precisión de cualquier algoritmo
de aprendizaje. Combinando muchas reglas imprecisas produce una regla de predicción precisa.
El boosting tiene sus raíces en un marco teórico para el estudio de las máquinas de aprendizaje
llamado modelo de aprendizaje: PAC ( Probably Approximately Correct) gracias a Valiant [57].
Kearns y Valiant fueron los primeros en preguntarse si un algoritmo de aprendizaje "débil "
que funcionase algo ligeramente mejor que una elección aleatoria en el modelo PAC podría
ser "boosted" (convertido mediante boosting) en un algoritmo de aprendizaje arbitrariamente
preciso "fuerte-[29], [30]. En 1989 Schapire [49] dio a conocer el primer algoritmo de boosting. Un
año más tarde Freund desarrolló un algoritmo de boosting mucho más eciente, óptimo en cierto
sentido pero sufrió ciertos inconvenientes [22]. Los primeros experimentos con estos boostings
fueron llevados a cabo por Drucker, Schapire y Simard.
El algoritmo de boosting consiste en:

Se parte de un conjunto de muestras de entrenamiento {xi , yi }, dónde yi es la etiqueta


asociada a xi .

En cada iteración t = 1, 2 · · · T se idea una distribución Dt sobre el conjunto de ejemplos.

Se pide una hipótesis débil: ht con bajo error εt con respecto a Dt (es decir, εt = P ri∼Dt [ht (xi ) 6=
yi ] ).

Así, la distribución Dt especica la importancia relativa de cada ejemplo en la iteración

69
70 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO

actual. Después de T iteraciones, se combinan las hipótesis débiles en una sola regla de
predicción.

Para problemas de predicción binaria, el error de la hipótesis nal está limitada por (probado en
[50], [23]):
PT 2
exp−2 t=1 (γt ) (3.1)

donde
1
εt = − γt (3.2)
2
es el error de la t-ésima hipótesis débil. Una hipótesis totalmente aleatoria tiene un error εt = 12 ,
γt mide la precisión relativa al caso aleatorio de la t-ésima hipótesis débil. Este límite muestra
que si se pueden encontrar hipótesis débiles que sean algo mejores que el caso aleatorio, el error
de la hipótesis nal cae exponencialmente rápido.
Hay que tener en cuenta que el límite de la precisión de la hipótesis nal mejora cuando
cualquiera de las hipótesis débiles mejoran.

3.2. AdaBoost

El algoritmo de AdaBoost fue introducido en 1995 por Freund y Schapire, solucionó muchas
dicultades prácticas que presentaban los algoritmos de boosting inicialmente. El pseudocódigo
del algoritmo es el siguiente [21]:
Dado: ((x1 , y1 ), · · · , (xm , ym )), donde xi ²X , yi ²Y = {−1, +1}.
1
Inicializa D1 (i) = m.

Desde t = 1, · · · T :

Entrenamiento de aprendizaje débil usando la distribución Dt .

Se obtiene la hipótesis débil ht : X → {−1, +1} con error

ε = P ri∼Dt [ht (xi ) 6= yi ] (3.3)

Elige
1 1 − εt
αt = ln( ) (3.4)
2 εt
3.2 AdaBoost 71

Actualiza
Dt (i)
Dt+1 (i) = × exp−αt si ht (xi ) = yi (3.5)
Zt

Dt (i)
Dt+1 (i) = × expαt si ht (xi ) 6= yi (3.6)
Zt

Donde Zt es un factor de normalización (de tal forma que Dt+1 sea una distribución).

Salida de la hipótesis nal:

XT
H(x) = sign( αt ht (x)) (3.7)
t=1

El algoritmo toma como entrada el conjunto de entrenamiento (x1 , y1 ), · · · , (xm , ym ) donde


cada xi pertenece a algún dominio X, y cada etiqueta yi está en algún conjunto de etiquetas Y.
Se asume Y = {−1, +1} (caso binario), también de puede extender a un caso multiclase.
AdaBoost llama a un algoritmo "débil" dado un "algoritmo de aprendizaje base" repetida-
mente una serie de veces t = 1, · · · , T . Una de las principales ideas del algoritmo es mantener
una distribución o conjunto de pesos sobre un conjunto de entrenamiento. El peso de esta distri-
bución en el ejemplo de entrenamiento i en la iteración t es denotado por Dt (i). En la primera
iteración, todos los pesos son inicializados al mismo valor; en cada iteración los pesos de los ejem-
plos que están mal clasicados son incrementados, de esta forma el aprendizaje débil es forzado
a enfocarse en los ejemplos duros del conjunto de entrenamiento.
El trabajo del aprendizaje débil es encontrar una hipótesis débil: ht : X → {−1, +1} apro-
piada para la ditribución Dt . La bondad de una hipótesis débil está medida por su error:
X
εt = P ri∼Dt [ht (xi ) 6= yi ] = Dt (i) (3.8)
i:ht (xi )6=yi

Hay que darse cuenta que el error está medido con respecto a la distribución Dt en la cual el
aprendizaje débil ha sido entrenado.
Una vez se elige la hipótesis: ht , AdaBoost elige un parámetro αt . Intuitivamente, α mide la
1
importancia asiganda a ht . Nótese que αt ≥ 0 si εt ≤ 2 (que puede ser asumido sin pérdida de
generalidad), y que αt es mayor cuanto menor es εt . La distribución Dt es acualizada en cada
iteración, lo que pretende este algoritmo es incrementar los pesos de los ejemplos mal clasicados
por ht y decrementar los pesos de los ejemplos clasicados correctamente. Así los pesos tienden
a concentrarse en los ejemplos "duros "(o más difíciles de clasicar).
72 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO

La hipótesis nal H se forma a partir de las T hipótesis halladas.


Schapire y Singer mostraron como AdaBoost y su análisis puede ser extendido para tratar
hipótesis débiles cuya salida es un valor real. Esto es, para cada instancia x, la hipótesis débil ht
tiene como salida una predicción ht (x) ² R, cuyo signo es la etiqueta predecida (-1 o +1) y cuya
magnitud |ht (x)| da la medida de la conanza en la predicción. Para más información consultar
[38].

3.3. Análisis del error de entrenamiento


Una propiedad básica teórica de AdaBoost es su habilidad para reducir el error de entre-
1
namiento. Se puede escribir el error εt de ht como 2 − γt . Así, γt mide el grado en el cual
las predicciones h0t s son mejores que una clasicación aleatoria (en el caso binario). Freund y
Schapire probaron que el error de entrenamiento de la hipótesis nal H es como mucho:
Y p Yq X
[2 εt (1 − εt )] = 1 − 4γt2 ≤ exp(−2 γt2 ) (3.9)
t t t

Así, si cada hipótesis débil es ligeramente mejor que la aleatoria tal que γt ≥ γ para γ > 0,
entonces el error de entrenamiento cae exponencialmente rápido.
Los algoritmos de boosting previos mostraban una propiedad similar. Sin embargo, los al-
goritmos previos requerían un conocimiento previo del límite inferior γ (antes de empezar el
algoritmo de boosting). En la práctica el conocimiento de este límite es muy difícil de obtener.
Por otro lado, AdaBoost es adaptativo, ya que se adapta a las tasas de error de las hipótesis débi-
les individuales. Esta es la base de su nombre-Ada es el diminutivo de adaptativo. El límite dado
en la ecuación 3.9, combinado con el el límite de error de generalización dado a continuación,
prueban que AdaBoost es un algoritmo de boosting en el sentido en el que puede convertir de
manera eciente un algoritmo débil (que puede siempre generar una hipótesis con una frontera
débil [47] para cualquier distribución) en un algoritmo de aprendizaje fuerte (que puede generar
una hipótesis con una baja tasa de error arbitraria, dados una cantidad de datos sucientes).

3.4. Análisis del error de generalización


Freund y Schapire mostraron el error de generalización de la hipótesis nal en función de:

El error de entrenamiento.
3.4 Análisis del error de generalización 73

El tamaño de la muestra m.

La dimensión VC (d) del espacio de la hipótesis débil.

El número de iteraciones de boosting T.

(Como se ha visto antes, la dimensión VC es una medida estandar de la complejidad del


espacio de las hipótesis).

Figura 3.1: Comparación de las tasas de error para AdaBoost y otros cuatro métodos

Se usaron técnicas especícas de Baum y Haussler para mostrar que el error de generalización,
con alta probabilidad, es como mucho:
r
Td
P̂ r[H(x) 6= y] + Õ( ) (3.10)
m

Donde P̂ r[.] denota la probabilidad empírica de las muestras de entrenamiento. Este límite sugiere
que el boosting provocará sobreentrenamiento si se hace para muchas iteraciones, es decir para
un valor de T alto. Sin embargo, en los experimentos realizados recientemente, varios autores
observaron empíricamente que a menudo el boosting no produce sobreentrenamiento, incluso
cuando hay miles de iteraciones en el algoritmo. Además, se observó que AdaBoost continuaba
disminuyendo el error de generalización después de que el error de entrenamiento fuese cero ( [6],
[18], [17]), claramente contradiciendo el límite puesto arriba.
En respuesta a estas averigüaciones empíricas, Schapire [4] siguió el trabajo de Barlett [5],
dando un análisis alternativo en términos de los márgenes de los ejemplos de entrenamiento. El
margen del ejemplo (x,y) es denido para ser:
P
y t αt ht (x)
P (3.11)
t αt
74 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO

Es un número entre [-1,+1] que es positivo si y sólo si H clasica correctamente el ejemplo. La


magnitud del margen puede ser interpretado como una medida de conanza de la predicción.
Schapire probó que grandes márgenes en el conjunto de entrenamiento trasladan el error de
generalización a un límite superior mayor. Así, el error de generalización es como mucho:
r
d
P̂ r[margen(x, y) ≤ θ] + Õ( ) (3.12)
mθ2

para cualquier θ ≥ 0 con alta probabilidad. Este límite es totalmente independiente de T, el


número de iteraciones de boosting. Además Schapire probó que el boosting es particularmente
agresivo reduciendo los márgenes desde que se concentra en los ejemplos con los márgenes más
pequeños (positivos o negativos). Empíricamente, se comprueba que incluso después de que el
error de entrenamiento sea cero, el boosting continua incrementando los márgenes de los ejemplos
de entrenamiento afectando así a la caída en el error de test.

3.5. Relación con máquinas de vectores soporte


La teoría de los márgenes apunta a una fuerte conexión entre el boosting y las máquinas de
vectores soporte de Vapnik y otros [48]. Para claricar esa conexión, se supone que se han encon-
trado las hipótesis débiles que se quieren combinar y se está interesado en elegir los coecientes
αt . Una aproximación sugerida por el análisis de la generalización del error de AdaBoost es elegir
los coecientes tal que el límite dado en la ecuación 3.12 sea minimizado. En particular se supone
que el primer término es cero, hay que concentrarse en el segundo término de tal forma que se
maximice el mínimo margen de cualquier ejemplo de entrenamiento. Para llevar esta idea a la
práctica, se denota el vector de las predicciones de las hipótesis débiles asociadas con el ejemplo
(x,y) por h(x) = hh1 (x), h2 (x), · · · , hN (x)i que se le llama vector de instancias y el vector de
coecientes dado por: α = hα1 (x), α2 (x), · · · , αN (x)i, que se le llama vector de pesos. Usando
esta notación y la denición de margen dado en la ecuación 3.11 se puede escribir el objetivo de
maximizar el mínimo margen como:

(α · h(xi ))yi
maxα mini (3.13)
kαkkh(xi )k

donde, para boosting, las normas del denominador están denidas como:
X
kαk1 = |αt | (3.14)
t
3.5 Relación con máquinas de vectores soporte 75

kh(x)k∞ = maxt |ht (x)| (3.15)

(cuando las ht 's están en el rango {-1,+1},kh(x)k∞ es igual a uno ).


Si se compara con las máquinas de vectores soporte, su objetivo explícito es maximizar un
margen mínimo como dice la ecuación 3.13, pero en este caso las normas son euclídeas:
sX
kαk2 = αt2 (3.16)
t
sX
kh(x)k2 = ht (x)2 (3.17)
t

Las SVM's usan la norma l2 tanto para el vector de instancias como para el vector de pesos,
mientras AdaBoost usa la norma l∞ para el vector de instancias y la norma l1 para el vector de
pesos.
Cuando SVM y AdaBoost son descritos de esta forma parecen similares. Los dos son algorit-
mos SL (Statistical Learning, [40], [11]) Sin embargo, hay importantes diferencias [21]:

Diferentes normas pueden resultar en márgenes diferentes: La diferencia entre las nor-
mas l1 , l2 y l∞ puede no variar signicativamente cuando se consideran espacios dimensio-
nalmente pequeños. Sin embargo, en boosting o en SVM la dimensión suele ser muy alta,
a menudo de millones o más. En tal caso, la diferencia entre las normas puede dar lugar a
diferencias muy grandes en los valores de los márgenes.

Los requerimientos de cómputo en entrenamiento y en test son diferentes: Mientras SVM


corresponde a una programación cuadrática, AdaBoost corresponde sólo a una programa-
ción lineal. SVM es disperso, con un número de núcleos inferior al número de muestras. Sin
embargo, AdaBoost tiene un número de núcleos arbitrariamente alto.

Una aproximación diferente es usada: Parte de la efectividad de SVM y AdaBoost se cen-


tra en encontrar clasicadores lineales para espacios de dimensiones extremadamente altos,
algunas veces espacios de dimensionalidad innita. La mayoría del trabajo al aplicar SVM
o AdaBoost a problemas de clasicación especíca tiene que hacerse seleccionando una fun-
ción kernel apropiada en un caso y un algoritmo de aprendizaje débil en el otro. Como los
kernels y los algoritmos de aprendizaje débiles son muy diferentes, el resultado de los algo-
ritmos de aprendizaje normalmente operan en espacios muy diferentes y los clasicadores
que generan son extremadamente distintos.
76 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO

3.6. Algorimos de Boosting distribuido


Se va a usar el Adaboost distribuido como algoritmo de boosting. Estos algoritmos han sido
extraídos de [37].

3.6.1. Adaboost distribuido I

Es el algoritmo que vamos a usar en nuestro programa, el pseudocódigo del algoritmo es el


siguiente:

Se inicializa una matriz de distribución de errores D0 (i, l) = (1/nL) para cada dato xi y
cada clase, y se inicializa un conjunto de paramétros de agregación λj,0 = 0

Repetir para t = 1 · · · T :

ˆ Para cada regresor, se calcula el error de regresión ²t (j)


L X
X n
²t (j) = Dt (i, l)I{hlj (xi ) 6= yil } (3.18)
l=1 i=1

donde I{hlj (xi ) 6= yil } es una medida de disimilitud entre el dato predicho y el dato
real. En nuestro caso se ha tomado como la diferencia entre hlj (xi ) e yil .

ˆ Elegir el mejor regresor, o el regresor que produce menor error. Se pone el índice ĵ al
mejor regresor.

ˆ Se calcula un término de actualización αt para luego calcular el parámetro de agrega-


ción correspondiente al mejor regresor.

1 1 − ²t (ĵ)
αt = ln( ) (3.19)
2 ²t (ĵ)
y se actualiza el parámetro de agregación:

λj,t+1 = λj,t+1 + αt (3.20)

ˆ Se actualiza la distribución del error:

Dt (i, l)
Dt+1 (i, l) = q exp (−αyil hlĵ (xi )) (3.21)
2 ²t (ĵ)(1 − ²t (ĵ))
q
donde 2 ²t (ĵ)(1 − ²t (ĵ)) en el denominador es un factor de normalización tal que
P P
i l Dt+1 (i, l) = 1.
3.6 Algorimos de Boosting distribuido 77

Fin
P
Se normaliza el conjunto de pesos de manera que j λj = 1

Para terminar las iteraciones, se puede calcular una versión normalizada de los parámetros λj,t
en cada iteración. Si la variación de los parámetros de normalización es menor que un límite γ
se puede parar el algoritmo. Es equivalente a parar el algoritmo cuando P αλt j,t < γ
j
1
Una de las cosas a señalar es que la actualización 3.19 tiende a cero si el error tiende a 2

(que es el correspondiente a una salida totalmente aleatoria) y tiende a innito si el error tiende
a cero. Es decir que cuanto mejor funciona el regresor, mayor es el término de actualización. Sin
embargo la ecuación 3.21, utilizada para la actualización de los pesos, hace que estos Dt (i, l)
correspondientes a los datos xi crezcan si el regresor funciona de manera deciente (ya que el
exponente será positivo). Si la regresión es buena, el peso correspondiente decrecerá, y en el
siguiente paso, la medida del error (ecuación 3.18) dará mayor importancia a aquellos datos que
son más difíciles en la regresión.
El algoritmo presentado arriba minimiza el riesgo empírico con respecto a una función de
coste exponencial por medio de un descenso de gradiente funcional.
La diferencia entre Adaboost y este algoritmo es que todos los regresores ya están entrenados
y que la distribución Dt (i, l) se usa para actualizar el valor de λĵ,t en vez de para entrenar el
siguiente regresor (el mejor se toma de un conjunto de regresores locales ya entrenados).

3.6.2. Adaboost distribuido II

En este método, L algoritmos binarios de Adaboost distribuido se aplican a cada una de las
salidas de los regresores base. Esto se puede ver como una reducción binaria del primer algoritmo.
El resultado es un conjunto de L mapas de boosting correspondientes a cada uno de los regresores.
Los pasos del algorimo son:

1
Se inicializa una matriz de distribución del error D0 (i, j, l) = n para cada xi y cada regresor
y se inicializa un conjunto de parámetros de agregación λlj,0 = 0.

Repetir para t = 1 · · · T :

ˆ Para cada regresor se calcula el error ²t (j, l):


n
X
²t (j, l) = Dt (i, j, l)I{hlj (xi 6= yil )} (3.22)
i=1
78 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO

donde I{hlj (xi 6= yil )} es una medida de disimilitud entre el dato predicho y el dato
real (nosotros hemos tomado como medida de disimilitud la diferencia entre hlj (xi ) e
yil ).

ˆ Se elige el mejor regresor, el que tiene menor error.

ˆ Se calcula un término de actualización αtl para los parámetros de agregación λlĵ co-
rrespondientes el mejor regresor.

1 1 − ²t (ĵ, l)
αtl = ln( ) (3.23)
2 ²t (ĵ, l)

y se actualiza el parámetro de agregación

λlĵ,t+1 = λlĵ,t + αtl (3.24)

ˆ Se actualiza la distribución del error

Dt (i, j, l)
Dt+1 (i, j, l) = q exp (−αyil hlĵ (xi )) (3.25)
2 ²t (ĵ, l)(1 − ²t (ĵ, l))

Fin

P
Se normaliza el conjunto de pesos de manera que j λj = 1

3.7. Sumario

AdaBoost tiene muchas ventajas. Es rápido, simple y fácil de programar. No tiene parámetros
para ajustar a excepción del número de iteraciones (T). No requiere conocimiento previo sobre
el aprendizaje débil y por lo tanto puede ser combinado de forma exible con cualquier método
para encontrar hipótesis débiles. Finalmente, viene con un conjunto de garantías teóricas dados
sucientes datos y una máquina de aprendizaje débil con unas hipótesis débiles moderadamente
precisas. En vez de intentar diseñar una algoritmo de aprendizaje que sea preciso sobre el espacio
entero, se trata de encontrar unos algoritmos de aprendizaje débiles que sólo necesitan ser mejores
que el aleatorio.
Por otro lado, el desarrollo del boosting para un problema particular depende claramente de
los datos y de la máquina de aprendizaje débil. De acuerdo a la teoría, el boosting puede fallar
si los datos son insucientes, las hipótesis débiles son complejas o demasiado débiles.
3.7 Sumario 79

Una buena propiedad de AdaBoost es su habilidad para identicar outliers (ejemplos que o
no están etiquetados en el conjunto de entrenamiento o son inherentemente ambigüos o difícil
de categorizar). Porque AdaBoost enfoca su peso en los ejemplos más "duros"(difíciles de cate-
gorizar), los ejemplos con el mayor peso a menudo se vuelven outliers. Existe una variante del
AdaBoost que pone menos énfasis en los outliers, para ello utiliza otra función de pérdidas, para
más información de ese método consultar [21], [16]. Otros artículos de interés son [64] [46],
[43], [20].
El Boosting distribuido es una versión del Adaboost en la cual se utiliza una serie de clasica-
dores distribuidos espacialmente, cuya salida se combina linealmente para formar una respuesta
mejorada con respecto a la respuestsa individual de cada uno de los clasicadores. La combinación
óptima se calcula iterativamente usando un procedimiento inspirado en el Adaboost.
80 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO
Capı́tulo 4
Estructuras del algoritmo, software
desarrollado y datos

4.1. Estructura del algoritmo desarrollado

El objetivo de este proyecto es construir una librería de clasicación adaptada al problema


de clasicación de estímulos sensoriales y motores del cerebro humano. Se partía de un softwa-
re preexistente de clasicación y regresión. Para desarrollar la librería se ha implementado un
algoritmo mejorando funciones ya existentes, implementando funciones nuevas y estructurando
todas las funciones. A continuación se muestran las funciones del algoritmo completo, explicando
qué realiza cada una pero sin entrar en detalle del código empleado en cada función:

Lectura de la máscara: mediante una función se guarda el directorio donde está la máscara
en el ordenador, para no tener que buscarlo cada vez que queramos usarlo. Y también se
carga la máscara seleccionada.

[mask] = uigetf ile([maskpath0 ∗ .mat0 ],0 M asktoappend0 );

load(mask)

Lectura de los directorios de los datos: al igual que con la máscara, guarda el directorio
donde se encuentran los datos en el ordenador. También se memorizan los parámetros
iniciales.

dirdatos = uigetdir(dirdatos);

81
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
82 DESARROLLADO Y DATOS
dirlist = dirtree(dirdatos,0 img 0 );

Lectura de los datos: lee todos los datos seleccionados, hallando de cada dato una serie de
parámetros como son: el tipo, la cabecera, dimensión, oset... Dando una matriz con un
conjunto de imagenes con el directorio completo del conjunto de imágenes, mediante el cual
se pueden leer las cabeceras mediante la etiqueta de dicha imagen, y extraer el conjunto
de posibles etiquetas. Es decir, se hace un prepocesado de los datos. La función principal
es leerdatos, las demás son funciones que están dentro de esta función.

ˆ f unction[Z, Y, labelnames] = leerdatos(dirlist)

[Ztemp1, DIM, V OX, SCALE, T Y P E, OF F SET, ORIGIN, DESCRIP,

valid, noheader] = imgread(d(1, :), []);

[Y, labelnames] = constructlabelvector(dirlist, [], [], []);

Y es una matriz que contiene las etiquetas de todos los datos.

Formato de los datos de la variable correspondiente: da formato a los datos y después se


hace una normalización de esos datos. La función principal es formateardatos, las demás
son funciones que están dentro de esta función.

ˆ f unction[datatrain] = f ormateardatos(Z, ZM, Y )

X = maskdata(i, datacleaningf ile, Z, ZM );

datatrain = splitdata(data, X, Y );

splitdata es una función que construye una variable estructurada con todos los datos pre-
viamente divididos.

X es una matriz en la cual las columnas son los datos.

Experimentos y resultados: primero se establecen unos parámetros de entrenamiento y


clasicación. Después existen 4 casos posibles: entrenamiento, entrenamiento y test, v-fold
y leave one out. Existe una función distinta para cada caso posible :

ˆ Si la opción elegida es entrenamiento: antes de proceder al entrenamiento del boosting,


hay que dividir los datos en dos subconjuntos, uno para el entrenamiento y otro para
el test. En este caso, se utilizarán todos los datos para entrenamiento, por lo tanto
4.1 Estructura del algoritmo desarrollado 83

no se dividirán los datos. Todos los datos se utilizarán para entrenar a la máquina.
Todos los datos que se utilizan para entrenamiento se dividen arbitrariamente en
dos subconjuntos. Con el primer subconjunto se entrenan las SVM's. El segundo
subconjunto son las entradas de las SVM's entrenadas, se calcula la salida y con estas
salidas se entrena el algoritmo de Boosting.

◦ [Oa, lambda2, SV M M GROU P 2] = training(datatrain, Y, ZM, Z, classpar);


Se dividen los datos en dos subconjuntos mediante la función:
[AT, AB] = randomizedata(datatrainA.labels) ;
Con el primer subconjunto se entrenan las SVM's:
[SV M M GROU P ] = M CSV M train(datatrain1, C, par, ker,0 classif ication0 );
La siguiente función está dentro de la función anterior:
a = multiclasssvmtrain(X, Y, C, ker, par);
SVMMGROUP es una variable estructurada de objetos de los parámetros SVM
de cada clasicador.
Se entrena el algoritmo de Boosting:
[error, votes, lambda1, Oa] =
M CSV M classif y(datatrain2, [], SV M M GROU P,0 adaboost0 );
Las siguientes funciones están dentro de la función anterior:
predictedlabel = multiclasssvmclasif y(X, Y, M GROU P, nclass)
[predictedlabel, accuracy, decisionvalues] =
svmpredict(ones(size(X, 2), 1), X 0 , model);
[lambda] = svmboosting2(SV M M GROU P, testdata, lambda,0 adaboost0 );

C, par, y kernel son los parámetros de las SVMs.

Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].

ˆ Si la opción elegida es entrenamiento y test: Este tipo de entrenamiento se diferencia


con el anterior, es decir el de entrenamiento, en que antes de proceder al entrenamiento
del boosting, se dividen los datos en dos subconjuntos, uno para el entrenamiento y
otro para el test. El primer conjunto de datos se divide a su vez arbitrariamente en
otros dos subconjuntos. Con el primer subconjunto se entrenan las SVM's. El segundo
subconjunto son las entradas de las SVM's entrenadas, se calcula la salida y con estas
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
84 DESARROLLADO Y DATOS

salidas se entrena el algoritmo de Boosting. El segundo conjunto de datos se usará


posteriormente para la fase de test. Este algoritmo de entrenamiento y test tiene como
ventajas que es simple y rápido, en cambio, tiene como inconveniente que para que se
obtengan buenos resultados se requieren muchos datos.

◦ Se dividen los datos en dos subconjuntos: uno para entrenamiento y otro para
test:
[datatrainA, datatest] = separatedata(Y, datatrain);

◦ Con el primer subconjunto se realiza el mismo entrenamiento descrito anterior-


mente en el caso de entrenamiento:
[Oa, lambda, SV M M GROU P ] = training(datatrainA, Y, ZM, Z, classpar);

◦ Con el segundo subconjunto se realiza la fase de test:


[error, votes, lambda1, Oa] =
M CSV M classif y(datatest, lambda, SV M M GROU P, []);
Las siguientes funciones están dentro de la función anterior:
predictedlabel = multiclasssvmclasif y(X, Y, M GROU P, nclass)
[predictedlabel, accuracy, decisionvalues] =
svmpredict(ones(size(X, 2), 1), X 0 , model);
[lambda] = svmboosting2(SV M M GROU P, testdata, lambda,0 adaboost0 );

◦ Estudio estadístico de las prestaciones de cada clasicador:


errores = mean([votes = datatest.labels0 ]) ∗ 100;

Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].

ˆ Si la opción elegida es v-fold: V-Fold es un test de validación cruzada. Este algoritmo


llega a un compromiso entre la eciencia y el coste computacional. El algoritmo V-Fold
dispone de un parámetro V, el cual nos indica el número de partes aproximadamente
iguales en que habrá que dividir los datos. Este algoritmo consiste en que antes de
proceder al entrenamiento del boosting, se divide el conjunto de datos en V partes
aproximadamente iguales. En cada iteración, una de estas V partes será el subconjunto
que se utilizará para realizar el test. Las restantes V-1 partes restantes formarán el
subconjunto que se empleará para el entrenamiento. Este proceso se repite V veces, de
esta manera todos las partes han sido empleadas para el test. El porcentaje de error
4.1 Estructura del algoritmo desarrollado 85

de este algoritmo se obtiene promediando el resultado de todas las iteraciones.

◦ División de los datos en V partes aproximadamente iguales:


[R] = randomizedatan(datatrain.labels, exppars.v);

◦ Con el primer subconjunto de V-1 partes se realiza el mismo entrenamiento des-


crito anteriormente en el caso de entrenamiento:
[Oa, lambda, SV M M GROU P ] = training(datatrainA, Y, ZM, Z, classpar);

◦ Con el segundo subconjunto de una única parte se realiza la fase de test descrita
anteriormente en el caso de entrenamiento y test:
[error, votes, lambda1, Oa] =
M CSV M classif y(datatest, lambda, SV M M GROU P, []);

◦ Estudio estadístico de las prestaciones de cada clasicador:


errores = mean([votes = datatest.labels0 ]) ∗ 100;

Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].

ˆ Si la opción elegida es leave one out, Leave One Out(LOO) es un test de validación
cruzada dejando un dato fuera. El cálculo de validación cruzada leave one out es
computacionalmente costoso, pero tiene la ventaja de que no se pierden datos. Leave
One Out es un caso particular de V-Fold, ya que LOO es en realidad un V-Fold en
el que V es igual al número de datos. El algoritmo LOO consiste en que antes de
proceder al entrenamiento del boosting, se dividen los datos en dos subconjuntos. Un
subconjunto estará formado por un sólo dato. Este subconjunto será el utilizado para
realizar el test. El otro subconjunto constará de todos los datos menos uno, el que
se ha utilizado para test, y será el subconjunto que utilicemos para el entrenamiento.
Después se repite el proceso dejando otro dato diferente para el test. Cuando todos los
datos han sido dejados para el test es cuando nalizaría el algoritmo.El porcentaje de
error de este algoritmo se obtiene promediando el resultado de todas las iteraciones.

◦ División de los datos, separando un único dato para test:


[datatrainA, datatest] = separatedata(Y, datatrain);

◦ Con el primer subconjunto (todos los datos menos uno) se realiza el mismo en-
trenamiento descrito anteriormente en el caso de entrenamiento:
[Oa, lambda, SV M M GROU P ] = training(datatrainA, Y, ZM, Z, classpar);
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
86 DESARROLLADO Y DATOS

◦ Con el segundo subconjunto de un único dato se realiza la fase de test descrita


anteriormente en el caso de entrenamiento y test:
[error, votes, lambda1, Oa] =
M CSV M classif y(datatest, lambda, SV M M GROU P, []);

◦ Estudio estadístico de las prestaciones de cada clasicador:


errores = mean([votes = datatest.labels0 ]) ∗ 100;

Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].

4.2. Estructura del software desarrollado


Descripción del problema
Se trata de construir una librería de clasicación adaptada al problema de la clasicación de
estímulos sensoriales y motores del cerebro humano.
Se parte de un software preexistente de clasicación y regresión.
Se modican y se estructuran las funciones básicas del software. Y se corrigen errores del
proceso en normalización, preprocesado y entrenamiento.
Se genera un conjunto de funciones para el estudio estadístico de las prestaciones de los
clasicadores.
Se ha implementado un algoritmo que a partir de unos datos de entrada: secuencias de
imágenes temporales obtenidas mediante fMRI sea capaz de obtener un porcentaje de error para
los distintos tipos de entrenamiento y de indicar de forma precisa las zonas del cerebro que son
importantes para la clasicación.
Una vez se disponen de los datos de entrada, se trata de usar los algoritmos propuestos para
llevar a cabo diferentes tipos de clasicación.
Hay varios inconvenientes en las fMRI's para realizar un modelo able, estos son:

La alta dimensionalidad de los datos dentro de las fMRI's.

El conjunto de datos disponible es pequeño.

Las diferencias entre los individuos.

La dependencia con el método de adquisición.


4.2 Estructura del software desarrollado 87

Para reducir la dimensionalidad de los datos sin reducir la resolución de la imagen y a n de


poder localizar las áreas que contienen información, se divide el cerebro humano en áreas funcio-
nales, catorce áreas funcionales exactamente. Para ello se ha partido de las áreas de Brodmann
y del atlas de Talairach-Tournoux (Ver [7], [13]).

Cada área se va a tratar indepedientemente, de tal forma que se entrena una máquina SVM
para cada área. (gura 4.1).

Figura 4.1: Aplicación de un clasicador local para cada una de las 14 áreas cerebrales.

Mediante un algoritmo de boosting, se pondera la importancia que tiene cada área depen-
diendo de los diferentes estímulos que se puedan realizar al sujeto (visual, motor, cognitivo y
auditivo).

Además, la salida del boosting en forma de mapas (que iluminan las áreas importantes para
la clasicación) se pueden comparar directamente con el análisis de las fMRI's.(gura 4.2).

Como ya se ha explicado en la sección 2.5.3 es necesario una buena elección del kernel para el
buen funcionamiento de las SVM ( [34]). Se van a utilizar kernels RBF (de base radial gaussiana)
[41], para ello hay que elegir una serie de parámetros como son C (compromiso entre el error y el
coste computacional) y el parámetro del kernel (σ ) para el buen funcionamiento del algoritmo.

Se usan parámetros previamente escogidos mediante validación cruzada. Estos valores de los
parámetros son C=10 y σ =600.

Los mapas de activación tienen aproximadamente 90.000 voxels y el número de datos para el
entrenamiento son 182 (el número de experimentos a tener en cuenta en este proyecto). Por lo
tanto, hay que reducir la alta dimensionalidad de los datos. Las soluciones posibles son:
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
88 DESARROLLADO Y DATOS

Figura 4.2: Combinación de las salidas de los clasicadores para generar el mapa de boosting.

Descartando algunos voxels; como inconveniente se podría perder información útil.

Mediante Análisis en componentes Principales (PCA) [10]; como inconveniente se necesi-


tarían matrices cuadradas y además este algoritmo es preciso únicamente si se dispone de
una cantidad de datos grande (en este caso el conjunto de datos disponible es pequeño).

Sólo unas pocas áreas del cerebro contienen información relevante. Por lo tanto, parece
razonable que se pueda dividir el mapa de activación en áreas funcionales (FA). Cada área
contendrá un menor número de voxels.

La última opción es la que se va a aplicar en este caso:

Dado un conjunto de mapas de activación, es segmentado en áreas funcionales (FA). Para


ello se aplican unas máscaras que sean capaces de obtener esas áreas (se aplica una máscara por
cada área funcional, en este caso 14) [8].
4.2 Estructura del software desarrollado 89

50

100

150

200

250

300

350

50 100 150 200 250 300 350

Figura 4.3: Máscara aplicada a las imágenes.

Las áreas funcionales son: médula espinal, cerebelo, parietal, temporal, occipital, subcortical
y frontal. Para el lado derecho como para el izquierdo (gura 4.4).

Figura 4.4: Áreas del cerebro.

Una vez que se aplican las máscaras, se cogen los datos que son distintos de cero, de tal forma
que se tienen 14 grupos de datos (en este momento, la dimensionalidad de los datos ya ha sido
reducida).
Este algoritmo se caracteriza por los distintos tipos de entrenamiento que se pueden realizar:
entrenamiento, entrenamiento y test, v-fold y leave one out.
Entrenamiento
Antes de proceder alentrenamiento del boosting, hay que dividir los datos en dos subconjun-
tos, uno para el entrenamiento y otro para el test. En este caso, se utilizarán todos los datos para
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
90 DESARROLLADO Y DATOS

entrenamiento, por lo tanto no se dividirán los datos. Todos los datos se utilizarán para entrenar
a la máquina.
Los datos que se utilizan para entrenamiento se dividen arbitrariamente en dos subconjuntos.
Con el primer subconjunto se entrenan las SVM's. El segundo subconjunto son las entradas de
las SVM's entrenadas, se calcula la salida y con estas salidas se entrena el algoritmo de Boosting.
Entrenamiento y test
Este tipo de entrenamiento se diferencia con el anterior, es decir el de entrenamiento, en que
antes de proceder al entrenamiento del boosting, se dividen los datos en dos subconjuntos, uno
para el entrenamiento y otro para el test.
El primer conjunto de datos se divide a su vez arbitrariamente en otros dos subconjuntos.
Con el primer subconjunto se entrenan las SVM's. El segundo subconjunto son las entradas de
las SVM's entrenadas, se calcula la salida y con estas salidas se entrena el algoritmo de Boosting.
El segundo conjunto de datos se usará posteriormente para la fase de test.
Este algoritmo de entrenamiento y test tiene como ventajas que es simple y rápido, en cambio,
tiene como inconveniente que para que se obtengan buenos resultados se requieren muchos datos.
V-Fold
V-Fold es un test de validación cruzada. Este algoritmo llega a un compromiso entre la
eciencia y el coste computacional.
Antes de proceder al entrenamiento del boosting, se divide el conjunto de datos en V partes
aproximadamente iguales. En cada iteración, una de estas V partes será el subconjunto que se
utilizará para realizar el test. Las restantes V-1 partes restantes formarán el subconjunto que se
empleará para el entrenamiento. Este proceso se repite V veces, de esta manera todos las partes
han sido empleadas para el test. El porcentaje de error de este algoritmo se obtiene promediando
el resultado de todas las iteraciones.
Leave One Out (LOO)
Leave One Out(LOO) es un test de validación cruzada dejando un dato fuera. El cálculo de
validación cruzada leave one out es computacionalmente costoso, pero tiene la ventaja de que no
se pierden datos.
Leave One Out es un caso particular de V-Fold, ya que LOO es en realidad un V-Fold en el
que V es igual al número de datos.
El algoritmo LOO consiste en que antes de proceder al entrenamiento del boosting, se dividen
los datos en dos subconjuntos. Un subconjunto estará formado por un sólo dato. Este subconjunto
4.2 Estructura del software desarrollado 91

será el utilizado para realizar el test. El otro subconjunto constará de todos los datos menos uno,
el que se ha utilizado para test, y será el subconjunto que utilicemos para el entrenamiento.
Después se repite el proceso dejando otro dato diferente para el test. Cuando todos los datos
han sido dejados para el test es cuando nalizaría el algoritmo.El porcentaje de error de este
algoritmo se obtiene promediando el resultado de todas las iteraciones.
Boosting
Se entrenan un conjunto de SVM's (una para cada área, en este caso hay 14 SVM's).
Se entrenan las SVMs a partir de los datos de que se obtienen para cada área. Cada máquina
está caracterizada por hj (donde j va de 1 a 14).
Una vez entrenadas las SVM's se procede al entrenamiento del boosting distribuido, descrito
en [37].
Con el primer subconjunto, se entrenan las SVM's. Con esas SVM's y el segundo subconjunto
de datos, se entrena el algoritmo de boosting distribuido.
El algoritmo se va a desarrollar de forma iterativa; al nal del algoritmo se tendrán un con-
junto de parámetros λj promediados, (donde j va de 1 a 14, una para cada área). Cada parámetro
λj es un escalar que mide la importancia que tiene cada área en la activación correspondiente:

Si el área no está relacionado con la actividad que se está considerando (motor, visual,
auditivo o cognitivo), el valor de λj es bajo.

Por el contrario, si el área está involucrada en esa actividad, el valor de λj será alto.

Una vez entrenada la máquina de boosting se procede a la fase de test, hay que tener en
cuenta que:

Como entrada se tienen el segundo conjunto de datos.

Las SVM's cogerán las hj especicadas anteriormente.

El algoritmo de boosting cogerá los λj que se han especicado en esta sección anteriormente.

De esta forma, la salida será agregada linealmente de la siguiente forma:


N
X
h= λj hj (4.1)
j=1

Donde j va de 1 a 14, siendo j cada una de ellas las áreas funcionales en las que se divide el
cerebro.
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
92 DESARROLLADO Y DATOS

Como resultado se obtiene un mapa de boosting, que indica la importancia de cada área del
cerebro al aplicarle una excitación que puede ser motora, visual, auditiva o cognitiva.

4.3. Datos

Sujetos y experimentos

Diez sujetos sanos fueron estudiados usando un escáner de 1.5 Teslas, y otros diez usando un
escáner de 4.0 Teslas. Los estímulos fueron presentados mediante unas gafas y unos auriculares.
El paradigma consiste en cuatro tareas: visual (estimulación a 8 Hz), motora (pequeño golpe en el
dedo índice derecho a 2 Hz), auditiva (discriminación de sílabas) y cognitiva (cálculos mentales).
La tarea visual consiste en cambios de blanco a negro a 8 Hz. La tarea motora consistía en
un pequeño golpe en el dedo índice derecho, dicho golpe iba al ritmo de un tono auditivo de
1 kHz. Durante la tarea auditiva, los sujetos oían una grabación de sílabas (por ejemplo: Ba,
Ha, Ka, Ra) y apretaban un botón cuando oían la sílaba Ka. La tarea cognitiva consistía en
cálculos mentales. Los sujetos debían sumar tres números que se les mostraban y dividir la suma
entre tres, tenían que apretar un botón cuando la suma fuera divisible entre tres sin resto. A los
sujetos se les dieron instrucciones para atender cada tarea con un constante esfuerzo a través de
exploraciones mediante escáneres y campos de fuerza.

Adquisición de datos

Los datos fMRI fueron adquiridos usando una imagen echo-planar con tiempo de repetición
(TR) de 2 segundos, tiempo de echo (TE) de 50 msec, un ángulo de giro de 90º, un tamaño
de matriz de 64x64 o 32x32 píxeles, y un campo de visión de 192 mm. Los datos con matrices
de 32x32 fueron adquiridos con diferentes anchos de banda, con 1200 Hz/pixel (bajo ancho de
banda, LB) o con 2400 Hz/pixel (alto ancho de banda, HB), los cuales cambian de grado la
distorsión geométrica y la señal a ruido.

El conjunto de datos disponible consiste en 182 t-maps de 20 sujetos diferentes. Los detalles
del conjunto de datos se muestran en la siguiente tabla:
4.4 Sumario 93

Campo t-maps Resolución t-maps BW t-maps


1.5T 101 32x32 76 LB 55

1.5T 101 32x32 76 HB 21

1.5T 101 64x64 25 LB 25

4.0T 81 32x32 52 LB 47

4.0T 81 32x32 52 HB 5

4.0T 81 64x64 29 LB 29

Tabla 4.1: Número de t-maps adquiridos con diferentes longitudes de campo, diferentes resulo-
ciones espaciales y diferentes anchos de banda.

4.4. Sumario
El esquema del algoritmo completo es el siguiente:

Se parte del conjunto de secuencias de imágenes temporales obtenidas a partir de las fMRI's
realizadas a los distintos sujetos. Son los datos de entrada del algoritmo.

Mediante un conjunto de máscaras se divide el cerebro en catorce áreas funcionales, dibujo


4.1. Se enmascarara la secuencia de imágenes, de tal forma que se tendrán divididos los
datos en 14 grupos. Cada grupo de datos se introduce en una SVM.

Se dividen los datos de cada grupo en dos subconjuntos, de forma diferente dependiendo
del tipo de entrenamiento que estemos realizando; uno de ellos servirá para entrenar las
SVM's y el boosting. El otro subconjunto se reserva para hacer el test una vez se haya
nalizado el entrenamiento de las SVM's y el boosting.

En la fase de test, el boosting genera a la salida de cada SVM un parámetro (λ). Este
parámetro indica la importancia de cada área funcional.

Diagrama de bloques
Para tener una visión global y más clara del algoritmo desarrollado se muestran los siguientes
diagramas de bloques en los cuales se observa la secuencia de las funciones del algoritmo completo.
A continuación se muestra un diagrama de bloques en el que se observa lo desarrollado en el
entrenamiento. Dicho entrenamiento es común a los cuatro tipos de entrenamientos explicados
anteriormente.
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
94 DESARROLLADO Y DATOS

Figura 4.5: Diagrama de bloques del entrenamiento.

A continuación se muestra la secuencia en que se organizan las funciones del algoritmo desa-
rrollado y explicado anteriormente, mediante un diagrama de bloques. Este diagrama contiene
el diagrama de bloques del entrenamiento anterior, pero por claridad se ha separado en dos
diagramas.
4.4 Sumario 95

Figura 4.6: Diagrama de bloques: muestra la secuencia de las funciones del algoritmo desarrollado.
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
96 DESARROLLADO Y DATOS
Capı́tulo 5
Experimentos y Resultados

5.1. Introducción

Los datos con los que se han realizado los experimentos, son datos reales. Varios sujetos se
sometieron a una serie de sesiones fMRI para ser estudiadas posteriormente.
Se analizarán los distintos tipos de entrenamientos descritos en 4.2. Analizando para cada
simulación una serie de resultados.

5.1.1. Resultados

Se van a analizar tres resultados para cada simulación, que son:

Valores de los parámetros λ: Constituyen los valores de agregación o combinación lineal de


los clasicadores correspondientes a cada área del cerebro. Estos parámetros se obtienen
mediante el algoritmo de boosting y producen una combinacíon óptima de los clasicadores
con arreglo a una determinada función de coste (véase Capítulo 3). Además indicarán la
importancia de cada área funcional en la clasicación.

Boosting map: Es un mapa en el cual se podrá ver cada una de las áreas funcionales som-
breada en escala de grises según el valor del parámetro λ correspondiente a cada área. El
blanco indicará mayor importancia y el negro menor. Se tienen las siguientes áreas (14
en total): zona derecha/izquierda del bulbo raquídeo, zona derecha/izquierda del cerebelo,
parietal (izquierdo/derecho), temporal (izquierdo/derecho), occipital (izquierdo/derecho),
subcortical (izquierdo/derecho) y frontal (izquierdo/derecho).

97
98 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS

Porcentaje de error: Indica las prestaciones del algoritmo en forma de promedio de errores
de clasicación para cada conjunto de test.

5.2. Caso 1: Entrenamiento

A continuación se muestran los resultados obtenidos en diferentes simulaciones para el caso


de entrenamiento descrito en 4.2. Se han realizado 3 simulaciones diferentes con los mismos
datos en cada simulación. Las dos primeras simulaciones, que corresponden al ejemplo 1 y al
ejemplo 2, se han realizado con 10 iteraciones. En cambio la última simulación, que corresponde
al ejemplo 3, se ha realizado con 25 iteraciones.

Valores de λ. Boosting map.


Figura 5.1: Resultados del ejemplo 1 para el caso de entrenamiento.
5.2 Caso 1: Entrenamiento 99

Valores de λ. Boosting map.


Figura 5.2: Resultados del ejemplo 2 para el caso de entrenamiento.

Valores de λ. Boosting map.


Figura 5.3: Resultados del ejemplo 3 para el caso de entrenamiento.

En este tipo de entrenamiento en el que sólo se realiza entrenamiento y no existe una fase
de test, se considera el error = 0 ya que no hay datos con los que el algoritmo no haya sido
entrenado y por tanto todo es conocido sin dar lugar a errores. El problema de este algoritmo es
que no generaliza bien, sólo da buenos resultados para los datos con los que ha sido entrenado.
100 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS

5.3. Caso 2: Entrenamiento y test

A continuación se muestran los resultados obtenidos en diferentes simulaciones para el caso de


entrenamiento y test descrito en 4.2. Se han realizado 3 simulaciones diferentes con los mismos
datos en cada simulación. Las dos primeras simulaciones, que corresponden al ejemplo 1 y al
ejemplo 2, se han realizado con 10 iteraciones. En cambio la última simulación, que corresponde
al ejemplo 3, se ha realizado con 25 iteraciones.

Valores de λ. Boosting map.


Figura 5.4: Resultados del ejemplo 1 para el caso de entrenamiento y test.

Valores de λ. Boosting map.


Figura 5.5: Resultados del ejemplo 2 para el caso de entrenamiento y test.
5.4 Caso 3: V-Fold 101

Valores de λ. Boosting map.


Figura 5.6: Resultados del ejemplo 3 para el caso de entrenamiento y test.

A continuación se muestra una tabla con los valores del porcentaje de error de cada ejemplo
para este tipo de entrenamiento (entrenamiento y test). Se observa que el porcentaje de error es
considerablemente menor en el último ejemplo, esto es debido a que se realizan más iteraciones
y por lo tanto es más preciso. Cuantas más iteraciones el error será menor. También se observa
que en los dos primeros ejemplos el error es más alto que en el tercer ejemplo pero no son
valores demasiado altos para las pocas iteraciones realizadas. Por lo tanto se puede armar que
el algoritmo desarrollado es bastante preciso.

ENTRENAMIENTO Y TEST Ejemplo 1 Ejemplo 2 Ejemplo 3


Porcentaje de error 9.8901 7.6923 3.2967

Tabla 5.1: Valores del porcentaje de error para el caso de entrenamiento y test.

5.4. Caso 3: V-Fold

A continuación se muestran los resultados obtenidos en diferentes simulaciones para el caso


de V-Fold descrito en 4.2. Se han realizado 3 simulaciones diferentes con los mismos datos en
cada simulación y con el parámetro V=5. Las dos primeras simulaciones, que corresponden al
ejemplo 1 y al ejemplo 2, se han realizado con 10 iteraciones. En cambio la última simulación,
que corresponde al ejemplo 3, se ha realizado con 25 iteraciones.
102 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS

Valores de λ. Boosting map.


Figura 5.7: Resultados del ejemplo 1 para el caso V-Fold con v=5.

Valores de λ. Boosting map.


Figura 5.8: Resultados del ejemplo 2 para el caso V-Fold con v=5.
5.4 Caso 3: V-Fold 103

Valores de λ. Boosting map.


Figura 5.9: Resultados del ejemplo 3 para el caso V-Fold con v=5.

A continuación se muestra una tabla con los valores del error en porcentaje de cada ejemplo
para este tipo de entrenamiento (V-Fold) y con V=5. Se observa que el porcentaje de error es
menor en el último ejemplo, y al igual que ocurría en el caso de entrenamiento y test, esto es
debido a que se realizan más iteraciones y por lo tanto es más preciso. Cuantas más iteraciones el
error será menor. En este caso, se observa que la diferencia entre las simulaciones realizadas con
10 iteraciones y la realizada con 25, no es tan grande como en el caso anterior (entrenamiento y
test). Por lo que este algoritmo es bastante más preciso.

V-Fold Ejemplo 1 Ejemplo 2 Ejemplo 3


Porcentaje de error 5.8824 4.1219 2.9412

Tabla 5.2: Valores del porcentaje de error para el caso de V-Fold.

A continuación se muestran los resultados obtenidos en diferentes simulaciones para este caso,
V-Fold, con los mismos datos, realizando 10 iteraciones, pero en estos ejemplos con diferentes
valores del parámetro V, el cual nos indica el número de partes aproximadamente iguales en que
habrá que dividir los datos.
104 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS

Valores de λ. Boosting map.


Figura 5.10: Resultados del ejemplo 4 para el caso V-Fold con v=2.

Valores de λ. Boosting map.


Figura 5.11: Resultados del ejemplo 5 para el caso V-Fold con v=8.

A continuación se muestra una tabla con los valores del porcentaje de error de cada ejem-
plo para este tipo de entrenamiento (V-Fold)y con diferentes valores de V. Se observa que el
porcentaje de error disminuye a medida que se aumenta el parámetro V.

V-Fold V=2 V=5 V=8


Porcentaje de error 6.5934 5.8824 4.7619

Tabla 5.3: Valores del porcentaje de error para el caso de V-Fold con diferentes valores del
parámetro V.
5.5 Caso 4: Leave One Out (LOO) 105

En denitiva, el algoritmo de V-Fold, es más preciso y se obtienen mejores resultados cuantas


más iteraciones se realicen y cuanto mayor sea el parámetro V. Pero la carga computacional será
mucho mayor. Por esto, es preferible en muchos casos tener algo menos de precisión (se ha visto
en estos ejemplos que con pocas iteraciones y V pequeño, los resultados han sido bastante buenos)
y que el algoritmo no posea tanta carga computacional.

5.5. Caso 4: Leave One Out (LOO)

A continuación se muestran los resultados obtenidos en diferentes simulaciones para el caso


de Leave One Out descrito en 4.2. Se han realizado 2 simulaciones diferentes con los mismos
datos en cada simulación. La primera simulacion, que corresponde al ejemplo 1, se ha realizado
con 4 iteraciones. En cambio la última simulación, que corresponde al ejemplo 2, se ha realizado
con 10 iteraciones.

Valores de λ. Boosting map.


Figura 5.12: Resultados del ejemplo 1 para el caso LOO.
106 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS

Valores de λ. Boosting map.


Figura 5.13: Resultados del ejemplo 2 para el caso LOO.

A continuación se muestra una tabla con los valores del porcentaje de error de cada ejemplo
para este tipo de entrenamiento (LOO). Se observa que el porcentaje de error es menor en el
último ejemplo, y al igual que ocurría en los casos anteriores, esto es debido a que se realizan más
iteraciones y por lo tanto es más preciso. Cuantas más iteraciones el error será menor. En este
caso, se observa que la diferencia entre las dos simulaciones realizadas, no es muy signicativa.

V-Fold Ejemplo 1 Ejemplo 2


Porcentaje de error 2.7473 1.9219

Tabla 5.4: Valores del porcentaje de error para el caso de LOO.

Leave One Out es un caso particular de V-Fold, ya que LOO es en realidad un V-Fold en
el que V es igual al número de datos existentes. Por lo tanto, es lógico que ofrezca mejores
resultados que V-Fold. Se observa que este algoritmo, Leave One Out, es el más preciso de los
cuatro desarrollados, pero su coste computacional es excesivamente mayor que cualquiera de los
otros tres algoritmos.

Por lo tanto, la mejor solución es hallar un compromiso entre la eciencia o precisión y el


coste computacional del algoritmo, con el porcentaje de error más bajo posible.
5.6 Sumario 107

5.6. Sumario
A modo de comparativa de los experimentos realizados, se muestra en la siguiente tabla el
valor mínimo del porcentaje de error de cada tipo de entrenamiento.

Tipos de entrenamiento Entrenamiento Entrenamiento y test V-Fold LOO


Porcentaje de error mínimo 0 3.2967 2.9412 1.9219

Tabla 5.5: Valores mínimos del porcentaje de error de cada tipo de entrenamiento.

Observando los resultados obtenidos en los experimentos con los diferentes tipos de entre-
namiento, se puede concluir que el mejor es el V-Fold, ya que es el algoritmo que obtiene un
mejor compromiso entre la precisión o eciencia y el coste computacional. Siendo sus resultados
del porcentaje de error bastante aceptables. Aunque en el caso de entrenamiento se tiene un
error = 0, este tipo de entrenamiento no generaliza, y sólo tendremos error = 0 para estos datos
en concreto. Con el algoritmo LOO los resultados son también bastante buenos, se puede decir
que los mejores respecto al porcentaje de error, pero computacionalmente es el más costoso y
con mucha diferencia. Por lo tanto el algoritmo más eciente es el V-Fold ya que generaliza y
nos da un porcentaje de error bastante bajo. Aunque se puede comprobar que con cualquiera de
los cuatro algoritmos propuestos se obtienen unos resultados más que aceptables.
108 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS
Capı́tulo 6
Conclusiones

6.1. Descripción del problema y discusión de los resultados

A partir de unos datos de entrada consistentes en imágenes de fMRI se realiza una librería
de algorimos de reconocimiento de patrones capaces de obtener un porcentaje de error para los
distintos tipos de entrenamiento y de indicar de forma precisa las zonas del cerebro que son
importantes para la clasicación.
Mediante un conjunto de máscaras se divide el cerebro en catorce áreas funcionales. Se en-
mascaran las imágenes, de tal forma que se tendrán divididos los datos en 14 grupos. Cada grupo
de datos va a una SVM. Se dividen los datos de cada grupo en dos subconjuntos, de forma dife-
rente dependiendo del tipo de entrenamiento que estemos realizando; uno de ellos servirá para
entrenar las SVM's y el boosting. El otro subconjunto se reserva para hacer el test una vez se
haya nalizado el entrenamiento de las SVM's y el boosting. En la fase de test, el boosting genera
a la salida de cada SVM un parámetro (λ). Este parámetro indica la importancia de cada área
funcional. Se han realizado cuatro tipos de entrenamientos diferentes con los mismos datos de
entrada: entrenamiento, entrenamiento y test, V-Fold y LOO. Mediante varios experimentos con
cada uno de estos tipos de entrenamiento, se ha llegado a la conclusión que con cualquiera de
los cuatro los resultados son más que aceptables 5.6. El algoritmo con mejores prestaciones se
ha comprobado que es V-Fold.
No se pretende valorar o comparar diferentes tipos de algoritmos de clasicación, sino cons-
truir una librería de funciones generada a tal efecto.
Sin embargo, a la vista de los resultados del capítulo 5, se puede hacer una pequeña discusión

109
110 CAPÍTULO 6. CONCLUSIONES

de éstos.

Las tasas de error son sucientemente bajas, como para considerar que el algoritmo está
optimizado con respecto a anteriores versiones. Prueba de ello es que mejora o iguala los
resultados del artículo [37]

Los mapas de activación (boosting maps) resultan signicativos a primera vista:

ˆ Revelan áreas importantes, no áreas necesariamente activas.

ˆ Para detectar áreas activas existen otras posibilidades:

◦ Regresión con series temporales.

◦ Clasicación binaria con imágenes con actividad y sin actividad.

ˆ No se ha probado Adaboost.L [45] como alternativa, pero se sabe de experiencias


anteriores que produce mejores boosting maps.

ˆ No se ha implementado una función de test de signicancia porque se ha utilizado la


estándar de Matlab. No es objetivo de este proyecto la medida de este parámetro.

Se han hecho con éxito diferentes pruebas para vericar la estabilidad de las funciones.

6.2. Campos de investigación futuros


A pesar de todo el trabajo realizado, quedan muchos trabajos futuros de investigación en
este campo. Algunos ejemplos de caminos futuros y aplicaciones de la tecnología de resonancia
magnética funcional son:

Se podría probar todo lo que se ha realizado en este proyecto mediante otros tipos de
kernels. El kernel que se ha utilizado en este caso ha sido RBF (de base radial gaussiana). La
investigación en kernels de Mercer está abierta y produce gran cantidad de comunicaciones
cientícas al año. No se puede, por tanto, descartar el uso de kernels construidos a medida
de este tipo de problemas, que produzcan mejores prestaciones que los aquí utilizados.

Además, se podrían emplear otros algoritmos de boosting existentes como pueden ser el
Adaboost.L (logístico) o el Adaboost.M2 (multiclase) ( [19]). Como se ha dicho anterior-
mente, se sabe que el Adaboost.L produce mejores resultados que el Adaboost estándar
multiclase cuya versión distribuida se ha usado aquí.
6.2 Campos de investigación futuros 111

En este proyecto se han utilizado 14 áreas funcionales, lo que produce una detección espacial
grosera. Se ha descartado el uso de áreas más nas, tales como las áreas de Broadman (cerca
de 75 áreas por cada hemisferio) [8] porque el uso de demasiadas áreas funcionales degrada
las prestaciones del boosting. En efecto, existen teoremas acerca de las cotas de error del
boosting distribuido [32] que arman que la probabilidad de error aumenta en proporción
al número de áreas utilizadas y de forma inversamente proporcional al número de datos de
entrenamiento.

Para solventar este inconveniente, se pueden aplicar estos algoritmos a conjuntos de másca-
ras groseras como las que hemos empleado y, descartando las que no contienen información,
dividir las máscaras supervivientes en máscaras más nas e iterar el algoritmo.
112 CAPÍTULO 6. CONCLUSIONES
APÉNDICES

113
APÉNDICE A
PRESUPUESTO DEL PROYECTO

En este apéndice se presentan justicados los costes globales de la realización de este Proyecto
Fin de Carrera. Tales costes, imputables a gastos de personal y de material, se pueden deducir
de las Tablas A.1, A.2 y A.3.
En la Tabla A.1 se muestran las fases del proyecto y el tiempo aproximado para cada una de
ellas. Así pues, se desprende que el tiempo total dedicado por el proyectando ha sido de 1.200
horas, de las cuales aproximadamente un 20 % han sido compartidas con el tutor del proyecto,
por lo que el total asciende a 1.440 horas. Teniendo en cuenta que la tabla de honorarios del
Colegio Ocial de Ingenieros Técnicos de Telecomunicación establece unas tarifas de 60 ¿/hora(
teniendo en cuenta que son horas dentro de la jornada laboral, tal y como viene en el punto 19 de
la baremación hecha por el COIT) el coste de personal, teniendo en cuenta sólo el trabajo de los
ingenieros de Telecomunicación, se sitúa en 86.400 ¿. A esto hay que añadir en el apartado de
costes de personal los investigadores senior, el médico y los técnicos que han de estar presentes en
cada experimento(en este proyecto se ha trabajado con 182 experimentos). El coste de personal
aparece desglosado en la tabla A.2.
En la Tabla A.3 se recogen los costes de material desglosados en equipo informático, escá-
ner, local de trabajo, documentación y gastos varios no atribuibles (material fungible, llamadas
telefónicas, desplazamientos...). Ascienden, pues, a un total de 40.420 ¿.
A partir de estos datos, el presupuesto total es el mostrado en la Tabla A.4.

115
116 APÉNDICE A. PRESUPUESTO DEL PROYECTO

Tabla A.1: Fases del Proyecto

Fase 1 Documentación 320 horas


Fase 2 Realización de las pruebas 90 horas
Fase 3 Implementación de los métodos propuestos 560 horas
Fase 4 Redacción de la memoria del proyecto 230 horas

Tabla A.2: Costes de personal

Personal Horas de trabajo ¿/hora Total (¿)


2 Ing.Telecomunicación 1.440 60 86.400
2 Investigadores 2 horas/experimento 80 ¿/hora/pers 58.240
1 Médico 2 horas/experimento 80 ¿/hora/pers 29.120
2 Técnicos 2 horas/experimento 40 ¿/hora/pers 29.120
202.880

Tabla A.3: Costes del material


Equipo Tiempo de uso Precio Total (¿)
Escáner 60 horas (3 horas/paciente) 600 ¿/hora 36.000
Material para experimentos 80 ¿ 80
Local 12 meses 120 ¿/mes 1.440
Documentación 200 ¿ 200
PC gama alta 2000 ¿ 2.000
Gastos varios 700 ¿ 700
40.420
117

Tabla A.4: Presupuesto

Concepto Importe
Costes personal 202.880¿
Costes material 40.420 ¿
Base imponible 275.300 ¿
I.V.A. (16 %) 44.048¿
TOTAL 287.348 ¿
118 APÉNDICE A. PRESUPUESTO DEL PROYECTO
Bibliografía

[1] http://www.gatsby.ucl.ac.uk/~fernando/irwls_c.html.

[2] http://www.boosting.org/.

[3] M. A. Aizerman, E. M. Braverman, and L. I. Rozonoer. "Theoretical foundations of the po-


tential function method in pattern recognition learning". Automation and Remote Control,
25:821 to 837, 1964.

[4] P. Barlett, Y. Freund, W. S. Lee, and R. E. Schapire. Boosting the margin: a new explanation
for the eectiveness of voting methods, October 1998.

[5] P. L. Bartlett. For valid generalization the size of the weights is more important than the
size of the network. in NIPS, 1996. M. Mozer, M. I. Jordan and T. Petsche, pp.134140.

[6] L. Breiman. Arcing classiers, July 1998.

[7] M. Brett. The mni brain and the talairach atlas, February 2002.

[8] K. Broadmann. Broadman's Localisation in the Cerebral Cortex. Imperial College Press,
London, 1999.

[9] C. J. Burges. A tutorial on support vector machines for pattern recognition. Data Mining
and Knowledge Discovery, 2(2):132, 1998.

[10] V. Calhoun, T. Adali, G. Pearlson, and J. Pekar. Group ica of functional mri data: Separa-
bility, stationarity and inference. December 2001. San Diego, CA: Proceedings ICA2001.

119
120 BIBLIOGRAFÍA

[11] C. Campbell. An Introduction to Kernel Methods, chapter Radial Basis Function Networks:
Design and Applications. Physica Verlag, Berlin, 2001.

[12] C.-C. Chang and C.-J. Lin. LIBSVM: a library for support vector machines, 2001.

[13] W. Chau and A. R. McIntosh. "The Talairach coordinate of a point the MNI space: how to
interpret it". Neuroimage, 25(2):408416, April 2005.

[14] R. Courant and D. Hilbert. "Methods of Mathematical Phisics". John Wiley and Sons,
1953.

[15] D. D. Cox and R. L. Savoy. "Functional magnetic resonance imaging (fmri) "brain reading":
detecting and classifying distributed patterns of fmri activity in human visual cortex". Neu-
roimage, pages 261270, 2003.

[16] T. G. Dietterich. An experimental comparison of three methods for constructing ensembles


of decision trees: Bagging, boosting and randomization. Machine Learning, 40(2):139157,
2000.

[17] H. Drucker and C. Cortes. "Boosting decision trees". in NIPS, 8:479485, 1996. Cambridge,
MA: MIT Press.

[18] H. Drucker, R. E. Schapire, and P. Simard. "Boosting performance in neural networks".


Intl. Journal of Pattern Recognition and Articial Intelligence, 7(4):705719, 1993.

[19] G. Eibl and K. P. Pfeier. Analysis of the performance of adaboost.m2 for the simulated
digit-recognition-example. ECML, 2167:109120, 2001. L. D. Raedt and P. A. Flach.

[20] W. Fan, S. J. Stolfo, and J. Zhang. The application of adaboost for distributed, scalable
and on-line learning. In Proceedings of the Fifth ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining, pages 362366, San Diego, CA, August 1999.

[21] Y. Freund and R. Schapire. A short introduction to boosting. Japanese Society for Articial
Intelligence, 14(5):771780, September 1999.

[22] Y. Freund and R. E. Schapire. A decision-theoretic generalization of on-line learning and


an application to boosting. Journal of Computer and System Sciences, 55(1):119139, 1997.
BIBLIOGRAFÍA 121

[23] Y. Freund and R. E. Schapire. A decision-theoretic generalization of online learning and an


application to boosting. Journal of Computer and System Sciences, 55(1):119139, August
1997.

[24] D. Haussler. Convolution kernels on discrete structure. University of California at Santa


Cruz, July 1999. Santa Cruz, CA, USA, Tech. Rep. UCSC-CRL-99-10.

[25] M. Held, P. Wolfe, and H. P. Crowder. "Validation of subgradient optimization". Mathe-


matical Programming, 6(1):6288, 1974.

[26] R. Herbrich. Learning Kernel Classiers: Theory and Algorithms (Adaptive Computation
and Machine Learning S.). The M.I.T Press, Cambridge, Massachusetts, 2002.

[27] T. Jaakkola, M. Diekhans, and D. Haussler. A discriminative framework for detecting remote
protein homologies. Journal of Computational Biology, 7(1,2):95114, 2000.

[28] Y. Kamitani and F. Tong. Decoding the visual and subjective contents of the human brain.
Nature Neuroscience, 8(5):679685, 2005.

[29] M. Kearns and L. G. Valiant. Cryptographic limitations on learning boolean formulae


and nite automata. In In Proceedings of the 21st Annual ACM Symposium on Theory of
Computing, pages 433444, New York. ACM, 1994.

[30] M. J. Kearns, M. Li, and L. G. Valiant. "Learning boolean formulas". J. ACM, 41(6):1298
1328, 1994.

[31] S. J. Kiebel and K. J. Friston. Statistical Parametric Mapping: I. Generic Considerations.


Neuroimage, 2:402  502, Jun 2004.

[32] V. Koltchinskii, M. Martínez-Ramón, and S. Posse. Optimal aggregation of classiers and


boosting maps in functional magnetic resonance imaging. In L. K. Saul, Y. Weiss, and
L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 705712.
MIT Press, Cambridge, MA, 2005.

[33] S. LaConte, S.Strother, V. Cherkassky, J. Anderson, and X. Hu. "Support vector machines
for temporal classication of block design fmri data". Neuroimage, 26:317329, 2005.
122 BIBLIOGRAFÍA

[34] J.-X. Liu, J. Li, and Y.-J. Tan. An empirical assessment on the robustness of support vector
regression with dierent kernels. Machine Learning and Cybernetics. Proceedings of 2005
Internacional Conference on, 7(7):42894294, August 2005.

[35] M. Martínez-Ramón and C. Christodolou. Support Vector Machines for Antenna Array
Processing and Electromagnetics. Morgan and claypool publisher, Arizona, 2006.

[36] M. Martínez-Ramón, V. Koltchinskii, G. Heileman, and S. Posse. Pattern classication in


functional mri using optimally aggregated ada-boosting. June 2005. 11th Annual Meeting
of the Human Brain Mapping Organization, Toronto, Canada.

[37] M. Martínez-Ramón, V. Koltchinskii, G. Heileman, and S. Posse. "FMRI pattern classi-


cation using neuroanatomically constrained boosting". Neuroimage, (31):11291141, March
2006.

[38] J. Matas and J. Sochman. Adaboost. Centre for Machine Perception. Czech Technical
University, Prague.

[39] S. Mika, G. Ratsch, J. Weston, B. Schölkopf, A. J. Smola, and K. R. Müller. Invariant


feature extraction and classication in kernel spaces. In Advances in Neural Information
Processing SystemsThe M.I.T Press, 12:526532, 1999. Cambridge, MA.

[40] K. R. Müller, S. Mika, G. Rätsch, K. Tsuda, and B. Schölkopf. An introduction to kernel


based learning algorithms. IEEE Transactions on Neural Networks, 12(2):181202, March
2001.

[41] J. E. Moody. Fast learning in multi-resolution hierarchies. pages 2939, In Touretzky, D.


S., 1989. Advances in Neural Information Processing Systems 1.

[42] C. Moonen and P. Bandettini. Functional MRI. 1999. Eds. Springer-Verlag Berlin.

[43] T. Onoda, G.Rätsch, and K.-R. Müller. An asymptotic analysis of adaboost in the binary
classication case. pages 16.

[44] F. Pérez-Cruz, P. Alarcón-Diana, A.Navia-Vázquez, and A. Artés-Rodríguez. "Fast Training


of Support Vector Classiers. Advances in Neural Information Processing Systems". M.I.T.
Press., November 2000.
BIBLIOGRAFÍA 123

[45] M. Rochery, R. E. Schapire, and M. Rahim. "Boosting With Prior Knowledge for Call
Classication". IEEE transactions on speech and audio processing, 13(2):174181, march
2005.

[46] G. Rätsch, A. Demiriz, and K. Bennett. "Sparse Regression Ensembles in Innite and Finite
Hypothesis Spaces". NeuroCOLT2 Technical Report Series, (27150):132, October 2000.

[47] G. Rätsch, T. Onoda, and K.-R.Müller. "Regularizing ADABOOST". Advances in Neural


Information Processing Systems, 11:564570, 1999. M. Kearns, S. Solla, D. Cohn.

[48] G. Rätsch, B. Schökopf, S. Mika, and K.-R. Müller. "SVM and boosting: One class".
Technical Report 119, 119, November 2000. GMD FIRST.

[49] R. E. Schapire. A brief introduction to boosting. In In Proceedings of the Sixteenth Intl.


Conf. on Articial Intelligence, San Francisco, CA, USA, 1999.

[50] R. E. Schapire and Y. Singer. Improved boosting algorithms using condence-rated predic-
tions. Machine Learning, 37(3):297336, 1999.

[51] B. Schölkopf. Support Vector Learning. R. Oldenbourg Verlag, Munich, 1997.

[52] A. Smola and B. Schölkopf. A tutorial on support vector regression. 1988. NeuroCOLT
Technical Report NC-TR-98-030, Royal Holloway College, University of London, UK.

[53] A. J. Smola, B. Schölkopf, and K. R. Müller. "The connection between regularization


operators and support vector kernels". Neural Networks, 11(4):637649, 1998.

[54] M. Sánchez-Fernández, M. de Prado-Cumplido, J. Arenas-García, and F. Pérez-Cruz. "SVR


Multiregression for Nonlinear Channel Estimation in Multiple-Input Multiple-Output Sys-
tems". IEEE Transactions on signal processing, 52(8):22982305, August 2004.

[55] J. Talairach and P. Tournoux. Co-planar stereotaxic atlas of the human brain. Thieme,
1988.

[56] K. Tsuda, M. Kawanabe, G. Rätsch, S. Sonnenburg, and K. R. Müller. A new discriminative


kernel from probabilistic models. Neural Computation, 14(10):23972414, 2002.

[57] L. G. Valiant. A theory of the learnable. Communications of the ACM, 27(11):11341142,


November 1984.
124 BIBLIOGRAFÍA

[58] V. Vapnik. Estimation of Dependences Based on Empirical Data: Springer Series in Statis-
tics. New York, 1982.

[59] V. Vapnik. Principles of risk minimization for learning theory. In M. Kaufmann, editor,
NIPS, pages 831838, 1991.

[60] V. Vapnik. Statistical Learning Theory, Adaptive and Learning Systems for Signal Proces-
sing, Communications, and Control. Simon Haykin, 1998.

[61] V. Vapnik. The Nature of Statistical Learning Theory Autor. New York, second edition,
2000.

[62] A. Villringer and U.Dirnagl. Coupling of brain activity and cerebral blood ow: basis of
functional neuroimaging. Cerebrovascular and Brain Metabolism Reviews, (7):240276, 1995.

[63] X. Wang, R. Hutchinson, and T. M. Mitchell. Training fmri classiers to discriminate


cognitive states across multiple subjects. In S. Thrun, L. Saul, and B. Schölkopf, editors,
Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA, 2004.

[64] R. S. Zemel and T. Pitassi. A gradient-based boosting algorithm for regression problems.
In In Proceedings of 7th WOLLIC'2000, pages 191199, Canada, 2000.

[65] A. Zien, G. Ratsch, S. Mika, B. Schölkopf, T. Lengauer, and K. R. Müller. Engineering


support vector machine kernels that recognize translation initiation sites. Bioinformatics,
16(9):799807, 2000.

También podría gustarte