Matlab
Matlab
Matlab
DICIEMBRE 2007
Título: "LIBRERÍA EN MATLAB PARA RECONOCIMIENTO DE
PATRONES EN RESONANCIA MAGNÉTICA FUNCIO-
NAL DEL CEREBRO HUMANO".
La defensa del presente Proyecto Fin de Carrera se realizó el día 20 de diciembre de 2007;
siendo calicada por el siguiente tribunal:
Calificación:
3
Agradecimientos
Gracias a todos.
5
Si lloras por haber perdido el sol,
las lágrimas no te dejarán ver las estrellas.
Rabindranath Tagore
7
Resumen
Este es el proyecto que elegí para realizar mi proyecto n de carrera: "Librería en matlab
para reconocimiento de patrones en resonancia magnética funcional del cerebro humano". Me
decidí por este proyecto porque ví que tenía una aplicación muy práctica, como es el campo de
la bioingeniería, campo que me llama bastante la atención.
En líneas muy generales, trataré de explicar en qué se basa dicho proyecto. A partir de
unos datos de entrada consistentes en imágenes de fMRI (imágenes de resonancias magnéticas
funcionales) se realiza una librería de algorimos de reconocimiento de patrones capaces de obtener
un porcentaje de error para los distintos tipos de entrenamiento y de indicar de forma precisa las
zonas del cerebro que son importantes para la clasicación. Mediante un conjunto de máscaras
se divide el cerebro en catorce áreas funcionales, debido a la alta dimensionalidad de los datos
de entrada. Se enmascarara la secuencia de imágenes, de tal forma que se tendrán divididos
los datos en 14 grupos. Cada grupo de datos va a una SVM (máquina de vectores soporte). Se
dividen los datos de cada grupo en dos subconjuntos, de forma diferente dependiendo del tipo de
entrenamiento que estemos realizando; uno de ellos servirá para entrenar las SVM's y el boosting.
El otro subconjunto se reserva para hacer el test una vez se haya nalizado el entrenamiento de las
SVM's y el boosting. En la fase de test, el boosting genera a la salida de cada SVM un parámetro
(λ). Este parámetro indica la importancia de cada área funcional. Se realizarán cuatro tipos de
entrenamientos diferentes con los mismos datos de entrada: entrenamiento, entrenamiento y test,
V-Fold y LOO. Realizando varios experimentos para cada tipo. Se generan unos resultados para
el estudio estadístico de las prestaciones de los clasicadores.
Hay varias herramientas y técnicas que se dedican a esto, sin embargo hay muchos caminos
que siguen sin explorarse. En uno de estos caminos es donde nos hemos hecho un hueco.
9
Índice general
1.3.3. Relajación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.3.5. Pulso RF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5. BOLD-fMRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
11
2. Máquinas de Vectores Soporte (SVM) 49
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2. Límites de la generalización de una máquina de aprendizaje . . . . . . . . . . . . 50
2.2.1. Clasicación de puntos con hiperplanos orientados en <n . . . . . . . . . . 51
2.2.2. Minimización del límite minimizando h . . . . . . . . . . . . . . . . . . . . 52
2.2.3. Riesgo de minimización estructural (SRM) . . . . . . . . . . . . . . . . . . 52
2.3. Máquinas lineales de vectores soporte . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3.1. Caso separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3.2. Las condiciones de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . 55
2.3.3. Fase de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.3.4. Caso no separable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4. Máquinas de vectores soporte lineales para regresión (SVR) . . . . . . . . . . . . 58
2.4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.4.2. Formulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5. Máquinas de vectores soporte no lineales . . . . . . . . . . . . . . . . . . . . . . . 60
2.5.1. Condición de Mercer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.5.2. Notas de φ y H . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.5.3. kernels de SVMs no lineales . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.4. Soluciones globales y únicas . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.6. Máquinas de vectores soporte no lineales para regresión . . . . . . . . . . . . . . 64
2.7. Multirregresor SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.8. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
12
3.6.2. Adaboost distribuido II . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.7. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5. Experimentos y Resultados 97
5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.2. Caso 1: Entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.3. Caso 2: Entrenamiento y test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4. Caso 3: V-Fold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5. Caso 4: Leave One Out (LOO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.6. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6. Conclusiones 109
6.1. Descripción del problema y discusión de los resultados . . . . . . . . . . . . . . . 109
6.2. Campos de investigación futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
APÉNDICES 115
13
14
Lista de Figuras
2.1. El procedimiento SVM consiste en poner el hiperplano tan lejos como sea posible de las muestras m
2.2. Hiperplanos de separación para el caso no separable. . . . . . . . . . . . . . . . . 56
2.3. Únicamente las muestras que estén fuera del margen ±ε, serán parte de la solución 59
2.4. Vapnik o función de coste ε-insensible. . . . . . . . . . . . . . . . . . . . . . . . . 59
2.5. Regiones de decisión para el caso separable (izquierda) y no separable (derecha) siendo el kernel un
3.1. Comparación de las tasas de error para AdaBoost y otros cuatro métodos . . . . 73
4.1. Aplicación de un clasicador local para cada una de las 14 áreas cerebrales. . . . 87
4.2. Combinación de las salidas de los clasicadores para generar el mapa de boosting. 88
4.3. Máscara aplicada a las imágenes. . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.4. Áreas del cerebro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.5. Diagrama de bloques: muestra la secuencia de las funciones del algoritmo desarrollado. 95
15
5.10. Resultados del ejemplo 4 para el caso V-Fold con v=2. . . . . . . . . . . . . . . . 104
5.11. Resultados del ejemplo 5 para el caso V-Fold con v=8. . . . . . . . . . . . . . . . 104
5.12. Resultados del ejemplo 1 para el caso LOO. . . . . . . . . . . . . . . . . . . . . . 105
5.13. Resultados del ejemplo 2 para el caso LOO. . . . . . . . . . . . . . . . . . . . . . 106
16
Lista de Tablas
4.1. Número de t-maps adquiridos con diferentes longitudes de campo, diferentes resulociones espaciales
5.1. Valores del porcentaje de error para el caso de entrenamiento y test. . . . . . . . 101
5.2. Valores del porcentaje de error para el caso de V-Fold. . . . . . . . . . . . . . . . 103
5.3. Valores del porcentaje de error para el caso de V-Fold con diferentes valores del parámetro V.104
5.4. Valores del porcentaje de error para el caso de LOO. . . . . . . . . . . . . . . . . 106
5.5. Valores mínimos del porcentaje de error de cada tipo de entrenamiento. . . . . . . 107
17
18
Capı́tulo 1
Resonancia Magnética Funcional
Las técnicas de imagen por resonancia magnética funcional (fMRI) del cerebro humano, mag-
netoencefalografía (MEG) y electroencefalografía (EEG) permiten obtener secuencias tempora-
les de imágenes que revelan los cambios de activación cerebral en respuesta a tareas sensoriales,
motoras, cognitivas o emocionales. También permiten descubrir variabilidad en la actividad cere-
bral interindividual, por ejemplo, entre sujetos sanos y enfermos. Enfermedades como Parkinson,
demencia, Alzheimer, esquizofrenia y la epilepsia son estudiadas para la búsqueda de cura o
diagnóstico exacto, y el electroencefalograma (EEG) sigue siendo la principal herramienta de
análisis para el estudio de estos desórdenes neurológicos.
Incluso las respuestas a tareas extremadamente sencillas involucran una red muy distribuida
de áreas funcionales del cerebro. La información contenida espacialmente en la intensidad y la
forma de los patrones de activación cerebral y sus variaciones temporales no se puede cuanticar
fácilmente utilizando métodos clásicos de análisis tales como el mapeado paramétrico estadístico
(SPM)[31, 31]. Son necesarios métodos más versátiles y que necesiten de una intervención mo-
derada por parte del usuario, dada la gran cantidad y variedad de información disponible y de
las actuales dicultades para su análisis.
Los métodos de aprendizaje máquina aplicados a estas tecnologías son una aproximación
novedosa para el campo de la medicina, que prometen detectar y caracterizar diferencias sutiles
en patrones de activación entre diferentes tareas, lo que facilite la obtención de información de
interés para aumentar el conocimiento neuroanatómico y clínico del cerebro humano.
19
20 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL
de patrones. En [32] se presentó un método que combina SVMs y boosting [21] en una versión
distribuida, y que se benecia de la división del cerebro en áreas funcionales [55], y la combi-
nación óptima de clasicadores mediante boosting para reducir la dimensionalidad sin destruir
información. Además, aún utilizando cualquier tipo de clasicación no lineal, se puede encontrar
la ubicación de la información dentro del cerebro. En [37] se presentó un método más general
validado por un conjunto de experimentos con diferentes sujetos.
Normalización.
Preprocesado.
Entrenamiento.
Un volumen de tejido del organismo tiene una densidad especíca en núcleos de H+. Así,
el agua tendrá una densidad diferente a la sangre, al hueso y al parénquima de cada músculo
o víscera. Cada uno de estos compartimentos o tejidos se llamaran voxels. Cuando los núcleos
de H+ de un determinado voxel son sometidos a un campo magnético, absorben energía de
radiofrecuencia y entran en resonancia. Cada voxel resonará de forma diferente a los otros voxels,
debido a las diferencias de densidades de H+, y un mismo voxel resonará diferentemente según
la secuencia de pulso al que sea sometido.
El exceso energético de los núcleos en resonancia será liberado en forma de emisión de ra-
diofrecuencia en un proceso llamado de relajación (liberación de energía de los núcleos de H+
para volver a su posición de equilibrio). Existen dos clases de relajación, la relajación en el plano
longitudinal (cuyo tiempo de relajación se denomina T1) y en el plano transversal (cuyo tiempo
de relajación es T2). Durante la relajación se induce una señal eléctrica que es captada por la
antena receptora que envía información a la computadora para obtener la imagen tomográca
en la RM. Esta imagen está determinada fundamentalmente por la densidad de los voxels y
por la secuencia de pulsos a la que se sometan los voxels en estudio, así como por el tiempo de
repetición o TR (tiempo en que se repiten las secuencias de pulso a lo largo de la obtención de
la imagen) y por el tiempo eco o TE (tiempo transcurrido entre la excitación de los núcleos de
H+ y la recogida de la señal a modo de eco).
Existen 3 tipos básicos de secuencias de pulso:
Las imágenes de resonancia magnética (MRI) son una herramienta indispensable en el diag-
nóstico de radiologías. MRI revela sutiles detalles de la anatomía, y no es dañino ya que no
requiere radiación ionizante como los rayos X. MRI es una técnica altamente exible. Para en-
tender todo el rango de aplicaciones de MRI, es necesario entender los principios físicos de MR
y cómo la señal de resonancia magnética puede ser manipulada experimentalmente.
Hay varios libros y artículos, se distinguirán aquellos que tratan el tema desde el punto de
1.3 Introducción a la generación de secuencias MR 23
vista médico y físico (algunos de los cuales son [15], [62], [42]) y otros en los que hay una
conexión entre el fenómeno físico y la teoría del aprendizaje estadístico ( [36], [37], [33] entre
otros).
Cada vez que se realiza una imagen de resonancia magnética, se produce una variación en el
experimento básico. A continuación se explica cómo se produce la señal MR.
Una muestra se coloca en un campo magnético, y una espiral de cable se coloca cerca de la
muestra orientado según el eje de la espiral, de forma perpendicular al campo magnético. La es-
piral es usada como transmisor y como receptor. Durante la fase de transmisión del experimento,
se aplica una oscilación a la espira durante un tiempo breve (milisegundos), lo cual produce un
campo magnético oscilante en la muestra. Dichas oscilaciones están en el rango de las frecuen-
cias radio (RF). Debido a esto, a la espira se la denomina espira RF, y las breves oscilaciones
del campo magnético se denominan pulsos RF. Durante la fase de recepción del experimento,
la espira se conecta a un circuito detector que detecta pequeñas oscilaciones de corriente en la
espira.
El experimento básico consiste en aplicar un pulso RF a una muestra y después monitorizar
la corriente en la espira para ver si hay una señal de vuelta de la muestra. Si se realiza este
experimento con frecuencia RF arbitraria, puede ser que no se obtenga una señal de vuelta.
Pero para unas frecuencias especícas habrá una débil y transitoria oscilación en la corriente
detectada en la espira. Esta corriente, que oscila a la misma frecuencia que el pulso RF, es la
señal NMR. Estas frecuencias especícas para las que ocurre esto son las frecuencias de resonancia
de un núcleo particular. A esta frecuencia de resonancia el núcleo es capaz de absorver energía
electromagnética del pulso RF durante la fase de transmisión y devolver una pequeña porción
de esa energía a la espira durante la fase de recepción.
La fuente de la resonancia en un experimento NMR es que los protones y los neutrones que
componen un núcleo poseen un momento angular intrínseco llamado spin. El concepto físico del
spin es puramente un fenómeno mecánico-cuántico. Para un protón, el momento angular es una
parte intrínseca del protón. Todos los protones, neutrones y electrones tienen la misma magnitud
del momento angular, y no puede ser aumentado ni decrementado. La única característica que
se puede modicar son los ejes del spin, es decir, la dirección del momento angular. Cuando
los protones se combinan para formar un núcleo, se combinan en pares con spins orientados
opuestamente y neutrones que se comportan similarmente.
v0 = γ · B0 (1.1)
donde B0 es la principal fuerza del campo magnético y γ es una constante llamada radio
de giro electromagnético. El factor γ es diferente para cada núcleo y se expresa en MHz/T. La
ecuación 1.1 es la principal base de MRI, que utiliza pequeñas manipulaciones de la frecuencia
de resonancia para ubicar la localización de la señal.
1.3 Introducción a la generación de secuencias MR 25
1.3.3. Relajación
1.3.5. Pulso RF
Un proceso de magnetización produce un campo magnético que cambia con el tiempo. Esto
induce una corriente creando una señal NMR proporcional en magnitud al proceso de magnetiza-
ción. Esta señal se llama FID (Free Induction Decay), free se reere al movimiento de precesión
del núcleo, induction al proceso electromagnético con el cual un cambio en el campo magnético
induce una corriente en la espira, y por último, decay se reere a la señal transitoria.
La señal se deteriora porque la componente del proceso de magnetización decae también. La
razón de esto es que la suma de dipolos individuales que producen una magnetización no realizan
el movimiento de precesión a la misma velocidad. El proceso de magnetización se deteriora
exponencialmente y la constante de tiempo para este deterioro se llama T2.
Al repetir el experimento después de que la señal se haya deteriorado, obtenemos una nueva
señal. El que estas dos señales sean iguales o no depende del tiempo entre los pulsos RF, llamado
tiempo de repetición (TR). Cuando TR es muy grande, la señal generada mediante el segundo
pulso RF es igual en magnitud que la generada mediante el primer pulso RF. Pero si TR es
pequeño, la señal generada por el segundo pulso RF es más débil.
Para generar una segunda señal con amplitud, el tiempo debe ser más grande que T1 para
permitir a los spin relajarse hacia el equilibrio. Este proceso es exponencial, está descrito por la
constante de tiempo T1. Este tiempo de relajación T1, también varía debido a las características
(materia gris, materia blanca...)
Sin embargo, si otro pulso RF es aplicado antes de que la recuperación esté completa, la
magnetización longitudinal será menor que M0 . Cuando esta magnetización es inclinada, la mag-
netización transversal será menor y la señal MR también será menor. Otra vez la magnetización
longitudinal crece desde cero y si otro pulso RF es aplicado dentro del mismo intervalo TR,
otra FID se creará. Sin embargo, si el ángulo RF es volteado 90º, la recuperación durante cada
periodo sucesivo de TR es la misma: la magnetización longitudinal está reducida a cero después
de cada pulso a 90º y después se relaja por un tiempo TR antes del siguiente pulso RF. La señal
generada después de cada pulso RF posterior es la misma que la de después del segundo pulso.
Esta señal regenerada con cada pulso RF, es descrita como una señal de estado constante. Todas
las aplicaciones de imágenes MR implican aplicar una serie de pulsos RF con repeticiones de
tiempo jas, en las cuales la señal de estado constante es medida.
La señal MR depende de al menos 3 parámetros intrínsecos del tejido: la densidad del protón,
la cual determina M0 , y los tiempos de relajación T1 y T2.
Una secuencia particular de pulsos implican varios parámetros que pueden ser ajustados para
hacer una imagen (MRI). Estos parámetros interactuan con parámetros intrínsecos del tejido que
afectan a la medida de la señal. Esta dependencia de la señal con múltiples parámetros hacen
que MRi sea exible.
28 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL
La señal local MR siempre es proporcional a la densidad del protón ya que esta determina
el equilibrio de la magnetización M0 . Y esto produce la máxima magnetización transversal
que se puede producir.
En una secuencia de pulsos SE la señal es medida en el pico del eco, donde los efectos del
campo no homogéneo son desenfocados. Esta es la implementación estandar de las imágenes
clínicas. Pero en aplicaciones como fMRI basadas en el efecto BOLD, las variaciones del
campo microscópico inducidas mediante cambios en la oxigenación de la sangre, hacen a
la señal MR sensible a la activación del cerebro.
1.4 Efecto BOLD 29
El pulso RF utilizado es el mismo que en el caso de una secuencia SE. La diferencia está
en el efecto en la magnetización transversal SE o en la magnetización longitudinal IR. En
IR no hay magnetización transversal para reenfocar en el tiempo 180º al pulso, y sólo nos
interesa el efecto inversión en la magnetización longitudinal.
El efecto BOLD (Blood Oxigenation Level Dependency) permite visualizar e identicar áreas
de incremento metabólico basándonos en el consumo neuronal de oxígeno.
fMRI ha creado una revolución en la búsqueda de las funciones básicas de la salud del cerebro
humano, mediante técnicas basadas en una sensibilidad intrínseca de la señal de resonancia
magnética para cambios locales en perfusión y metabolismo.
Cuando la actividad neuronal aumenta en una región del cerebro, la señal local MR produce en
esa parte del cerebro aumentos por una pequeña cantidad debido a los cambios en la oxigenación
de la sangre. Este efecto BOLD es la base de la mayoría de los estudios de fMRI hechos hoy en
día para construir mapas de patrones de la activación del cerebro humano.
El efecto BOLD está más marcado por las imágenes de gradiente de eco, que indican que
este efecto es ante todo un incremento del valor local T2*. Una reducción en T2* va unida a una
reducción de la oxigenación de la sangre. La activación produce un aumento de la señal local, lo
que sugiere que la sangre es más oxigenada con la activación.
El efecto BOLD viene dado debido a dos razones, una biofísica y otra siológica:
Como por ejemplo: un largo cilindro rodeado en el centro con diferentes susceptibilidades
magnéticas, un modelo para un capilar o vena que contiene deoxihemoglobina. El patrón de
campo tiene la forma de un dipolo. Una importante característica de este patrón de campo
es que la magnitud del oset de campo en la supercie del cilindro depende solamente de la
diferencia de susceptibilidad y no del radio del cilindro, mientras que la medida espacial de la
distorsión del campo es proporcional con el radio.
Las distorsiones de campo alrededor de los vasos sanguíneos magnetizados no es una simple
curva que decrece exponencialmente, debido a que la distribución de los oset de campo tienen
forma irregular. El mejor modelo para un voxel que contiene algunos vasos sanguíneos es una
colección de cilindros orientados al azar. Este es el caso más realista, la atenuación es cercana a
una exponencial, y se puede escribir dicha atenuación como:
∗
A(t) = e−t·∆R2 (1.2)
1∗
donde ∆R2∗ es el cambio en el índice de relajación transversal R2∗ (R2∗ = T 2) debido a la
diferencia de la susceptibilidad magnética entre la sangre y el tejido de alrededor.
En una primera aproximación,∆R2∗ depende del total del volumen de las venas de los vasos
sanguíneos dentro del voxel, y no del tamaño de los vasos (esta conclusión será modicada cuando
se consideren los efectos de difusión).
El espectro del oset de campo depende del volumen total de sangre y no del tamaño de los
vasos.
32 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL
∆x2 = 2 · D · T (1.3)
Esto es el tamaño del desplazamiento esperado a través de algún eje espacial, así el despla-
zamiento completo en espacio es :
∆x2 + ∆y 2 + ∆z 2 = 6 · D · T (1.4)
Para considerar los efectos de difusión alrededor de los vasos sanguíneos magnetizados, los
desplazamientos a través de la longitud de los vasos no altera el oset de campo, y así los
desplazamientos no afectan al índice de relajación. Por esta razón, se puede tomar como una
√
típica distancia de difusión del desplazamiento esperado en un plano transversal, 4 · D · T .
La distancia del desplazamiento es mayor que el radio del capilar, y menor que el radio de
una pequeña vena. Si el vaso es más largo que la vena, la típica distancia movida de una molécula
debido a la difusión es mucho más pequeña que el radio del vaso, habrá una pequeña variación
en el oset de campo sentida por el spin. En este caso, el efecto GRE-BOLD es grande, y el
factor de atenuación es simplemente la transformada de Fourier de la distribución del oset de
campo. Por otra parte, para los capilares, la distancia movida es mayor que el radio de los vasos,
1.4 Efecto BOLD 33
y ∆R2∗ es reducida por la media de difusión. Para una señal de gradiente de eco, la atenuación
varía suavemente entre estos dos extremos.
Para el mismo nivel de saturación de oxígeno de hemoglobina, la atenuación alrededor de las
venas es aproximadamente 5 veces mayor que la atenuación alrededor de los capilares, debido
al efecto de la difusión. Además, la hemoglobina está signicativamente menos saturada en las
venas que en los capilares.
Los experimentos GRE-BOLD son ante todo sensibles en las venas y debido a que las venas
son grandes comparadas con una distancia típica de difusión, los efectos de difusión son pequeños.
El compartimiento intravascular es una pequeña fracción del volumen total del tejido.
La contribución vascular a la señal BOLD es comparable a la contribución extravascular a
1,5T. La razón para esto es que el cambio intrínseco de la señal en la sangre es de más de un
orden de magnitud que el cambio extravascular de la señal.
Dentro de la sangre, gradientes de campo son producidos alrededor de los glóbulos rojos
llevando la deoxihemoglobina, así la señal sanguínea de las venas se reducirá como mucho un
50 % comparado con lo que sería si la sangre estuviera completamente oxigenada.
Para pequeños vasos sanguíneos dentro de un voxel, el movimiento uniforme de la sangre,
pero orientados al azar los vasos, produce un efecto de desfase similar al de difusión. Sin embargo,
las distancias movidas por la sangre uída son mucho mayores que los desplazamientos debido a
la difusión, así la señal de la sangre puede ser destruída con sólo la ponderación de la difusión.
Para fuerzas de campo de 1,5-3T una fracción sustancial de los cambios en la señal GRE son
intravasculares.
Al igual que con la señal GRE, se puede escribir esta atenuación adicional de la señal SE,
debido a la deoxihemoglobina en los vasos sanguíneos como:
∗
A(t) = e−t·∆R2 (1.5)
Debido al efecto parcial de enfoque del spin echo, ∆R2∗ es siempre menor que ∆R2∗ y así el
efecto SE-BOLD es siempre más débil que el efecto GRE-BOLD.
En un experimento típico de SE-BOLD el tiempo de eco es más grande que el experimento
de GRE-BOLD, que maximiza el cambio de la señal debido a un pequeño cambio en R2.
Debido a la sensibilidad del tamaño del vaso sanguíneo, SE-BOld es más selectivo para los
vasos más pequeños, los capilares y las pequeñas venas. Esto es principalmente una motivación
para el uso de SE-BOLD para identicar actividad en el cerebro a pesar de su baja sensibilidad
Sin embargo, el argumento para una mayor selectividad de la técnica SE está basada en
consideraciones del cambio extravascular de la señal. Como con la técnica GRE, el efecto total
de BOLD tiene una fuerte contribución del comportamiento intravascular.
Aunque los estudios de SE-BOLD indican una mayor selectividad para los capilares com-
parados con las venas, parece ser que esta selectividad no es completamente alcanzable en la
práctica hasta que los estudios sobre BOLD den mayor importancia a las fuerzas de los campos
magnéticos donde la señal de sangre es suprimida.
∗
S = S0 · e−T E·R2 (1.6)
1
∆R2∗ ≈ (Va [dHb]βa − Vr [dHb]βr ) = (vcβ − 1) (1.8)
Vr [dHb]βr
[dBh]a
donde v= VV0 es el volumen de sangre activada normalizado con el valor de reposo y c = [dHb]r
∆S Sa − Sr
= ≡ −T E∆R2∗ = Smax (1 − vcβ ) (1.9)
S Sr
Todos estos parámetros son adimensionales.
La constante Smax describe el máximo cambio en la señal que puede ser observado.
Esta ecuación representa el lado biofísico del modelado, relacionando la señal BOLD con el
cambio en el volumen de la oxigenación de la sangre. El lado siológico del modelado relaciona el
cambio en la oxigenación de la sangre con los cambios en CM RO2 y CBF. El índice metabólico del
oxígeno puede escribirse en términos de CBF local y de la extracción de oxígeno E, la fracción de
oxígeno repartido en los capilares a través del ujo arterial que es consumido por el metabolismo
en el tejido:
∆S m
= Smax (1 − v[ ]β ) (1.11)
S f
El parámetro Smax varía según las regiones del cerebro debido a las variaciones en el volumen
de la sangre, y esto se incrementará con campos altos, produciendo un mayor efecto BOLD.
Las técnicas MRI para medir los cambios dinámicos en el volumen de la sangre sin agentes
contrastantes está en desarrollo, pero los recientes estudios técnicos han asumido que los cambios
en el volumen de la sangre están unidos al cambio del ujo, con v = f α . El valor que se asume
normalmente es α = 0,4. No se conoce como varía α en el cerebro humano. Pero asumiendo el
poder de las relaciones, el único parámetro restante para poder medir es el valor local de Smax .
El efecto BOLD no es una medida directa de la actividad neuronal. Las neuronas sanas
existen en un estado lejos del equilibrio termodinámico, así estos potenciales de acción y neu-
rotransmisores se ponen en marcha sin la necesidad de administrar una energía adicional. Es
decir, las señales neuronales dependen de un proceso termodinámico. Pero después de la acti-
vidad sináptica, los gradientes iónicos deben ser restaurados, y los neurotransmisores deben ser
limpiados de la sinapsis y reempaquetaados para preparar el siguiente evento. Este estado de
recuperación de la actividad neuronal requiere una energía de metabolismo.
El ujo sanguíneo, glucosa de metabolismo, y oxígeno de metabolismo todo incrementado
para suministrar los substratos necesesarios para la energía del metabolismo del cerebro.
Con estudios de PET sobre la activación del cerebro, la medida cuantitativa es un buen
parámetro siológico, tal como CBF(ujo sanguíneo cerebral), el índice metabólico de la glucosa
cerebral, CM RO2 (índice metabólico del oxígeno en el cerebro), o CBV (volumen de la sangre en
el cerebro). Todas estas cantidades aumentan con la activación.
El cambio en la oxigenación de la sangre con la activación depende del balance de los cambios
en CBF y CM RO2 . Si estos cambian en la misma fracción, la fracción de la extracción del oxígeno
(E) no cambia y no hay cambio en la oxigenación de la sangre venosa. Por otra parte, si CBF
1.5 BOLD-fMRI 37
aumenta mucho más que CM RO2 , lo cual es lo que se observa cuando E desciende y la sangre
venosa está más oxigenada.
Con la activación, los estudios de PET han encontrado que CBF aumenta dramáticamente,
CBV aumenta moderadamente y CM RO2 aumenta en una pequeña cantidad. La disminución
resultante en E tiende a aumentar la señal MR, mientras que el aumento en CBV tiende a decrecer
la señal MR. En un cerebro adulto, el resultado es un positivo efecto BOLD (un incremento de
la señal MR).
1.5. BOLD-fMRI
1.5.1. Introducción
fMRI basada en efecto BOLD es ahora una herramienta para probar el trabajo del cerebro.
El objetivo de los estudios de fMRI es ubicar patrones de los cambios locales de la señal MR
en el cerebro como un indicador de la actividad neuronal asociada con un estímulo particular.
El experimento fMRI alterna bloques de estímulos y períodos de control mientras una serie de
imágenes dinámicas es recogida con una secuencia de pulso de imágenes ecoplanares (EPI). La
trayectoria de la señal temporal de cada voxel de la imagen es analizada para probar si hay una
correlación signicante entre la señal y el estímulo.
La cadena de eventos entre un estímulo aplicado y la señal BOLD medida envuelve diferentes
pasos. El estímulo primero induce cambios locales en la actividad neuronal. La actividad neuronal
desencadena un aumento de la energía de metabolismo, junto con cambios en CBF, CBV y
CM RO2 , y estos cambios siológicos combinados producen una alteración de la señal MR.
tamaño del voxel es tipícamente mayor que 30 mm3 , y a 1.5T las activaciones de BOLD son
un porcentaje menor. Sin embargo, cuando el tamaño del voxel de las imágenes se reduce, la
amplitud de los cambios en la señal BOLD aumentan dramáticamente, lo que sugiere que los
cambios son localizados en una región más pequeña que 1-2mm.
Los experimentos ASL (Arterial spin labeling) muestran que la situación de los mayores
cambios de CBF y la situación de los mayores cambios en la señal BOLD no siempre coinciden.
La localización de los cambios en la señal BOLD pueden mejorarse, pero a costa de la sen-
sibilidad. Con fuerzas de campos magnéticos elevados, los voxels junto con los mayores cambios
en la señal pueden ser ignorados, y solamente usar los cambios más débiles de la señal a ubicar.
Para experimentos con 1.5T, sin embargo, los cambios de la señal son inicialmente suciente-
mente pequeños que se desechan las señales más fuertes ya que podrían decrecer severamente
la sensibilidad. Dada esta fuerza a los campos menores fMRI, la estrategia experimental debe
estar gobernada por los objetivos del experimento. Si el objetivo es simplemente probar si una
región del cerebro está activada, después los desplazamientos debidos a las venas de desagüe no
deben ser criticados. Por otra parte, para estudios detallados de mapeados en los cuales la preci-
sa situación anatómica es crítica, un experimento ASL será más apropiado que un experimento
BOLD.
1. La tasa media de la generación de potenciales de acción dentro de una región del cerebro.
Estas dos deniciones reejan diferentes aspectos de la actividad neuronal. Los potenciales de
acción enfatizan la salida neuronal, la tasa a la cual los impulsos cercanos están capacitados para
generar nuevos impulsos en la región. En contraste, los neurotransmisores liberan y reciclan en la
sinapsis que enfatiza la entrada neuronal, la actividad sináptica. Para la actividad excitatoria, las
dos tasas deben ser similares porque una mayor tasa de liberación del neurotransmisor debería
producir una mayor tasa en la generación de los potenciales de acción. Pero con actividad inhi-
bitoria, estas dos tasas de la actividad neuronal cambiarán en direcciones opuestas, con mayor
actividad sináptica decreciendo la tasa punzante en las neuronas locales.
Áreas ocasionales del cerebro muestran un decrecimiento de la señal, es decir, un efecto BOLD
negativo, durante tareas especícas. Estudios detallados de la situación precisa de los cambios en
el metabolismo de la glucosa medido con una técnica de deoxiglucosa que en animales encontró la
actividad que estaba concentrada en las regiones con una alta densidad de conexiones sinápticas
más bien asociadas con una celda del cuerpo.
Para responder a muchas de estas preguntas se requiere una combinación de fMRI y de
electrodos grabados en el mismo animal, y experimentos que solo son factibles con la demostración
de fMRI en comportamientos de primates no humanos. Esto es importante, pero difícil, los
experimentos deben tener una fundación muy rme para la interpretación de los cambios en la
señal BOLD en términos de la actividad neuronal.
La respuesta BOLD es una convolución lineal de los estímulos con una función de respuesta
hemodinámica ja . Esta idea es el corazón de la mayoría de los datos de los proyectos designados
para eliminar el ruido en las señales más débiles.
40 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL
Varios estudios han comparado la respuesta al estímulo breve con la respuesta al estímulo más
largo. Muchos de estos estudios han utilizado estímulos visuales con diferentes duraciones, pero
los estímulos del oído y las tareas motoras también fueron utilizadas. El resultado consistente de
estos estudios es que, aunque la respuesta es aproximadamente lineal, hay una componente no
lineal. La naturaleza de esta no linealidad es que la respuesta a un breve estímulo (por ejemplo
menor de 4s) aparece más fuerte de lo esperado dada la respuesta de un estímulo de mayor
duración.
Existen varias explicaciones o posibilidades para esta no linealidad, y esto es una ayuda
para pensar que el proceso que va desde el estímulo hasta la respuesta BOLD consiste en 3
pasos. El primer paso es la traducción del patrón del estímulo en una secuencia temporal de
la actividad neuronal local. El segundo paso es la traducción de la trayectoria temporal de la
actividad neuronal en cambios en el ujo sanguíneo, el volumen de la sangre, y el metabolismo
del oxígeno. Y el tercer paso es la traducción de las trayectorias temporales de CBF, CM RO2 ,
y CBV en la respuesta BOLD. Cada uno de estos pasos puede ser lineal o bien no lineal.
En los experimentos fMRI, los estímulos normalmente son presentados en un bloque diseña-
do, ya que el patrón de los estímulos temporales es simplemente una onda cuadrada. Para una
primera aproximación, la respuesta BOLD en algunas áreas del cerebro parece una versión re-
trasada y suave del patrón de los estímulos. Sin embargo, una de las características interesantes
de la respuesta BOLD es que un número de patrones transitorios ocurren en las transiciones
entre el estado de reposo y el estado activo. Estos aspectos dinámicos incluyen aumento y un
decrecimiento temporal de la señal ambos al comienzo y al nal del estímulo.
Los transitorios en la respuesta BOLD pueden ser un reejo exacto de los transitorios de la
actividad neuronal. Sin embargo, porque la señal BOLD dependa de los cambios combinados
de CBF, CBV, y CM RO2 , transitorios semejantes también pueden aparecer si las respectivas
trayectorias temporales para estos cambios siológicos dieren.
Semejantes experimentos que combinan datos BOLD y datos ASL se han realizado para
investigar varias de esas características transitorias.
En resumen, se debe esperar normalmente que en un estímulo sufrido no se obtenga un nivel
uniforme de actividad neuronal, y variaciones de la señal BOLD durante los estímulos deben
reejar tales variaciones en la actividad neuronal. Una medida simultánea de la respuesta del
ujo pueden proporcionar un apoyo a tales interpretaciones. Pero el hecho que tales transitorios
como un postestímulo de decrecimiento temporal tiene que ser encontrado para que ocurra en
la señal BOLD pero no en la señal de ujo lo que sugiere que uno debe ser prudente sobre la
interpretación de las características transitorias de la señal BOLD sin medida de la respuesta del
ujo.
Desde la teoría básica del efecto BOLD, un cambio en la señal es observado cuando la deo-
xihemoglobina local contenida es alterada, así existen dos maneras en las cuales la señal BOLD
puede mostrar un decrecimiento temporal aunque no haya señal de ujo. O bien el CM RO2
permanece elevado después de que el ujo ha vuelto al punto de partida, requiriendo un aumen-
to de la fracción de extracción de oxígeno, o que el CBV permanezca elevado. Ambos efectos
deberían causar que la deoxihemoglobina contenida permanezca elevada después de que el ujo
vuelva a su nivel de reposo. Estas dos hipótesis dieren en sus implicaciones para enganchar el
42 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL
Dos modelos biofísicos similares han sido propuestos para explicar cómo tales retrasos en la
recuperación del volumen de la sangre pueden ocurrir, el modelo del balón y el modelo de la
conformidad retrasada. Ambos modelos atribuyen al efecto las propiedades biomecánicas de los
vasos sanguíneos.
En el modelo del balón, los compartimentos de las venas son modelados como un balón
expandible, con una tasa del ujo de entrada Fin y una tasa del ujo de salida Fout . En estado
constante, Fin = Fout . Durante los cambios dinámicos, los dos ujos son diferentes, y el balón se
hincha cuando Fin >Fout y se deshincha cuando Fin <Fout . La tasa del ujo de entrada Fin (t)
es tomada como una función conductora del sistema, y la tasa del ujo de salida es tomada
para ser una función del volumen del balón, Fout (v). Como el balón se expande la presión en
el interior aumenta, aumentando la tasa del ujo de salida. La curva de Fout (v) depende de las
propiedades biomecánicas del balón. Las cantidades dinámicas de interés son el contenido total
de deoxihemoglobina y le volumen de sangre.
del volumen y no encontró una inclinación inicial en la señal BOLD. Por estas razones, no existe
un claro consenso en si existe un aumento inicial de la deoxihemoglobina con la activación, y si
esta rápida respuesta es especíca en determinadas especies.
Finalmente, hasta tomar la inclinación inicial de la señal BOLD como un experimento, la
interpretación de este efecto no estará muy claro. La interpretación usual es que esto representa
un temprano aumento de CM RO2 antes de que el ujo aumente, con un correspondiente aumento
de la extracción de oxígeno. Pero un aumento temprano del volumen de la sangre puede también
producir una inclinación inicial, similar a la manera que lentamente el volumen de la sangre puede
causar un postestímulo de decrecimiento temporal. En el contexto del modelo del balón, si el
aumento inicial en el ujo sanguíneo causa un hinchazón inicial del balón de las venas, más bien
un aumento del ujo de salida, inicialmente la deoxihemoglobina contenida debería aumentar.
Después, como el ujo aumenta más, el cambio en la oxigenación de la sangre venosa debería
empezar a dominar el aumento del volumen de la sangre, y el total de deoxihemoglobina debería
decrecer, produciendo después una respuesta BOLD usual. Además, este efecto debería depender
fuertemente de la fuerza del campo porque la inclinación inicial debería reejar el balance entre
dos efectos potencialmente conictivos. Estos dos efectos son una disminución intrínseca de la
señal extravascular debido a la disminución de la deoxihemoglobina y al intercambio del espacio
extravascular para la sangre debido al aumento del volumen de la sangre. El primer efecto
siempre será la disminución intrínseca de la señal extravascular, pero el segundo efecto podría o
bien disminuir o bien aumentar la señal total, dependiendo de si la señal intravascular intrínseca
es mayor o menor que la señal extravascular intrínseca. A 1.5T la señal de la sangre típicamente
es más fuerte que la señal del tejido, así la señal intravascular aumentada debería compensar la
señal extravascular disminuida, haciendo más débil la inclinación inicial. Para campos elevados, la
señal sanguínea intrínseca es mucho más débil, y el volumen de la sangre aumentado con el gasto
del volumen extravascular luego tiende a reforzar la señal extravascular disminuida y crea una
inclinación inicial más profunda. Esto debería producir una dependencia lineal de la magnitud
de la inclinación inicial en la fuerza del campo, consistente en las observaciones experimentales.
Con deoxihemoglobina constante, la señal extravascular intrínseca debería permanecer igual,
pero el volumen de la sangre expandido debería reemplazar algo de la señal extravascular con la
sangre generando una señal mucho más débil, así la señal BOLD debería mostrar una inclinación
inicial a pesar de que la concentración de deoxihemoglobina sea constante.
El origen y el signicado de la inclinación inicial es un área activa de recientes descubrimientos.
44 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL
Experimentos con BOLD y técnicas ópticas son requeridas para entender los cambios dinámicos
en CM RO2 y CBV con activación y para establecer los límites siológicos en la resolución
espacial con fMRI.
Un aspecto crítico del efecto BOLD es que los cambios fraccionales en la señal son grandes
con grandes campos magnéticos. Un campo magnético grande crea una magnetización grande
dentro de un cuerpo, y así los gradientes de campo debidos a las diferencias de la susceptibilidad
magnética aumenta en proporción con el campo. Por una razón similar, la señal a ruido (SNR)
también aumenta cuando aumenta el campo. Un campo grande produce un alineamiento más
pronunciado de los spins nucleares y crea un equilibrio de magnetización M0 mayor.
El primer efecto del aumento del campo magnético B0 es un aumento de la magnitud del
efecto BOLD, el cual naturalmente aumenta la SNR de un experimento BOLD.
Tal como con el efecto BOLD, los campos de oset debidos a los efectos de una gran suscep-
tibilidad magnética son proporcionales a B0 , así T2* decrece con el aumento del campo. Además
de los efectos de T2*, estos oset de campos producen distorsiones en las imágenes. Para com-
pensar estos efectos en los campos grandes, el tiempo de adquisición de datos Tacq puede ser
reducido, pero también se reduciría la SNR. Sin embargo, aunque algo del potencial aumente en
SNR es sacricado para compensar el aumento de la distorsión y los efectos de T2* debidos a
las inhomogeneidades del campo, existe una ganancia en SNR con el aumento de B0 .
A 4T y más, otro efecto que afecta a la calidad de las imágenes entra en juego en las imágenes
de humanos. Estos efectos hacen imágenes uniformes completas del cerebro más problemáticas
en grandes campos.
grande, la mayoría de la señal decae antes de que sea medida, así la sensibilidad es baja debido
a que la señal se pierde con el ruido. Para maximizar la SNR, se debe maximizar el cambio en
la señal debido al cambio en T2*. En el cerebro las fuerzas de los campos a 1.5-3T, los valores
típicos de T2* están en el rango de 40-60 ms.
Las dimensiones del voxel afectan fuertemente a la SNR. En general, la SNR es proporcional
al número de spins que contribuyen a la señal de un voxel, y así un tejido uniforme de la SNR
es proporcional al volumen del voxel.
En la práctica, otro factor entra en juego: las inhomogeneidades del campo magnético.
Las distorsiones microscópicas de campo debidas al efecto BOLD deben ser independientes del
tamaño del voxel, pero para gradientes de campo anchos debido a las diferencias macroscópicas
de la susceptibilidad el rango de variaciones de campo es directamente proporcional al tamaño
del voxel. El efecto en una imagen es una señal marginada.
Por estas razones, la elección del tamaño del voxel es un intercambio entre la SNR y la
necesidad de una resolución espacial suciente para reducir los problemas de marginación de la
señal a un nivel aceptable. La SNR decrece con los voxels pequeños porque hay unos pocos spins
que contribuyen a la señal; esto también decrece con voxels muy grandes debido a las variaciones
de campo magnético dentro del voxel. El tamaño de voxel óptimo depende de la magnitud de
las variaciones de campo en el área del cerebro que se está investigando. En regiones del cerebro
propensas a las distorsiones de campo, tales como el lóbulo frontal y el temporal, los voxels más
pequeños producirán mejor SNR.
La sensibilidad de la medida de la señal BOLD depende del radio del cambio absoluto de
la señal para añadir ruido de amplitud. Un cambio en la oxigenación de la sangre produce un
correspondiente cambio fraccional en la señal MR; consecuentemente, se debe maximizar el resto
de la señal MR para maximizar el cambio absoluto de la señal. El resto de la señal primeramente
depende de dos parámetros de las secuencias de pulso, el tiempo de repetición TR y el ángulo
de giro α. Con diferentes imágenes con TR más pequeños que T1 existe un efecto de saturación.
Este efecto de saturación también es controlado parcialmente por el ángulo de giro: un α más
pequeño deja algo de la magnetización a lo largo del eje longitudinal y produce menos saturación.
r −T R
1 T1 1 − e T1
SN R ∝ √ [ sinα −T R ] (1.12)
T1 TR 1 − cosαe T 1
Para la materia gris con T 1 ≈ 1s, a un TR de 1s con un ángulo de giro de 68º alcanza un
96 % del máximo teórico de la SNR, y con un TR de 4 s y un ángulo de giro de 90º produce
solamente un 69 % del máximo de la SNR.
El máximo SNR disponible para el uido cerebroespinal (CSF) es aproximadamente √1 del
4
máximo de la SNR para la materia gris. En la práctica, reduciendo TR a aproximadamente 1 s
crea un conicto con la cobertura del cerebro. Los escáners más modernos tienen un máximo de
10
adquisición de imágenes de aproximadamente s .
Para más estudios focales, cubriendo solo una parte limitada del cerebro, son posibles TRs
más óptimos.
Artefactos de movimiento
de tiempo.
Sin embargo, existen otros problemas debidos a los movimientos que necesitan ser corregidos
para el registro de la imagen. El primero es el efecto del spin. Con un pequeño TR, la señal MR
no está completamente relajada, pero si todo se repite exactamente igual, un estado constante
se desarrolla tal que con cada repetición la señal generada es la misma.
Un problema más sutil es que el cuadro básico (que las medidas MRI de la señal desde un
conjunto de voxels jos en el espacio)no es correcto. Esto crea problemas en el alineamiento de
las imágenes EPI con imágenes anatómicas de mayor resolución que son menos sensibles a estas
distorsiones.
Distorsiones de la imagen
La aproximación básica para corregir las distorsiones de la imagen debidas a las inhomogenei-
dades del campo es primero localizar la distribución del campo dentro del cerebro. Esto es dado
con una serie de imágenes de gradiente de eco con una progresión de espacios de eco temporales
cerrados, reconstruyendo la fase de la imagen además de la magnitud de las imágenes. En cada
voxel, los cambios de fase entre un tiempo de eco y el siguiente es proporcional al oset local del
campo. El espaciado de eco debe ser lo sucientemente pequeño para prevenir las ambigüedades
de fase debidas a una precesión mayor de 360º. Los mapas de campo se pueden hacer usando
técnicas estándar de imágenes 2D o 3D, las cuales no distorsionan demasiado, o con imágenes
EPI. Con mapas de campo EPI, las localizaciones están distorsionadas, pero desde las medidas
del oset de campo se puede calcular donde se ha originado esa señal.
Así para diferentes partes del cerebro, algunas orientaciones de las imágenes pueden trabajar
mucho mejor que en otras para minimizar las distorsiones y para hacer las distorsiones más
48 CAPÍTULO 1. RESONANCIA MAGNÉTICA FUNCIONAL
corregibles.
La magnitud de las distorsiones de la imagen dependen del tiempo de adquisición total de
cada imagen. Para una adquisición EPI, el tiempo total de recopilación de datos tipícamente
está en el rango de Tacq = 40 − 100ms.
Sin embargo, el problema con esta aproximación es que la SNR de la adquisición es propor-
p
cional a Tacq . Así minimizando las distorsiones también se minimiza la SNR, y obtenemos una
compensación entre maximizar la SNR y minimizar los artefactos. Se nota que el argumento de
que SNR aumenta cuando aumenta Tacq no se mantiene cuando Tacq se vuelve mucho más grande
que T2*. La elección óptima para la SNR es tener un Tacq aproximadamente igual a T2*, de tal
forma que toda la señal disponible sea utilizada.
Para imágenes de una pequeña región del cerebro, pueden ser tolerables distorsiones más
intensas que en otras partes del cerebro. Pero distorsiones en las imágenes EPI siempre son
complicadas para comparar detalladamente con otras imágenes. Es normal practicar con visuali-
zaciones de areas de activación calculadas desde las imágenes EPI como un color de revestimiento
en una alta resolución de la imagen anatómica. Las imágenes MR de alta resolución no están
distorsionadas como las imágenes EPI, así la corrección para las distorsiones es crítica para una
localización exacta.
Capı́tulo 2
Máquinas de Vectores Soporte (SVM)
El método de los vectores soporte (SV) es un método general para la resolución de problemas
de clasicación, regresión y estimación. El método fue propuesto por V. Vapnik en 1964 en
problemas de reconocimiento de patrones. En los años 90 el método fue generalizado y en la
actualidad es objeto de un gran interés.
Las Máquinas de Vectores Soporte son nuevas estructuras de aprendizaje basadas en la teoría
estadística del aprendizaje. Se basan en transformar el espacio de entrada en otro de dimensión
superior (innita) en el que el problema pueda ser resuelto mediante un hiperplano óptimo (de
máximo margen)y de forma lineal:
y = (w · x) + b
2.1. Introducción
Dada una tarea con un conjunto de datos de entrenamiento nito, la generalización del buen
funcionamiento de la máquina cuando se introducen nuevos datos se lleva a cabo si hay un
compromiso entre:
La precisión o la mayor probabilidad de acierto dentro del conjunto de datos de entrenamiento
y la capacidad (o complejidad) de la máquina, es decir la habilidad de la máquina a aprender
cualquier conjunto de entrenamiento sin error [60].
49
50 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
Una máquina subentrenada: Está tan poco entrenada que no tiene información suciente
para poder clasicar bien en la fase de test.
En ninguno de estos dos casos la generalización de la máquina será buena. Tiene que existir un
compromiso entre la precisión en el entrenamiento con un conjunto de datos jo y la capacidad
de la máquina para poder clasicar cualquier dato.
Para un conocimiento más profundo que el que se aporta en este capítulo, consultar [1] [44].
entrenamiento que pueden ser clasicados por f (α). Si la dimensión es h, existen al menos un
conjunto de h puntos que pueden ser clasicados de forma arbitraria, pero en general no todos
los conjuntos de h puntos pueden ser clasicados.
Existe otro tipo de riesgo que depende de la capacidad (o complejidad) de la máquina, a este
término se le llama conanza de Vapnik Chervonenkis (VC) [58], y depende de la dimensión
VC. La conanza de Vapnik Chervonenkis se expresa como:
s
η
h(log( 2l
h ) + 1) − log( 4 )
R= (2.3)
l
donde: η toma valores comprendidos entre 0 y 1; h es la dimensión VC.
Con probabilidad 1 − η se puede mantener el siguiente límite del riesgo [61]:
Es independiente de P(x,y).
Si se tienen unos datos en <2 y el conjunto f (α) consiste en líneas rectas orientadas tal que
dada una línea se pueden separar dos clases diferentes de puntos. De esta forma se pueden separar
tres puntos pero no más. Es decir, la dimensión VC del conjunto de líneas orientadas en <2 es
tres.
En <n , la complejidad de la máquina es n+1 ya que se pueden separar n+1 puntos como se
quiera si se consideran hiperplanos en <n .
Teorema: Considere un conjunto de m puntos en <n , si se elige un punto cualquiera como
origen, los m puntos pueden ser clasicados por hiperplanos orientados si y sólo si la posición de
los vectores de los puntos restates son linealmente independientes.
52 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
Hay máquinas que con el mismo riesgo empírico y teniendo una dimensión VC mayor funcio-
nan mejor. Ejemplo:
Si se considera el clasicador de los k vecinos más próximos con k=1, la dimensión VC para
ese conjunto de funciones es innita y el riesgo empírico es cero (ya que cualquier número de
puntos serán aprendidos exitosamente por el algoritmo). Aunque para estos casos en los que la
dimensión VC es innita el límite del riesgo no es válido, el clasicador funciona bien. Es decir,
capacidad innita no quiere decir mal desarrollo.
Se quiere encontrar el subconjunto dentro del conjunto de funciones elegidas tal que el límite
del riesgo para ese subconjunto sea mínimo.
Se introduce una estructura dividiendo la clase entera de funciones en subconjuntos. Para cada
subconjunto se debe de poder calcular h. La minimización del riesgo estructural (SRM) consiste
en encontrar ese subconjunto de funciones que minimice el límite del riesgo actual (real) [61].
Para ello se entrenan una serie de máquinas, una para cada subconjunto, dentro del subconjunto
el objetivo es minimizar el riesgo empírico. Se toma la máquina entrenada de la serie cuya suma
de riesgo empírico y la conanza VC sea mínima.
2.3 Máquinas lineales de vectores soporte 53
Se etiquetan los datos de entrenamiento como {xi , yi }, dónde i=1, . . . ,l, xi ² <d e yi ² {1, −1}.
Se tiene un hiperplano que separa los ejemplos positivos de los negativos. Los puntos que están
en el hiperplano cumplen la ecuación:
w·x+b=0 (2.5)
kbk
kwk es la distancia perpendicular del hiperplano al origen.
Para el caso en el que los datos son linealmente separables, el algoritmo de vectores soporte
busca el hiperplano de separación con mayor margen, es decir maximizar la distancia d mostrada
en la gura 2.1. Todos los datos de entrenamiento satisfacen:
xi · w + b ≥ +1 para yi = +1 (2.6)
xi · w + b ≤ −1 para yi = −1 (2.7)
yi · (xi · w + b) − 1 ≥ 0 ∀i (2.8)
Los puntos que están en el hiperplano H1 cumplen: xi ·w+b = 1, cuya distancia perpendicular
|1−b|
al origen es: kwk .
Los puntos que están en el hiperplano H2 cumplen: xi · w + b = −1, cuya distancia perpendicular
|−1−b|
al origen es: kwk .
1 2
d+ = d− = kwk , el margen es igual a kwk H1 y H2 son paralelos (tienen la misma normal) y no
hay puntos de entrenamiento entre ellos.
Minimixando kwk2 y ajustándose a las restricciones de la desigualdad 2.8 se encuentran la
pareja de hiperplanos que maximizan el margen.
54 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
Figura 2.1: El procedimiento SVM consiste en poner el hiperplano tan lejos como sea posible de
las muestras más cercanas.
Se considera este problema con una formulación de Lagrange ya que los multiplicadores de
Lagrange son más fáciles de tratar que las restricciones de la desigualdad 2.8 y los datos de
entrenamiento sólo aparecerán como productos escalares entre vectores (ayudará a la generaliza-
ción para el caso no lineal). Se introducen los multiplicadores de Lagrange: αi , con i=1,. . . ,l de
tal forma que:
X l X l
1
LP = kwk2 − αi yi (xi · w + b) + αi (2.9)
2
i=1 i=1
Se debe minimizar LP con respecto a w y b y simultáneamente se requiere que se anulen las deri-
vadas de LP con respecto a todos los αi , siendo siempre αi ≥ 0. A este conjunto de restricciones
se le llama C1 . Esto es un problema de programación cuadrática convexa, ya que la función ob-
jetivo es convexa y todos los puntos que satisfacen las restricciones forman un conjunto convexo.
Esto quiere decir que se puede solucionar el problema dual:
αi ≥ 0 ∀i (2.16)
αi (yi (w · xi + b) − 1 = 0 ∀i (2.17)
Una vez la máquina de vectores soporte está entrenada, dado un dato de test x (entrada) se
le asigna una etiqueta de clase dependiendo en qué lado del borde de decisión está el dato. La
clase que le corresponde a x es sgn(w · x + b).
xi · w + b ≥ +1 − εi para yi = +1 (2.18)
xi · w + b ≤ −1 + εi para yi = −1 (2.19)
εi ≥ 0 ∀i (2.20)
Si la muestra xi está bien clasicada pero dentro del margen, 0 < εi < 1.
P
Por lo que es un límite superior del número de errores en el entrenamiento. Se asigna un
i εi
2 2 P
coste extra para los errores cambiando la función objetivo de kwk
2 a kwk k
2 + C( i εi ) , donde
∂LP X
= wv − αi yi xiv = 0 (2.22)
∂wv
i
∂LP X
=− αi yi = 0 (2.23)
∂b
i
∂LP
= C − αi − µi = 0 (2.24)
∂εi
yi (xi · w + b) − 1 + εi ≥ 0 (2.25)
εi ≥ 0 (2.26)
αi ≥ 0 (2.27)
µi ≥ 0 (2.28)
µi εi = 0 (2.30)
2.4.1. Introducción
2.4.2. Formulación
X N
1
LP = kwk2 + C (ξi + ξi ∗ ) (2.31)
2
i=1
yi − wT xi − b ≤ ξi + ε (2.32)
− yi + wT xi − b ≤ ξi ∗ + ε (2.33)
ξi , ξi ∗ ≥ 0 (2.34)
Lo que quiere decir que para cada muestra, los distintos casos posibles son:
Figura 2.3: Únicamente las muestras que estén fuera del margen ±ε, serán parte de la solución
0 |ei | < ε
`(ei ) = (2.35)
|e | − ε |e | > ε
i i
para e = ξi + ε, e = −ξi∗ − ε.
60 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
Este procedimiento es similar al aplicado a las SVM para los problemas de clasicación.
En teoría se debería tener errores menores que ε y minimizar la norma de los parámetros. Sin
embargo, en la práctica no se pueden tener todos los errores menores que ε. Para solucionar esto,
se introducen unas nuevas variables: ξi y luego se minimizan.
Para solucionar el problema planteado en las ecuaciones 2.31, 2.32 y 2.33 se lleva a cabo la
optimización de Lagrange, quedando la formulación dual de la siguiente manera:
N N N
1 XX X
Ld = (αi − αi 0)xTi xj (αi − αj 0) + ((αi − αi 0)yi − (αi + αi 0)ε) (2.36)
2
i=1 j=1 i=1
Sabiendo que:
0 ≤ (αi − αi 0) ≤ C (2.37)
y que:
N
X
(αi − αi 0) = 0 (2.39)
i=1
Para hallar la desviación, b, es necesario encontrar las muestras que están dentro del margen.
El error para esas muestras es ε y αi , αi 0 < C . Una vez que se identican las muestras, se puede
hallar b a partir de:
yi − wT xi − b + ε = 0 (2.40)
− yi + w T x i + b + ε = 0 (2.41)
Los datos que inicialmente pertenecen al espacio Rd se mapean a otro espacio (posiblemente
de dimensión innita), este espacio es el espacio euclídeo (H), mediante φ [14] [3]. La
aplicación es de la forma:
φ : Rd 7→ H
En este ejemplo H es de dimensión innita por lo que no sería fácil trabajar con φ explí-
citamente. Sin embargo, si se reemplaza xi · xj por K(xi , xj ) en todas partes del algoritmo de
entrenamiento, el algoritmo producirá una máquina de vectores soporte en un espacio innito.
Todo lo que se ha considerado anteriormente puede ser válido ya que estamos haciendo una
separación lineal pero en diferente espacio.
En la fase de test para poder usar esa máquina no hace falta calcular w (para ello habría que
saber φ(si ) explícitamente), basta con calcular el signo de:
Ns
X Ns
X
f (x) = αi yi φ(si ) · φ(x) + b = αi yi K(si , x) + b (2.42)
i=1 i=1
donde si son los vectores soporte. Se evita calcular φ(x) explícitamete usando K(si , x) = φ(si ) ·
φ(x).
Es fácil encontrar kernels tales que el algoritmo de entrenamiento y la solución sean inde-
pendientes de la dimensión de los espacios en los cuales viven los datos L (dimensionalmente
pequeño) y H (dimensionalmente grande). Las máquinas de vectores soporte (SVM) se reeren
a H como un espacio de Hilbert. Este espacio es una generalización del espacio Euclídeo, un
espacio lineal con un producto interior denido, que es completo (cualquier secuencia de puntos
converge a un punto en el espacio), algunos autores requieren que sea separable (número contable
de subconjuntos cuya clausura sea el espacio mismo), hay autores que requieren que el espacio
de Hilbert sea dimensionalmente innito.
62 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
Se va a estudiar para qué kernels existe un par {H, φ} con las propiedades descritas anterior-
mente y para cuales no. Las propiedades se cumplirán para los kernels que cumplan la condición
de Mercer [14] [3]. Existe una aplicación φ y una expansión:
X
K(x, y) = φ(x)i φ(y)i (2.43)
i=1
es nita, entonces
Z
K(x, y) · g(x) · g(y)dxdy ≥ 0
.
P∞
Se puede probar que cualquier kernel expresado de la forma: K(x, y) = p=0 cp (x · y)p , donde
cp son coecientes positivos reales y la serie es uniformemente convergente, satisface la condición
de Mercer.
2.5.2. Notas de φ y H
a0
Eso es un producto escalar entre dos vectores en R2N +1 , dónde a = ( √ , a , . . . , a21 , . . .) y
2 11
φ(x) = ( √12 , cos(x), cos(2x), . . . , sin(x), sin(2x)...) y el kernel:
sin((N + 12 )(xi · xj ))
φ(xi ) · φ(xj ) = k(xi , xj ) = xi −xj
2 · sin( 2 )
2.5 Máquinas de vectores soporte no lineales 63
Los primeros kernels investigados para el problema de reconocimiento de modelos fueron los
siguientes:
K(x, y) = (x · y + 1)p −→ polinomio de grado p.
2
K(x, y) = exp − kx−yk
2σ 2
−→ clasicador de base radial gausiana.
K(x, y) = tanh(kx · y − δ) −→ kernel sigmoidal, da una red neuronal de dos capas.
Existen muchos otros tipos de kernels mucho más complejos que se pueden estudiar en la
bibliografía ( [65], [24], [27], [53], [56])..
Figura 2.5: Regiones de decisión para el caso separable (izquierda) y no separable (derecha)
siendo el kernel un polinomio de grado tres
Si se coge como kernel un polinomio de grado tres, a pesar de aumentar el número de grados
de libertad, la solución es casi lineal para el caso linealmente separable. El caso linealmente no
separable se puede volver linealmente separable gracias al kernel elegido.
Aunque los clasicadores SVM tratados hasta ahora han sido binarios, son fácilmente com-
binados para tratar múltiples clases.
Se dice que una solución es global si no existe otro punto en la región en la cual la función
objetivo tome un valor menor.
Cada solución local es también global. Es una propiedad de cualquier problema de programa-
ción convexo. Además, la solución es única si la función objetivo (ecuación 2.12) es estrictamente
convexa. Es decir que Hessian debe ser denido positivamente, si es semidenido positivamente
la solución puede que todavía sea única.
Hay dos casos en los cuales la solución no es única:
64 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
Soluciones en las que w, b son únicas pero la expansión de w (ecuación 2.10) no lo es.
Es fácil encontrar soluciones que no son únicas ya que se pueden encontrar varias αi para hallar
w. Ocurre cuando: dada una solución α, se elige un α0 que está en el espacio nulo de Hessian:
Hij = yi yj xi · xj y requiere que α0 sea ortogonal al vector cuyas componentes son todas uno. Si
se añade α0 a α en la ecuación 2.12 dejará LD incambiable. Si 0 ≤ α + α0 ≤ C y α0 satisface la
ecuación 2.11 entonces α + α0 es también solución.
Soluciones en las que {w, b} no son únicas (esto sólo puede ocurrir si Hessian no es denido
positivamente e incluso entonces las soluciones son necesariamente globales). El siguiente teorema
muestra que si la solución no es única la solución en un punto óptimo es continuamente deformable
hasta llegar a la solución de otro punto óptimo, de tal forma que todos los puntos intermedios
son también solución.
Teorema: Si mediante X se representa el par de variables {w, b}. Se supone Hessian semide-
nido positivo tal que la función objetivo es convexa. Si X0 y X1 son dos puntos en los cuales la
función objetivo obtiene su valor mínimo, existe un camino
El entrenamiento de SVM siempre encuentra una solución global en contraste con las redes
neuronales donde normalmente existen muchos mínimos locales.
Para más información consultar [9].
2.7.1. Introducción
Es una extensión de la máquina de vectores soporte (SVM) usada para regresión (SVR) para
múltiples variables (M-SVR).
En vez de tener en cuenta cada componente individualmente, se usa una herramienta de
regresión multidimensional, de tal forma que la estimación nal es menos vulnerable al ruido.
Tratando múltiples variables a la vez, se puede hacer una estimación más precisa de la salida
disponiendo de pocos datos a la entrada de cada máquina de entrenamiento. Añadiendo la función
de coste ε − insensible, denida ya en SVR, hará el sistema más robusto cuando aparezcan
diferentes tipos de ruido y no linealidades.
Como se presentó en la sección 2.4.2 de las máquinas lineales SVR, el problema de estimación
de variables unidimensionales usando regresión (SVR) consiste en encontrar la correspondencia
entre un vector de entrada x ² Rd y su correspondiente salida y ² R dado un conjunto de muestras
independientes e idénticamente distribuidas (i.i.d) {(xi , yi )} donde i = 0, · · · , n.
En un caso general, SVR soluciona este problema encontrando el regresor w y b que minimize:
kwk2 P
2 +C N T
i=1 Lv (yi − (φ (xi )w + b)), dónde φ(.) es una transformación no lineal a un espacio de
mayores dimensiones (φ(.) ² RH y H ≥ d). SVR puede ser solucionado únicamente con productos
interiores entre φ(.), es decir, no se necesita saber la correspondencia de las funciones no lineales,
tan sólo hay que saber la función kernel k(xi , xj ) = φT (xi )φ(xj ) que tiene que cumplir el teorema
de Mercer 2.5.1 . Lv (.) es conocida como la función de Vapnik o función de coste ε-insensible
[60], gura 2.4, la cual es cero para |yi − (φT (xi )w + b)| < ε e igual a |yi − (φT (xi )w + b)| − ε
para |yi − (φT (xi )w + b)| ≥ ε. La solución (w, b), está formada por una combinación lineal de
las muestras de entrenamiento en el espacio transformado que tienen un error absoluto mayor o
igual a ε.
66 CAPÍTULO 2. MÁQUINAS DE VECTORES SOPORTE (SVM)
La función de Vapnik o función de coste ε-insensible puede ser extendida al caso multidimen-
sional; con la norma L1 , se necesitaría tener en cuenta cada dimensión de forma independiente, de
tal forma que la complejidad de la solución aumentaría linealmente con el número de dimensio-
nes. Si en vez de L1 se usase L2 , se consideraría una única restricción para todas las dimensiones,
produciendo un único vector soporte para todas las dimensiones. Se usaría:
0 u<ε
(u) = (2.49)
u2 − 2uε + ε2 u ≥ ε
q
Donde, ui = kei k = eTi ei , sabiendo que eTi = yiT − φT (xi )W − bT , W = [w1 , · · · , wQ ],
b = [b1 , · · · , bQ ]T , y φ(.) es una transformación lineal a un espacio de mayor dimensión.
Para ε = 0 este problema se reduce a una regresión de mínimos cuadrados usando un kernel
independiente para cada componente. Sin embargo, para ε 6= 0 la solución tendrá en cuenta
todas las salidas para construir cada regresor y será capaz de obtener predicciones más robustas.
El precio a pagar será que la resolución del problema no se puede hacer directamente, sino que
será necesario un procedimiento iterativo. Se ha ideado una aproximación cuasi-Newtoniana en la
cual cada iteración tiene como mucho la misma complejidad computacional que un procedimiento
de mínimos cuadrados para cada componente. Este es un problema de mínimos cuadrados y el
número de iteraciones necesarias para obtener el resultado nal es pequeño; así, el procedimiento
resultante es sólo un poco más complicado que el que se tenía cuando ε = 0. A este procedimiento
se le llama IRWLS Iterative (Re-Weighted Least Square) [1] [44]. Otro artículo de interés es [54].
2.8. Sumario
Dado un conjunto de datos de entrenamiento{xi , yi }, se trata de entrenar unas máquinas de
vectores soporte (SVM) mediante las cuales poder clasicar nuevas entradas. Para ello tiene que
haber un compromiso entre el número de muestras a entrenar y la complejidad de las máquinas.
2.8 Sumario 67
Se trata de encontrar la máquina que minimice el límite del riesgo. Las máquinas de vectores
soporte lineales a partir de las muestras de entrenamiento, denen un par de hiperplanos (me-
diante unos puntos característicos, vectores soporte); los nuevos datos pertenecerán a una clase u
otra dependiendo del hiperplano en el que se encuentren. En el caso no separable, se introducirá
un margen de error para poder realizar la clasicación. En el caso de las máquinas de vectores
soporte para regresión (SVR), se trata de ajustar todos los datos al par de hiperplanos denido;
se minimizarán los errores que sean mayores o iguales que la mitad del margen (ε). En el caso
no lineal,tanto para SVM's como SVR's, se dene un kernel mediante el cual se hace una trans-
formación de los datos a un espacio de dimensión mayor (puede ser innita) logrando así una
separación lineal en un espacio diferente; una vez hecho esto, todo lo denido para el caso lineal
puede ser aplicado. Para el caso del multirregresor SVM, en el que la salida es un vector y , se
generaliza la SVR unidimensional a través de un algoritmo iterativo. Algunas de las ventajas de
las Máquinas de Vectores Soporte (SVM) son las siguientes:
Construyen fronteras de clases muy complejas, esto permite un mejor aprendizaje de los
problemas difíciles.
Algunos de los inconvenientes de las Máquinas de Vectores Soporte (SVM) son los siguientes:
Se pide una hipótesis débil: ht con bajo error εt con respecto a Dt (es decir, εt = P ri∼Dt [ht (xi ) 6=
yi ] ).
69
70 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO
actual. Después de T iteraciones, se combinan las hipótesis débiles en una sola regla de
predicción.
Para problemas de predicción binaria, el error de la hipótesis nal está limitada por (probado en
[50], [23]):
PT 2
exp−2 t=1 (γt ) (3.1)
donde
1
εt = − γt (3.2)
2
es el error de la t-ésima hipótesis débil. Una hipótesis totalmente aleatoria tiene un error εt = 12 ,
γt mide la precisión relativa al caso aleatorio de la t-ésima hipótesis débil. Este límite muestra
que si se pueden encontrar hipótesis débiles que sean algo mejores que el caso aleatorio, el error
de la hipótesis nal cae exponencialmente rápido.
Hay que tener en cuenta que el límite de la precisión de la hipótesis nal mejora cuando
cualquiera de las hipótesis débiles mejoran.
3.2. AdaBoost
El algoritmo de AdaBoost fue introducido en 1995 por Freund y Schapire, solucionó muchas
dicultades prácticas que presentaban los algoritmos de boosting inicialmente. El pseudocódigo
del algoritmo es el siguiente [21]:
Dado: ((x1 , y1 ), · · · , (xm , ym )), donde xi ²X , yi ²Y = {−1, +1}.
1
Inicializa D1 (i) = m.
Desde t = 1, · · · T :
Elige
1 1 − εt
αt = ln( ) (3.4)
2 εt
3.2 AdaBoost 71
Actualiza
Dt (i)
Dt+1 (i) = × exp−αt si ht (xi ) = yi (3.5)
Zt
Dt (i)
Dt+1 (i) = × expαt si ht (xi ) 6= yi (3.6)
Zt
Donde Zt es un factor de normalización (de tal forma que Dt+1 sea una distribución).
XT
H(x) = sign( αt ht (x)) (3.7)
t=1
Hay que darse cuenta que el error está medido con respecto a la distribución Dt en la cual el
aprendizaje débil ha sido entrenado.
Una vez se elige la hipótesis: ht , AdaBoost elige un parámetro αt . Intuitivamente, α mide la
1
importancia asiganda a ht . Nótese que αt ≥ 0 si εt ≤ 2 (que puede ser asumido sin pérdida de
generalidad), y que αt es mayor cuanto menor es εt . La distribución Dt es acualizada en cada
iteración, lo que pretende este algoritmo es incrementar los pesos de los ejemplos mal clasicados
por ht y decrementar los pesos de los ejemplos clasicados correctamente. Así los pesos tienden
a concentrarse en los ejemplos "duros "(o más difíciles de clasicar).
72 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO
Así, si cada hipótesis débil es ligeramente mejor que la aleatoria tal que γt ≥ γ para γ > 0,
entonces el error de entrenamiento cae exponencialmente rápido.
Los algoritmos de boosting previos mostraban una propiedad similar. Sin embargo, los al-
goritmos previos requerían un conocimiento previo del límite inferior γ (antes de empezar el
algoritmo de boosting). En la práctica el conocimiento de este límite es muy difícil de obtener.
Por otro lado, AdaBoost es adaptativo, ya que se adapta a las tasas de error de las hipótesis débi-
les individuales. Esta es la base de su nombre-Ada es el diminutivo de adaptativo. El límite dado
en la ecuación 3.9, combinado con el el límite de error de generalización dado a continuación,
prueban que AdaBoost es un algoritmo de boosting en el sentido en el que puede convertir de
manera eciente un algoritmo débil (que puede siempre generar una hipótesis con una frontera
débil [47] para cualquier distribución) en un algoritmo de aprendizaje fuerte (que puede generar
una hipótesis con una baja tasa de error arbitraria, dados una cantidad de datos sucientes).
El error de entrenamiento.
3.4 Análisis del error de generalización 73
El tamaño de la muestra m.
Figura 3.1: Comparación de las tasas de error para AdaBoost y otros cuatro métodos
Se usaron técnicas especícas de Baum y Haussler para mostrar que el error de generalización,
con alta probabilidad, es como mucho:
r
Td
P̂ r[H(x) 6= y] + Õ( ) (3.10)
m
Donde P̂ r[.] denota la probabilidad empírica de las muestras de entrenamiento. Este límite sugiere
que el boosting provocará sobreentrenamiento si se hace para muchas iteraciones, es decir para
un valor de T alto. Sin embargo, en los experimentos realizados recientemente, varios autores
observaron empíricamente que a menudo el boosting no produce sobreentrenamiento, incluso
cuando hay miles de iteraciones en el algoritmo. Además, se observó que AdaBoost continuaba
disminuyendo el error de generalización después de que el error de entrenamiento fuese cero ( [6],
[18], [17]), claramente contradiciendo el límite puesto arriba.
En respuesta a estas averigüaciones empíricas, Schapire [4] siguió el trabajo de Barlett [5],
dando un análisis alternativo en términos de los márgenes de los ejemplos de entrenamiento. El
margen del ejemplo (x,y) es denido para ser:
P
y t αt ht (x)
P (3.11)
t αt
74 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO
(α · h(xi ))yi
maxα mini (3.13)
kαkkh(xi )k
donde, para boosting, las normas del denominador están denidas como:
X
kαk1 = |αt | (3.14)
t
3.5 Relación con máquinas de vectores soporte 75
Las SVM's usan la norma l2 tanto para el vector de instancias como para el vector de pesos,
mientras AdaBoost usa la norma l∞ para el vector de instancias y la norma l1 para el vector de
pesos.
Cuando SVM y AdaBoost son descritos de esta forma parecen similares. Los dos son algorit-
mos SL (Statistical Learning, [40], [11]) Sin embargo, hay importantes diferencias [21]:
Diferentes normas pueden resultar en márgenes diferentes: La diferencia entre las nor-
mas l1 , l2 y l∞ puede no variar signicativamente cuando se consideran espacios dimensio-
nalmente pequeños. Sin embargo, en boosting o en SVM la dimensión suele ser muy alta,
a menudo de millones o más. En tal caso, la diferencia entre las normas puede dar lugar a
diferencias muy grandes en los valores de los márgenes.
Se inicializa una matriz de distribución de errores D0 (i, l) = (1/nL) para cada dato xi y
cada clase, y se inicializa un conjunto de paramétros de agregación λj,0 = 0
Repetir para t = 1 · · · T :
donde I{hlj (xi ) 6= yil } es una medida de disimilitud entre el dato predicho y el dato
real. En nuestro caso se ha tomado como la diferencia entre hlj (xi ) e yil .
Elegir el mejor regresor, o el regresor que produce menor error. Se pone el índice ĵ al
mejor regresor.
1 1 − ²t (ĵ)
αt = ln( ) (3.19)
2 ²t (ĵ)
y se actualiza el parámetro de agregación:
Dt (i, l)
Dt+1 (i, l) = q exp (−αyil hlĵ (xi )) (3.21)
2 ²t (ĵ)(1 − ²t (ĵ))
q
donde 2 ²t (ĵ)(1 − ²t (ĵ)) en el denominador es un factor de normalización tal que
P P
i l Dt+1 (i, l) = 1.
3.6 Algorimos de Boosting distribuido 77
Fin
P
Se normaliza el conjunto de pesos de manera que j λj = 1
Para terminar las iteraciones, se puede calcular una versión normalizada de los parámetros λj,t
en cada iteración. Si la variación de los parámetros de normalización es menor que un límite γ
se puede parar el algoritmo. Es equivalente a parar el algoritmo cuando P αλt j,t < γ
j
1
Una de las cosas a señalar es que la actualización 3.19 tiende a cero si el error tiende a 2
(que es el correspondiente a una salida totalmente aleatoria) y tiende a innito si el error tiende
a cero. Es decir que cuanto mejor funciona el regresor, mayor es el término de actualización. Sin
embargo la ecuación 3.21, utilizada para la actualización de los pesos, hace que estos Dt (i, l)
correspondientes a los datos xi crezcan si el regresor funciona de manera deciente (ya que el
exponente será positivo). Si la regresión es buena, el peso correspondiente decrecerá, y en el
siguiente paso, la medida del error (ecuación 3.18) dará mayor importancia a aquellos datos que
son más difíciles en la regresión.
El algoritmo presentado arriba minimiza el riesgo empírico con respecto a una función de
coste exponencial por medio de un descenso de gradiente funcional.
La diferencia entre Adaboost y este algoritmo es que todos los regresores ya están entrenados
y que la distribución Dt (i, l) se usa para actualizar el valor de λĵ,t en vez de para entrenar el
siguiente regresor (el mejor se toma de un conjunto de regresores locales ya entrenados).
En este método, L algoritmos binarios de Adaboost distribuido se aplican a cada una de las
salidas de los regresores base. Esto se puede ver como una reducción binaria del primer algoritmo.
El resultado es un conjunto de L mapas de boosting correspondientes a cada uno de los regresores.
Los pasos del algorimo son:
1
Se inicializa una matriz de distribución del error D0 (i, j, l) = n para cada xi y cada regresor
y se inicializa un conjunto de parámetros de agregación λlj,0 = 0.
Repetir para t = 1 · · · T :
donde I{hlj (xi 6= yil )} es una medida de disimilitud entre el dato predicho y el dato
real (nosotros hemos tomado como medida de disimilitud la diferencia entre hlj (xi ) e
yil ).
Se calcula un término de actualización αtl para los parámetros de agregación λlĵ co-
rrespondientes el mejor regresor.
1 1 − ²t (ĵ, l)
αtl = ln( ) (3.23)
2 ²t (ĵ, l)
Dt (i, j, l)
Dt+1 (i, j, l) = q exp (−αyil hlĵ (xi )) (3.25)
2 ²t (ĵ, l)(1 − ²t (ĵ, l))
Fin
P
Se normaliza el conjunto de pesos de manera que j λj = 1
3.7. Sumario
AdaBoost tiene muchas ventajas. Es rápido, simple y fácil de programar. No tiene parámetros
para ajustar a excepción del número de iteraciones (T). No requiere conocimiento previo sobre
el aprendizaje débil y por lo tanto puede ser combinado de forma exible con cualquier método
para encontrar hipótesis débiles. Finalmente, viene con un conjunto de garantías teóricas dados
sucientes datos y una máquina de aprendizaje débil con unas hipótesis débiles moderadamente
precisas. En vez de intentar diseñar una algoritmo de aprendizaje que sea preciso sobre el espacio
entero, se trata de encontrar unos algoritmos de aprendizaje débiles que sólo necesitan ser mejores
que el aleatorio.
Por otro lado, el desarrollo del boosting para un problema particular depende claramente de
los datos y de la máquina de aprendizaje débil. De acuerdo a la teoría, el boosting puede fallar
si los datos son insucientes, las hipótesis débiles son complejas o demasiado débiles.
3.7 Sumario 79
Una buena propiedad de AdaBoost es su habilidad para identicar outliers (ejemplos que o
no están etiquetados en el conjunto de entrenamiento o son inherentemente ambigüos o difícil
de categorizar). Porque AdaBoost enfoca su peso en los ejemplos más "duros"(difíciles de cate-
gorizar), los ejemplos con el mayor peso a menudo se vuelven outliers. Existe una variante del
AdaBoost que pone menos énfasis en los outliers, para ello utiliza otra función de pérdidas, para
más información de ese método consultar [21], [16]. Otros artículos de interés son [64] [46],
[43], [20].
El Boosting distribuido es una versión del Adaboost en la cual se utiliza una serie de clasica-
dores distribuidos espacialmente, cuya salida se combina linealmente para formar una respuesta
mejorada con respecto a la respuestsa individual de cada uno de los clasicadores. La combinación
óptima se calcula iterativamente usando un procedimiento inspirado en el Adaboost.
80 CAPÍTULO 3. ADABOOST Y BOOSTING DISTRIBUIDO
Capı́tulo 4
Estructuras del algoritmo, software
desarrollado y datos
Lectura de la máscara: mediante una función se guarda el directorio donde está la máscara
en el ordenador, para no tener que buscarlo cada vez que queramos usarlo. Y también se
carga la máscara seleccionada.
load(mask)
Lectura de los directorios de los datos: al igual que con la máscara, guarda el directorio
donde se encuentran los datos en el ordenador. También se memorizan los parámetros
iniciales.
dirdatos = uigetdir(dirdatos);
81
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
82 DESARROLLADO Y DATOS
dirlist = dirtree(dirdatos,0 img 0 );
Lectura de los datos: lee todos los datos seleccionados, hallando de cada dato una serie de
parámetros como son: el tipo, la cabecera, dimensión, oset... Dando una matriz con un
conjunto de imagenes con el directorio completo del conjunto de imágenes, mediante el cual
se pueden leer las cabeceras mediante la etiqueta de dicha imagen, y extraer el conjunto
de posibles etiquetas. Es decir, se hace un prepocesado de los datos. La función principal
es leerdatos, las demás son funciones que están dentro de esta función.
datatrain = splitdata(data, X, Y );
splitdata es una función que construye una variable estructurada con todos los datos pre-
viamente divididos.
no se dividirán los datos. Todos los datos se utilizarán para entrenar a la máquina.
Todos los datos que se utilizan para entrenamiento se dividen arbitrariamente en
dos subconjuntos. Con el primer subconjunto se entrenan las SVM's. El segundo
subconjunto son las entradas de las SVM's entrenadas, se calcula la salida y con estas
salidas se entrena el algoritmo de Boosting.
Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].
◦ Se dividen los datos en dos subconjuntos: uno para entrenamiento y otro para
test:
[datatrainA, datatest] = separatedata(Y, datatrain);
Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].
◦ Con el segundo subconjunto de una única parte se realiza la fase de test descrita
anteriormente en el caso de entrenamiento y test:
[error, votes, lambda1, Oa] =
M CSV M classif y(datatest, lambda, SV M M GROU P, []);
Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].
Si la opción elegida es leave one out, Leave One Out(LOO) es un test de validación
cruzada dejando un dato fuera. El cálculo de validación cruzada leave one out es
computacionalmente costoso, pero tiene la ventaja de que no se pierden datos. Leave
One Out es un caso particular de V-Fold, ya que LOO es en realidad un V-Fold en
el que V es igual al número de datos. El algoritmo LOO consiste en que antes de
proceder al entrenamiento del boosting, se dividen los datos en dos subconjuntos. Un
subconjunto estará formado por un sólo dato. Este subconjunto será el utilizado para
realizar el test. El otro subconjunto constará de todos los datos menos uno, el que
se ha utilizado para test, y será el subconjunto que utilicemos para el entrenamiento.
Después se repite el proceso dejando otro dato diferente para el test. Cuando todos los
datos han sido dejados para el test es cuando nalizaría el algoritmo.El porcentaje de
error de este algoritmo se obtiene promediando el resultado de todas las iteraciones.
◦ Con el primer subconjunto (todos los datos menos uno) se realiza el mismo en-
trenamiento descrito anteriormente en el caso de entrenamiento:
[Oa, lambda, SV M M GROU P ] = training(datatrainA, Y, ZM, Z, classpar);
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
86 DESARROLLADO Y DATOS
Algunas de las funciones utilizadas para entrenar las SVMs y el boosting están mo-
dicadas del software preexistente [12].
Cada área se va a tratar indepedientemente, de tal forma que se entrena una máquina SVM
para cada área. (gura 4.1).
Figura 4.1: Aplicación de un clasicador local para cada una de las 14 áreas cerebrales.
Mediante un algoritmo de boosting, se pondera la importancia que tiene cada área depen-
diendo de los diferentes estímulos que se puedan realizar al sujeto (visual, motor, cognitivo y
auditivo).
Además, la salida del boosting en forma de mapas (que iluminan las áreas importantes para
la clasicación) se pueden comparar directamente con el análisis de las fMRI's.(gura 4.2).
Como ya se ha explicado en la sección 2.5.3 es necesario una buena elección del kernel para el
buen funcionamiento de las SVM ( [34]). Se van a utilizar kernels RBF (de base radial gaussiana)
[41], para ello hay que elegir una serie de parámetros como son C (compromiso entre el error y el
coste computacional) y el parámetro del kernel (σ ) para el buen funcionamiento del algoritmo.
Se usan parámetros previamente escogidos mediante validación cruzada. Estos valores de los
parámetros son C=10 y σ =600.
Los mapas de activación tienen aproximadamente 90.000 voxels y el número de datos para el
entrenamiento son 182 (el número de experimentos a tener en cuenta en este proyecto). Por lo
tanto, hay que reducir la alta dimensionalidad de los datos. Las soluciones posibles son:
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
88 DESARROLLADO Y DATOS
Figura 4.2: Combinación de las salidas de los clasicadores para generar el mapa de boosting.
Sólo unas pocas áreas del cerebro contienen información relevante. Por lo tanto, parece
razonable que se pueda dividir el mapa de activación en áreas funcionales (FA). Cada área
contendrá un menor número de voxels.
50
100
150
200
250
300
350
Las áreas funcionales son: médula espinal, cerebelo, parietal, temporal, occipital, subcortical
y frontal. Para el lado derecho como para el izquierdo (gura 4.4).
Una vez que se aplican las máscaras, se cogen los datos que son distintos de cero, de tal forma
que se tienen 14 grupos de datos (en este momento, la dimensionalidad de los datos ya ha sido
reducida).
Este algoritmo se caracteriza por los distintos tipos de entrenamiento que se pueden realizar:
entrenamiento, entrenamiento y test, v-fold y leave one out.
Entrenamiento
Antes de proceder alentrenamiento del boosting, hay que dividir los datos en dos subconjun-
tos, uno para el entrenamiento y otro para el test. En este caso, se utilizarán todos los datos para
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
90 DESARROLLADO Y DATOS
entrenamiento, por lo tanto no se dividirán los datos. Todos los datos se utilizarán para entrenar
a la máquina.
Los datos que se utilizan para entrenamiento se dividen arbitrariamente en dos subconjuntos.
Con el primer subconjunto se entrenan las SVM's. El segundo subconjunto son las entradas de
las SVM's entrenadas, se calcula la salida y con estas salidas se entrena el algoritmo de Boosting.
Entrenamiento y test
Este tipo de entrenamiento se diferencia con el anterior, es decir el de entrenamiento, en que
antes de proceder al entrenamiento del boosting, se dividen los datos en dos subconjuntos, uno
para el entrenamiento y otro para el test.
El primer conjunto de datos se divide a su vez arbitrariamente en otros dos subconjuntos.
Con el primer subconjunto se entrenan las SVM's. El segundo subconjunto son las entradas de
las SVM's entrenadas, se calcula la salida y con estas salidas se entrena el algoritmo de Boosting.
El segundo conjunto de datos se usará posteriormente para la fase de test.
Este algoritmo de entrenamiento y test tiene como ventajas que es simple y rápido, en cambio,
tiene como inconveniente que para que se obtengan buenos resultados se requieren muchos datos.
V-Fold
V-Fold es un test de validación cruzada. Este algoritmo llega a un compromiso entre la
eciencia y el coste computacional.
Antes de proceder al entrenamiento del boosting, se divide el conjunto de datos en V partes
aproximadamente iguales. En cada iteración, una de estas V partes será el subconjunto que se
utilizará para realizar el test. Las restantes V-1 partes restantes formarán el subconjunto que se
empleará para el entrenamiento. Este proceso se repite V veces, de esta manera todos las partes
han sido empleadas para el test. El porcentaje de error de este algoritmo se obtiene promediando
el resultado de todas las iteraciones.
Leave One Out (LOO)
Leave One Out(LOO) es un test de validación cruzada dejando un dato fuera. El cálculo de
validación cruzada leave one out es computacionalmente costoso, pero tiene la ventaja de que no
se pierden datos.
Leave One Out es un caso particular de V-Fold, ya que LOO es en realidad un V-Fold en el
que V es igual al número de datos.
El algoritmo LOO consiste en que antes de proceder al entrenamiento del boosting, se dividen
los datos en dos subconjuntos. Un subconjunto estará formado por un sólo dato. Este subconjunto
4.2 Estructura del software desarrollado 91
será el utilizado para realizar el test. El otro subconjunto constará de todos los datos menos uno,
el que se ha utilizado para test, y será el subconjunto que utilicemos para el entrenamiento.
Después se repite el proceso dejando otro dato diferente para el test. Cuando todos los datos
han sido dejados para el test es cuando nalizaría el algoritmo.El porcentaje de error de este
algoritmo se obtiene promediando el resultado de todas las iteraciones.
Boosting
Se entrenan un conjunto de SVM's (una para cada área, en este caso hay 14 SVM's).
Se entrenan las SVMs a partir de los datos de que se obtienen para cada área. Cada máquina
está caracterizada por hj (donde j va de 1 a 14).
Una vez entrenadas las SVM's se procede al entrenamiento del boosting distribuido, descrito
en [37].
Con el primer subconjunto, se entrenan las SVM's. Con esas SVM's y el segundo subconjunto
de datos, se entrena el algoritmo de boosting distribuido.
El algoritmo se va a desarrollar de forma iterativa; al nal del algoritmo se tendrán un con-
junto de parámetros λj promediados, (donde j va de 1 a 14, una para cada área). Cada parámetro
λj es un escalar que mide la importancia que tiene cada área en la activación correspondiente:
Si el área no está relacionado con la actividad que se está considerando (motor, visual,
auditivo o cognitivo), el valor de λj es bajo.
Por el contrario, si el área está involucrada en esa actividad, el valor de λj será alto.
Una vez entrenada la máquina de boosting se procede a la fase de test, hay que tener en
cuenta que:
El algoritmo de boosting cogerá los λj que se han especicado en esta sección anteriormente.
Donde j va de 1 a 14, siendo j cada una de ellas las áreas funcionales en las que se divide el
cerebro.
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
92 DESARROLLADO Y DATOS
Como resultado se obtiene un mapa de boosting, que indica la importancia de cada área del
cerebro al aplicarle una excitación que puede ser motora, visual, auditiva o cognitiva.
4.3. Datos
Sujetos y experimentos
Diez sujetos sanos fueron estudiados usando un escáner de 1.5 Teslas, y otros diez usando un
escáner de 4.0 Teslas. Los estímulos fueron presentados mediante unas gafas y unos auriculares.
El paradigma consiste en cuatro tareas: visual (estimulación a 8 Hz), motora (pequeño golpe en el
dedo índice derecho a 2 Hz), auditiva (discriminación de sílabas) y cognitiva (cálculos mentales).
La tarea visual consiste en cambios de blanco a negro a 8 Hz. La tarea motora consistía en
un pequeño golpe en el dedo índice derecho, dicho golpe iba al ritmo de un tono auditivo de
1 kHz. Durante la tarea auditiva, los sujetos oían una grabación de sílabas (por ejemplo: Ba,
Ha, Ka, Ra) y apretaban un botón cuando oían la sílaba Ka. La tarea cognitiva consistía en
cálculos mentales. Los sujetos debían sumar tres números que se les mostraban y dividir la suma
entre tres, tenían que apretar un botón cuando la suma fuera divisible entre tres sin resto. A los
sujetos se les dieron instrucciones para atender cada tarea con un constante esfuerzo a través de
exploraciones mediante escáneres y campos de fuerza.
Adquisición de datos
Los datos fMRI fueron adquiridos usando una imagen echo-planar con tiempo de repetición
(TR) de 2 segundos, tiempo de echo (TE) de 50 msec, un ángulo de giro de 90º, un tamaño
de matriz de 64x64 o 32x32 píxeles, y un campo de visión de 192 mm. Los datos con matrices
de 32x32 fueron adquiridos con diferentes anchos de banda, con 1200 Hz/pixel (bajo ancho de
banda, LB) o con 2400 Hz/pixel (alto ancho de banda, HB), los cuales cambian de grado la
distorsión geométrica y la señal a ruido.
El conjunto de datos disponible consiste en 182 t-maps de 20 sujetos diferentes. Los detalles
del conjunto de datos se muestran en la siguiente tabla:
4.4 Sumario 93
4.0T 81 32x32 52 LB 47
4.0T 81 32x32 52 HB 5
4.0T 81 64x64 29 LB 29
Tabla 4.1: Número de t-maps adquiridos con diferentes longitudes de campo, diferentes resulo-
ciones espaciales y diferentes anchos de banda.
4.4. Sumario
El esquema del algoritmo completo es el siguiente:
Se parte del conjunto de secuencias de imágenes temporales obtenidas a partir de las fMRI's
realizadas a los distintos sujetos. Son los datos de entrada del algoritmo.
Se dividen los datos de cada grupo en dos subconjuntos, de forma diferente dependiendo
del tipo de entrenamiento que estemos realizando; uno de ellos servirá para entrenar las
SVM's y el boosting. El otro subconjunto se reserva para hacer el test una vez se haya
nalizado el entrenamiento de las SVM's y el boosting.
En la fase de test, el boosting genera a la salida de cada SVM un parámetro (λ). Este
parámetro indica la importancia de cada área funcional.
Diagrama de bloques
Para tener una visión global y más clara del algoritmo desarrollado se muestran los siguientes
diagramas de bloques en los cuales se observa la secuencia de las funciones del algoritmo completo.
A continuación se muestra un diagrama de bloques en el que se observa lo desarrollado en el
entrenamiento. Dicho entrenamiento es común a los cuatro tipos de entrenamientos explicados
anteriormente.
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
94 DESARROLLADO Y DATOS
A continuación se muestra la secuencia en que se organizan las funciones del algoritmo desa-
rrollado y explicado anteriormente, mediante un diagrama de bloques. Este diagrama contiene
el diagrama de bloques del entrenamiento anterior, pero por claridad se ha separado en dos
diagramas.
4.4 Sumario 95
Figura 4.6: Diagrama de bloques: muestra la secuencia de las funciones del algoritmo desarrollado.
CAPÍTULO 4. ESTRUCTURAS DEL ALGORITMO, SOFTWARE
96 DESARROLLADO Y DATOS
Capı́tulo 5
Experimentos y Resultados
5.1. Introducción
Los datos con los que se han realizado los experimentos, son datos reales. Varios sujetos se
sometieron a una serie de sesiones fMRI para ser estudiadas posteriormente.
Se analizarán los distintos tipos de entrenamientos descritos en 4.2. Analizando para cada
simulación una serie de resultados.
5.1.1. Resultados
Boosting map: Es un mapa en el cual se podrá ver cada una de las áreas funcionales som-
breada en escala de grises según el valor del parámetro λ correspondiente a cada área. El
blanco indicará mayor importancia y el negro menor. Se tienen las siguientes áreas (14
en total): zona derecha/izquierda del bulbo raquídeo, zona derecha/izquierda del cerebelo,
parietal (izquierdo/derecho), temporal (izquierdo/derecho), occipital (izquierdo/derecho),
subcortical (izquierdo/derecho) y frontal (izquierdo/derecho).
97
98 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS
Porcentaje de error: Indica las prestaciones del algoritmo en forma de promedio de errores
de clasicación para cada conjunto de test.
En este tipo de entrenamiento en el que sólo se realiza entrenamiento y no existe una fase
de test, se considera el error = 0 ya que no hay datos con los que el algoritmo no haya sido
entrenado y por tanto todo es conocido sin dar lugar a errores. El problema de este algoritmo es
que no generaliza bien, sólo da buenos resultados para los datos con los que ha sido entrenado.
100 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS
A continuación se muestra una tabla con los valores del porcentaje de error de cada ejemplo
para este tipo de entrenamiento (entrenamiento y test). Se observa que el porcentaje de error es
considerablemente menor en el último ejemplo, esto es debido a que se realizan más iteraciones
y por lo tanto es más preciso. Cuantas más iteraciones el error será menor. También se observa
que en los dos primeros ejemplos el error es más alto que en el tercer ejemplo pero no son
valores demasiado altos para las pocas iteraciones realizadas. Por lo tanto se puede armar que
el algoritmo desarrollado es bastante preciso.
Tabla 5.1: Valores del porcentaje de error para el caso de entrenamiento y test.
A continuación se muestra una tabla con los valores del error en porcentaje de cada ejemplo
para este tipo de entrenamiento (V-Fold) y con V=5. Se observa que el porcentaje de error es
menor en el último ejemplo, y al igual que ocurría en el caso de entrenamiento y test, esto es
debido a que se realizan más iteraciones y por lo tanto es más preciso. Cuantas más iteraciones el
error será menor. En este caso, se observa que la diferencia entre las simulaciones realizadas con
10 iteraciones y la realizada con 25, no es tan grande como en el caso anterior (entrenamiento y
test). Por lo que este algoritmo es bastante más preciso.
A continuación se muestran los resultados obtenidos en diferentes simulaciones para este caso,
V-Fold, con los mismos datos, realizando 10 iteraciones, pero en estos ejemplos con diferentes
valores del parámetro V, el cual nos indica el número de partes aproximadamente iguales en que
habrá que dividir los datos.
104 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS
A continuación se muestra una tabla con los valores del porcentaje de error de cada ejem-
plo para este tipo de entrenamiento (V-Fold)y con diferentes valores de V. Se observa que el
porcentaje de error disminuye a medida que se aumenta el parámetro V.
Tabla 5.3: Valores del porcentaje de error para el caso de V-Fold con diferentes valores del
parámetro V.
5.5 Caso 4: Leave One Out (LOO) 105
A continuación se muestra una tabla con los valores del porcentaje de error de cada ejemplo
para este tipo de entrenamiento (LOO). Se observa que el porcentaje de error es menor en el
último ejemplo, y al igual que ocurría en los casos anteriores, esto es debido a que se realizan más
iteraciones y por lo tanto es más preciso. Cuantas más iteraciones el error será menor. En este
caso, se observa que la diferencia entre las dos simulaciones realizadas, no es muy signicativa.
Leave One Out es un caso particular de V-Fold, ya que LOO es en realidad un V-Fold en
el que V es igual al número de datos existentes. Por lo tanto, es lógico que ofrezca mejores
resultados que V-Fold. Se observa que este algoritmo, Leave One Out, es el más preciso de los
cuatro desarrollados, pero su coste computacional es excesivamente mayor que cualquiera de los
otros tres algoritmos.
5.6. Sumario
A modo de comparativa de los experimentos realizados, se muestra en la siguiente tabla el
valor mínimo del porcentaje de error de cada tipo de entrenamiento.
Tabla 5.5: Valores mínimos del porcentaje de error de cada tipo de entrenamiento.
Observando los resultados obtenidos en los experimentos con los diferentes tipos de entre-
namiento, se puede concluir que el mejor es el V-Fold, ya que es el algoritmo que obtiene un
mejor compromiso entre la precisión o eciencia y el coste computacional. Siendo sus resultados
del porcentaje de error bastante aceptables. Aunque en el caso de entrenamiento se tiene un
error = 0, este tipo de entrenamiento no generaliza, y sólo tendremos error = 0 para estos datos
en concreto. Con el algoritmo LOO los resultados son también bastante buenos, se puede decir
que los mejores respecto al porcentaje de error, pero computacionalmente es el más costoso y
con mucha diferencia. Por lo tanto el algoritmo más eciente es el V-Fold ya que generaliza y
nos da un porcentaje de error bastante bajo. Aunque se puede comprobar que con cualquiera de
los cuatro algoritmos propuestos se obtienen unos resultados más que aceptables.
108 CAPÍTULO 5. EXPERIMENTOS Y RESULTADOS
Capı́tulo 6
Conclusiones
A partir de unos datos de entrada consistentes en imágenes de fMRI se realiza una librería
de algorimos de reconocimiento de patrones capaces de obtener un porcentaje de error para los
distintos tipos de entrenamiento y de indicar de forma precisa las zonas del cerebro que son
importantes para la clasicación.
Mediante un conjunto de máscaras se divide el cerebro en catorce áreas funcionales. Se en-
mascaran las imágenes, de tal forma que se tendrán divididos los datos en 14 grupos. Cada grupo
de datos va a una SVM. Se dividen los datos de cada grupo en dos subconjuntos, de forma dife-
rente dependiendo del tipo de entrenamiento que estemos realizando; uno de ellos servirá para
entrenar las SVM's y el boosting. El otro subconjunto se reserva para hacer el test una vez se
haya nalizado el entrenamiento de las SVM's y el boosting. En la fase de test, el boosting genera
a la salida de cada SVM un parámetro (λ). Este parámetro indica la importancia de cada área
funcional. Se han realizado cuatro tipos de entrenamientos diferentes con los mismos datos de
entrada: entrenamiento, entrenamiento y test, V-Fold y LOO. Mediante varios experimentos con
cada uno de estos tipos de entrenamiento, se ha llegado a la conclusión que con cualquiera de
los cuatro los resultados son más que aceptables 5.6. El algoritmo con mejores prestaciones se
ha comprobado que es V-Fold.
No se pretende valorar o comparar diferentes tipos de algoritmos de clasicación, sino cons-
truir una librería de funciones generada a tal efecto.
Sin embargo, a la vista de los resultados del capítulo 5, se puede hacer una pequeña discusión
109
110 CAPÍTULO 6. CONCLUSIONES
de éstos.
Las tasas de error son sucientemente bajas, como para considerar que el algoritmo está
optimizado con respecto a anteriores versiones. Prueba de ello es que mejora o iguala los
resultados del artículo [37]
Se han hecho con éxito diferentes pruebas para vericar la estabilidad de las funciones.
Se podría probar todo lo que se ha realizado en este proyecto mediante otros tipos de
kernels. El kernel que se ha utilizado en este caso ha sido RBF (de base radial gaussiana). La
investigación en kernels de Mercer está abierta y produce gran cantidad de comunicaciones
cientícas al año. No se puede, por tanto, descartar el uso de kernels construidos a medida
de este tipo de problemas, que produzcan mejores prestaciones que los aquí utilizados.
Además, se podrían emplear otros algoritmos de boosting existentes como pueden ser el
Adaboost.L (logístico) o el Adaboost.M2 (multiclase) ( [19]). Como se ha dicho anterior-
mente, se sabe que el Adaboost.L produce mejores resultados que el Adaboost estándar
multiclase cuya versión distribuida se ha usado aquí.
6.2 Campos de investigación futuros 111
En este proyecto se han utilizado 14 áreas funcionales, lo que produce una detección espacial
grosera. Se ha descartado el uso de áreas más nas, tales como las áreas de Broadman (cerca
de 75 áreas por cada hemisferio) [8] porque el uso de demasiadas áreas funcionales degrada
las prestaciones del boosting. En efecto, existen teoremas acerca de las cotas de error del
boosting distribuido [32] que arman que la probabilidad de error aumenta en proporción
al número de áreas utilizadas y de forma inversamente proporcional al número de datos de
entrenamiento.
Para solventar este inconveniente, se pueden aplicar estos algoritmos a conjuntos de másca-
ras groseras como las que hemos empleado y, descartando las que no contienen información,
dividir las máscaras supervivientes en máscaras más nas e iterar el algoritmo.
112 CAPÍTULO 6. CONCLUSIONES
APÉNDICES
113
APÉNDICE A
PRESUPUESTO DEL PROYECTO
En este apéndice se presentan justicados los costes globales de la realización de este Proyecto
Fin de Carrera. Tales costes, imputables a gastos de personal y de material, se pueden deducir
de las Tablas A.1, A.2 y A.3.
En la Tabla A.1 se muestran las fases del proyecto y el tiempo aproximado para cada una de
ellas. Así pues, se desprende que el tiempo total dedicado por el proyectando ha sido de 1.200
horas, de las cuales aproximadamente un 20 % han sido compartidas con el tutor del proyecto,
por lo que el total asciende a 1.440 horas. Teniendo en cuenta que la tabla de honorarios del
Colegio Ocial de Ingenieros Técnicos de Telecomunicación establece unas tarifas de 60 ¿/hora(
teniendo en cuenta que son horas dentro de la jornada laboral, tal y como viene en el punto 19 de
la baremación hecha por el COIT) el coste de personal, teniendo en cuenta sólo el trabajo de los
ingenieros de Telecomunicación, se sitúa en 86.400 ¿. A esto hay que añadir en el apartado de
costes de personal los investigadores senior, el médico y los técnicos que han de estar presentes en
cada experimento(en este proyecto se ha trabajado con 182 experimentos). El coste de personal
aparece desglosado en la tabla A.2.
En la Tabla A.3 se recogen los costes de material desglosados en equipo informático, escá-
ner, local de trabajo, documentación y gastos varios no atribuibles (material fungible, llamadas
telefónicas, desplazamientos...). Ascienden, pues, a un total de 40.420 ¿.
A partir de estos datos, el presupuesto total es el mostrado en la Tabla A.4.
115
116 APÉNDICE A. PRESUPUESTO DEL PROYECTO
Concepto Importe
Costes personal 202.880¿
Costes material 40.420 ¿
Base imponible 275.300 ¿
I.V.A. (16 %) 44.048¿
TOTAL 287.348 ¿
118 APÉNDICE A. PRESUPUESTO DEL PROYECTO
Bibliografía
[1] http://www.gatsby.ucl.ac.uk/~fernando/irwls_c.html.
[2] http://www.boosting.org/.
[4] P. Barlett, Y. Freund, W. S. Lee, and R. E. Schapire. Boosting the margin: a new explanation
for the eectiveness of voting methods, October 1998.
[5] P. L. Bartlett. For valid generalization the size of the weights is more important than the
size of the network. in NIPS, 1996. M. Mozer, M. I. Jordan and T. Petsche, pp.134140.
[7] M. Brett. The mni brain and the talairach atlas, February 2002.
[8] K. Broadmann. Broadman's Localisation in the Cerebral Cortex. Imperial College Press,
London, 1999.
[9] C. J. Burges. A tutorial on support vector machines for pattern recognition. Data Mining
and Knowledge Discovery, 2(2):132, 1998.
[10] V. Calhoun, T. Adali, G. Pearlson, and J. Pekar. Group ica of functional mri data: Separa-
bility, stationarity and inference. December 2001. San Diego, CA: Proceedings ICA2001.
119
120 BIBLIOGRAFÍA
[11] C. Campbell. An Introduction to Kernel Methods, chapter Radial Basis Function Networks:
Design and Applications. Physica Verlag, Berlin, 2001.
[12] C.-C. Chang and C.-J. Lin. LIBSVM: a library for support vector machines, 2001.
[13] W. Chau and A. R. McIntosh. "The Talairach coordinate of a point the MNI space: how to
interpret it". Neuroimage, 25(2):408416, April 2005.
[14] R. Courant and D. Hilbert. "Methods of Mathematical Phisics". John Wiley and Sons,
1953.
[15] D. D. Cox and R. L. Savoy. "Functional magnetic resonance imaging (fmri) "brain reading":
detecting and classifying distributed patterns of fmri activity in human visual cortex". Neu-
roimage, pages 261270, 2003.
[17] H. Drucker and C. Cortes. "Boosting decision trees". in NIPS, 8:479485, 1996. Cambridge,
MA: MIT Press.
[19] G. Eibl and K. P. Pfeier. Analysis of the performance of adaboost.m2 for the simulated
digit-recognition-example. ECML, 2167:109120, 2001. L. D. Raedt and P. A. Flach.
[20] W. Fan, S. J. Stolfo, and J. Zhang. The application of adaboost for distributed, scalable
and on-line learning. In Proceedings of the Fifth ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining, pages 362366, San Diego, CA, August 1999.
[21] Y. Freund and R. Schapire. A short introduction to boosting. Japanese Society for Articial
Intelligence, 14(5):771780, September 1999.
[26] R. Herbrich. Learning Kernel Classiers: Theory and Algorithms (Adaptive Computation
and Machine Learning S.). The M.I.T Press, Cambridge, Massachusetts, 2002.
[27] T. Jaakkola, M. Diekhans, and D. Haussler. A discriminative framework for detecting remote
protein homologies. Journal of Computational Biology, 7(1,2):95114, 2000.
[28] Y. Kamitani and F. Tong. Decoding the visual and subjective contents of the human brain.
Nature Neuroscience, 8(5):679685, 2005.
[30] M. J. Kearns, M. Li, and L. G. Valiant. "Learning boolean formulas". J. ACM, 41(6):1298
1328, 1994.
[33] S. LaConte, S.Strother, V. Cherkassky, J. Anderson, and X. Hu. "Support vector machines
for temporal classication of block design fmri data". Neuroimage, 26:317329, 2005.
122 BIBLIOGRAFÍA
[34] J.-X. Liu, J. Li, and Y.-J. Tan. An empirical assessment on the robustness of support vector
regression with dierent kernels. Machine Learning and Cybernetics. Proceedings of 2005
Internacional Conference on, 7(7):42894294, August 2005.
[35] M. Martínez-Ramón and C. Christodolou. Support Vector Machines for Antenna Array
Processing and Electromagnetics. Morgan and claypool publisher, Arizona, 2006.
[38] J. Matas and J. Sochman. Adaboost. Centre for Machine Perception. Czech Technical
University, Prague.
[42] C. Moonen and P. Bandettini. Functional MRI. 1999. Eds. Springer-Verlag Berlin.
[43] T. Onoda, G.Rätsch, and K.-R. Müller. An asymptotic analysis of adaboost in the binary
classication case. pages 16.
[45] M. Rochery, R. E. Schapire, and M. Rahim. "Boosting With Prior Knowledge for Call
Classication". IEEE transactions on speech and audio processing, 13(2):174181, march
2005.
[46] G. Rätsch, A. Demiriz, and K. Bennett. "Sparse Regression Ensembles in Innite and Finite
Hypothesis Spaces". NeuroCOLT2 Technical Report Series, (27150):132, October 2000.
[48] G. Rätsch, B. Schökopf, S. Mika, and K.-R. Müller. "SVM and boosting: One class".
Technical Report 119, 119, November 2000. GMD FIRST.
[50] R. E. Schapire and Y. Singer. Improved boosting algorithms using condence-rated predic-
tions. Machine Learning, 37(3):297336, 1999.
[52] A. Smola and B. Schölkopf. A tutorial on support vector regression. 1988. NeuroCOLT
Technical Report NC-TR-98-030, Royal Holloway College, University of London, UK.
[55] J. Talairach and P. Tournoux. Co-planar stereotaxic atlas of the human brain. Thieme,
1988.
[58] V. Vapnik. Estimation of Dependences Based on Empirical Data: Springer Series in Statis-
tics. New York, 1982.
[59] V. Vapnik. Principles of risk minimization for learning theory. In M. Kaufmann, editor,
NIPS, pages 831838, 1991.
[60] V. Vapnik. Statistical Learning Theory, Adaptive and Learning Systems for Signal Proces-
sing, Communications, and Control. Simon Haykin, 1998.
[61] V. Vapnik. The Nature of Statistical Learning Theory Autor. New York, second edition,
2000.
[62] A. Villringer and U.Dirnagl. Coupling of brain activity and cerebral blood ow: basis of
functional neuroimaging. Cerebrovascular and Brain Metabolism Reviews, (7):240276, 1995.
[64] R. S. Zemel and T. Pitassi. A gradient-based boosting algorithm for regression problems.
In In Proceedings of 7th WOLLIC'2000, pages 191199, Canada, 2000.