Advances in Machine Learning Research - Es

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 28

Accelerating the world's research

Avances en la investigación del


aprendizaje automático
Traducido de: Advances in Machine Learning Research

Bojan Ploj

¿Necesitas citar este ¿Quieres más papeles como este?


documento?
Descargue un paquete PDF de documentos
Recibe la cita en los estilos relacionados
MLA, APA o Chicago
Busque en el catálogo de la Academia de 22 millones
de artículos gratuitos

translated with Academia.edu 


TRADUCCIÓN 1

Avances en la investigación del


aprendizaje automático
Bojan Ploj

Original Paper 

Abstracto
Durante los últimos veinte años, los métodos basados en gradientes se han centrado
principalmente en el campo de aprendizaje de la red neuronal artificial Feed Forward. Son los
derivados del método Backpropagation con varias deficiencias. Algunos de estos incluyen la
incapacidad para: agrupar y reducir el ruido, cuantificar la información de calidad de los
datos, eliminación de datos de aprendizaje redundantes. Se han identificado otras áreas
potenciales de mejora; incluyendo, inicialización aleatoria de valores de parámetros libres,
aprendizaje dinámico de nuevos datos a medida que están disponibles, explicación de
estados y configuraciones en capas ocultas de ANN aprendidas, entre otros. Este capítulo
trata sobre el enfoque contemporáneo, sin gradientes, del aprendizaje de la RNA, que ya no
se basa en la reducción gradual del error de aprendizaje remanente y trata de eliminar la
mayoría de las deficiencias mencionadas. La introducción incluye una descripción
cronológica de algunos métodos, que se ocupan de las soluciones de los problemas
mencionados: inicialización de redes neuronales mediante árboles de decisión (Arunava
Banerjee, 1994), DistAl: un algoritmo de aprendizaje constructivo basado en distancia entre
patrones (Jihoon Yang, 1998), geometría síntesis de redes neuronales feedforward multicapa
o Multi-Layer Perceptron (Rita Delogu, 2006) y Bipropagation-una nueva forma de aprendizaje
MLP (Bojan Ploj, 2009) Continuamos con la descripción de un nuevo método de aprendizaje-
Border Pairs Method (BPM) , que en comparación con los métodos de gradiente conlleva
numerosas ventajas o elimina la mayoría de los

deficiencias del predecesor. El BMP implementa y utiliza pares de patrones de


aprendizaje de pares de bordes en el espacio de entrada, que se encuentran cerca del borde
de la clase.

El número de pares de límites nos da alguna información sobre la complejidad del


proceso de aprendizaje. Los pares de límites también son la base perfecta para la reducción
TRADUCCIÓN 2

de ruido. Determinamos que es suficiente realizar una reducción de ruido de los pares de
bordes.

Al dividir el espacio de entrada, se establecen las áreas homogéneas (clusters). Para


cada segmento lineal de borde asignamos una neurona en la primera capa. El aprendizaje de
MLP comienza en la primera capa adaptando neuronas individuales. Las neuronas de las
primeras capas están saturadas, por lo que obtenemos un código binario en la salida de la
primera capa: el código está unificado para todos los miembros del mismo grupo. Las
operaciones lógicas basadas en los datos de la primera capa se ejecutan en las siguientes
capas. Las pruebas demostraron que dicho aprendizaje es confiable, no está sujeto a
sobreajuste, es apropiado para el aprendizaje en línea y susceptible a la deriva de conceptos
en el proceso de aprendizaje (olvido y aprendizaje adicional).

INTRODUCCIÓN
Las redes neuronales artificiales (ANN) ya se conocen desde hace varias décadas y
durante este tiempo se han vuelto bien aceptadas y se han convertido en uno de los sistemas
inteligentes más comunes. Una de sus mejores características es que son fáciles de usar,
porque el usuario no necesita saber nada sobre su rendimiento (principio de caja negra).
Desafortunadamente, su aprendizaje no es tan simple y eficiente, por lo que los científicos
han tratado de mejorarlos continuamente desde que comenzaron a existir. Los más
utilizados son los métodos de aprendizaje iterativo, que se basan en la reducción paulatina
del error de aprendizaje acumulativo y tienen muchas deficiencias: No detectan y eliminan
el ruido No saben estimar la complejidad de los patrones de aprendizaje No no agrupar
datos No encontrar características Aprendizaje poco confiable Aprendizaje inexacto
Aprendizaje no constructivo No resistencia al ajuste excesivo No se eliminan patrones
estériles Aprendizaje no modular Aprendizaje iterativo No apto para aprendizaje
dinámico Estos métodos iterativos se basan en el cálculo del gradiente de error, por lo tanto,
su error de aprendizaje disminuye en una serie de pequeños pasos y, al hacerlo, el sistema a
menudo se atasca en un mínimo local.

En el siguiente texto, primero notaremos el aprendizaje del descenso de gradiente, y


luego percibiremos dos nuevos algoritmos: Bipropagación y Método de pares de bordes. El
primer algoritmo, Bipropagation, es una mejora menor del conocido algoritmo
Backpropagation y aún permanece en pendiente descendente. El segundo algoritmo, el
método de pares de bordes, es un diseño completamente nuevo y elimina con más o menos
éxito todas las desventajas enumeradas de los métodos de gradiente. También se
mencionarán algunas de las áreas de BPM, que aún no se han investigado a fondo.
TRADUCCIÓN 3

APRENDIZAJE GRADIENTE
Un representante típico del aprendizaje de descenso de gradientes es Perceptron, una
simple red neuronal Feedforward (FFNN), introducida por Frank Rosenblatt en 1957 [11, 14,
38]. Todas las neuronas de Perceptron están dispuestas en una línea recta, que se denomina
capa (Figura 1). Sus valores de entrada y salida pueden ser continuos o discretos. El proceso
de aprendizaje se llama regla delta y se lleva a cabo gradualmente a lo largo de una serie de
repeticiones (proceso iterativo). El aprendizaje y la estructura de Perceptron son simples,
pero desafortunadamente también son problemas simples que puede resolver de manera
efectiva, ya que solo tiene éxito cuando los patrones de aprendizaje se pueden separar por
una línea recta o su equivalente multidimensional (separabilidad lineal). Los problemas de la
vida real no suelen ser tan sencillos.

Con la conexión en serie de varios perceptrones se crea un perceptrón multicapa (MLP)


como se muestra en la Figura 2, que ya no tiene las restricciones lineales mencionadas. Si el
MLP es lo suficientemente grande, se puede utilizar para resolver cualquier tarea exigente
(teorema de Kolmogorov), pero con su tamaño también aumenta la complejidad de su
aprendizaje. Su algoritmo de aprendizaje original se llama Backpropagation. Descubierto por
Paul Werbos en 1974, no se hizo cumplir hasta 1986 [14] y luego provocó un resurgimiento
de las redes neuronales, que ya han comenzado a hundirse lentamente en el olvido. El evento
fue tan notable que el período anterior a su resurgimiento se llamó AI Winter, porque hasta
entonces no había un algoritmo de aprendizaje apropiado para el perceptrón multicapa, y el
de una sola capa dio resultados demasiado modestos. La retropropagación es uno de los
algoritmos para el aprendizaje supervisado, donde se conocen los valores de salida deseados
para cada patrón de aprendizaje. Durante el proceso de aprendizaje, los pesos de las sinapsis
y los sesgos cambian de forma iterativa de modo que el error acumulativo de todos los
patrones de aprendizaje se reduce gradualmente. Estos cambios se basan en el gradiente de
error de aprendizaje acumulativo, por lo tanto, durante el proceso de aprendizaje, puede llegar
a los mínimos locales y quedarse atascado allí. Al comienzo del aprendizaje, los pesos de las
sinapsis se seleccionan al azar, lo que normalmente significa que están lejos del valor
óptimo, lo que resulta en un aprendizaje lento, prolongado y poco confiable.

A lo largo de los años, el algoritmo de retropropagación recibió una serie de variantes


(Quickprop, Quasi-Newton, Levenberg-Marquardt ...), que conservan todas estas propiedades
comunes basadas en el aprendizaje del descenso de gradientes y los inconvenientes
asociados:

Lentitud: para un aprendizaje exitoso se necesita una gran cantidad de iteraciones,


donde los parámetros libres se calculan gradualmente en pequeños pasos. Por lo general, se
requieren varios miles de tales incrementos para producir la red neuronal aprendida
correspondiente. Esta no es la única causa de la lentitud, ya que con la excepción de los
patrones de aprendizaje útiles (vectores de apoyo), también se utilizan los estériles. Falta de
TRADUCCIÓN 4

confiabilidad: durante el proceso de aprendizaje, el error acumulativo de los patrones de


aprendizaje se calcula de manera iterativa, que con las correcciones de descenso de
gradiente se reduce gradualmente. Buscamos los mínimos globales, durante los cuales
ocurre con frecuencia que nos disparamos y nos atascamos en el mínimo local, y así
concluimos el proceso de aprendizaje cuando el error de aprendizaje aún es mucho mayor de
lo aceptable. En este caso, se cambia el valor inicial de los parámetros libres y se repite todo
el proceso de aprendizaje tantas veces como sea necesario hasta que haya un cambio de
suerte. Debido a la falta de constructividad de los métodos de aprendizaje (consulte el
siguiente párrafo), tenemos que adivinar la construcción MLP adecuada. También es posible
que debido a una construcción de MLP inadecuada, el aprendizaje nunca sea exitoso. Un
MLP demasiado pequeño no se puede aprender satisfactoriamente; demasiado grande se
somete a un ajuste excesivo, lo que tampoco es bueno. Poco constructivo: entre el
aprendizaje con el algoritmo de descenso de gradiente, no sabemos nada sobre el número
óptimo de capas y el número óptimo de neuronas en capas individuales de redes neuronales.
La construcción óptima se busca a través de conjeturas, de modo que aprendamos muchos
MLP diversos y, al final, usemos lo mejor. Debido a la falta de confiabilidad del aprendizaje
(ver párrafo anterior), debemos aprender cada MLP aún más veces.

Las dos últimas deficiencias se fomentan mutuamente, por lo que puede suceder que el
aprendizaje entre en un círculo vicioso del que no se pueda encontrar la salida. Debido a
estas deficiencias, el aprendizaje de MLP con los métodos de gradiente es complejo y
relativamente ineficiente.

Aparte de las deficiencias anteriores durante este tipo de aprendizaje, surgen una serie
de preguntas:

¿Es necesario que el proceso de aprendizaje utilice todos los patrones de aprendizaje, o
sería suficiente utilizar los patrones ya seleccionados? ¿Cómo elegir estos patrones?
Podemos suponer que aprender con patrones seleccionados será más rápido y con menos
complicaciones. Una idea similar es utilizada por el método de SVM [9, 22,34], donde los
patrones de aprendizaje seleccionados se denominan vectores de apoyo. ¿Es posible
encontrar el valor inicial de los parámetros libres de MLP que son mejores que aleatorios?
¿Es posible determinar los valores de los parámetros libres en un solo paso (no iterativo)? En
parte, esto es cierto para el método de bipropagación, donde algunos pesos se determinan de
antemano [1]. ¿Puede el uso de una función con una dimensión mayor que el espacio de
entrada simplificar y mejorar el aprendizaje? ¿Cómo encontrar estas características
potenciales? Por lo general, la función tiene una dimensión más pequeña que el patrón de
aprendizaje original, ya que tiene como objetivo eliminar la redundancia en los datos. Al revés
se aplica el método de vectores de soporte, que busca localizar características de mayores
dimensiones, que son linealmente separables [34]. ¿Existe en las capas ocultas del MLP
aprendido algún tipo de regla? ¿Esa regla informa de alguna manera algo sobre el
TRADUCCIÓN 5

funcionamiento de las capas internas de MLP? Hasta ahora, se pensaba que el MLP es una
caja negra, que en la salida da un resultado que no va acompañado de una explicación [14].
¿Es posible durante el proceso de aprendizaje encontrar una construcción MLP (casi) óptima
para patrones de aprendizaje dados? Por lo general, bajo el término construcción óptima se
entiende como un MLP pequeño, que todavía resuelve determinados problemas, porque los
MLP pequeños están menos sujetos a sobreajuste [14]. Cuando queremos un MLP robusto
es necesario agregar algunas neuronas redundantes que puedan reemplazar a las dañadas.
Algunos otros métodos durante el aprendizaje encuentran una construcción MLP adecuada,
que no es necesariamente óptima. ¿Es posible durante el proceso de aprendizaje reducir el
ruido de los patrones de aprendizaje y, como tal, simplificar el aprendizaje y aumentar su
precisión? Existen varios métodos de reducción de ruido, que se llevan a cabo ya antes del
inicio del aprendizaje. La reducción óptima del ruido tiene lugar durante el proceso de
aprendizaje; se lleva a cabo en la medida apropiada y afecta solo a los patrones de
aprendizaje relevantes.

¿Es posible ya antes del proceso de aprendizaje identificar la calidad de los patrones de
aprendizaje y qué tan difícil será aprender? Es bueno durante el proceso de aprendizaje saber
qué datos de aprendizaje se están tratando, porque entonces se pueden ajustar los requisitos
y las expectativas. Si los datos de aprendizaje son malos (ruido, superposición, falta de
representatividad ...), no debemos esperar un buen resultado de aprendizaje [54].

¿Es posible agrupar datos durante el proceso de aprendizaje?


Agrupar los datos de entrada durante el proceso de aprendizaje significa que el problema
complejo se divide en varios más simples, lo que también facilita la comprensión de cómo
MLP resuelve el problema dado. ¿Es posible el aprendizaje MLP incremental y en línea
efectivo? En el algoritmo de retropropagación suele ser necesario repetir todo el proceso de
aprendizaje desde el principio en adelante debido a un patrón de aprendizaje adicional [54]. El
algoritmo ideal permite la continuación del aprendizaje previo. ¿Es posible desviar el
concepto durante el proceso de aprendizaje? Igual que cuando se agregan nuevos patrones
de aprendizaje, lo mismo se aplica también en la eliminación de obsoletos. Debido a que solo
se ha eliminado o añadido un patrón de aprendizaje, no queremos repetir todo el proceso de
aprendizaje.

ALGORITMO DE BIPROPAGACIÓN
El algoritmo de bipropagación es el vínculo intermedio entre los algoritmos de gradiente
y no gradiente. Fue descubierto por Bojan Ploj en 2009 [1] como una mejora del algoritmo de
retropropagación. La bipropagación ha conservado el carácter iterativo y no constructivo de
su predecesor y se ha apoderado de la idea de las funciones del núcleo de la máquina de
TRADUCCIÓN 6

vectores de soporte. La función del núcleo en la primera capa hace que la linealización
parcial del espacio de entrada permita un aprendizaje más rápido y confiable de las capas
posteriores. A menudo sucede que debido a los patrones de aprendizaje difíciles el método
de retropropagación falla por completo, mientras que debido a la linealización el método de
bipropagación en las mismas condiciones es rápido, eficiente y confiable.

La idea original del algoritmo de Bipropagación es que las capas ocultas MLP obtengan
los valores deseados. Así, el perceptrón de capa N se divide en N perceptrones de capa única
y con eso el complejo problema del aprendizaje se divide en varios problemas más simples,
independientes entre sí. Por tanto, el aprendizaje se vuelve más fácil, rápido y fiable que el
método de retropropagación. El prefijo bi-en el nombre del algoritmo surgió porque las
correcciones de las sinapsis de pesos durante el aprendizaje se extendieron en ambas
direcciones (hacia adelante y hacia atrás).

La gradualidad del método de bipropagación de capa a capa también es evidente en la


matriz de distancias euclidianas entre patrones de aprendizaje (Ecuación 1). Los elementos
en la misma posición de la matriz desde la capa de entrada hacia la salida cambian
gradualmente los valores (ecuación 1, 2 y 3).

Descripción del algoritmo de bipropagación


Describiremos el algoritmo con el ejemplo de la función lógica XOR. Como ya se dijo, la
idea básica del algoritmo de bipropagación es que las capas internas ya no están ocultas,
sino que obtienen los valores de salida deseados. Con esta medida, el aprendizaje de todo el
MLP se divide en el aprendizaje de dos capas lineales individuales que no tienen ningún
problema con los mínimos locales.

La construcción MLP adecuada para este problema se muestra en la Figura 3. La función


XOR se eligió para este ejemplo porque no es extensa y también contiene mínimos locales, lo
que causa problemas a muchos otros métodos. Tabla 1. Función XOR lógica.

Los elementos de la matriz Ri son distancias euclidianas entre patrones de aprendizaje


individuales. La distancia entre los patrones nym en la matriz se encuentra en la fila ny la
columna m. Debido a que la distancia euclidiana es conmutativa, la matriz R i es simétrica
con respecto a su diagonal principal, donde solo hay ceros, ya que existen distancias dadas
para aprender patrones de sí misma. De manera similar, obtenemos la matriz de distancias
euclidianas para los datos de la capa de salida:

Podemos ver una similitud entre las matrices R i, R n y R o. Si ignoramos la anti-diagonal,


los valores de los elementos en las mismas posiciones de las tres matrices son los mismos.
Veamos el anti-diagonal con más detalle. La matriz de entrada R i tiene todos sus valores
TRADUCCIÓN 7

iguales a la raíz cuadrada del número dos, la matriz interna R n ya contiene dos ceros y la
matriz de salida R o contiene solo ceros. Observamos que los valores de la matriz R n están
entre los valores de R i y R o en la misma posición, y que estos valores cambian
gradualmente, lo que nos da la esperanza de que estamos en el camino correcto hacia una
solución.

El mayor problema del método de bipropagación es la búsqueda de valores internos


deseados adecuados (X n e Y n), que permiten una disminución gradual de los valores en la
misma posición de las matrices R. El autor del algoritmo propone dos formas de buscar
valores deseados internos relevantes:

1 Analítico: En este método de definir los valores deseados de las capas internas se
introduce un nuevo concepto llamado calidad de patrones (PQ).

Ecuación 4
Donde es: ∑DDC = la suma de las distancias entre patrones de diferentes clases ∑DSC =
la suma de las distancias entre patrones de la misma clase

Queremos que la calidad de los patrones con cada transición a la siguiente capa
aumente, respectivamente que los miembros de la misma clase se acerquen entre sí y que
los miembros de diferentes clases se distancien entre sí. Para calcular el valor de las capas
internas se utiliza un sistema no lineal de ecuaciones con parámetros libres (funciones del
núcleo). Al calcular la calidad de los patrones para la capa interna, obtenemos una expresión
que contiene solo constantes y parámetros libres. Al elegir los parámetros libres, se
maximiza la calidad de los patrones en la capa interna.

Un ejemplo de un sistema no lineal de ecuaciones se muestra en la ecuación 5. Los


pares (x, y) forman un conjunto bidimensional de patrones de aprendizaje, que tienen el papel
de variables, constantes a, b, c, d, e yf son parámetros libres. Después de la transformación
con la ecuación 5 obtenemos nuevos valores internos: Tabla 3. Valores internos
transformados.

A partir de eso, los parámetros libres se pueden calcular fácilmente:

Al insertarlos en el sistema de ecuaciones no lineales obtenemos:

2 Gráficamente: De esta manera se selecciona el valor deseado de la capa interna en el


intervalo entre el valor de entrada y el valor de salida deseado. Se puede utilizar su media
aritmética. En el caso de la Figura 4, todos los círculos grises van a la mitad del punto (0, 0) y
todos los círculos blancos a la mitad del punto (1, 1). Si hay más capas internas, se utiliza el
TRADUCCIÓN 8

principio de gradualismo. Así, en un perceptrón de cuatro capas se realiza un movimiento de


un tercio en la primera capa interna, en la segunda capa interna un movimiento de dos
tercios.

El algoritmo de bipropagación se prueba con diferentes conjuntos de patrones de


aprendizaje y muestra que es rápido y confiable. El aprendizaje de la función lógica XOR con
el método de bipropagación se ejecuta más de 25 veces más rápido que el método de
retropropagación [1]. En esto también el número de épocas de aprendizaje necesarias es
mucho más constante (la desviación estándar es menor), lo que indica que somos menos
dependientes de la suerte al elegir los valores iniciales de los pesos. Además, las pruebas
con datos de aprendizaje reales dan buenos resultados. En la prueba reconocimos dígitos
decimales escritos a mano. El conjunto de aprendizaje consistió en aproximadamente 60 mil
dígitos que se leyeron con una resolución de 28 x 28 puntos y fueron aportados por más de
500 escritores diferentes. A pesar de la gran cantidad de datos, todos los dígitos de
aprendizaje se han identificado correctamente después de solo unas diez iteraciones.

También los dígitos de prueba han dado buenos resultados. El método Backpropagation
en las mismas circunstancias fracasó por completo, ya que su error de aprendizaje ni
siquiera comenzó a reducirse. En esta comparación se utilizó el método conjugado de
retropropagación de Levenberg-Marquardt, que se considera uno de los métodos de
aprendizaje en gradiente más eficaces.

MÉTODO DE PARES FRONTERIZOS


Un paso más avanzado que el método de bipropagación es el método de pares de
fronteras, un método constructivo sin gradiente de clasificación de aprendizaje automático.
Esto proporciona mucho más que el método de gradiente: validación de los patrones de
aprendizaje, eliminación de patrones de aprendizaje estériles, agrupación de patrones de
aprendizaje, formación de características, reducción de ruido y clasificación de patrones de
aprendizaje. Este método completamente nuevo se lleva a cabo de forma no iterativa, de
forma fiable, sin estar sujeto a sobreajustes y, además, también es adecuado para
aplicaciones dinámicas.

aprendizaje (en línea o fuera de línea) y para la deriva de conceptos [54]. Entre otras
cosas, se diferencia del método de bipropagación en que el límite entre las clases está
completamente linealizado, lo que se realiza en secciones.

Definición de pares fronterizos


Primero, definimos el concepto de puntos cercanos. La palabra cercana queremos
TRADUCCIÓN 9

determinar con la mayor precisión posible, de manera fácil y al mismo tiempo adecuada para
el espacio de entrada con un número arbitrario de dimensiones. Estos requisitos de
definición de proximidad corresponden a la distancia euclidiana d AB entre los puntos A y B
en el espacio dimensional N: Ecuación 8 N = el número de dimensiones del espacio de
entrada Todos los puntos en el espacio bidimensional, que están distantes para el misma
distancia euclidiana desde el punto de partida (el centro), forma un círculo. La Figura 5
muestra los puntos A y B, que se denominan puntos cercanos, si dentro de la intersección de
sus círculos con un radio, que corresponde a su distancia euclidiana mutua (área con
sombreado) no hay un tercer punto. En el espacio tridimensional los círculos se reemplazan
por esferas, en el espacio de cuatro o más dimensiones con hiper esferas. La Figura 6
muestra un ejemplo de patrones de aprendizaje distribuidos aleatoriamente. La línea
discontinua es el límite óptimo; los círculos negros son patrones de aprendizaje negativos y
los blancos son positivos. Los participantes de Border Pairs están ilustrados con círculos
más grandes. Los participantes del mismo par de bordes están conectados por una línea. En
la figura 6 podemos ver siete pares de bordes, y el mismo patrón de aprendizaje también
puede involucrar más pares (por ejemplo, patrón nº 50). Dado que los datos mostrados no
incluyen ruido, todos los círculos blancos están en el lado derecho de la línea del borde y
todos los negros en el izquierdo.

El impacto de la función de datos de aprendizaje en los pares


fronterizos

Influencia del número de patrones en el número de pares de bordes


Esta investigación evalúa cómo el número de patrones de aprendizaje influye en el
número de pares de fronteras. Los datos de inicio cambian el número de patrones de
aprendizaje de diez a doscientos según la escala logarítmica, siendo el número de patrones
positivos siempre el mismo que el número de negativos. Para eliminar la influencia de la
coincidencia se repitió la investigación un centenar de veces y se calculó el promedio. Los
datos de la Tabla 4 muestran el número absoluto y la participación relativa de los patrones de
aprendizaje que son participantes en pares fronterizos. [54] Se encontró que al aumentar el
número de patrones también aumenta el número de pares de bordes, pero mucho más
lentamente que el número de patrones y, por lo tanto, la proporción relativa de participantes
se reduce. La amplificación veinte veces mayor del número de patrones de aprendizaje (de
10 a 200) provoca solo un aumento de cuatro veces en el número de pares de bordes (de
2,96 a 13,00).

El impacto de la proporción de patrones de aprendizaje en el


TRADUCCIÓN 10

número de pares fronterizos


Además, la relación entre el número de patrones positivos y negativos tiene un impacto
en el número de pares de bordes. Al igual que en las investigaciones anteriores, excluimos el
impacto de la aleatoriedad, por lo que se repitió el cálculo cien veces y se calculó la media.
Se encontró que el máximo de pares se obtiene cuando los patrones positivos y negativos
son del mismo número, al aumentar las diferencias el número de pares disminuye (ver Tabla
5).

Observamos que en la clase minoritaria tiene sentido tener al menos el 20 por ciento de
los patrones de aprendizaje, es decir, el número de pares de fronteras disminuye
considerablemente y la determinación de la frontera se vuelve difícil.

El impacto del ruido en el número de pares fronterizos


Al aumentar el ruido también aumenta el número de pares de bordes. La intensidad del
ruido en la tabla 6 se da en porcentajes de todo el rango de valores de entrada. 2% de ruido,
por lo tanto, significa que el valor de la variable x después de agregar ruido viene en el
intervalo x ± 0.01. De los resultados de la investigación en la Tabla 6 es evidente que al
aumentar el ruido, también aumenta monótonamente el número de pares de bordes.

El impacto del ruido en los valores atípicos


Aquí investigamos cómo la intensidad del ruido afecta la fuerza del número de patrones
de aprendizaje atípicos, que debido al ruido sobrepasan el límite entre las clases. Al hacerlo,
observamos dos tipos separados de valores atípicos: participantes y no participantes en los
pares fronterizos. De los resultados de la investigación en la Tabla 7 encontramos:

1) La gran mayoría de los valores atípicos están involucrados en pares de fronteras.

2) Una gran mayoría de patrones, que no son participantes de pares de borde, no son
valores atípicos.

REDUCCIÓN DE RUIDO CON PARES FRONTERIZOS


El ruido es un componente de datos indeseable y difícil de eliminar. Debido a que afecta
el aprendizaje y los datos de las pruebas, es posible que mueva los patrones de aprendizaje, y
con eso también la línea fronteriza en una dirección y los patrones de prueba en la dirección
opuesta. Por lo tanto, hay dos causas de clasificación errónea: El ruido de los patrones de
TRADUCCIÓN 11

aprendizaje durante el aprendizaje hace que definamos la posición incorrecta de la línea


fronteriza. El ruido de los patrones de prueba hace que crucen la línea fronteriza dada.

El principio de reducción de ruido con pares de bordes


En la reducción de ruido decidimos qué patrones de aprendizaje se moverán, en qué
dirección y en qué medida. De los resultados de la investigación sobre el impacto del ruido en
los pares de bordes podemos concluir dos cosas: 1) no tiene sentido que los patrones de
aprendizaje que no están involucrados en los pares de bordes reduzcan el ruido (moverse), ya
que es muy grande posibilidad de que no sean valores atípicos. 2) es razonable reducir el
ruido para los patrones de aprendizaje, que están involucrados en pares de bordes con un
patrón aproximado de la misma clase que no está involucrado en pares de bordes. También
pueden distanciarse del patrón no participante más cercano de la clase opuesta.

Los resultados de la reducción de ruido se verán más adelante, bajo el título Datos
ruidosos.

AGRUPAR DATOS CON EL MÉTODO DE PARES FRONTERIZOS


La agrupación es un procedimiento que divide el espacio de entrada para obtener dos o
más áreas homogéneas [43]. Un área es homogénea si contiene patrones de aprendizaje de
una sola clase. El borde entre áreas en un espacio bidimensional es una línea, que en el
espacio tridimensional sustituye a la superficie, y en el espacio cuatridimensional o más, la
hiper-superficie. Las líneas, superficies e hiper-superficies en general también pueden ser
curvas o no lineales respectivamente.

Nos limitaremos a una separación lineal, ya que en la continuación usaremos este


algoritmo para aprender MLP, donde solo se usan neuronas LTU, que tienen una línea de
borde lineal o (hiper) superficie.

Agrupación con pares de bordes


La idea básica de agrupar con pares de bordes es simple. Entre dos patrones del mismo
par de bordes dibuje una línea (Figura 8), que los separa y se llama "línea de borde" (líneas a,
byc). Las líneas de borde dividen toda el área de entrada en varias áreas (A, B, C ...). Las
áreas homogéneas de patrones de aprendizaje se denominan "grupos". La misma línea de
borde puede separar varios pares de bordes. Al hacerlo, los patrones separados de la misma
clase deben estar en el mismo semiplano. Es necesario para la separación de todos los pares
que haya tantas líneas fronterizas como pares fronterizos. Si con la misma línea se separan
TRADUCCIÓN 12

dos o más pares de bordes, entonces hemos reducido con éxito el número de líneas de borde
necesarias.

La idea de agrupar con el método de pares de bordes se formó durante el estudio del
MLP aprendido, cuando observamos el comportamiento de neuronas individuales en la capa
interna, y al hacerlo, llegó a las siguientes conclusiones:

Que el valor de salida de las neuronas está siempre cerca del valor 0 o 1, a pesar de que
tienen una función de transferencia continua, las neuronas operan en saturación. Que el
valor en la salida de la primera capa no cambia mientras permanezcamos dentro de la
misma área, lo que significa que el área de entrada está dividida en varias áreas
homogéneas, grupos. Que en la segunda capa y las subsiguientes se realiza una operación
lógica con los datos de la capa anterior.

Cada área del espacio de entrada pertenece a un código binario, que tiene un número de
bits igual al número de líneas de borde y al número de neuronas en la primera capa. El bit
individual nos dice en qué lado de la línea fronteriza correspondiente estamos. Los códigos
de área así obtenidos son características. La agrupación descrita y la determinación de
características se basan únicamente en pares de bordes o en la distancia euclidiana, por esta
razón todo se puede generalizar también en el área de entrada con un número arbitrario de
dimensiones.

Veamos el impacto del ruido en la posición de la línea fronteriza. Si agregamos un poco


de ruido a los datos de aprendizaje individuales, los patrones de aprendizaje se mueven
ligeramente y cada uno en una dirección diferente - Figura 9. Por lo tanto, el ruido quiere que
algunos patrones muevan la línea del borde hacia la izquierda (patrones 1, 3 y 7), y el ruido de
otros patrones (patrones 2, 4, 5, 6 y 8) a la derecha.

Dado que su efecto sobre la línea fronteriza es contradictorio, anula parcialmente y, por
lo tanto, la posición de la línea fronteriza, que está rodeada por numerosos pares de bordes,
debido al ruido casi nunca cambia. Esto se aplica siempre que el ruido sea lo suficientemente
pequeño como para que los patrones de aprendizaje no excedan el límite.

Complicación en la agrupación en clústeres con pares de bordes


Veamos si con la separación de todos los pares de bordes obtenemos solo un área
homogénea. Las tres líneas de borde en la figura 10 separan con éxito todos los pares de
bordes, un par (12, 15), incluso dos veces. El área de entrada se divide así en cinco secciones,
si contamos solo aquellas que contienen al menos un patrón de aprendizaje. Las cinco áreas
son homogéneas (una blanca y cuatro negras), por lo que la agrupación se realizó
correctamente.
TRADUCCIÓN 13

Este sencillo algoritmo se utilizó para la agrupación en clústeres:

Algoritmo 1: un algoritmo simple para agrupar un conjunto de datos de entrenamiento 1

Paso: Encuentra los pares de bordes. 2

Paso: Divida todos los pares de bordes con la menor cantidad posible de líneas de borde.

En el caso de patrones de aprendizaje más complejos después de la separación de todos


los pares fronterizos, a veces quedan algunos patrones de aprendizaje en el lado equivocado
de la línea y algunas áreas permanecen heterogéneas (Figura 11). El algoritmo 1 encuentra
solo pares de bordes en los lados izquierdo y derecho del cuadrado (los patrones blancos),
que están separados por dos líneas verticales. El área del medio sigue siendo heterogénea,
ya que, a excepción de los patrones blancos, contiene dos patrones negros (39 y 40). Lo
mismo se aplica a continuación. Esta realización permite mejorar el algoritmo de tal manera
que encuentre todos los pares de fronteras entre los patrones de aprendizaje. Si tras la
separación de los pares de fronteras queda una zona heterogénea, se trata de nuevo pero
esta vez por separado de otras zonas. Con esta actualización de algoritmo en cada área
heterogénea, encontramos pares de bordes adicionales que hemos pasado por alto con el
algoritmo 1 (figura 12). La búsqueda de los pares de bordes se completa solo cuando todas
las áreas son homogéneas. La búsqueda mejorada del algoritmo para pares de bordes es la
siguiente: Paso: Encuentra los pares de bordes. 2

Paso: Separe los pares de bordes con líneas de borde. Paso 3: Verificar la homogeneidad
de las áreas resultantes. Paso 4: Si encuentra un área heterogénea, busque en ella pares de
bordes adicionales y continúe con el Paso 2. El algoritmo mejorado para agrupar datos con
pares de bordes funcionó correctamente en todos los conjuntos de datos de prueba. Los
resultados de la agrupación para dieciséis conjuntos de datos de aprendizaje mediante el
método de pares de bordes con ambos algoritmos se muestran en la Tabla 9, donde está
claro que el algoritmo mejorado 2 generalmente encuentra algunos pares de bordes más que
el algoritmo simple 1

Combinación de pares fronterizos


Ya hemos mencionado que la misma línea de borde puede separar dos o más pares de
bordes. Asimismo, también sabemos que el número de líneas fronterizas corresponde al
número de neuronas en la primera capa de MLP. De estos hechos se deduce que en cada
línea tenemos que separar tantos pares como sea posible, si queremos obtener un MLP
pequeño (construcción casi mínima). Qué par de bordes separa la misma línea es una
pregunta difícil y debe investigarse más a fondo. Paso: Verifique todas las áreas del área de
entrada. Si un área es heterogénea, busque pares de bordes adicionales y continúe con el
TRADUCCIÓN 14

Paso 2.

El algoritmo 3 intenta combinar cada par de bordes con todos los demás pares de
bordes y, por lo tanto, consume mucho tiempo. El resultado también depende del orden de
los intentos de combinación.

CLASIFICACIÓN DE DATOS CON EL MÉTODO DE PARES


FRONTERIZOS

Descripción del método de clasificación de datos con pares de


bordes
El valor binario en la salida del perceptrón, que obtuvimos al agrupar los datos con el
método de pares de bordes, se puede usar para clasificar los datos en clases y es factible de
varias maneras. Uno de ellos es el álgebra de Boole (uso de funciones lógicas), ya que los
datos del agrupamiento son ante todo binarios. En esta investigación continuaremos con el
uso de perceptrones adicionales. Al perceptrón, que agrupa los datos de entrada, agregamos
en cascada más perceptrones nuevos. La red neuronal agregada se denomina resto de
perceptrón multicapa (resto MLP). Hemos investigado dos posibilidades para la
construcción del resto MLP:

1 Las capas en el resto del MLP se forman exactamente de la misma manera que
creamos la primera capa. Cuando en la siguiente capa solo queda una neurona, se concluye
la construcción de MLP. 2 Todas las capas posteriores se tratan como MLP adicional que
aprende con uno de los métodos de gradiente establecidos. Resulta que un eventual cuello
de botella está solo en la primera capa, por lo tanto, el aprendizaje del MLP adicional se
ejecuta de manera rápida y confiable. En todos los casos, el error de aprendizaje está
disminuyendo monótonamente rápidamente y, por lo tanto, parece que ninguna función de
los errores de aprendizaje residuales en el MLP adicional contiene un mínimo local.

Ejemplos de aprendizaje con el método de pares fronterizos


Los dos métodos de clasificación que acabamos de describir se probaron con varios
conjuntos de datos de aprendizaje válidos, reales y sintéticos. Los conjuntos de patrones de
aprendizaje linealmente separables ya se clasifican en la primera capa (perceptrón simple) y,
por lo tanto, la determinación de las siguientes capas no es necesaria para ellos. Es por eso
que comenzamos la investigación con el conjunto no lineal de datos de aprendizaje XOR.
TRADUCCIÓN 15

XOR
Una característica del conjunto XOR es que contiene solo cuatro patrones de aprendizaje,
que son solo bidimensionales, pero que causan problemas para numerosos algoritmos de
aprendizaje. La razón de esto es que los mínimos locales de la función XOR en los que el
método de gradiente a menudo cambia y generalmente se atasca. En este caso, el
aprendizaje ya se detiene, cuando el error de aprendizaje residual sigue siendo muy grande o
demasiado grande.

Veamos el curso de aprendizaje de la función XOR con el método de pares de bordes.


Primero, encuentre los pares de bordes. De la Figura 13 es evidente que entre los pares de
puntos A y B, A y C, B y D y C y D no hay puntos intermedios. Entonces tenemos cuatro pares
de bordes: AB, AC, BD y CD. Después de buscar pares de bordes, su combinación es la
siguiente. Los pares AB y AC se pueden combinar, ya que pueden estar separados por la
misma línea o por una neurona. Debido a que para los pares restantes una línea es suficiente,
hemos logrado separar todos los pares de bordes con solo dos líneas, lo que significa que la
primera capa de MLP contiene solo dos neuronas. Por lo tanto, la búsqueda, separación y
combinación de pares de bordes se realiza de manera fácil, rápida y sin desplazarse. En la
salida de la primera capa se obtiene: Debido a que tenemos datos de aprendizaje
bidimensionales, se puede dibujar la situación en la capa interna. De la Figura 14 es evidente
que los datos en la salida de la capa interior son linealmente separables; en consecuencia,
suficiente para el resultado final es una neurona adicional en la segunda capa, que es
simultáneamente la última. También podemos llegar a las mismas conclusiones si
construimos una segunda capa de la misma manera que la primera. Los patrones de
aprendizaje transformados, que se obtienen en la salida de la primera capa y se dan en la
Tabla 11, se transportan a la capa interna MLP.

El primer y cuarto patrón de aprendizaje (A y D) se asignan al valor de An = (0, 0). Por lo


tanto, para la segunda capa MLP quedan solo tres patrones de aprendizaje, que forman dos
pares de bordes: (An, Bn) y (An, Cn). Debido a que pueden estar separados por la misma línea
recta, una vez más encontramos que en la segunda capa una sola neurona es suficiente.

Triángulo
En el caso del conjunto de datos de aprendizaje triangular, encontramos qué puntos
bidimensionales se encuentran dentro del triángulo. El conjunto de datos de patrones de
aprendizaje utilizado es similar a los de la Figura 8 y 10. La diferencia está solo en el número
de patrones de aprendizaje. Esta vez, usamos muchos más patrones de aprendizaje (200),
que ya no están distribuidos de manera uniforme, ya que su posición es aleatoria.
Aproximadamente una cuarta parte de estos patrones son positivos o se encuentran dentro
del triángulo. Debido a la posición aleatoria de las muestras, el proceso de aprendizaje se
TRADUCCIÓN 16

repitió diez veces y finalmente se calculó el resultado medio y la desviación estándar. Los
resultados se compararon con los obtenidos por el método de retropropagación. La Tabla 12
muestra que el método da a los pares de bordes resultados sustancialmente mejores. De
hecho, la precedencia de los pares de bordes es aún mayor, como se ve en la Tabla, porque
con este método encontramos el D n = A n = (0,0) B n = (0,1) C n = (1 , 0) Estructura iónica XY
de MLP, que es casi óptima y luego la usamos para aprender con el método de control de
retropropagación, que por lo tanto se volvió más exitoso. Como cuestión de interés, nos
gustaría mencionar otro hallazgo, que el método del triángulo BPM no siempre se restringió a
tres líneas rectas, a veces había más de ellas. Este fenómeno se debe a la posición aleatoria
de los patrones de aprendizaje y al algoritmo primitivo para combinar pares de bordes.

Reconocimiento de lirios
Para el primer conjunto de datos reales para probar el método BPM, hemos elegido Iris,
ya que es uno de los conjuntos más populares y antiguos [5]. Contiene datos sobre tres tipos
de iris: Iris Setosa, Iris Virginica e Iris Versicolor, cada uno con 50 instancias. Para cada flor
se dan cuatro parámetros: el largo y ancho del pétalo y el largo y ancho del sépalo. Algunos
investigadores en el campo del análisis de conglomerados debido a la superposición parcial
de conglomerados citan a los iris como un conjunto de datos difícil. La superposición es
predominante con las especies de iris Iris Versicolor e Iris Virginica [5].

Debido a que en esta investigación estábamos interesados en el éxito del método BPM
para separar patrones que se superponen un poco, lo hemos utilizado para aprender todo el
conjunto de datos y hemos aprendido y probado con los mismos datos. Usamos el enfoque
"uno contra todos" y comenzamos identificando el tipo de iris Iris Setosa. Al hacerlo, se ha
demostrado que el conjunto completo de datos de entrenamiento contiene solo dos pares de
fronteras y que solo cuatro de los 150 datos de aprendizaje eran completamente adecuados
para un aprendizaje exitoso. Debido a la disposición favorable de los pares de bordes, es
válido que para su separación solo sea suficiente un hiperplano de borde.

La clasificación de los dos tipos restantes de Iris (Iris Virginica e Iris Versicolor) se realiza
de la misma manera. Obtuvimos solo un poco más de pares de bordes e hiperplanos que en
el caso de Setosa. En los tres casos, el método BPM logró separar correctamente todos los
datos de aprendizaje. Los datos sobre los errores de aprendizaje restantes RMSE se dan en
la tabla 13. Para una comparación también aprendimos con otros métodos (BP de
bipropagación, máquina de vectores de soporte SVM y árbol de decisión DT), todos los
cuales se destacan como inferiores porque tienen mayor RSME remanente.

Debido al número relativamente pequeño de patrones de aprendizaje, es difícil en este


conjunto de datos determinar si el MLP está sobreajustado. Cuando dividimos
aleatoriamente los datos a la mitad y usamos la mitad de los datos para el aprendizaje y la
TRADUCCIÓN 17

otra mitad para las pruebas, resultó que en todos los métodos obtuvimos solo uno o dos iris
clasificados incorrectamente, lo que significa una buena generalización. Esto no nos
sorprendió, porque generalmente se sostiene que MLP con una pequeña cantidad de
neuronas tiene una buena generalización. La Figura 15 muestra la separación de Iris setosa
del otro tipo de Iris. En la figura, transformamos los datos de cuatro dimensiones en
bidimensionales. En el eje X sumamos el ancho y largo del pétalo, y en el eje Y, el ancho y
largo del sépalo. A pesar de esta primitiva reducción de las dimensiones, en la figura sigue
siendo visible la separación de Iris setosa de las demás, ya que los círculos blanco y negro no
se mezclan.

Reconocimiento basado en lápiz de dígitos escritos a mano


El reconocimiento de dígitos escritos a mano mediante lápiz es el nombre de un conjunto
completo, real, validado y verificado de datos de aprendizaje [6]. En él hay dígitos escritos por
44 personas con un bolígrafo electrónico con una resolución de quinientos por quinientos
píxeles. El conjunto de datos está preparado (igual tamaño de dígitos y centrado en el medio
del marco). Un dígito individual se describe con diecisiete atributos. Los primeros dieciséis
números representan las coordenadas xey para ocho puntos. Son números enteros entre
cero y cien, que se registran con un lápiz electrónico a intervalos de cien milisegundos. El
decimoséptimo número representa la clase a la que pertenece el dígito. En la Tabla 14 se
muestran ejemplos de patrones de aprendizaje para los diez dígitos y la clasificación se
realizó primero utilizando el método BPM y luego con tres métodos de control:
retropropagación (BP), máquina de vectores de soporte (SVM) y árbol de decisión (DT). Para
el aprendizaje, utilizamos doscientas muestras, para la validación de 3498 nuevos patrones.
Los resultados comparativos del aprendizaje se dan en la Tabla 15.

La razón para utilizar un pequeño número de patrones de aprendizaje es el código fuente


no optimizado del programa de aprendizaje, ya que está escrito por el intérprete y, por lo
tanto, es muy lento. Por este motivo, no hemos realizado mediciones ni comparaciones de
velocidad. A pesar del pequeño conjunto de datos de aprendizaje, es evidente en la Tabla 15
que los patrones de aprendizaje seleccionados son representativos y que el aprendizaje tuvo
éxito.

El porcentaje de dígitos mal reconocidos es similar al de la máquina de vectores de


soporte (SVM) y en un buen porcentaje mejor que el del árbol de decisión. El método de
retropropagación ha tenido mejores resultados esta vez. Probablemente esto se deba a un
aprendizaje excesivo con BPM, ya que identificó correctamente todos los patrones de
aprendizaje. Como punto de interés, nos gustaría agregar que también el hombre no
reconoce correctamente todos los dígitos en este conjunto de datos.
TRADUCCIÓN 18

Ionosfera
La ionosfera es un conjunto de datos de clasificación que se obtiene al utilizar un radar
de aviación [45]. En el conjunto de datos hay 351 patrones sin valores perdidos, que se
componen de 34 atributos y clases y pueden ser positivos o negativos. El conjunto completo
de patrones se dividió en siete partes con 50 o 51 patrones. Aprendimos siete veces, siempre
con otra parte del conjunto de datos, pero siempre probamos con todo el conjunto de datos.
Los resultados de la clasificación se muestran en la Tabla 16.

Datos ruidosos
En esta investigación, determinamos qué tan resistente es el método de pares de bordes
al ruido en los datos de aprendizaje. El contenido preciso de ruido en los datos de aprendizaje
solo se puede conocer cuando usamos un conjunto artificial de datos de aprendizaje al que
agregamos ruido.

Durante nuestra investigación, mejoramos el ruido y descubrimos cuál es el porcentaje


de patrones de prueba identificados incorrectamente. Al hacerlo, no utilizamos la
interrupción temprana del aprendizaje. Una vez más, utilizamos un conjunto bidimensional de
patrones de aprendizaje: la imagen de un cuadrado. La posición de los patrones es aleatoria y
se distribuye uniformemente. Hay 500 patrones, la mitad para aprender y la otra mitad para la
evaluación de los resultados del aprendizaje. El primer aprendizaje se realizó sin ruido
añadido, que luego se potenció (1%, 2%, 5% y 10%). Cada uno de los aprendizajes se repitió
10 veces y luego se calcularon las desviaciones promedio y estándar.

Los resultados obtenidos de la investigación se compararon con los resultados del


método de retropropagación. Al evaluar los datos de la Tabla 17, también es necesario tener
en cuenta que el método BPM por sí mismo encuentra la estructura óptima del MLP, mientras
que el método BP no puede. Debido a que, debido a la comparabilidad de los resultados,
utilizamos para ambos métodos la misma estructura MLP, el método de BP gana algo y sus
resultados son injustificadamente ligeramente mejores, pero a pesar de eso todavía peores
que BPM.

MÉTODO DE APRENDIZAJE DINÁMICO CON PARES FRONTERIZAS


El aprendizaje automático es especialmente conveniente cuando las condiciones son
dinámicas [23] y durante el funcionamiento se pueden agregar nuevos datos de aprendizaje
al sistema inteligente. Así, se consiguen dos beneficios:

Mayor conjunto de datos de aprendizaje. Se agregan más datos a los datos de


TRADUCCIÓN 19

aprendizaje inicial que hemos obtenido durante su funcionamiento. Esto es especialmente


útil cuando teníamos una pequeña serie al principio. Adaptarse a nuevas circunstancias. A
menudo, en el aprendizaje automático solo conocemos una parte del vector de entrada. Entre
los factores desconocidos también se encuentran aquellos que cambian muy lentamente, lo
que da como resultado patrones de aprendizaje más nuevos que contribuyen más a la
calidad del aprendizaje que el anterior. Algunos autores llaman a esto obsolescencia de datos
o deriva de concepto. En tales circunstancias, es razonable agregar nuevos patrones y
también eliminar los antiguos.

Enfoques de aprendizaje dinámico con el método de pares


fronterizos
Los diferentes enfoques del aprendizaje automático se adaptan de manera diferente a la
adición y eliminación de patrones de aprendizaje. En el enfoque más "rígido" debido a un solo
patrón agregado o eliminado, es necesario repetir todo el aprendizaje. Este enfoque
ciertamente no es el más apropiado para los sistemas dinámicos inteligentes.
Desafortunadamente, en este grupo de enfoques también se incluye el método de
aprendizaje en gradiente con la propagación hacia atrás al timón.

Hay dos estrategias para aprender sistemas dinámicos inteligentes:

Aprendizaje incremental. Cuando acumula suficientes datos de aprendizaje nuevos,


interrumpimos el uso del sistema inteligente y, además, aprendemos.

De antemano determinamos los criterios en los que realizaremos un aprendizaje


adicional. Por ejemplo, cuando acumula una cierta cantidad de nuevos patrones de
aprendizaje, o cuando percibe un cambio mayor en las propiedades de los datos de
aprendizaje. Aprendizaje en línea. Cuando aparezca un nuevo patrón de aprendizaje,
utilícelo inmediatamente para seguir aprendiendo. Con esto logramos que el sistema
inteligente esté completamente actualizado, pero lamentablemente debido al flujo continuo
de aprendizaje complementario su funcionamiento se ralentiza.

Cuando la dinámica del sistema es grande y hay suficiente tiempo para aprender, tiene
sentido utilizar el aprendizaje en línea adicional. Si la dinámica del sistema es pequeña o no
hay suficiente tiempo para un aprendizaje continuo, el aprendizaje incremental es una mejor
opción.

El método BP tiene dificultades con el aprendizaje dinámico. En el aprendizaje adicional,


el resultado a menudo no es exitoso porque los nuevos patrones de aprendizaje aumentan en
gran medida el error de aprendizaje residual en la medida en que el aprendizaje adicional ya
TRADUCCIÓN 20

no puede reducirlo satisfactoriamente. Las sinapsis en una red neuronal se comportan como
si fueran "leñosas" y sus valores apenas cambian. La red en el aprendizaje adicional por regla
general encuentra un mínimo local y el error de aprendizaje residual ni siquiera comienza a
declinar. A veces, puede escapar de los mínimos locales en el sentido de que cambiamos
ligeramente al azar el valor existente del peso. Si este truco no tiene éxito, necesitamos que
la red vuelva a aprender desde el principio. Veamos qué tan apropiado es el BPM para el
aprendizaje dinámico.

Aprendizaje incremental con el método de pares fronterizos


En el aprendizaje incremental, primero aprendemos de los datos que estaban disponibles
antes del comienzo del aprendizaje. A esto le sigue el uso de MLP, durante el cual surgen
nuevos datos que se evalúan cada vez. Si con el tiempo los errores de datos nuevos no
aumentan, solo se agregan nuevos patrones al conjunto existente de datos de aprendizaje.
De lo contrario, cuando el error aumenta hablamos de cambios de concepto y entonces
también es razonable eliminar los datos antiguos. La adición nueva y eventual eliminación de
datos de aprendizaje antiguos va seguida de aprendizaje adicional, en el que solo buscamos
pares de bordes adicionales y eventuales líneas de borde adicionales (planos). Por lo tanto,
solo se cambia esa parte de la primera capa MLP, que corresponde a un área que se ha
vuelto heterogénea. En los métodos de aprendizaje no constructivos no sabemos qué patrón
tiene un impacto en qué parte de la red neuronal, por lo tanto, para un aprendizaje adicional
tenemos que usar todo el conjunto de patrones de aprendizaje y con él aprender todo el MLP.

Aprendizaje en línea con un método de pares fronterizos


El principio del aprendizaje en línea con el método de pares de fronteras se muestra en la
Figura 18. Durante el uso, MLP clasifica las muestras desconocidas en clases y

lea simultáneamente determina el éxito de la clasificación. Cuando tiene éxito (Figura 18


a), no se requieren más acciones ya que la línea fronteriza aún se encuentra en la posición
correcta y porque la construcción de MLP y los valores de sus pesos permanecen sin
cambios. De lo contrario, cuando la clasificación es incorrecta, es necesario un aprendizaje
adicional, que se puede realizar de varias formas diferentes:

A) Con o sin reconstrucción del MLP. B) Con o sin olvidar o desaprender.

ad A) La Figura 18a muestra una disposición de patrones de aprendizaje, que no necesita


ningún aprendizaje adicional porque el nuevo patrón de aprendizaje (círculo completo) está
correctamente clasificado (ubicado en el lado derecho del límite). Cuando la clasificación sea
incorrecta, primero determine cuál es la línea fronteriza más cercana al nuevo patrón de
TRADUCCIÓN 21

aprendizaje. La neurona de la primera capa, que corresponde a esta línea, se aprende


adicionalmente y, por lo tanto, mueve la línea adjunta. Para mover la línea usamos solo los
pares de bordes que ya se han usado para determinar su ubicación y nuevo patrón de
aprendizaje. Al mover el límite, intentamos obtener un nuevo patrón en el lado derecho de la
línea, o al menos cerca de él. Cuando no se permite la reconstrucción de MLP (agregar
neuronas), esta es la única medida posible. En la Figura 18b, tal cambio es posible, pero en la
Figura 18c ya no es suficiente mover el límite. En el caso de 34c tenemos que decidir:

¿Agregaremos un nuevo límite (neurona)? ¿Aceptaremos la clasificación incorrecta?

Cuando los patrones de aprendizaje contienen ruido, generalmente es aconsejable


aceptar la clasificación incorrecta más pequeña. Esta medida reduce el aprendizaje excesivo
y mejora la generalización del aprendizaje. Cuando el error es mayor o un patrón clasificado
incorrectamente está mucho más allá del límite, es mejor mover el límite. Si esto no es
factible, necesitamos que el límite sea reemplazado por dos (rompiendo el límite). Tal medida
agrega una nueva neurona en la primera capa de MLP. ad B) Todo lo escrito en el punto A se
aplica al aprendizaje sin olvidar ni desaprender. Ambos patrones de aprendizaje, el más
antiguo y el más nuevo, influyen por igual en este tipo de aprendizaje. Hasta ahora hemos
utilizado solo datos locales, sin dimensión de tiempo. En este caso no podemos hablar de
datos desactualizados y por lo tanto desaprender no tiene sentido. Cuando los datos
contienen una dimensión de tiempo, el olvido puede ser una característica bienvenida. Como
ejemplo, mencionamos las condiciones en la predicción de tipos de cambio de valores para
valores. La previsión de los tipos de cambio de las acciones se basa en experiencias
pasadas. La dificultad en la predicción de la bolsa de valores es que solo conocemos parte
de los factores que afectan las cotizaciones de las acciones. Todos los factores
desconocidos se pueden combinar en uno, que llamamos "espíritu de la época". Los
corredores para este propósito acuñaron términos como auge, recesión, estancamiento y
similares. Los viejos patrones de aprendizaje se obtuvieron en diferentes condiciones
económicas, con un espíritu de la época diferente al nuevo. Por lo tanto, los patrones de
aprendizaje más antiguos pueden considerarse (parcialmente) desactualizados y, en el
aprendizaje, retenerlos o incluso eliminarlos por completo. La figura 19a muestra las
condiciones sin olvidar. Ambos pares de fronteras permanecen en sus posiciones. El nuevo
patrón tenía que permanecer en el lado equivocado del límite, porque la posición de la línea
ya no se puede mejorar. Si se permite el desaprendizaje, entonces podemos relajar los pares
fronterizos antiguos para aumentar la distancia entre ambos participantes en los pares
fronterizos. Al hacer esto, ganamos un margen adicional para movernos al límite. Por lo
tanto, hemos hecho posible que el nuevo patrón de la Figura 19b se pueda colocar en el lado
derecho del límite. 4

Paso: busque todos los pares de bordes en este grupo. 5


TRADUCCIÓN 22

Paso: use los pares de bordes encontrados para aprender neuronas en la primera capa
MLP 6

Paso: Continúe con el Paso 1 hasta que se procese el último patrón de aprendizaje en
línea.

Reconocimiento de dígitos en línea


Para probar el algoritmo en línea (Algoritmo 4) y evaluar sus resultados, usamos
nuevamente el conjunto de datos de dígitos escritos a mano, que ya conocimos en el último
capítulo. Tomamos MLP, que se aprendió previamente con el método fuera de línea y se
aprendió más con el método en línea. Por lo tanto, después de la conclusión del aprendizaje,
podríamos comparar los resultados en línea y fuera de línea entre sí. Para el aprendizaje en
línea adicional, utilizamos cien nuevos patrones de aprendizaje, que aún no han participado
en el aprendizaje y las pruebas fuera de línea. Debido a que el método BPM es constructivo, la
estructura MLP entre el aprendizaje en línea puede cambiar. Si es necesario, se agregan
nuevas neuronas en las distintas capas de MLP. Normalmente, solo se extiende la primera
capa. El procedimiento para probar la calidad del aprendizaje siguió siendo el mismo que en
el método fuera de línea, para lo cual utilizamos nuevamente los mismos 3498 patrones de
prueba. Los resultados obtenidos sobre el aprendizaje adicional en línea se muestran en la
Tabla 18. Se espera que el aprendizaje adicional mejore los resultados, lo que en la mayoría
de los casos también sucedió. Pero en algunos casos individuales, como el dígito 4, el
resultado es algo peor. En general, después de un aprendizaje adicional, la cantidad de
dígitos identificados incorrectamente disminuyó. El deterioro de algunos dígitos individuales
se atribuye al ruido en patrones de aprendizaje adicionales.

CONCLUSIÓN
Con los resultados del aprendizaje en línea, concluye la descripción del aprendizaje de
BPM. Observamos que hemos tenido éxito y encontramos algunos resultados interesantes. A
continuación, se muestra un resumen de los más importantes:

Complejidad de la evaluación de datos. A partir del número de pares fronterizos y la


proporción de patrones de aprendizaje que participan en pares fronterizos, podemos concluir
lo difícil que será el aprendizaje. Donde hay solo unos pocos patrones que participan en
pares fronterizos, el aprendizaje no es un problema. Una gran cantidad de pares de bordes
nos dicen que el aprendizaje es exigente o contiene mucho ruido.

Reducción de ruido. Con el método de pares de bordes es posible reducir con éxito el
ruido en los datos. Esto se hace para que encontremos participantes de pares fronterizos y
TRADUCCIÓN 23

nos acerquemos a los pares fronterizos no participantes más cercanos de la misma clase. De
esta manera reducimos el ruido solo en patrones relevantes. Encontramos que la
generalización del aprendizaje a partir de datos ruidosos con el método de pares de bordes
es mejor que el método de retropropagación.

Agrupación. Con el método de pares de bordes es posible agrupar datos. Esto se hace
para que encontremos todos los pares de bordes y los separemos linealmente. Si después de
la separación existe alguna zona heterogénea, se separa en subsecciones. Esto se repite
hasta que todas las áreas sean homogéneas.

Busque funciones. Con el método de pares de bordes es posible encontrar


características de calidad. Cada límite tiene dos colinas, que se denominan binarias con 0 y
1. Las características se forman de tal manera que escribimos en qué colina los límites
individuales son patrones. Como un grupo está ubicado dentro de la misma área, los
miembros del mismo grupo también tienen las mismas características.

Fiabilidad del aprendizaje. Aprender con el método de pares de bordes es confiable, ya


que nunca se atascó y siempre ha terminado con éxito. Las entidades binarias, que se
forman en la primera capa, buscan en capas posteriores una operación lógica que, a partir de
las entidades, calculan a qué clase pertenece el patrón.

Precisión en el aprendizaje. Aprender con el método de pares de bordes es preciso. El


error de aprendizaje residual fue casi siempre menor que el del método BP.

Constructividad. Aprender con el método de pares de bordes, a diferencia de los


métodos de gradiente, es constructivo. Durante el aprendizaje con él, encontramos la
construcción casi mínima, que es simultáneamente la causa de la buena generalización de
los datos de aprendizaje.

Sobreajuste. El método de pares de bordes no tiene problemas con el sobreajuste. La


razón de esto es el hecho de que la línea de borde lineal (plano) se adapta al mismo tiempo a
numerosos datos de aprendizaje, por lo que no hay riesgo de ajuste excesivo de datos
individuales. Los resultados de la investigación nos han inspirado para realizar más trabajos
de investigación, que ofrecen una serie de opciones. Éstos son algunos de ellos:
Optimización de la búsqueda de pares de bordes: en conjuntos de datos extensos, la
búsqueda de pares de bordes puede ser una tarea que consume mucho tiempo y, por lo
tanto, es razonable utilizar el algoritmo optimizado. Optimización de la combinación de
pares de bordes: cuando hay muchos pares de bordes en los datos, también hay muchas
combinaciones diferentes en cuanto a cómo se pueden combinar entre sí. La combinación de
datos de aprendizaje complejos es la tarea que lleva más tiempo en el proceso de
clasificación. Versión de regresión de los métodos BPM: el método BPM direccionado solo
TRADUCCIÓN 24

permite la clasificación (datos binarios). En la naturaleza muchas cosas son continuas y


conocen también valores entre 0% y 100%. Por ejemplo, pronóstico del tiempo, regulaciones
de temperatura ... El algoritmo discutido probablemente sea posible de remodelar para que
sea adecuado para la regresión (datos continuos).

Método de múltiples clases: el método discutido tenía en la salida solo una neurona,
que transmitía si el patrón se adapta a una clase específica. MLP con múltiples neuronas de
salida podría decidir entre más de dos clases. Implementación del método BPM en el
software "Weka" y otras herramientas validadas relacionadas para el aprendizaje automático:
La implementación del método BPM ciertamente facilitaría y aproximaría el trabajo de
investigación de muchos investigadores interesados.

Referencias
B. Ploj, Bipropagation – nov način učenja večslojnega perceptrona (MLP), Proceedings of the
Eighteenth International Electrotechical and Computer Science Conference ERK 2009,
Slovenian section IEEE, pp 199-202, 2009

Hebb, Donald Olding, The Organization of Behaviour: A Neuropsychological Theory, 1949

Yann LeCun, Corinna Cortes: yan.lecun.com/exdb/mnist, Handwritten digit database

Jihoon Yang, Rajesh Parekh, Vasant Honavar: DistAl: An inter-pattern distance-based


constructive learning algorithm, Intelligent Data Analysis, Volume 3, Issue 1, May 1999, Pages
55–73

Pen based handwriten digits data set, http://archive.ics.uci.edu/ml/ support/Pen-


Based+Recognition+of+Handwritten+Digits, 12. 1. 2013

Weka software. http://en.wikipedia.org/wiki/Weka_(machine_learning) , 18. 4. 2013

Decision tree, http://en.wikipedia.org/wiki/Decision_tree, 12. 3. 2013

Ian H. Witten, Eibe Frank, Mark A. Hall, Data Mining: Practical Machine Learning Tools and
Techniques, Third Edition,The Morgan Kaufmann Series in Data Management Systems, 2011

Perceptron, http://en.wikipedia.org/wiki/Perceptron, 12. 3. 2013

Davida E. Rumelharta, Geoffreya E. Hintona in Ronalda J. Williamsa, Learning representations


by back-propagating errors, Nature, October 1986
TRADUCCIÓN 25

P.J.G. Lisboa, T.A. Etchells and D.C. Pountney, Minimal MLPs do not model the XOR logic,
School of Computing and Mathematical Sciences

T. L. Andersen, T.R. Martinez, DMP3: A Dynamic Multilayer Perceptron Construction


Algorithm, Brigham Young University, Utah USA

Wine data set, http://archive.ics.uci.edu/ml/datasets/Wine, 12. 3. 2013

DistAl: An inter-pattern distance-based constructive learning algorithm, Jihoon Yang, Rajesh


Parekh, Vasant Honavar, Neural Networks Proceedings, 1998. IEEE World Congress on
Computational Intelligence. The 1998 IEEE International Joint Conference, 4-9 May 1998,
Volume: 3, On Pages: 2208 - 2213 vol.3

Geometrical synthesis of MLP neural networks, Rita Delogu, Alessandra Fanni and Augusto
Montisci, Neurocomputing,Volume 71, Issues 4–6, January 2008, Pages 919–930,Neural
Networks: Algorithms and Applications, 4th International Symposium on Neural Networks

Arunava Banerjee, Initializing Neural Networks using Decision Trees, Computational learning
theory and natural learning systems: Volume IV, MIT Press Cambridge, 1997, ISBN:0-262-
57118-8

Cortes, Corinna; and Vapnik, Vladimir N.; "Support-Vector Networks", Machine Learning, 20,
1995, http://www.springerlink.com/content/ k238jx04hm87j80g/, 12. 3. 2013

Neapolitan, Richard; Jiang, Xia (2012). Contemporary Artificial Intelligence. Chapman &
Hall/CRC. ISBN 978-1-4398-4469-4.

Mitchell, T.: Machine Learning, McGraw Hill, 1997, ISBN 0-07-042807-7, p.2.

Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar: Foundations of Machine Learning,


The MIT Press, 2012, ISBN 9780262018258.

Ross, Brian H.; Kennedy, Patrick T: Generalizing from the use of earlier examples in problem
solving, Journal of Experimental Psychology: Learning, Memory, and Cognition, Vol 16(1), Jan
1990, strani 42-55.

Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar Foundations of Machine Learning,


The MIT Press, 2012, ISBN 9780262018258.

Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000
TRADUCCIÓN 26

Oded Maimon and Lior Rokach: DATA MINING AND KNOWLEDGE DISCOVERY HANDBOOK,
Springer, 2010

Hipp, J.; Güntzer, U.; Nakhaeizadeh, G.: "Algorithms for association rule mining - a general
survey and comparison". ACM SIGKDD Explorations Newsletter 2: 58.
doi:10.1145/360402.360421, 2000

J. J. HOPFIELD Neural networks and physical systems with emergent collective


computational abilities. Proc. NatL Acad. Sci. USA Vol. 79, pp. 2554-2558, April 1982
Biophysics

Fogel, L.J., Owens, A.J., Walsh, M.J. (1966), Artificial Intelligence through Simulated Evolution,
John Wiley

Muggleton, S. (1994). "Inductive Logic Programming: Theory and methods". The Journal of
Logic Programming. 19-20: 629–679. doi:10.1016/0743-1066(94)90035-3

Cortes, Corinna; and Vapnik, Vladimir N.; "Support-Vector Networks", Machine Learning, 20,
1995. http://www.springerlink.com/content/ k238jx04hm87j80g/

Ben-Gal, Irad (2007). Bayesian Networks (PDF). In Ruggeri, Fabrizio;

Kennett, Ron S.; Faltin, Frederick W. "Encyclopedia of Statistics in Quality and Reliability".
Encyclopedia of Statistics in Quality and Reliability. John Wiley & Sons.
doi:10.1002/9780470061572.eqr089. ISBN 978-0-470- 01861-3.

John Peter Jesan, Donald M. Lauro: Human Brain and Neural Network behavior a comparison,
Ubiquity, Volume 2003 Issue November

McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biophysics, 7:115 - 133.

Rosenblatt, Frank, The Perceptron--a perceiving and recognizing automaton. Report 85-460-1,
Cornell Aeronautical Laboratory, 1957

Russell, Ingrid. "The Delta Rule". University of Hartford, November 2012

P.J.G. Lisboa, T.A. Etchells, D.C. Pountney: Minimal MLPs do not model the XOR logic,
Neurocomputing, Volume 48, Issues 1–4, October 2002, Pages 1033–1037

Deza, E.; Deza, M.: Dictionary of Distances, Elsevier, ISBN 0-444-52087- 2, 2006
TRADUCCIÓN 27

Roland Priemer : Introductory Signal Processing. World Scientific. p. 1. ISBN 9971509199,


1991

Estivill-Castro, V.: "Why so many clustering algorithms". ACM SIGKDD Explorations Newsletter
4: 65. doi:10.1145/568574.568575, 2002

Borodin, A.; El-Yaniv, R.: Online Computation and Competitive Analysis. Cambridge University
Press. ISBN 0-521-56392-5, 1998

Ionosphere data set, http://archive.ics.uci.edu/ml/machine-learning- databases/ ionosphere,


12. 3. 2013

Alsmadi M. S., Omar B. K. :Back Propagation Agorithm: The Best Algorithm Among the Multi-
layer Perceptron Algorithm, IJCSNS, April 2009

Sharma K. S., Constractive Neural Networks: a reiew, International Journal of Engineerinf


Science and Technology, 2010, pp. 7847-7855

Aizenbeg I., Moraga C.: Multilayer Feedforward Neural Network Based on Multi-Valued
Neurons and Backpropagation Learning Algorithm, Soft Computing, January 2007, pp. 169-
183

P. A. Castillo, J. Carpio, J. J. Merelo, A. Prieto, V. Rivas, G, Romero: Evolving Multilayer


Perceptrons, Neural Processing Letters, 2000, pp. 115- 127

J. L. Subirat, L. Franco, I. Molina, J. M. Jerez:Active Learning Using a Constructive Neural


Network Algorithm, Constructive Neural Networks, pp. 193-206, 2009, Springer Verlag

Y. G. Smetanin: Neural Networks as system for recognizing patterns, Journal of Mathematical


Science, 1998

E. Ferrari, M. Muselli:Efficient Constructiv Tecniques for Training Switching Neural Networks,


Constructive Neural Networks, pp. 24-48, 2009, Springer Verlag

J. F. C. Khaw, B. S. Lim, L. E. N. Lim: Optimal Design of Neural Networks Using the Taguchi
Method, Neorocomputing, 1995, pp. 225-245

B. Ploj, R. Harb, M. Zorman, Border Pairs Method—constructive MLP learning classification


algorithm, Neurocomputing, Volume 126, 27 February 2014, Pages 180-187

También podría gustarte