Advances in Machine Learning Research - Es
Advances in Machine Learning Research - Es
Advances in Machine Learning Research - Es
Bojan Ploj
Original Paper
Abstracto
Durante los últimos veinte años, los métodos basados en gradientes se han centrado
principalmente en el campo de aprendizaje de la red neuronal artificial Feed Forward. Son los
derivados del método Backpropagation con varias deficiencias. Algunos de estos incluyen la
incapacidad para: agrupar y reducir el ruido, cuantificar la información de calidad de los
datos, eliminación de datos de aprendizaje redundantes. Se han identificado otras áreas
potenciales de mejora; incluyendo, inicialización aleatoria de valores de parámetros libres,
aprendizaje dinámico de nuevos datos a medida que están disponibles, explicación de
estados y configuraciones en capas ocultas de ANN aprendidas, entre otros. Este capítulo
trata sobre el enfoque contemporáneo, sin gradientes, del aprendizaje de la RNA, que ya no
se basa en la reducción gradual del error de aprendizaje remanente y trata de eliminar la
mayoría de las deficiencias mencionadas. La introducción incluye una descripción
cronológica de algunos métodos, que se ocupan de las soluciones de los problemas
mencionados: inicialización de redes neuronales mediante árboles de decisión (Arunava
Banerjee, 1994), DistAl: un algoritmo de aprendizaje constructivo basado en distancia entre
patrones (Jihoon Yang, 1998), geometría síntesis de redes neuronales feedforward multicapa
o Multi-Layer Perceptron (Rita Delogu, 2006) y Bipropagation-una nueva forma de aprendizaje
MLP (Bojan Ploj, 2009) Continuamos con la descripción de un nuevo método de aprendizaje-
Border Pairs Method (BPM) , que en comparación con los métodos de gradiente conlleva
numerosas ventajas o elimina la mayoría de los
de ruido. Determinamos que es suficiente realizar una reducción de ruido de los pares de
bordes.
INTRODUCCIÓN
Las redes neuronales artificiales (ANN) ya se conocen desde hace varias décadas y
durante este tiempo se han vuelto bien aceptadas y se han convertido en uno de los sistemas
inteligentes más comunes. Una de sus mejores características es que son fáciles de usar,
porque el usuario no necesita saber nada sobre su rendimiento (principio de caja negra).
Desafortunadamente, su aprendizaje no es tan simple y eficiente, por lo que los científicos
han tratado de mejorarlos continuamente desde que comenzaron a existir. Los más
utilizados son los métodos de aprendizaje iterativo, que se basan en la reducción paulatina
del error de aprendizaje acumulativo y tienen muchas deficiencias: No detectan y eliminan
el ruido No saben estimar la complejidad de los patrones de aprendizaje No no agrupar
datos No encontrar características Aprendizaje poco confiable Aprendizaje inexacto
Aprendizaje no constructivo No resistencia al ajuste excesivo No se eliminan patrones
estériles Aprendizaje no modular Aprendizaje iterativo No apto para aprendizaje
dinámico Estos métodos iterativos se basan en el cálculo del gradiente de error, por lo tanto,
su error de aprendizaje disminuye en una serie de pequeños pasos y, al hacerlo, el sistema a
menudo se atasca en un mínimo local.
APRENDIZAJE GRADIENTE
Un representante típico del aprendizaje de descenso de gradientes es Perceptron, una
simple red neuronal Feedforward (FFNN), introducida por Frank Rosenblatt en 1957 [11, 14,
38]. Todas las neuronas de Perceptron están dispuestas en una línea recta, que se denomina
capa (Figura 1). Sus valores de entrada y salida pueden ser continuos o discretos. El proceso
de aprendizaje se llama regla delta y se lleva a cabo gradualmente a lo largo de una serie de
repeticiones (proceso iterativo). El aprendizaje y la estructura de Perceptron son simples,
pero desafortunadamente también son problemas simples que puede resolver de manera
efectiva, ya que solo tiene éxito cuando los patrones de aprendizaje se pueden separar por
una línea recta o su equivalente multidimensional (separabilidad lineal). Los problemas de la
vida real no suelen ser tan sencillos.
Las dos últimas deficiencias se fomentan mutuamente, por lo que puede suceder que el
aprendizaje entre en un círculo vicioso del que no se pueda encontrar la salida. Debido a
estas deficiencias, el aprendizaje de MLP con los métodos de gradiente es complejo y
relativamente ineficiente.
Aparte de las deficiencias anteriores durante este tipo de aprendizaje, surgen una serie
de preguntas:
¿Es necesario que el proceso de aprendizaje utilice todos los patrones de aprendizaje, o
sería suficiente utilizar los patrones ya seleccionados? ¿Cómo elegir estos patrones?
Podemos suponer que aprender con patrones seleccionados será más rápido y con menos
complicaciones. Una idea similar es utilizada por el método de SVM [9, 22,34], donde los
patrones de aprendizaje seleccionados se denominan vectores de apoyo. ¿Es posible
encontrar el valor inicial de los parámetros libres de MLP que son mejores que aleatorios?
¿Es posible determinar los valores de los parámetros libres en un solo paso (no iterativo)? En
parte, esto es cierto para el método de bipropagación, donde algunos pesos se determinan de
antemano [1]. ¿Puede el uso de una función con una dimensión mayor que el espacio de
entrada simplificar y mejorar el aprendizaje? ¿Cómo encontrar estas características
potenciales? Por lo general, la función tiene una dimensión más pequeña que el patrón de
aprendizaje original, ya que tiene como objetivo eliminar la redundancia en los datos. Al revés
se aplica el método de vectores de soporte, que busca localizar características de mayores
dimensiones, que son linealmente separables [34]. ¿Existe en las capas ocultas del MLP
aprendido algún tipo de regla? ¿Esa regla informa de alguna manera algo sobre el
TRADUCCIÓN 5
funcionamiento de las capas internas de MLP? Hasta ahora, se pensaba que el MLP es una
caja negra, que en la salida da un resultado que no va acompañado de una explicación [14].
¿Es posible durante el proceso de aprendizaje encontrar una construcción MLP (casi) óptima
para patrones de aprendizaje dados? Por lo general, bajo el término construcción óptima se
entiende como un MLP pequeño, que todavía resuelve determinados problemas, porque los
MLP pequeños están menos sujetos a sobreajuste [14]. Cuando queremos un MLP robusto
es necesario agregar algunas neuronas redundantes que puedan reemplazar a las dañadas.
Algunos otros métodos durante el aprendizaje encuentran una construcción MLP adecuada,
que no es necesariamente óptima. ¿Es posible durante el proceso de aprendizaje reducir el
ruido de los patrones de aprendizaje y, como tal, simplificar el aprendizaje y aumentar su
precisión? Existen varios métodos de reducción de ruido, que se llevan a cabo ya antes del
inicio del aprendizaje. La reducción óptima del ruido tiene lugar durante el proceso de
aprendizaje; se lleva a cabo en la medida apropiada y afecta solo a los patrones de
aprendizaje relevantes.
¿Es posible ya antes del proceso de aprendizaje identificar la calidad de los patrones de
aprendizaje y qué tan difícil será aprender? Es bueno durante el proceso de aprendizaje saber
qué datos de aprendizaje se están tratando, porque entonces se pueden ajustar los requisitos
y las expectativas. Si los datos de aprendizaje son malos (ruido, superposición, falta de
representatividad ...), no debemos esperar un buen resultado de aprendizaje [54].
ALGORITMO DE BIPROPAGACIÓN
El algoritmo de bipropagación es el vínculo intermedio entre los algoritmos de gradiente
y no gradiente. Fue descubierto por Bojan Ploj en 2009 [1] como una mejora del algoritmo de
retropropagación. La bipropagación ha conservado el carácter iterativo y no constructivo de
su predecesor y se ha apoderado de la idea de las funciones del núcleo de la máquina de
TRADUCCIÓN 6
vectores de soporte. La función del núcleo en la primera capa hace que la linealización
parcial del espacio de entrada permita un aprendizaje más rápido y confiable de las capas
posteriores. A menudo sucede que debido a los patrones de aprendizaje difíciles el método
de retropropagación falla por completo, mientras que debido a la linealización el método de
bipropagación en las mismas condiciones es rápido, eficiente y confiable.
La idea original del algoritmo de Bipropagación es que las capas ocultas MLP obtengan
los valores deseados. Así, el perceptrón de capa N se divide en N perceptrones de capa única
y con eso el complejo problema del aprendizaje se divide en varios problemas más simples,
independientes entre sí. Por tanto, el aprendizaje se vuelve más fácil, rápido y fiable que el
método de retropropagación. El prefijo bi-en el nombre del algoritmo surgió porque las
correcciones de las sinapsis de pesos durante el aprendizaje se extendieron en ambas
direcciones (hacia adelante y hacia atrás).
iguales a la raíz cuadrada del número dos, la matriz interna R n ya contiene dos ceros y la
matriz de salida R o contiene solo ceros. Observamos que los valores de la matriz R n están
entre los valores de R i y R o en la misma posición, y que estos valores cambian
gradualmente, lo que nos da la esperanza de que estamos en el camino correcto hacia una
solución.
1 Analítico: En este método de definir los valores deseados de las capas internas se
introduce un nuevo concepto llamado calidad de patrones (PQ).
Ecuación 4
Donde es: ∑DDC = la suma de las distancias entre patrones de diferentes clases ∑DSC =
la suma de las distancias entre patrones de la misma clase
Queremos que la calidad de los patrones con cada transición a la siguiente capa
aumente, respectivamente que los miembros de la misma clase se acerquen entre sí y que
los miembros de diferentes clases se distancien entre sí. Para calcular el valor de las capas
internas se utiliza un sistema no lineal de ecuaciones con parámetros libres (funciones del
núcleo). Al calcular la calidad de los patrones para la capa interna, obtenemos una expresión
que contiene solo constantes y parámetros libres. Al elegir los parámetros libres, se
maximiza la calidad de los patrones en la capa interna.
También los dígitos de prueba han dado buenos resultados. El método Backpropagation
en las mismas circunstancias fracasó por completo, ya que su error de aprendizaje ni
siquiera comenzó a reducirse. En esta comparación se utilizó el método conjugado de
retropropagación de Levenberg-Marquardt, que se considera uno de los métodos de
aprendizaje en gradiente más eficaces.
aprendizaje (en línea o fuera de línea) y para la deriva de conceptos [54]. Entre otras
cosas, se diferencia del método de bipropagación en que el límite entre las clases está
completamente linealizado, lo que se realiza en secciones.
determinar con la mayor precisión posible, de manera fácil y al mismo tiempo adecuada para
el espacio de entrada con un número arbitrario de dimensiones. Estos requisitos de
definición de proximidad corresponden a la distancia euclidiana d AB entre los puntos A y B
en el espacio dimensional N: Ecuación 8 N = el número de dimensiones del espacio de
entrada Todos los puntos en el espacio bidimensional, que están distantes para el misma
distancia euclidiana desde el punto de partida (el centro), forma un círculo. La Figura 5
muestra los puntos A y B, que se denominan puntos cercanos, si dentro de la intersección de
sus círculos con un radio, que corresponde a su distancia euclidiana mutua (área con
sombreado) no hay un tercer punto. En el espacio tridimensional los círculos se reemplazan
por esferas, en el espacio de cuatro o más dimensiones con hiper esferas. La Figura 6
muestra un ejemplo de patrones de aprendizaje distribuidos aleatoriamente. La línea
discontinua es el límite óptimo; los círculos negros son patrones de aprendizaje negativos y
los blancos son positivos. Los participantes de Border Pairs están ilustrados con círculos
más grandes. Los participantes del mismo par de bordes están conectados por una línea. En
la figura 6 podemos ver siete pares de bordes, y el mismo patrón de aprendizaje también
puede involucrar más pares (por ejemplo, patrón nº 50). Dado que los datos mostrados no
incluyen ruido, todos los círculos blancos están en el lado derecho de la línea del borde y
todos los negros en el izquierdo.
Observamos que en la clase minoritaria tiene sentido tener al menos el 20 por ciento de
los patrones de aprendizaje, es decir, el número de pares de fronteras disminuye
considerablemente y la determinación de la frontera se vuelve difícil.
2) Una gran mayoría de patrones, que no son participantes de pares de borde, no son
valores atípicos.
Los resultados de la reducción de ruido se verán más adelante, bajo el título Datos
ruidosos.
dos o más pares de bordes, entonces hemos reducido con éxito el número de líneas de borde
necesarias.
La idea de agrupar con el método de pares de bordes se formó durante el estudio del
MLP aprendido, cuando observamos el comportamiento de neuronas individuales en la capa
interna, y al hacerlo, llegó a las siguientes conclusiones:
Que el valor de salida de las neuronas está siempre cerca del valor 0 o 1, a pesar de que
tienen una función de transferencia continua, las neuronas operan en saturación. Que el
valor en la salida de la primera capa no cambia mientras permanezcamos dentro de la
misma área, lo que significa que el área de entrada está dividida en varias áreas
homogéneas, grupos. Que en la segunda capa y las subsiguientes se realiza una operación
lógica con los datos de la capa anterior.
Cada área del espacio de entrada pertenece a un código binario, que tiene un número de
bits igual al número de líneas de borde y al número de neuronas en la primera capa. El bit
individual nos dice en qué lado de la línea fronteriza correspondiente estamos. Los códigos
de área así obtenidos son características. La agrupación descrita y la determinación de
características se basan únicamente en pares de bordes o en la distancia euclidiana, por esta
razón todo se puede generalizar también en el área de entrada con un número arbitrario de
dimensiones.
Dado que su efecto sobre la línea fronteriza es contradictorio, anula parcialmente y, por
lo tanto, la posición de la línea fronteriza, que está rodeada por numerosos pares de bordes,
debido al ruido casi nunca cambia. Esto se aplica siempre que el ruido sea lo suficientemente
pequeño como para que los patrones de aprendizaje no excedan el límite.
Paso: Divida todos los pares de bordes con la menor cantidad posible de líneas de borde.
Paso: Separe los pares de bordes con líneas de borde. Paso 3: Verificar la homogeneidad
de las áreas resultantes. Paso 4: Si encuentra un área heterogénea, busque en ella pares de
bordes adicionales y continúe con el Paso 2. El algoritmo mejorado para agrupar datos con
pares de bordes funcionó correctamente en todos los conjuntos de datos de prueba. Los
resultados de la agrupación para dieciséis conjuntos de datos de aprendizaje mediante el
método de pares de bordes con ambos algoritmos se muestran en la Tabla 9, donde está
claro que el algoritmo mejorado 2 generalmente encuentra algunos pares de bordes más que
el algoritmo simple 1
Paso 2.
El algoritmo 3 intenta combinar cada par de bordes con todos los demás pares de
bordes y, por lo tanto, consume mucho tiempo. El resultado también depende del orden de
los intentos de combinación.
1 Las capas en el resto del MLP se forman exactamente de la misma manera que
creamos la primera capa. Cuando en la siguiente capa solo queda una neurona, se concluye
la construcción de MLP. 2 Todas las capas posteriores se tratan como MLP adicional que
aprende con uno de los métodos de gradiente establecidos. Resulta que un eventual cuello
de botella está solo en la primera capa, por lo tanto, el aprendizaje del MLP adicional se
ejecuta de manera rápida y confiable. En todos los casos, el error de aprendizaje está
disminuyendo monótonamente rápidamente y, por lo tanto, parece que ninguna función de
los errores de aprendizaje residuales en el MLP adicional contiene un mínimo local.
XOR
Una característica del conjunto XOR es que contiene solo cuatro patrones de aprendizaje,
que son solo bidimensionales, pero que causan problemas para numerosos algoritmos de
aprendizaje. La razón de esto es que los mínimos locales de la función XOR en los que el
método de gradiente a menudo cambia y generalmente se atasca. En este caso, el
aprendizaje ya se detiene, cuando el error de aprendizaje residual sigue siendo muy grande o
demasiado grande.
Triángulo
En el caso del conjunto de datos de aprendizaje triangular, encontramos qué puntos
bidimensionales se encuentran dentro del triángulo. El conjunto de datos de patrones de
aprendizaje utilizado es similar a los de la Figura 8 y 10. La diferencia está solo en el número
de patrones de aprendizaje. Esta vez, usamos muchos más patrones de aprendizaje (200),
que ya no están distribuidos de manera uniforme, ya que su posición es aleatoria.
Aproximadamente una cuarta parte de estos patrones son positivos o se encuentran dentro
del triángulo. Debido a la posición aleatoria de las muestras, el proceso de aprendizaje se
TRADUCCIÓN 16
repitió diez veces y finalmente se calculó el resultado medio y la desviación estándar. Los
resultados se compararon con los obtenidos por el método de retropropagación. La Tabla 12
muestra que el método da a los pares de bordes resultados sustancialmente mejores. De
hecho, la precedencia de los pares de bordes es aún mayor, como se ve en la Tabla, porque
con este método encontramos el D n = A n = (0,0) B n = (0,1) C n = (1 , 0) Estructura iónica XY
de MLP, que es casi óptima y luego la usamos para aprender con el método de control de
retropropagación, que por lo tanto se volvió más exitoso. Como cuestión de interés, nos
gustaría mencionar otro hallazgo, que el método del triángulo BPM no siempre se restringió a
tres líneas rectas, a veces había más de ellas. Este fenómeno se debe a la posición aleatoria
de los patrones de aprendizaje y al algoritmo primitivo para combinar pares de bordes.
Reconocimiento de lirios
Para el primer conjunto de datos reales para probar el método BPM, hemos elegido Iris,
ya que es uno de los conjuntos más populares y antiguos [5]. Contiene datos sobre tres tipos
de iris: Iris Setosa, Iris Virginica e Iris Versicolor, cada uno con 50 instancias. Para cada flor
se dan cuatro parámetros: el largo y ancho del pétalo y el largo y ancho del sépalo. Algunos
investigadores en el campo del análisis de conglomerados debido a la superposición parcial
de conglomerados citan a los iris como un conjunto de datos difícil. La superposición es
predominante con las especies de iris Iris Versicolor e Iris Virginica [5].
Debido a que en esta investigación estábamos interesados en el éxito del método BPM
para separar patrones que se superponen un poco, lo hemos utilizado para aprender todo el
conjunto de datos y hemos aprendido y probado con los mismos datos. Usamos el enfoque
"uno contra todos" y comenzamos identificando el tipo de iris Iris Setosa. Al hacerlo, se ha
demostrado que el conjunto completo de datos de entrenamiento contiene solo dos pares de
fronteras y que solo cuatro de los 150 datos de aprendizaje eran completamente adecuados
para un aprendizaje exitoso. Debido a la disposición favorable de los pares de bordes, es
válido que para su separación solo sea suficiente un hiperplano de borde.
La clasificación de los dos tipos restantes de Iris (Iris Virginica e Iris Versicolor) se realiza
de la misma manera. Obtuvimos solo un poco más de pares de bordes e hiperplanos que en
el caso de Setosa. En los tres casos, el método BPM logró separar correctamente todos los
datos de aprendizaje. Los datos sobre los errores de aprendizaje restantes RMSE se dan en
la tabla 13. Para una comparación también aprendimos con otros métodos (BP de
bipropagación, máquina de vectores de soporte SVM y árbol de decisión DT), todos los
cuales se destacan como inferiores porque tienen mayor RSME remanente.
otra mitad para las pruebas, resultó que en todos los métodos obtuvimos solo uno o dos iris
clasificados incorrectamente, lo que significa una buena generalización. Esto no nos
sorprendió, porque generalmente se sostiene que MLP con una pequeña cantidad de
neuronas tiene una buena generalización. La Figura 15 muestra la separación de Iris setosa
del otro tipo de Iris. En la figura, transformamos los datos de cuatro dimensiones en
bidimensionales. En el eje X sumamos el ancho y largo del pétalo, y en el eje Y, el ancho y
largo del sépalo. A pesar de esta primitiva reducción de las dimensiones, en la figura sigue
siendo visible la separación de Iris setosa de las demás, ya que los círculos blanco y negro no
se mezclan.
Ionosfera
La ionosfera es un conjunto de datos de clasificación que se obtiene al utilizar un radar
de aviación [45]. En el conjunto de datos hay 351 patrones sin valores perdidos, que se
componen de 34 atributos y clases y pueden ser positivos o negativos. El conjunto completo
de patrones se dividió en siete partes con 50 o 51 patrones. Aprendimos siete veces, siempre
con otra parte del conjunto de datos, pero siempre probamos con todo el conjunto de datos.
Los resultados de la clasificación se muestran en la Tabla 16.
Datos ruidosos
En esta investigación, determinamos qué tan resistente es el método de pares de bordes
al ruido en los datos de aprendizaje. El contenido preciso de ruido en los datos de aprendizaje
solo se puede conocer cuando usamos un conjunto artificial de datos de aprendizaje al que
agregamos ruido.
Cuando la dinámica del sistema es grande y hay suficiente tiempo para aprender, tiene
sentido utilizar el aprendizaje en línea adicional. Si la dinámica del sistema es pequeña o no
hay suficiente tiempo para un aprendizaje continuo, el aprendizaje incremental es una mejor
opción.
no puede reducirlo satisfactoriamente. Las sinapsis en una red neuronal se comportan como
si fueran "leñosas" y sus valores apenas cambian. La red en el aprendizaje adicional por regla
general encuentra un mínimo local y el error de aprendizaje residual ni siquiera comienza a
declinar. A veces, puede escapar de los mínimos locales en el sentido de que cambiamos
ligeramente al azar el valor existente del peso. Si este truco no tiene éxito, necesitamos que
la red vuelva a aprender desde el principio. Veamos qué tan apropiado es el BPM para el
aprendizaje dinámico.
Paso: use los pares de bordes encontrados para aprender neuronas en la primera capa
MLP 6
Paso: Continúe con el Paso 1 hasta que se procese el último patrón de aprendizaje en
línea.
CONCLUSIÓN
Con los resultados del aprendizaje en línea, concluye la descripción del aprendizaje de
BPM. Observamos que hemos tenido éxito y encontramos algunos resultados interesantes. A
continuación, se muestra un resumen de los más importantes:
Reducción de ruido. Con el método de pares de bordes es posible reducir con éxito el
ruido en los datos. Esto se hace para que encontremos participantes de pares fronterizos y
TRADUCCIÓN 23
nos acerquemos a los pares fronterizos no participantes más cercanos de la misma clase. De
esta manera reducimos el ruido solo en patrones relevantes. Encontramos que la
generalización del aprendizaje a partir de datos ruidosos con el método de pares de bordes
es mejor que el método de retropropagación.
Agrupación. Con el método de pares de bordes es posible agrupar datos. Esto se hace
para que encontremos todos los pares de bordes y los separemos linealmente. Si después de
la separación existe alguna zona heterogénea, se separa en subsecciones. Esto se repite
hasta que todas las áreas sean homogéneas.
Método de múltiples clases: el método discutido tenía en la salida solo una neurona,
que transmitía si el patrón se adapta a una clase específica. MLP con múltiples neuronas de
salida podría decidir entre más de dos clases. Implementación del método BPM en el
software "Weka" y otras herramientas validadas relacionadas para el aprendizaje automático:
La implementación del método BPM ciertamente facilitaría y aproximaría el trabajo de
investigación de muchos investigadores interesados.
Referencias
B. Ploj, Bipropagation – nov način učenja večslojnega perceptrona (MLP), Proceedings of the
Eighteenth International Electrotechical and Computer Science Conference ERK 2009,
Slovenian section IEEE, pp 199-202, 2009
Ian H. Witten, Eibe Frank, Mark A. Hall, Data Mining: Practical Machine Learning Tools and
Techniques, Third Edition,The Morgan Kaufmann Series in Data Management Systems, 2011
P.J.G. Lisboa, T.A. Etchells and D.C. Pountney, Minimal MLPs do not model the XOR logic,
School of Computing and Mathematical Sciences
Geometrical synthesis of MLP neural networks, Rita Delogu, Alessandra Fanni and Augusto
Montisci, Neurocomputing,Volume 71, Issues 4–6, January 2008, Pages 919–930,Neural
Networks: Algorithms and Applications, 4th International Symposium on Neural Networks
Arunava Banerjee, Initializing Neural Networks using Decision Trees, Computational learning
theory and natural learning systems: Volume IV, MIT Press Cambridge, 1997, ISBN:0-262-
57118-8
Cortes, Corinna; and Vapnik, Vladimir N.; "Support-Vector Networks", Machine Learning, 20,
1995, http://www.springerlink.com/content/ k238jx04hm87j80g/, 12. 3. 2013
Neapolitan, Richard; Jiang, Xia (2012). Contemporary Artificial Intelligence. Chapman &
Hall/CRC. ISBN 978-1-4398-4469-4.
Mitchell, T.: Machine Learning, McGraw Hill, 1997, ISBN 0-07-042807-7, p.2.
Ross, Brian H.; Kennedy, Patrick T: Generalizing from the use of earlier examples in problem
solving, Journal of Experimental Psychology: Learning, Memory, and Cognition, Vol 16(1), Jan
1990, strani 42-55.
Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000
TRADUCCIÓN 26
Oded Maimon and Lior Rokach: DATA MINING AND KNOWLEDGE DISCOVERY HANDBOOK,
Springer, 2010
Hipp, J.; Güntzer, U.; Nakhaeizadeh, G.: "Algorithms for association rule mining - a general
survey and comparison". ACM SIGKDD Explorations Newsletter 2: 58.
doi:10.1145/360402.360421, 2000
Fogel, L.J., Owens, A.J., Walsh, M.J. (1966), Artificial Intelligence through Simulated Evolution,
John Wiley
Muggleton, S. (1994). "Inductive Logic Programming: Theory and methods". The Journal of
Logic Programming. 19-20: 629–679. doi:10.1016/0743-1066(94)90035-3
Cortes, Corinna; and Vapnik, Vladimir N.; "Support-Vector Networks", Machine Learning, 20,
1995. http://www.springerlink.com/content/ k238jx04hm87j80g/
Kennett, Ron S.; Faltin, Frederick W. "Encyclopedia of Statistics in Quality and Reliability".
Encyclopedia of Statistics in Quality and Reliability. John Wiley & Sons.
doi:10.1002/9780470061572.eqr089. ISBN 978-0-470- 01861-3.
John Peter Jesan, Donald M. Lauro: Human Brain and Neural Network behavior a comparison,
Ubiquity, Volume 2003 Issue November
McCulloch, W. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biophysics, 7:115 - 133.
Rosenblatt, Frank, The Perceptron--a perceiving and recognizing automaton. Report 85-460-1,
Cornell Aeronautical Laboratory, 1957
P.J.G. Lisboa, T.A. Etchells, D.C. Pountney: Minimal MLPs do not model the XOR logic,
Neurocomputing, Volume 48, Issues 1–4, October 2002, Pages 1033–1037
Deza, E.; Deza, M.: Dictionary of Distances, Elsevier, ISBN 0-444-52087- 2, 2006
TRADUCCIÓN 27
Estivill-Castro, V.: "Why so many clustering algorithms". ACM SIGKDD Explorations Newsletter
4: 65. doi:10.1145/568574.568575, 2002
Borodin, A.; El-Yaniv, R.: Online Computation and Competitive Analysis. Cambridge University
Press. ISBN 0-521-56392-5, 1998
Alsmadi M. S., Omar B. K. :Back Propagation Agorithm: The Best Algorithm Among the Multi-
layer Perceptron Algorithm, IJCSNS, April 2009
Aizenbeg I., Moraga C.: Multilayer Feedforward Neural Network Based on Multi-Valued
Neurons and Backpropagation Learning Algorithm, Soft Computing, January 2007, pp. 169-
183
J. F. C. Khaw, B. S. Lim, L. E. N. Lim: Optimal Design of Neural Networks Using the Taguchi
Method, Neorocomputing, 1995, pp. 225-245