Redes: Neurais Artificiais No Contexto Estatístico

UNIVE RSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE MA TEMÁTTCA
DEPARTAMENTO DE ESTATÍSTICA
REDES NEURAIS ARTIFICIAIS NO CONTEXTO
ESTATÍSTICO
LISIANE PRISCILA ROLDÃO SELAU
ORIENTADOR: JOÃO RTBOLDI
Mo nografia apresentada para obtenção do
grau de Bacharel em Estatística
Porto A legre, Dezembro de 2000

2
AGRADECIMENTOS
Para que este trabalho fosse realizado contei com a colaboração de várias pessoas, as
quais gostaria, neste momento, de expressar meus mais sinceros agradecimentos:
Ao meu orientador, Prof Dr. João Riboldi ; que nunca desistiu de me orientar; pelo seu
interesse, sugestões, dedicação, paciência e total apoio.
Ao meu namorado, Everaldo, que sempre me incentivou a prossegu ir no
desenvolvimento deste trabalho, não me deixando desistir em momento algum, transmitindo-
me confiança e incentivo, que demonstrou enorme calma nos meus longos períodos de
ausência.
Ás minhas amigas, Dierê, Juliane e Mariana, colegas de graduação, que sempre me
acompanharam nas horas de estudo, que me distraíram nas horas difíceis e que, acima de
tudo, sempre me apoiaram em todas minhas decisões.
Á minha irmã, Lívian, pelo companheirismo em vários momentos da minha
graduação.
Ao professor da Universidade Federal do Rio Grande do Norte, Paulo Roberto M. de
Azevedo, pela disponibilização de vários materiais usados como referências neste trabalho e
pela força transmitida em várias ajudas dadas via e-mail.
Agradeço, ainda, a todos que de alguma forma contribuíram, mesmo de mane1ra
indireta, para a elaboração deste trabalho.

3
GLOSSÁRIO DE PALAVRAS
Algoritmos genéticos: Modelos de aprendizado desenvolvidos baseados nos princípios de
evolução. Dentre soluções parctars de um problema a melhor solução é selecionada e
combinada para dar a base para a futura solução do problema.
Amostra de treinamento: Observações utilizadas na calibração da rede neural. Deve conter
valores para os nós de saída para que os erros nos valores finais preditos possam ser
determinados e usados para o processo de aprendizado.
Aprendizado/Treinamento: Processo seqüencial de grandes amostras de observações,
conhecidas como amostras de treinamento, em que os erros de predição ou classificação são
usados para recalibrar os pesos para melhorar a predição.
Retropagação: Processo de aprendizado mais comum de redes neura1s, em que erros de
estimação nos nós de saída são retornados através do sistema às camadas de entrada. e sã.o
usados como indicadores para recalibrar os pesos para cada nó.
Camadas escondidas ou intermediárias: Camadas de nós em um perceptron multi-camada que
estão entre os nós de entrada e saída. O pesquisador pode ou não controlar o número de nós
bem como o número de camadas escondidas. Também conhecidas como camadas ocultas.
Data mining: Processo de busca de informações que analisa grande quantidade de dados de
forma a descobrir relacionamentos entre eles, procurando identificar padrões e tendências.
Função de ativação: Função matemática dentro do nó que converte a soma de ativação das
entradas em ativação de saída. Existem vários tipos de funções de ativação, a forma mais
comum é a função sigmóide.
Função sigmóide: Função de ativação não linear com uma distribuição em forma de S. Um
exemplo mais comum é a função logística.

4
Função somatório: Combinador linear que soma os sinais de entrada ponderando-os pelos
respectivos pesos sinápticos do neurônio .
Inteligência artificial (IA): Área da ciência da computação habituada com a criação de
programas de computadores que tenta simular as propriedades de aprendizado do cérebro
humano. IA está envolvida em diversas áreas especializadas, incluindo redes neurais e
algoritmos genéticos.
Nó ou neurônio: Unidade de processamento mais básica de uma rede que pode atuar como
entrada, saída ou como função de processamento e análise. Análogo ao neurônio de um
cérebro humano.
Perceptron multi-camada CMLP): A mais conhecida e utilizada rede neural que contem pelo
menos uma camada de nós escondidas entre as camadas de entrada e saída.
Pesos: Constantes que são usadas em um modelo para informar a influência de cada nó na
saída da unidade.
Rede Neural Artificial CRNA): Também chamada, de modo simplificado, de Rede Neural é
um modelo preditivo não linear que adquire conhecimento através do treinamento com
exemplos. Se assemelha a estrutura do sistema neural biológico.
Sinagse: Mecanismo transmissor de informação entre os neurônios. A informação recebida
pelo neurônio é processada e produz uma saída que pode excitar ou inibir outros neurônios. O
tipo mais comum de sinapse é a sinapse química, que converte um sinal químico e retoma um
sinal elétrico e vice-versa.
Supervisionado: Processo de aprendizado que utiliza uma amostra de treinamento e dá retorno
para a rede neural a respeito dos error dos nós de saída.
Topologia: É a arquitetura de uma Rede Neural com suas camadas de entrada e saída e
quando existirem suas camadas intermediárias ou escondidas.

5
SUMÁRIO
- WTRODUÇÃO .. .. . .. .. .. ... .. .. . .. .. .. .. .. . .. .. .. ... .. .. .. . .. .. .. . .... .. .. ... .. .. . .. .. . .. .. .. . .. . .. . .. .. . .. .. . .. .. . . 7
I. I - OBJETIVOS . . .... .. .. ... .. .. .. .. ... .. .. .. . .... .. .. .. . .... .. . .... .. . .... .. . .. .. ... .. .. ... . .... .. . .. .. ... .. . .. . .. 8
1.2 - ESTRUTURA DA MONOGRAFIA ................................................................. 9
2 - REFERENCIAL HISTÓRICO ................................................................................. ll
3 - REDES NEURAIS NATURAIS ........................................................................ ...... 15
4 - REDES NEURAIS ARTIFICIAIS ........................................................................... 19
4.1 - ARQUITEURA DE UMA REDE ............. ........................................................ 26
4.2 - APRENDIZADO DA REDE ............................................................................ 29
4.2.1- TEO RI A ESTATÍSTICA DO PROCESSO DE APRENDIZAGEM ............... 33
4.3 - INTELIGÊNCIA ARTIFICIAL E NEUROCOMPUTAÇÃO ................... ........ 40
4.4 - RE DES NATURAJS x REDES ARTIF ICIAIS ........... ................. ..................... 42
4.5 - ALGUMAS REDES MAIS UTILIZADAS ....................................................... 44
4.5. 1- REDE PERCE PTRON ........... ..... ......... ................................. ....... ....... ............ 44
4.5.2- REDE HOPFIELD ............................. ....................................... ............ .......... 47
4.5.3- REDES ADALINE E MADALINE ................................................................ 48
4.5.4- REDE DE RESSONÂNCIA ADAPTAT IVA .................................................. 50
4.5.5- REDE KOHONEN ......................... ............................................... ................. 51
4.6 - RESUMO DA APLICAÇÃO DE REDES NEURAIS ...................................... . 52
4.6. 1- COLETA DE DADOS E SEPARAÇÃO EM CONJUNTOS ....................... ... 53
4.6.2- CONFIGURAÇÃO DA REDE ..... ............................................. ................... . 53
4.6.3- TREINAMENTO ........... ........ ....... ....... ... ............ ....... .. ........ ......... .. ........ ....... 54
G
4.6.4- TESTE ................. ... ..... ............. ...... .............. ............... .................... .............. 55
4.6.5- INTEGRAÇÃO ............................................................................................. 55
5 - MODELAGEM EST ATÍSTTCA ............ ......................... .......... ....... ........................ 57
5. 1 - ANÁLiSE DISCRIMINANTE ......................................................................... 58
5.2 - ANÁUSE DE REGRESSÃO LINEAR ................. .................... ....................... 6 1
5.3 - ANÁ LISE DE REGRESSÃO LOGÍSTICA ...................................................... 63
5.4 - ANÁLISE DE SÉRIES TEMPORAIS ... ...... .......... ............ ....... ............ .... ........ 64
6 - APLICAÇÕES ...................................................................... ... ................. ............... 68
6.1 - ANÁLISE DE CRÉDIT O ................................................................................. 68
6.2 - FINANÇAS ................. ................ .................... ..... ............ ...... ................. .. ... .... 70
6.3 - MARKETING .... ............ ........................................................................ ... ....... 71
6.4 -MORTALIDADE INFANTIL .............................. ............ .... ............... .......... ... 73
6.5 - SAÚDE ............................................... ......... ............ ........... .......... ........ ........... 74
6.6 - MEDICINA ........................... ................................ ............. .................... .. ..... ... 76
7 - EXEMPLO . .... ............. ......... ......... ....... ................ ... ..... ........................................... 79
7.1 -CARACTERIZAÇÃO E PREPARAÇÃO DOS DADOS . ..... ............ ............. .. 81
7.2 - ANÁLISE E RESULTADOS ........................................................................... 88
7.3 - INTEGRAÇÃO DA REDE ....................... ............ ................. ...... .................... 96
8 - CONCLUSÃO ....... .. ....................... .... .................. ........ ...... ......... .............. ........ ...... I 00
9 -REFERÊNC IAS BlLIOGRÁFlCAS ........................................................................ 102

7
1. INTRODUÇÃO
A partir do momento em que as máquinas começaram a evoluir, um grande desejo do
homem tem sido a criação de uma máquina que possa operar independentemente do controle
humano. Uma máquina cuja indepe ndência seja desenvolvida de acordo com seu próprio
aprendizado e que tenha a capacidade de interagir com ambientes incertos, que possa ser
chamada de autônoma, inteligente ou cognitiva. Organismos humanos são uma fonte de
motivação para o desenvolvimento destas máquinas, e proporcionam diversas opções para o
desenvolvimento de algoritmos de aprendi zado e adaptação .
R edes Neurais são técnicas computacionais que apresentam um modelo matemático
inspirado na estrutura neural de organismos inteli gentes e que adquirem conhecimento através
da experiência.
O sistema é composto de um g rande número de elementos de processamento,
interconectados que se assemelham com neurônios e são ligados com conexões de pesos que
se assemelham com sinapses. O nome Redes Neurais decorre desta semelhança com o cérebro
humano.
Redes neurais é considerada uma técnica emergente na análise multi variada e é
utilizada em conjunto com Data Mining para, dentre outras aplicações, reconhecer padrões de
perfis. O Data Mining é uma metodologia de ide ntificação de padrões e tendências de dados
que usa técnicas estatísticas para examiná-los, detectando tendências e associações
escondidas. Dentre estas várias técnicas está a metodologia de Redes Neurais que, utilizando
inteligência artificial, auxilia no conhecimento da base de dados. Um melhor entendimento do
que é o Data Mining pode ser obtido através da visuali zação do esquema da Figura 1. I.
8
Padrões
1. Dd:;s
nr~:e:;s:~é:::s
Dados
FIGURA 1.1: Visão geral das etapas que compõe o processo de Data Mining.
O estudo de Redes Neurais é um dos ramos da Inteligência Artificial que mais tem se
desenvolvido, atraindo o interesse de várias áreas do conhecimento. Aplica-se em diversas
áreas do conhecimento como finanças, varejo e logística, medicina e saúde, marketing,
manufaturamento e controle industrial, energia, dentre outras.
Dada a característica multidi sciplinar de Redes Neurais, o papel do estatístico é
essencial juntamente com profissionais de outras áreas, especialmente da computação.
Justifica-se a participação do Estatístico pelos seus conhecimentos avançados em técnicas
estatísticas e sua sólida formação matemática e probabilística, e por ser capaz de auxiliar no
desenvolvimento computacional da rede no que diz respeito, principalmente, aos modelos
matemáticos de uma rede neural.
1.1. OBJETIVOS
O problema de interesse desta monografia é mostrar a real importância do Estatístico
no desenvolvimento de Redes Neurai s, ressaltando-se a interface potencial com outras áreas
do conhecimento.
9
Quer-se mostrar, com este estudo, a superioridade da técnica em comparação com
soluções triviais utilizadas freqüentemente em diversas situações. Esta superioridade pode ser
de certa forma explicada pelo fato de que essas novas gerações de algoritmos podem aprender
com o passado e prever o futuro e, também, extrair regras para trabalhar em ambientes
complexos.
Pretende-se detalhar e exemplificar algumas aplicações da técnica nas diversas áreas
do conhecimento, bem corno ilustrar a análise correta dos resultados, mostrando, assim, como
é indispensável a presença do Estatístico desde a modelagem da rede até a etapa final da
interpretação dos resultados, juntamente com os especialistas da área.
Com o intuito de explorar o tema em questão, procurar-se-á entender redes neurais
corno uma ferramenta estatística, proceder-se-á a revisão bibliográfica, para detalhar as
abordagens e diferentes enfoques existentes e estabelecer-se-á a fundamentação teórica da
técnica, explorando, principalmente, a sua interface com a Estatística.
Pretende-se, também mostrar que uma rede neural não pode ser encarada
simplesmente como urna caixa preta, que existem metodologias que lhe dão sustentabilidade,
como por exemp lo, para a obtenção dos pesos da rede.
1.2. ESTRUTURA DA MONOGRAFIA
Neste trabalho serão apresentados enfoques da técnica de Redes Neurais para análise
de bases de dados, visando, dentre outros aspectos, a classificação e o reconhecimento de
padrões.
O capítulo 2 apresenta um referencial histórico do que tem sido referido ao longo dos
últimos anos a respeito da técnica. Os fatos ocorridos são mencionados em ordem cronológica
mostrando a evolução da técnica, dando especial ênfase ao aspecto de entender redes neurais
como ferramenta estatística.

lO
No capitulo 3 apresenta-se a rede neural natural com a fisiologia de um neurônio
biológico como ponto de partida para a apresentação de uma Rede Neural Artificial.
O capitulo 4 caracteriza de fonna matemática e, também sob o ponto de vista
estatístico, a Rede Neural Artificial, detalhando seu funcionamento e componentes. Em
seguida é apresentada as diferentes formas de subdivisão e algumas das redes mais conhecidas
e utilizadas.
O capítulo 5 é o mais importante do ponto de vista estatístico por detalhar algumas
aplicações e relações com algumas conhecidas técnicas de Inferência Estatística com Redes
Neurais. Entendendo-se Redes Neurais Artificias como ferramenta estatística compara-se com
algumas das técnicas estatísticas clássicas.
No capitulo 6 são descritas algumas aplicações de Redes Neurais Artificiais nas
diversas áreas do conhecimento como marketing, medicina, finanças e lingüística.
No Capítulo 7 explora-se um exemplo de uma das aplicações de Redes Neurais e é
ilustrado o uso de um software específico para a técnica. O exemplo estudado foi o de
avaliação de crédito na área de finanças, utilizando-se o Módulo Enterprise Miner
especializado em Data Mining componente do Pacote Estatístico SAS (Statistical Analysis
Systems). A técnica de Redes Neurais é uma das diversas ferramentas disponíveis no
Enterprise Miner para a solução de problemas utilizando Data Mining.
Aos leitores mais interessados na aplicação dos procedimentos de solução e nos
resultados que podem ser obtidos sugere-se que baseiem sua leitura no capitulo 7. Aos demais
leitores aconselha-se a leitura completa na ordem apresentada.

li
2. REFERENCIAL HI STÓRICO
As primeiras informações sobre a neurocomputação aparecem em McCULLOCH &
PITTS (1943) que sugeriram a construção de uma máquina baseada ou inspirada no cérebro
humano, definindo os primeiros conceitos para o estudo de redes neurais artificiais e
apresentando, assim, o modelo inicial de neurônio artificial denominado Psychon. Segundo
KOYACS (1996) a essência da proposta de McCULLOCH & PITTS (1943) foi a seguinte: 'A
inteligência é equivalente a cálculo preposicional que por sua vez pode ser implementado por
funções booleanas. Por outro lado, o sistema nervoso é composto de redes de neurônios, que
com as devidas simpl(ficações, tem a capacidade básica de implementar estas funções
booleanas. Conclusão: a ligação entre inteligência e atividade nervosa .fica estabelecida de
forma cientffica. '
HEBB (1944) perseguiu a idéia de que o condicionamento psicológico clássico está
presente em qualquer parte dos animais pelo fato de que esta é uma propriedade de neurônios
individuais. Suas idéias não eram completamente novas, ele foi o primeiro a propor uma lei de
aprendizagem especifica para as sinapses dos neurônios. Este primeiro e corajoso passo serviu
de inspiração para que muitos outros pesquisadores perseguissem a mesma idéia.
O primeiro neurocomputador, denominado Snark foi construído por Mavin Minsky em
1951 . O Snark operava com sucesso a partir de um ponto de partida técnico, ajustando seus
pesos automaticamente, entretanto, ele nunca executou qualquer função de processamento de
informação interessante, mas serviu de inspiração para as idéias de estruturas que o
sucederam.
Em 1956 no "Oarthmouth College" nasceram os dois paradigmas da Inteligência
Artificial, a simbólica e o conexionista. A Inteligência Artificial Simbólica tenta simular o
comportamento inteligente humano desconsiderando os mecanismos responsáveis por isso. Já

12
a Inteligência Artificial Conexionista acredita que construindo-se um sistema que simule a
estrutura do cérebro, este sistema apresentará inteligência, ou seja, será capaz de aprender,
assi miJar, errar e aprender com seus erros.
ROSENBLA TT ( 1962) idealizou o modelo básico do Perceptron que despertou o
interesse de muitos pela sua capacidade de reconhecer padrões simples.
WlDROW & HOFF ( 1960) desenvolveram um novo tipo de elemento de
processamento de redes neurais chamado de Adaline, equipado com uma poderosa le i de
aprendizado, que diferente do Perceptron utiliza a Regra Delta de aprendizado, ou como
também é chamado, algoritmo de aprendizado LMS (Least Mean Square). Widrow também
fundou a primeira companhia de hardware de neurocomputadores e componentes. Estes
modelos foram muito criticados por MTNSKY & PAPERT (1969) que apontavam a
impossibi lidade de uma rede de um único nível como o Perceptron e o Adaline ser capaz de
solucionar problemas que não sejam linearmente separáveis.
Os anos seguintes foram marcados por um entusiasmo exagerado de muitos
pesquisadores, que passaram a publicar muitos artigos e livros que faziam uma previsão
pouco confiável para a época, sobre máquinas que seriam tão poderosas quanto o cérebro
humano, que surgiriam em um curto espaço de tempo. fsto reduziu a credibilidade dos estudos
desta área e provocou grandes aborrecimentos aos técnicos de outras áreas.
Somente com RUMELHART, et ai (1986), que propuseram um algoritmo que
permitia ajustar os pesos em uma rede com mais de um nível, o problema veio a se resolver.
O algoritmo Retropropagação era capaz de propagar o erro através dos nívei s numa fração
proporcional á influência de cada neurônio na resposta incorreta. Este estudo resultou no
modelo de Redes Neurais Artificiais, mais utilizado atualmente, o das redes Percepetron
Multi-Camadas (MLP), treinadas com o algoritmo de Retropropagação.
Em 1987 ocorreu em São Francisco a primeira conferência de redes neurats em
tempos modernos, a IEEE lntemational Conference on Neural Networks, e também foi

IJ
formada a International Neural Networks Society (fNNS). A partir destes acontecimentos
seguiu-se a criação do INNS journal em 1989 e do Neural Computation e do IEEE
Transactions on Neural Networks em 1990.
Desde 1987, muitas universidades no país e no exterior têm estruturado institutos de
pesquisa e têm desenvolvido programas de educação em neurocomputação.
Redes Neurais têm sido utilizadas em uma grande quantidade de aplicações onde os
métodos estatísticos são tradicionalmente empregados. Elas têm sido utilizadas em problemas
de classificação como identificação de contatos de sonáres aquáticos (GORMAN &
SEJNOWSKI, 1998), e problemas de predição de problemas cardíacos em pacientes (BAXT,
1990, 1991 ; FUJlT A et al, 1992). Redes Neurais também são usadas em diversas áreas como
diagnóstico de hipertensão (POLI et ai, 1991 ), jogo de gamão (TESAURO, 1990) e
reconhecimento de fala (LlPPMANN, 1989). Em aplicações de séries temporais as redes
neurais tem sido utilizadas no melhoramento da performance de estoque de supermercados
(HUTCHlNSON, 1994). Rede Neural é atualmente a ferramenta preferida na predição de
estruturas secu ndárias protéicas (Ql AN & SEJNOWSKl, 1988). Pode-se resolver estes tipos
de problemas através dos modelos clássicos de estatística como análise discriminante
(FLURY & RlEDWYL, 1990), regressão logística (STUDENMUND, 1992), Bayesiana e
outros tipos de métodos classificatórios (DUDA & HART, 1973), regressão múltipla (NETER
et ai, 1990), e modelos de séries temporais como ARIMA e outros métodos de previsão
(STUDENMUND, 1992). É então hora de reconhecer Redes Neurais como ferramenta de
análise de dados.
Vários autores têm feito estudos comparativos entre métodos estatísticos e redes
neurais (HRUSCHKA, 1993; WU & YEN, 1992). Há um grande número de artigos
introdutórios em redes neurais, por exemplo, LIPPMANN ( 1987) dá uma excelente visão de
redes neurais para o processamento de sinais. Há também um grande número de bons livros
introdutórios em redes neurai s, como HERTZ et al ( 199 1) reproduz uma boa descrição
1-l-
matemática, SMITH (1993) explora o algoritmo de retropropagação em um ambiente
aplicado, e FREEMAN (1994) usando exemplos para explicar redes neurais. Há também
jornais falando a respeito de redes neurais e métodos estatísticos (BUNTINE & WEIGEND,
1991 ; RIPLEY, 1994; SARLE, 1994; WERBOS, 1991). Um dos melhores para uma visão
geral sobre o assunto é RIPLEY (1993).

15
3. REDES NEURAIS NATURAIS
Composto por aproximadamente 10 bilhões de neurônios, o cérebro humano é
considerado o mai s fascinante processador existente baseado em carbono. Todas as funções e
movimentos do organi smo estão relacionados ao funcionamento destas pequenas células. Os
neurônios estão conectados uns aos outros através de sinapses, e juntos formam uma grande
rede, chamada Rede Neural. As sinapses transmitem estímulos através de diferentes
concentrações de sódio e potássio, e o resultado disto pode ser estendido por todo o corpo
humano . Esta grande rede proporciona uma enorme capacidade de processamento e
armazenamento de informação.
O sistema nervoso é formado por um conjunto extremamente complexo de neurônios.
Nos neurônios a comunicação é realizada através de impulsos. Quando um impulso é
recebido, o neurônio o processa e, passado um limite de ação, dispara um segundo impulso
que produz uma substância neurotransmissora, fluindo do corpo celular para o axônio, que por
sua vez pode ou não estar conectado a um dendrito de outra célula. O neurônio que transmite
o pulso pode controlar a freqüência de pulsos aumentando ou diminuindo a polaridade na
membrana pós sináptica. Eles tem um papel essencial na determinação do funcionamento,
compot1amento e do raciocínio do ser humano.
O sistema nervoso humano pode ser visto como um sistema de três estágios, como
mostrado no diagrama em bloco na Figura 3.1 (ARBIB, 1987).
Rede
Estimulo ~ Receptores Atuadores ~ Resposta
Neural
FIGURA 3.1: Representação em diagrama em blocos do sistema nervoso.
O centro do sistema é o cérebro, representado pela rede neural (natural), que recebe
continuamente informação, percebe-a e toma decisões apropriadas. Dois conjuntos de setas

16
são mostrados na figura. Aquelas que apontam da esquerda para direita indicam a transmi ssão
para frente do sinal portador de informação, através do sistema. As setas apontando da direita
para a esquerda indicam a presença de realimentação no sistema. Os receptores convertem
estímulos do corpo humano ou do ambiente externo em impulsos elétricos que transmitem
informação para a rede neural natural (cérebro). Os atuadores convertem impul sos elétricos
gerados pela rede neural natural em respostas discerníveis como saída do sistema.
A origem da teoria de Redes Neurai s remonta aos modelos matemáticos de neurônios
biológicos. A célula nervosa, ou neurônio, foi identificado anatomicamente e descrito com
notável detalhe, pelo neurologista espanhol Ramón y Cajal no século 19 (KOY ÁCS, 1996).
A Figura 3.2 detalha os principais componentes dos neurônios que são:
• Os dentritos, que tem por função, receber os estímulos transmitidos pelos outros
neurônios;
• O corpo de neurônio, também chamado de soma; composto do núcleo, do citoplasma e
da membrana celular; que é o responsável por coletar e combinar informações vindas
de outros neurônios;
E finalm ente o axônio, que é constituído de uma fibra tubular que pode alcançar até
alguns metros, e é responsável por transrn.itir os estímulos para outras células.
O tecido nervoso fo rma o cérebro, a medula espinhal, os nervos e os gânglios
nervosos. O cérebro e a medu la espinhal constituem o sistema nervoso central; os nervos e
gânglios nervosos, por sua vez, constituem o sistema nervoso periférico . O sistema nervoso
forma-se a partir do tubo nervoso embrionário. A unidade do tecido nervoso é o neurônio. O
neurônio é uma célula altamente especializada na percepção e transmissão de estímulos. Ao
receber um estímulo qualquer, seja de natureza química, elétrica ou mecânica, os dentritos
geram um impulso nervoso, o qual se transmite ao corpo celular, de onde se propaga até as
extremidades do axônio. O sentido de propagação do impulso em um neurônio segue sempre
a seqüência: dentrito => corpo celular => axônio.

17
Constituíntes da célula:
FIGURA 3.2: Os Constituintes de um Neurônio Natural
O impul so se propaga de um neurônio a outro através das sinapses nervosas. Entende-
se por sinapse como a ligação estabelecida entre as terminações axônicas de um neurônio com
os dentritos de outro. A análise de neurônios ao microscópio eletrônico mostra que, apesar de
muito próximos, eles não se tocam na região da sinapse.
Pode-se dizer que as sinapses são regiões eletronicamente ativas, compreendidas entre
duas membranas celulares: a membrana pré-sináptica, por onde chega um estímulo
proveniente de o utra célula, e a membrana pós-sináptica, que é a do dentrito. Nesta região
inter-sináptica, o estímulo nervoso que chega a sinapse é transferido à membrana dendrital
através de substâncias conhecidas como neurotransmissores. O resultado desta transferência é
uma alteração do potencial elétrico da membrana pós-sináptica. Dependendo do tipo de
neurotransmissor, a conexão sináptica será excitatória ou inibitória. Uma conexão excitatória
provoca uma alteração no potencial da membrana que contribui para a formação de um
impulso nervoso no axônio de saída enquanto que uma conexão inibitória age no sentido
oposto (KOV ÁCS, 1996).

18
Quando estimulado, um neurônio propaga o impulso nervoso, de natureza elétrica, ao
longo do seu axônio. Ao chegar nas extremidades axônicas, o impulso determina a liberação
de substâncias químicas chamadas mediadores si nápticos. As substâncias mediadoras, como a
acetilcolina e a adrenalina, estimulam os dentritos do neurônio pós-sináptico de tal maneira
que gerem nele o impulso nervoso. As terminações axônicas de muitos neurônios localizam-
se nos músculos, onde também são liberados mediadores químicos que o estimulam,
desencadeando a contração. Terminações nervosas de outros neurônios atingem certas
glândulas, estimulando-as a liberarem sua secreção.
O neurônio biológico pode ser visto como o dispositivo computacional elementar do
sistema nervoso, composto de muitas entradas e uma saída. As entradas são formadas atmvés
das conexões sinápticas que conectam os dendritos aos axônios de outras células nervosas. Os
sinais que chegam por estes axônios são pulsos elétricos conhecidos como impulsos nervosos
ou potenciais de ação e constituem a informação que o neurônio processa para produzir como
saída um impulso nervoso no seu axônio (KOV ÁCS, 1996).
A partir do conhecimento da estrutura e do comportamento dos neurônios naturais
foram identificadas suas características fundamentais, utilizadas na criação de modelos de
neurônios artificiais que simulam os reais. Estes neurônios artificiais são utilizados na
formação das Redes Neurais Artificiais (OSÓRIO, 1991).

19
4 . REDES NEURAIS ARTIFl C lAIS
Inteligência Artificial, Redes Neurais Artificiais, Neurocomputação são termos que, há
pouco tempo, soavam nos meios acadêmicos como utopia.
O processo mais notável deu-se, em particular, na área de Redes Neurais Artificiais,
que têm seus princípios fundamentais assentados nos trabalhos de modelagem biológica de
processos neurofisiológicos, cognitivos e comportamentais.
As redes neurais artificiais consistem em um método de solucionar problemas de
inteligência artificial, construindo um sistema que tenha circuitos que simulem o cérebro
humano, inclusive seu comportamento, ou seja, aprendendo, errando e fazendo descobertas.
São mais que isso, são técnicas computacionais que apresentam um modelo inspirado na
estrutura neural de organismos inteligentes e que adquirem conhecimento através da
experiência . Uma grande rede neural artificial pode ter centenas ou milhares de unidades de
processamento, enquanto que o cérebro de um mamífero pode ter muitos bilhões de
neurônios.
O campo de estudos com aplicação das Redes Neurais Artificiais mantém
dependências disciplinares com as chamadas ciências cognitivas, a psicologia, a
neurofisiologia, a matemática, a estatística e a fisica, em suas bases. Outros campos de
conhecimento são arrolados à medida que os resultados das pesquisas se aplicam .
As Redes Neurais Artificiais foram criadas partindo de fundamentos biológicos para
simular processos neurais em ambientes computacionai s, de forma que estes pudessem
adquirir propriedades tidas como especiais, tais como "aprender,. Porém, apesar de terem
sido criadas partindo de fundamentos biológicos, não o são mais. Atualmente constituem-se
de modelos matemático/estatísticos que pouco lembram os conhecidos neurônios dos livros de
biologia.
20
A tecnologia de redes neurais assemelha-se ao processo de resolução de problemas do
cérebro humano. Tal como humanos aplicam o conhecimento adquirido de experiências
passadas para novos problemas ou situações, uma rede neural artificial utiliza exemplos
resolvidos previamente para construir um sistema de nós que toma novas decisões, faz
classificações e prognósticos.
Redes Neurais Artificiais buscam por padrões em treinamento realizado em conjuntos
de dados, aprendem estes padrões, e desenvolvem a habilidade de classificar corretamente ou
fazer prognósticos e predições. A rede neural supera-se em diagnóstico de problemas,
tomadas de decisão, predição, e outros problemas de classificação onde o reconhecimento de
padrões é importante e respostas computacionais precisas não são requeridas.
A aplicabilidade de redes neurais artificiais é extensa. Elas têm sido utilizadas na
identificação de padrões e tendências nos dados, e são particularmente convenientes para
previsão, incluindo, previsão de vendas, pesquisas de consumidores, validação de dados,
análise de riscos, controle de processos industriais, dentre outras.
As redes neurais artificiais são constituídas por camadas de nós, que conectados,
formam a rede (Figura 4.1). Estes nódulos são unidades de processamento unitárias que agem
em paralelo. São análogas aos neurônios do cérebro humano, aceitam uma determinada
informação de entrada e produzem uma saída (HAfR et al, 1998).

21
FIGURA 4. 1: Representação gráfica de um nó com suas entradas e saída.
O nó aceita uma quantidade de informação de entrada X1, X2, XJ, ... , pondera,
respectivamente, de acordo com os pesos, w1 , w2, w3. A fimção somatório, 2:, permite
combinar todas as entradas em um único valor que representa o nível de ativação global das
entradas, assim o potencial interno do nó é dado pela ponderação das entradas Xi com os pesos
das respectivas conexões. A função de ativação,f(a), transforma as entrada recebidas em uma
informação de saída e a envia para outra unidade (nó) que a utiliza como informação de
entrada.
A operação de uma unidade de processamento de uma rede neural artificial, proposta
por McCUULLOCH & PlTTS (1943), pode ser resumida da seguinte maneira: sinais são
apresentados à entrada; cada sinal é multiplicado por um peso que indica a sua influência na
saída da unidade; é feita a soma ponderada dos sinais que produz um nível de atividade; e se
este nível de atividade exceder um certo limite (threshold) a unidade produz uma determinada
resposta de saída. O threshold é um nível determinado que as entradas ponderadas dos nós
anteriores têm que exceder para que o nó seja ativado.
O peso sináptico de um neurônio artificial pode estar em um intervalo que inclui
valores negativos bem como positivos.
O modelo neuronal apresentado na Figura 4.1 inclui também um v1es aplicado
externamente, representado por b. O vies b tem o efeito de aumentar ou diminuir a entrada
líquida da função de ativação, dependendo de ser positivo ou negativo, respectivamente, e

22
serve para aumentar os graus de liberdade, permitindo uma melhor adaptação, por parte da
rede neural, ao conhecimento à ela fornecido.
Em termos matemáticos, pode-se descrever um neurônio escrevendo-o pelas equações:
u =L wr,\:1 , v= f(u + b) e a =" 1 b

j=l
onde x 1, x 2, ... , Xp são os sinais de entrada; lV I, w 2, ... , w p são os pesos sinápticos do neurônio ; "
é a saída do combinador linear (função somatório) devido aos sinai s de entrada; b é o vies;
j(a) é a função de ativação; e v é o sinal de saída do neurônio.
A função de ativação f(a) converte a soma de ativação das entradas de saída. Esta
função que é um fator básico de diferenciação entre os nós, decide baseada no potencial
interno do nó, qual o va lor que deve ser enviado aos demais nós. Geralmente as funções de
ativação são funções não-lineares. As duas funções de ativação mais comuns são a função
threshold e a função sigmóide, apresentada respectivamente abaixo.
1
f(a) = _ e f (a) = tanh(a)
1+ e a
A função threshold é usada em situações onde as entradas e saídas são binárias. A
função sigmóide é a função de ativação mais comum utilizada em modelagem de redes
neurats.
As redes neurais artificiais são constituídas por uma camada de entrada, outra de saída,
e camadas intermediárias, conhecidas como camadas de nós ocultos. A Figura 4.2 mostra a
representação simplificada de uma rede neural com duas camadas de nós ocultos.
Os nós de entrada são responsáveis pela obtenção da informação inicial que será
transmitida pela rede. Um nódulo de entrada representa uma única variável ou padrão.
Quando as variáveis são quantitativas requerem somente um nó para cada uma delas,
entretanto as variáveis qualitativas devem ser codificadas adequadamente, de tal forma que
cada categoria seja representada por uma variável binária. Assim, uma variável codificada em
23
duas categorias seria representada . por dois nós de entrada; uma categoria teria os valores
( 1,0), enquanto a outra (0, l).
FIGURA 4.2: Representação gráfica de uma rede com duas camadas intermediárias.
Os nódulos de saída recebem entradas e produzem uma saída, mas não passam essa
informação adiante para outro nódulo . Esta saída é o resultado final da rede. Se a rede é
direcionada por um modelo preditivo, então esta saída é um valor predito. Se a rede é
direcionada por um modelo de classificação, a saída é o valor final usado no processo de
c lassificação.
A camada intermediária é utilizada pela rede na representação de relacionamentos
mais complexos do que simplesmente relações um a um entre entrada e saída. Os nós ocultos,
com suas funções de ativação, são responsáveis pela representação de relacionamento não-
lineares.
A ação de cada nó em uma rede neural artificial é independente da ação de outro, mas
as ações são paralelas, o que proporciona grande flexibilidade na modelagem
(HAIR et ai, 1998)
A generalização de uma rede se refere ao fato dela produzir saídas adequadas para
entradas que não estavam presentes durante o treinamento, isto é, a aprendizagem. A
capacidade de generalização e de aprendizagem possibilitam as redes neurais resolver

24
problemas complexos (de grande escala). Redes Neurais Artificiais apresentam as
propriedades e capacidades descritas a seguir:
• Não linearidade: Uma rede composta por neurônios não-lineares é dita não-linear também.
A não-linearidade é uma propriedade muito importante, particularmente se o mecanismo
físico responsável pela geração do sinal de entrada for inerentemente não-linear.
• Mapeamento de Entrada-Saída: Cada exemp lo da amostra de treinamento que é apresentado
à rede consiste de um sinal de entrada único e de uma resposta desejada correspondente. Os
exemplos de treinamento previamente aplicados podem ser reaplicados durante a sessão de
treinamento, mas em ordem diferente. Assim, a rede aprende com os exemplos ao construir
um mapeamento de entrada-saída para o problema considerado. Tal abordagem faz lembrar o
estudo de inferência estatística não-paramétrica, que é o ramo da estatística que trata da
estimação independente de modelo, ou seja~ não são feitas suposições prévias sobre o modelo
estatístico dos dados de entrada.
• Adaptabilidade: As redes neurais artificiais têm uma capacidade inata de adaptar seus pesos
sinápticos a modificações externas. Em particular, uma rede treinada para operar em um
ambiente específico pode ser facilmente retreinada para lidar com pequenas modificações
operativas do ambiente. De modo geral, quanto mais adaptativo se fizer um sistema,
assegurando-se de que o sistema se mantenha estável, mais robusto tenderá a ser o seu
desempenho quando o sistema for exigido a operar em um ambiente não-estacionário.
• Resposta a Evidências: No contexto de classificação de padrões, uma rede neural pode ser
projetada para fornecer informação não somente sobre qual padrão particular selecionar, mas
também sobre a confiança ou crença na decisão tomada. Esta última informação pode ser
utilizada para rejeitar padrões ambíguos e com isso melhorar o desempenho de classificação
da rede.
25
• Infom1acão Contextual: O conhecimento é representado pela própria estrutura e estado de
ativação de uma rede neural. Cada neurônio da rede é potencialmente afetado pela atividade
de todos os outros neurônios da rede. Consequentemente, a informação contextual é tratada
naturalmente pela rede neural.
• Tolerância a Falhas: Uma rede neural, implementada em um hardware, tem o potencial de
ser inerentemente tolerante a falhas, ou capaz de realizar computação robusta, no sentido de
que seu desempenho se degrada suavemente sob condições de operações adversas. Para se
assegurar que uma rede seja de fato tolerante a falhas pode ser necessário adotar-se
medidas corretivas no projeto do algoritmo utilizado para treinar a rede
(KERLIRZIN & VALLET, 1993).
• Implementação em VLS l: A natureza maciçamente paralela de uma rede neural a faz ser
potencialmente rápida na computação de certas tarefas. Esta mesma característica tona uma
rede neural adequada para implementação utilizando tecnologia de integração em escala
muito ampla (very-large-scale-integration), sendo esta tecnologia que fornece um meio de
capturar comportamentos realmente complexos de uma forma altamente hierarquizada.
(MEAD, 1989).
• Uniformidade de Análise e Projeto: As redes neurats, basicamente, desfrutam de
universalidade como processadores de informação, no sentido de que a mesma notação é
utilizada em todos os domínios envolvendo a aplicação de redes neurais.
• Analogia Neurobiológica: O projeto de uma rede neural artificial é motivado pela analogia
com o cérebro, que é uma prova viva de que o processamento paralelo tolerante a falhas é não
somente possível fisicamente mas também rápido e poderoso.

26
4.1. ARQUITETURA DE UMA REDE
Um dos objetivos da pesquisa sobre redes neurats na computação é desenvolver
morfologias neurats matemáticas, não necessariamente baseadas na biologia, que podem
realizar funções diversas. Na maior parte dos casos, modelos neurais são compostos de muitos
elementos não lineares que operam em paralelo e que são classificados de acordo com
padrões ligados à biologia.
Quando um processo é criado visando utilizar aspectos de redes neurais começam com
o desenvolvimento de um neurônio artificial baseado no entendimento de estruturas
biológicas neurais, seguidas do aprendizado de mecanismos voltados para um determinado
conj unto de aplicações. Ou em outras palavras, seguindo as três etapas:
• O desenvolvimento de modelos neurais motivado por neurônios biológicos;
• Modelos de estruturas e conexões sináptica s ~
• O aprendizado das regras (método de ajuste de pesos ou forças de conexões internodais)
A maneira como os neurônios de uma rede estão estruturados está fortemente ligada
com o algoritmo de aprendizagem usado para treinar a rede. Pode-se, portanto, falar de
algoritmos de aprendizagem utilizados no projeto de redes neurais como sendo estruturados.
Em geral, pode-se identificar classes de redes fundamentalmente diferentes:
I. Redes Alimentadas Adiante com Camada Única: Temos uma camada de entrada de nós de
fonte que se projeta sobre uma camada de sa ída, mas não vice-versa, ou seja, esta rede é
estritamente do tipo alimentada adiante ou acíclica. Ela é ilustrada na Figura 4.1.1 para o caso
de quatro nós tanto na camada de entrada como na de saída. Esta rede é chamada de rede de
camada única, sendo a designação " camada única" referente à camada de nós de saída. Não
conta-se a camada de entrada de nós de fonte, porque lá não é realizada qualquer computação.
27
Camada de Saí da
Camada de Entada
FIGURA 4.1.1: Rede alimentada adiante ou acíclica com uma única camada de nós.
2. Redes Alimentadas Diretamente com MúltiP-las Camadas: Caracteriza-se pela presença de
uma ou mais camadas ocultas (intermediárias), cujos nós são chamados de nós ocultos ou
unidades ocultas. A função destes nós ocultos é de intervir entre a entrada externa e a saída da
rede de maneira pertinente. Com a presença de uma ou mais camadas ocultas, a rede torna-se
capaz de extrair estatísticas de ordem elevada. A habilidade dos nós ocultos extraírem
estatísticas de ordem elevada é valiosa quando o tamanho da camada de entrada é grande. A
Figura 4.1.2 ilustra a arquitetura de uma rede neural artificial de múltiplas camadas
alimentada adiante para o caso de uma única camada oculta.
De acordo com RUMELHART & WElGEND (1990), a rede neural deve possuir no
mínimo duas camadas, a de entrada de dados e a da saída dos resultados. Como a rede
apresenta desempenho muito limitado com somente duas camadas, a adição de uma camada
intermediária faz-se necessária. Neste tipo de configuração, cada neurônio está ligado com
todos os outros das camadas vizinhas, mas neurônios da mesma camada não se comunicam,
além da comunicação ser unidirecional, apresentando assim um comportamento estático.
HECHT-NIELSEN (1990) afirma que com apenas uma camada oculta já é possível
calcular uma função arbitrária qualquer a partir de dados fornecidos, defendendo, assim, que a
camada oculta deve ter por volta de 2i+ 1 neurônios, onde i é o número de variáveis de
entrada.
28
Já UPPMANN (1989) afirma que a segunda camada escondida deve ter o dobro de
neurônios da camada de saída. No caso de apenas uma camada escondida ela deverá ter s(i+ l)
neurônios, onde sé o número de neurônios de saída e i o número de neurônios na entrada.
Independente de cada abordagem, quanto mais camadas de neurônios, melhor é o
desempenho da rede neural pois aumenta a capacidade de aprendizado, melhorando a precisão
com que ela delimita regiões de decisão . Estas regiões de decisão são intervalos fixos onde a
resposta pode estar.
camada de Saída
camada Escondi da
camada de Entrada
FIGUR A 4.1.2: Rede alimentada adiante ou acíclica com uma camada escondida e uma
camada de saída.
3. Redes Recorrentes: Distingui-se por ter pelo menos um laço de realimentação. Uma rede
recorrente pode consistir, por exemplo, de uma camada de nós com cada nó alimentando seu
sinal de saída de volta para as entradas de todos os outros nós, como é representado na
Figura 4.1 .3. As conexões de realimentação mostradas se originam dos nós ocultos bem como
dos nós de saída. A presença de laços de realimentação tem um impacto profundo na
capacidade de aprendizagem da rede e no seu desempenho. Este laços envolvem o uso de
ramos particulares compostos de elementos de atraso unitário (representados por z- 1), o que
29
resulta em um comportamento dinâmico não-linear, admitindo-se que a rede neural contenha
unidades não-lineares (HAYKlN, 2000).
J Saídas
Entndao [
FIGURA 4. 1.3: Rede recorrente com nós ocultos.
4.2. APRENDIZADO DA REDE
A propriedade mais importante das redes neurais é a habilidade de aprender de seu
a mbiente e com isso melhorar seu desempenho. lsso é feito através de um processo iterativo
de ajustes aplicado a seus pesos, o treinamento. O aprendizado ocorre quando a rede neural
atinge uma solução generalizada para uma classe de problemas.
O procedimento utilizado para realizar o processo de aprendizagem é chamado de
algoritmo de aprendizagem, cuja função é modificar os pesos sinápticos e níveis de vies da
rede de uma forma ordenada para alcançar um objetivo de projeto desejado. Existem muitos
tipos de algoritmos de aprendizado específicos para determinados modelos de redes neurais,
estes algoritmos diferem entre si principalmente pelo modo como os pesos são modificados.
Conforme MENDEL & McCLAREN (1970), aprendizagem é um processo pelo qual
os parâmetros de uma rede neural são adaptados através de um processo de estimulação pelo
ambiente no qual a rede está inserida. O tipo de aprendizagem é determinado pela maneira
pela qual a modificação dos parâmetros ocorre.

30
Esta definição do processo de aprendizagem implica a seguinte seqüência de eventos:
1. A rede é estimulada por um ambiente.
2. A rede sofre modificações nos seus parâmetros livres como resultado desta estimulação.
3. A rede responde de uma maneira nova ao ambiente, devido às modificações ocorridas na
sua estrutura interna.
Pode-se denominar ainda o ciclo de aprendizado da rede cpmo sendo uma
apresentação de todos os N pares (entrada e saída) do conjunto de treinamento no processo de
aprendizado. A correção dos pesos num ciclo pode ser executado de dois modos:
1. Modo Padrão: A correção dos pesos acontece a cada apresentação à rede de um exemplo do
conjunto de treinamento. Cada correção de pesos baseia-se somente no erro do exemplo
apresentado naquela iteração. Assim, em cada ciclo ocorrem N correções.
2. Modo Batch: Apenas uma correção é feita por ciclo. Todos os exemplos do conjunto de
treinamento são apresentados à rede, seu erro médio é calculado e a partir deste erro fazem-se
as correções dos pesos.
Outro fator importante é a maneira pela qual uma rede neural se relaciona com o
ambiente. Nesse contexto existem os seguintes paradigmas de aprendizado:
I. Aprendizagem supervisionada: utiliza um agente externo que indica à rede um
comportamento bom ou ruim de acordo com o padrão de entrada. Constrõem modelos, os
quais classificam padrões ou executam predições de acordo com outros padrões de "entradas"
e "saídas" que eles aprenderam. Eles dão a resposta mais razoável baseada em uma variedade
de padrões de aprendizado. Em uma rede supervisionada, você mostra à rede como fazer
predições, classificações, ou decisões, fornecendo a ela um grande número de classificações
corretas ou predições das quais ela pode aprender.
2. Aprendizagem não-supervisionada (auto-organização): não utiliza um agente
externo indicando a resposta desejada para os padrões de entrada, utiliza-se entretanto,
exemplos de coisas semelhantes para que a rede responda de maneira semelhante. Podem
31
classificar um conjunto de padrões de treinamento em um número especificado de categorias
sem ser mostrado antes como categorizar. A rede faz isto agrupando os padrões. Ela agrupa-
os por sua proximidade em um espaço dimensional N onde o N é o número de "entradas". O
usuário diz à rede o número máximo de categorias e ela geralmente agrupa os dados em um
certo número de categorias. Entretanto, ocasionalmente a rede pode não ser capaz de separar
os padrões naquelas muitas categorias opcionais.
A rede neural se baseia nos dados para extrair um modelo geral. Portanto, a fase de
aprendizado deve ser rigorosa e verdadeira, a fim de se evitar modelos espúrios. Todo o
conhecimento de u.ma rede neural está armazenado nas sinapses, ou seja, nos pesos atribuídos
às conexões entre os neurônios. De 50 a 90% do total de dados devem ser separados para o
treinamento da rede neural, dados estes escolhidos aleatoriamente, a fim de que a rede
aprenda as regras e não adicione nenhuma tendência no seu resultado final. O restante dos
dados só é apresentado à rede neural na fase de testes a fim de que ela possa "deduzir"
corretamente o inter-relacionamento entre os dados.
Pode-se dividir os processos de aprendizagem em cmco regras básicas de
aprendizagem: aprendizagem por correção de erro, aprendizagem baseada em memória,
aprendizagem hebbiana, aprendizagem competitiva e aprendizagem de boltzmann. Estas
regras permitem ir muito além do alcançável por fi ltros adaptativos lineares, tanto em termos
de capacidade como em universalidade.
No estudo de aprendizagem supervisionada, uma condição fundamental é a existência
de um especialista capaz de fornecer COITeções exatas para as saídas da rede quando um erro
ocorrer, como na aprendizagem por correção de erro; ou de fixar em relação ao ambiente as
unidades de entrada e de saída livres da rede, como na aprendizagem de Boltzmann. Nenhum
destes modelos é possível em organismos biológicos, que não possuem as conexões nervosas
recíprocas exatas necessárias para a retropropagaçã.o das correções de erro (em uma rede de
múltiplas camadas alimentada adiante), nem os meios nervosos para imposição de

32
comportamento pelo mundo exterior. Apesar disso, a aprendizagem supervisionada
estabeleceu-se como um paradigma poderoso para o projeto de redes neurais artificiais.
Por outro lado, regras de aprendizagem não-supervisionada, tais como a aprendizagem
hebbiana e a aprendizagem competitiva, são motivadas por considerações neurobiológicas.
Entretanto, para aperfeiçoar o entendimento sobre a aprendizagem não-supervisionada, é
necessário buscar idéias relevantes na teoria da informação de Shannon. O princípio da
máxima informação mútua (Infomax) de LINSKER (1 988) fornece o formalismo matemático
para o processamento da informação em uma rede neural artificial não-supervisionada, de
uma forma até certo ponto análoga à transmissão de informação em um canal de
comunicação.
A discussão sobre os métodos de aprendizagem não seria completa sem mencionar o
modelo de aprendizagem seletiva darwiniano (EDELMAN, 1987 ~ REEKE et ai. , 1990). Este
modelo é baseado na teoria de seleção de grupo mental, e pressupõe que o sistema nervoso
opera por uma forma de seleção similar a seleção natural evolutiva, mas que isto acontece
dentro do cérebro durante o período de vida de cada animal. De acordo com esta teoria, as
unidades operacionais básicas não são os neurônios isolados, mas sim grupos localizados de
células fortemente interligadas. A pertinência de neurônios em um grupo é modificada pela
alteração dos pesos si nápticos dos neurônios. A competição local e a cooperação entre células
são claramente necessárias para produzir ordenação local na rede. Uma coleção de grupos
neuronais é denominada repertório . Grupos em um repertório respondem melhor a padrões de
entrada superpostos mas similares, devido à natureza aleatória do crescimento neural. Um ou
mai s grupos neuronais em um repertório respondem a todo padrão de entrada, assegurando
assim que haja uma resposta a padrões de entrada não-esperados, que podem ser importantes.
A aprendizagem seletiva darwiniana é diferente dos algoritmos de aprendizagem
normalmente utilizados no projeto de redes neurais artificiais, porque ela assume que, por
..,..,
.).)
projeto, haja muitas subredes e que somente aqueles com resposta desejada são selecionadas
durante o processo de treinamento.
Nenhum tipo de rede é garantida de sempre dar uma resposta absolutamente "correta",
especialmente se os padrões são de alguma forma incompletos ou conflitantes.
Os resultados devem ser avaliados em termos da percentagem de respostas corretas
que resultaram do modelo. Alguns problemas são bem apropriados para a capacidade de
reconhecimento de padrões de uma rede neural e outros são melhor resolvidos com métodos
estatísticos tradicionais.
4.2. 1. TEORIA ESTATÍSTICA DO PROCESSO DE APRENDIZAGEM
O interesse principal aqui é expressar em termos estatísticos o desvio entre a função
"alvo" f (x) e a função "real" F(x, w), realizada pela rede neural, onde o vetor x representa o
sinal de entrada e w é o vetor de pesos sinápticos.
Dado uma amostra de treinamento 1: constituída de N realizações do vetor aleatório X
constituindo de um conjunto de variáveis independentes representadas por {x, t 1

e por N
realizações do escalar aleatório D que representa uma variável dependente representadas por
{d, };" 1 • Através do modelo proposto por WHITE (I 989), a relação funcional entre X e O pode
ser a descrita a seguir:
D = .f(X) + r-
onde .f{.) é uma função determinística de seu argumento vetorial, e e é um erro de predição
aleatório que representa o desconhecimento sobre a dependência de D e X. O modelo descrito
acima é o modelo estatístico de regressão e está representado na Figura 4.2. 1. la.

d d
(a) (b)
FIGURA 4.2.1 . 1: (a) Modelo estatístico de regressão. (b) Modelo (físico) de rede neural.
O modelo de regressã.o da Figura 4.2.1.1 a é uma descrição estatística de um ambiente
estocástico. O seu propósito é utilizar o vetor X para explicar ou prever a variável dependente
D . A Figura 4.2.1. I b é o modelo "físico" correspondente do ambiente. O propósito deste
segundo modelo, baseado em uma rede neural, é codificar o conhecimento empírico,
representado pela amostra de treinamento 't em um conjunto correspondente de vetores de
pesos sinápticos w . Na verdade, a rede neural fornece uma aproximação para o modelo de
regressão da Figura 4.2.1 . I a.
A caracterização estatística das redes neurais artificiais pode ser feita também através
de uma teoria de aprendizagem que trata da questão fundamental de como controlar a
habilidade de general ização de uma rede neural em termos estatísticos. A discussão é
apresentada no contexto da aprendizagem supervisionada.
Um modelo de aprendizagem supervisionada consiste de três componentes
interrelacionados, ilustrados na Fit,rura 4.2.1.2 e descritos em termos estatísticos como segue
(V APNl K, 1992, 1998):
1. Ambiente: O ambiente é estacionário, fornecendo um vetor x com uma função de
distribuição de probabilidade cumulativa fixa, mas desconhecida Fx(x).
2. Especialista: O especialista fornece uma resposta desejada d para cada vetor de entrada x
recebido do ambiente, de acordo com uma função de distribuição cumulativa condicional
Fx(xld) que é também fixa mas desconhecida. A resposta desejada de o vetor de entrada x
estão relacionados por d =f(x, v), onde v é um termo de ruído.

35
3. Máquina (algoritmo) de aprendizagem: A máquina de aprendizagem (rede neural) é capaz
de implementar um conjunto de funções de mapeamento de entrada-saída descritas por
y = F(x, w), onde y é a resposta real produzida pela máquina de aprend izagem em resposta à
entrada x, e w é um conjunto de parâmetros livres (pesos sinápticos).

F(x, w);::; d
FIGURA 4.2.1 .2: Modelo do processo de aprendizagem supervisionada.
O problema da aprendizagem supervisionada é selecionar a função particular F(x, w)
que aproxima a resposta desejada d de uma forma ótima, sendo "ótimo" definido em um
sentido estatístico. A própria seleção é baseada no conjunto dos N exemplos de treinamento
independentes e identicamente distribuídos (iid).
Vale também citar o modelo de aprendizagem provavelmente aproximadamente
correto (PAC) que é creditado a VALlANT (1984). Como o nome implica, o modelo PAC é
uma estrutura probabilística para o estudo de aprendizagem e generalização em sistemas de
classificação binária. Ele está intimamente relacionado à aprendizagem supervisionada.
Resumidamente, o modelo consiste que desde que o tamanho da amostra de
treinamento seja suficientemente grande, após a rede neural ter sido treinada com o conjunto
de dados, é " provável" que o mapeamento de entrada-saída calculado pela rede seja
"aprox imadamente correto".
Na teoria de aprendizagem P AC, uma questão de particular interesse com implicações
práticas é a questão da complexidade da amostra. O enfoque nesta questão está sobre quantos
exemplos aleatórios devem ser apresentados ao algoritmo de aprendizagem para que ele
adquira informação suficiente para aprender um conceito-alvo desconhecido.

36
Para proceder o processo de aprendizagem de uma rede neural através do algoritmo de
retropropagação proposto por HERTZ et ai ( 1991) é necessário o uso de uma função objetivo
ou uma medida de performance. O objetivo é utilizar a função objetivo para otimizar os pesos.
A medida de performance mais usada em redes neurais é a soma de quadrados dos resíduos
dada por:
onde p representa as observações num total de n observações, k é o nó de saída com um total
de O nós de saída, y é a resposta observada da variável alvo, e yé a resposta predita pelo
modelo. Esta é, então, a soma dos quadrados das diferenças entre a resposta predita e a
resposta observada de todas as observações. No caso da predição de um único nó de saída
(k= 1), tem-se
que é a usual fu nção para min imização por mínimos quadrados em análise de regressão .
O processo de aprendizagem ini cia co m os valores de entrada sendo apresentados a
camada de entrada. Os nós de entrada não executam nenhuma operação com esta informação,
mas simplesmente passam esta informação para os nós da camada oculta. Como já foi
mostrado anteriormente, a estrutura do cálculo feito pelo j-ésimo nó da camada oculta é dado
por:
.\ '
u PJ = L w ji X pt
t= l
onde N é o número total de nós de entrada, llj 1 é o peso do nó de entrada i para o nó oculto), e
Xpi é o valor do i-ésimo nó de entrada para a observação p . O j-ésimo nó escondido aplica uma
função de ativação para suas entradas e saídas (neste caso a função sigmóide):
37
v PJ = /·cli · ) = -I +e-1 -
• P.l - 11
t!l
Similarmente, o nó de saída k recebe um resultado de entrada de
f pk = :Lwkj v PJ
; =I
onde M é o número de nós ocultos, e W k; representa o peso do nó oculto .f para o nó de saída k.
O nó de saída, então, apresenta o seguinte resultado como resposta predita.
O valor inicial não foi considerado na equação. Isso porque o valor inicial pode ser
calculado adicionando um nó extra e fixando seu valor em I. Isto é similar a adição de uma
coluna de uns na matriz de planejamento nos problemas de regressão para o cálculo do
intercepto.
Vale lembrar que o objetivo é encontrar o valor de wp, os pesos das conexões dos nós
de entrada aos nós ocultos, e U';k, os pesos das conexões dos nós ocultos aos nós de saída que
minimize a função objetivo que é a soma de quadrados dos resíduos. Assim a derivada parcial
da função objetivo em relação ao peso U/;k representa a taxa de mudança da função objetivo
em relação ao peso, isto é a inclinação da função objetivo. Movimentando os pesos na direção
descendente da inclinação representará um decréscimo na função objetivo. Isto sugere um
método para iterativamente encontrar valores para os pesos. Avalia-se a derivada parcial da
função objetivo em relação aos pesos e então move-se os pesos em direção descendente da
inclinação, continuando até que a função erro não mais decresça. Matematicamente, isto é
representado como
38
onde o termo 17 é conhecido como a taxa de aprendizagem. A prática comum em redes neurais
é usar um valor fixo para a taxa de aprendizagem no início do problema.
Primei ramente, deriva-se uma expressão para calcular o ajustamento dos pesos dos nós
ocultos para os nós de saída W11. Fazendo as devidas substituições na função objetivo, obtém-
se o seguinte resultado
e, então, calculando a derivada parcial tem-se que
()F,
mas àW =- ( y pk -
A
y pk
)
~7
(p"',
e --'.Y pk f '( f ) = Y "k pela função sigmó id e e
l - Y"k
A ( A )
--;;;;:--- = . pk
<~, pk
Substituindo estes resultados na expressão de LlWki , tem-se que a mudança nos nós
ocultos para os nós de saída é
Com isso chega-se a fórmu la para adaptação dos pesos da rede (dos nós da camada
oculta para os nós de saída) dada por
Utiliza-se o peso atual da rede W~ adicionado por um peso ajustado LlW~, para obter o
peso estimado w~·>~ do passo seguinte. Para adapta r os pesos wp, utiliza-se o mesmo
procedimento com as devidas modificações. O processo de adaptação dos pesos é feito até
que se atinj a o mínimo para a função objetivo. (W ARNER & M ISRA, 1996)
Dado as equações acima utiliza-se, então, os passos descritos a seguir que são
necessários para calcular a mudança nos pesos da rede usando a aprendizagem de
retropropagação. Este algoritmo é adaptado de HERTZ et ai. (I 991 ).

39
1. Inicialmente atribua os pesos aleatoriamente. Estes pesos inicias de cada unidade podem
estar por volta de 0,5.
2. Escolha um exemplo (observação) p e propague-o para frente. Isto produz os valores de VpJ
e y
1
,k, as saídas para as camadas escondida e de saída.
3. Compute os resíduos: ô pk =(ypk - Yp~c)f'(f"k ) .
4. Compute os resíduos para a camada escondida: lf/ PJ = L~=1 Ô pkWt1 v /'1 (I - v PJ ).
5. Calcule fl.WtJ = 178 pk vP.J e fiw1; =1/lf/ P/ ,, para adaptar os pesos.
6. Repita os passos para cada exemplo (observação).
É fácil ver como isto poderia ser implementado em um programa de computador.

40
4.3. fNTELIGÊNCIA ARTIFICIAL E NEUROCOMPUTAÇÃO
O objetivo da inteligência artificial (IA) é desenvolver paradigmas ou algoritmos que
requeiram máquinas para realizar tarefas cognitivas, para as quais os humanos são altamente
melhores. Um sistema de IA deve ser capaz de: (1) armazenar conhecimento, (2) aplicar o
conhecimento armazenado para resolver problemas e (3) adquirir novo conhecimento através
da experiência. Um sistema de IA tem três componentes fundamentais: representação,
raciocínio e aprendizagem (SAGE, 1990), como é representado na Figura 4.3.1.
Representação
Raciocínio
FIGURA 4.3.1: Ilustração dos três componentes principais de um sistema de IA
1. Representação: A característica mais distintiva da IA provavelmente seja o uso difundido
de uma linguagem de estruturas simbólicas para representar tanto o conhecimento genérico
sobre um domínio do problema de interesse como o conhecimento específico sobre a solução
do problema.
2. Raciocínio: De forma simplificada, raciocínio é a habilidade de resolver problemas. Para
um sistema ser qualificado como um sistema de raciocínio ele deve ser capaz de expressar e
resolver uma vasta gama de problemas, ser capaz de tornar conhecidas para ele tanto a
informação explícita como a informação implícita e o sistema deve ter, também, um
mecanismo de controle que determine quais operações devem ser aplicadas para um problema
particular, quando uma solução para este problema foi obtida, ou quando deve ser encerrado o
tratamento deste problema (FISCHLER & FIRSCHEIN, 1987).

41
3. Aprendizagem: Na Figura 4.3.2 é representada o modelo simples de aprendizagem de
máquina. O ambiente fornece alguma informação para um elemento de aprend izagem que a
utiliza para aperfeiçoar a base de conhecimento, e finalmente o elemento de desempenho
utiliza a base de conhecimento para executar a sua tarefa.
Elemento de ,""' Base de Elemento de

~ aprendizagem conhecimento ~
Ambiente
desempenho
i J
FlGURA 4.3.2: Modelo simples de aprendizagem de máquina
Uma comparação entre l A e Redes Neurais Artificiais pode ser feita sobre os aspectos
de nível de explanação, estilo de processamento e estrutura representativa.
Pode-se descrever a IA como a manipulação formal de uma linguagem de algoritmos e
representações de dados em uma forma de cima para baixo (top-down). Por outro lado, as
redes neurais podem ser descritas como processadores distribuídos paralelamente com uma
habilidade natural de aprender e que normalmente operam de uma forma de baixo para cima
(bottom-up). Portanto, torna-se evidente que, para a implementação de tarefas cognitivas,
melhor que procurar soluções baseadas em l A ou em redes neurais isoladamente, uma
abordagem potencialmente mais vantajosa seria construir modelos conexionistas estruturados
ou sistemas híbridos que interajam ambas as abordagens. Fazendo isso, obtém-se a
combinação das características desejáveis de adaptabilidade, robustez e uniformidade
oferecidas pelas redes neurais com a representação, inferência e universalidade, que são
características inerentes da IA (FELDM AN, 1992; W ALTZ, 1997).
A neurocomputação é uma ciência ligada ao desenvolvimento e estudo das Redes
Neurais Artificiais, que tem como base fundamental o processamento distribuído, adaptativo e
não linear. As redes neurais executam processos de forma bem diferente dos computadores
convencionais, que possuem uma única unidade central de processamento resolvendo
seqüencialmente todas as partes de um problema. As redes neurais são constitu ídas por um
42
significativo número de elementos de processamento extremamente simples, os quats
individualmente resolvem parte de um grande problema.
Os modelos neurais, procuram aproximar o processamento dos computadores ao
cérebro. As redes neurais possuem um grau de interconexão similar a estrutura do cérebro e
em um computador convencional moderno a informação é transferida em tempos específicos
dentro de um relacionamento com um sinal para sincronização.
Pode ser traçado um comparativo com o computador digital e com um
neurocomputador como é apresentado na Tabela 4.3.1.
TABELA 4.3 .1: Quadro comparativo entre computadores e neurocomputadores
Computadores Neurocomputadores
- Executa programas -Aprende
- Executa operações lógicas -Executa operações não lógicas,
transformações, comparações
- Depende do modelo ou do - Descobre as relações ou regras dos dados e
programador exemplos
-Testa uma hipótese por vez -Testa todas as possibilidades em paralelo
4.4. REDES NATURAIS x REDES ARTIFICIAIS
Ao contrário das redes neurais artificiais, as redes neurais naturais não transmitem
sinais negativos, sua ativação é medida pela freqüência com que emite pulsos, freqüência esta
de pulsos contínuos e positivos. As redes naturais não são uniformes como as redes artificiais,
e apresentam uniformidade apenas em alguns pontos do organismo. Seus pulsos não são
síncronos ou assíncronos, devido ao fato de não serem contínuos, o que a difere de redes
artificiais.
-B
As diferenças principais entre os computadores (Redes Artificiais) e o cérebro humano
(Redes Naturais) são:
Velocidade de Processamento:
Os processadores digitais tem velocidade de centenas de Mhz, levando algumas
dezenas de manosegundos para executar uma instrução, enquanto que os neurônios levam
pelo menos 4 milisegundos para completar um ciclo de disparo. Sendo assim, um computador
5
pode ter componentes que são I 0 vezes mais rápidos que um neurônio.
Modo de Processamento:
Uma possível explicação para o cérebro ter um desempenho melhor que um
computador em certas tarefas tais como visão é que, ao invés de executar um programa muito
g rande de modo serial como os computadores fazem, o cérebro executa em paralelo um
número grande de pequenos programas.
Número e Complexidade dos Processadores:
Em um computador as instruções dos programas são realizadas em poucos
processadores de elevada complexidade. No cérebro humano, um número muito maior ( I 0 11 )
de processadores relativamente simples e de baixa resolução (neurô nios) trabalham com alta
interconectividade (cada neurônio pode estar conectado a até cerca de 104 outros neurônios).
Armazenamento de Conhecimento:
Um determinado item de informação é armazenado em uma posição de memória
específica em um computador. Este tipo de memória é chamado de memória localizada, pois
uma unidade de memória contém um item inteiro de informação. Por outro lado, entende-se
que no cérebro a informação está distribuída nas sinapses, de tal forma que nenhuma sinapse
contém um item inteiro e cada sinapse pode contribuir para a representação de vários itens de
informação. Este tipo de memória é chamado de memória distribuída. Além disso o
computador utiliza memória endereçada por endereço, enquanto o cérebro utiliza memória
-l4
endereçada por conteúdo, ou seja, um memória é lembrada usando-se partes de seu conteúdo
como as chaves de endereçamento.
Controle do Processamento:
Em um computador existe um sinal de relógio que é usado para sincronizar todos os
componentes, enquanto que no cérebro não existe uma área responsável pelo controle e
sincronização de todos os neurônios.
A semelhança da rede natural com a rede natural é muito g rande, pois ambas possuem
disparos de saídas, podendo receber várias entradas, e direcionando em uma única saída.
4.5. ALGUMAS REDES MAIS UTILIZAD AS
4.5.1. REDE PE RCEPTRON
Desenvolvido por ROSENBLATT ( 1958), em prosseguimento às idéias de
McCulloch, o Modelo de Rede Neural Perceptron é uma rede genuína de múltiplos neurônios
do tipo descriminadores lineares. Em sua origem era uma simulação computacional para a
retina, que demonstrou como o sistema nervoso visual reconhece padrões. Um Perceptron é
uma rede com uma topologia representada da Figura 4.5. 1. 1, com os neurônios dispostos em
várias camadas. Tipicamente, a rede consiste de um conjunto de nós que constituem a camada
de entrada, uma ou mais camadas ocultas (escondidas) e uma camada de saída. O sinal de
entrada se propaga para frente através da rede, camada por camada. Estas redes são
normalmente chamadas de perceptrons de múltiplas camadas (MLP, multilayer perceptron).

45
r
Camada de
entrada
Camada de
X} - - - - . 4 . Saída
y
X'3 ----.!. Saída
""- - - - 1 0 (
Entradas
~Camada.
Escondida
FIGURA 4.5. 1. I: Arquitetura de um perceptron com uma camada escondida.
O treinamento desta rede é feito de forma supervisionada com um algoritmo
conhecido como algoritmo de retropropagação. Este algoritmo é baseado na regra de
aprendizagem por COJTeção de erro. A aprendizagem por retropropagação de erro consiste de
dois passos através das diferentes camadas da rede: um passo para frente, a propagação, e um
passo para trás, a retropropagação. O funcionamento deste algoritmo pode ser visualizado na
Figura 4.5.1.2. No passo para frente, um padrão de atividade (vetor de entrada) é aplicado aos
nós da rede e seu efeito se propaga através da rede.
saída obtida
padrão de entrada
FTGURA 4.5.1.2: Esquema do algoritmo de aprendizagem de retropropagação.
Então, um conjunto de saídas é produzido como a resposta real da rede. Dur-ante o
passo de propagação, os pesos sinápticos da rede são todos fixos. Durante a retropropagação,
por outro lado, os pesos sinápticos são todos ajustados de acordo com uma regra de correção
de erro. Resumidamente, a resposta real da rede é subtraída da resposta alvo e produz um
sinal de erro que é propagado para trás pela rede, contra a direção das conexões sinápticas. Os
pesos sinápticos são ajustados de modo que a resposta real da rede se torne mais próxima da
resposta desejada, em um sentido estatístico.
Em algumas redes muito complexas pode-se obter supertlcies de erro com a existência
de múltiplos pontos ótimos, pontos de sela e regiões planas. A Figura 4.5.1 .3 ilustra um
processo de otimização, onde várias soluções locais foram encontradas.
(O IN lZ & LOUZA DA-NETO, 2000)
111111·1 1110!:;
ioc:~us ,
....· I \
i \
I '
I \
i
/ '\
\
-f '
lllll l UIH.'
[ __ ~lobul
·- - - - -···-··- · -- - -··
'' .
IH Hllln ( )
-r
m ú:dmü
Soluções
FIGURA 4.5. 1.3: Representação dos resultados de um processo de otimização com várias
soluções locais.
47
4.5 .2. REDE HOPFJELD
Uma das maiores contribuições para área de redes neurais artificias foi feita no inicio
dos anos sessenta por John Hopfield. A contribuição de Hopfield não foi simplesmente à
sugestão de um modelo adequado, mas a sua análise e estudo extensivo, o que fez seu nome
ser associado com a rede. Ele desenvolveu o uso de uma função de energia, e relacionou as
redes a outros sistemas físicos. A rede Hopfield consiste de um número de módulos, um
conectado ao outro: é uma rede completamente conectada, isto é, há uma conexão das
entradas com as saídas e por este motivo, estas redes dificilmente chegam a um estado
instável, ou seja, chegará um momento em que a saída, após oscilar entre alguns valores
binários, será sempre a mesma para um mesmo padrão de entrada.
É caracterizada por ser do tipo binária, de auto-aprendizado e com retro-alimentação.
É baseada no conceito de energia da rede, onde esta é proporcional à troca de estados da rede.
Isto é, quanto maior for a oscilação entre um estado e outro na saída, maior será a energia.
Portanto, a fase de reconhecimento tem por objetivo minimizar a quantidade de energia de
maneira que a rede convirja para um único estado na saída
A rede de Hopfield pode ser comparada a um modelo físico, onde a cada troca de
estado da rede a energia da mesma diminui, pot1anto, a fase de aprendizado chegará ao fim no
momento em que a rede tiver a sua energia minimizada.

48
4.5.3. REDES ADALINE E MADAUNE
O modelo Adaline, criado por Widrow e Hoff, é composto de elementos processadores
"adaline" (acrônimo de ADAptive Linear NEuron), similar ao perceptron. O Madaline
(Multilayer adaline), criado pelos mesmos autores, possui uma arquitetura onde dois ou mais
elementos processadores tipo "adaline" são utilizados como entrada para um outro elemento
tipo " madaline", cuja saída nada mais é do que a resposta de maior incidência entre os
"adalines", criando a primeira arquitetura de 3 camadas. (Figura 4.5.3.1)
Entradas Saída
Adaline~
FIGURA 4.5.3. 1: Arquitetura de um modelo Adaline-Madaline.
Pode-se treinar a rede Madaline para reconhecer, por exemplo, um padrão transladado
ou até rotacio nado, treinando cada elemento interno do Madaline para reconhecer o padrão
em uma dada posição ou orientação e fazer o " ou" das saídas destes elementos.
O modelo Adaline corresponde a uma modificação do Perceptron, onde se utiliza o
algoritmo de aprendizado LM.S (Least Mean Square), também conhecido como Regra Delta.
Este algoritmo procura minimizar o erro quadrático médio entre a saída desejada e a saída real
da rede. O Adaline, assim como o Perceptron, cria também uma reta limite entre duas regiões
de decisão . A diferença está no algoritmo de aprendizado e nas estmturas que devem ser
utilizadas para implementá-lo. A arquitetura é de uma rede de uma única camada disposta
linearmente com cada neurônio possuindo uma retroalimentação do erro na sua própria saída.
A diferença básica entre os dois é que o adaline não usa uma função de transferência em seus
neurô nios quando o erro é calculado, fazendo apenas a soma ponderada.
A Regra Delta pertence a um conjunto de algoritmos chamados regras lineares de
correção de erros sendo baseada na descida do gradiente da curva de erro. Estas regras
alteram os pesos do elemento linear adaptativo através da apresentação da resposta correta
corrigindo estes pesos numa fração proporcional ao erro. Este erro é obtido pela diferença
entre o valor da resposta correta desejada, e o valor obtido na saída do neurônio. Logo o erro
na saída de um neurônio é determinado em função dos pesos usados em correspondência a
cada entrada, ou seja, de acordo com a alteração dos pesos podemos subir ou descer a curva
de erro resultante na saída do neurônio. A derivada E I P nos dará a inclinação da curva e
assim permite que sigamos no sentido de descida da curva. A Figura 4.5.3 .2 mostra o método
de descida do gradiente da curva de erro. O problema oco1Te se estamos em E2, onde
podemos minimizar o erro e m direção à um mínimo local, mínimo este que pode não ser a
melhor solução do problema.
E no na said.a
Co~ra~ões de p eso•
FlGU RA 4.5.3.2: Método de descida do g radiente da curva de erro.

50
4.5.4. REDE DE RESSONÂNCIA ADAPTATIVA
As redes de ressonância adaptativa (ART) são uns dos mais complexos projetos de
redes neurais disponíveis atualmente, contendo vários tipos de nós arranjados em diversos sub
- sistemas. Uma das razões chaves para considerar as redes ART importantes é que são elas
que fornecem uma visão rápida do que é requerido para fazer sistemas verdadeiramente
autônomos. Essa rede é baseada na teoria da ressonância adaptativa dese nvol vida por
Grossberg e Gail Carpenter. Essa rede pode processar somente dados binários de entrada.
O reconhecimento confunde-se com o aprendizado, uma vez que este é um modelo
não-supervisionado que incorpora padrões desconhecidos e adapta padrões semelhantes.
O modelo ART possui a facilidade de não ter necessidade de um aprendizado prévio,
podendo adaptar-se de acordo com a necessidade. Por outro lado, este modelo é muito
sensível a padrões distorcidos, não podendo fazer uma boa diferenciação entre padrões
semelhantes, limitando, assim, em muito suas aplicações.
Util iza-se o ART para reconhecimento de imagens, mais comumente para
reconhecimento de caracteres.
As principais características da rede ART são:
• A Teoria da Adaptação Ressonante (Adaptive Resonance Theory) resultou num
classificador projetado por Carpenter e Grossberg que possui entrada binária, conexão retro-
alimentada e aprendizado não-supervi sionado.
• A idéia de armazenamento dos padrões tem semelhanças com o modelo de Kohonen, uma
vez que há a distinção de zonas, a comparação entre as distâncias vetoriais das somas
ponderadas, e a escolha de um neurônio vencedor.

51
• aprendizado do modelo ART é bem distinto dos modelos vistos anteriormente, apenas
com algumas semelhanças com o de Hopfield e o de Kohonen. Assemelha-se ao de Kohonen
em sua forma de distribuição dos pesos na rede através da seleção de um neurônio vencedor,
com a diferença de que no ART apenas o vencedor é atualizado, não havendo a atualização da
vizinhança, que caracteriza o aprendizado competitivo. Quanto à semelhança ao Hopfield,
nota-se que o padrão a aprender confunde-se com o a reconhecer, uma vez que há iterações
para ambos.
• aprendizado ART não necessita a transformação da entrada binária (O e l) em bivalente
(-1 e 1), como em outros modelos. Há somente um parâmetro a definir, o coeficiente de limiar
, também chamado de limiar de vigilância . Como nos outros modelos, este coeficiente
determina se um padrão está ou não treinado ou, neste caso, adaptado aos padrões atuais.
4.5.5. REDE KOHONEN
A rede Kohonen ou mapa de Kohonen usa aprendizado não supervisionado para
modificar o estado interno da rede. A rede é formada por duas camadas: a camada de entrada
onde os padrões são apresentados e a camada de Kohonen. Os neurônios da camada na rede
Kohonen estão ligados a todos os neurônios da camada da rede Kohonen possui um conjunto
de pesos iguais aos números de componentes formadores do padrão apresentado.
Matematicamente a matriz que representa um padrão é equivalente em número de linhas e de
colunas à matriz que representa um neurônio na camada da Rede Kohonen.
O esquema básico da rede desenvolvida por Kohonen é que tem a propriedade de se
automodificar, ou seja, trata-se de uma rede não supervisionada e auto organizável.
Resumidamente, o mecanismo de Kohonen funciona da seguinte forma: os pesos sinápticos
iniciam contendo valores aleatoriamente baixos, e um sinal de entrada x (com valores que
representam uma informação qualquer) é provido para a rede sem que se especifique a saída
52
desejada. Conforme o sinal de entrada, um neurônio de saída y deverá responder melhor para
a entrada respectiva, e este será o vencedor, ou seja, sempre que essa entrada for apresentada,
este neurônio será disparado. O neurônio vencedor y, e seus vizinhos, terão seus pesos
sinápticos ajustados e, dessa forma, responderão melhor do que antes à entrada apresentada x.
As principais características da Rede Kohonen são:
• Possui auto-aprendizado, entrada intervalar e conexão competitiva.
• Não há propriamente um reconhecimento de padrão como em outros modelos, mas há a
classificação de um padrão junto com outros que têm características semelhantes, formando
classes. E stas classes são organizadas num mapa, onde se pode observar a distribuição dos
padrões. Desta maneira, no instante em que um padrão é inserido na rede, esta o coloca na
classe onde melhor o padrão se adequa, em função das suas características.
• Um outro aspecto importante é que o modelo de Kohonen é chamado de biologicamente
plausível. No córtex auditivo, por exemplo, existem conjuntos de células que só reagem a
determinados impulsos ou freqüências, enquanto a outros não. No modelo ocorTe o mesmo,
onde um padrão ao ser reconhecido faz com que um ou somente alguns neurônios de saída
sejam ativados (aqueles que mai s se assemelham ao padrão inserido) enquanto outros não.
• Este tipo de rede é usado quando se deseja~ por exemplo, reconhecer diversos padrões que
possuam alguma relação entre si, como reconhecimento de voz, que será explicado
posteriormente na seção de aplicações.
4.6. RESUMO DA APL1CAÇÃO DE REDES NEURAIS
A seguir seguem os passos necessários para o desenvolvimento de aplicações
utilizando redes neurais artificiais:

53
4.6. l. COLETA DE DADOS E SEPARAÇÃO EM CONJUNTOS
O pnme1ro passo do processo de desenvolvimento de redes neurais artificiais é a
coleta de dados relativos ao problema e a sua separação em um conjunto de treinamento e um
conjunto de testes. Esta tarefa requer uma análise cuidadosa sobre o problema para minimizar
ambigüidades e erros nos dados. Além disso, os dados coletados devem ser significativos e
cobrir amplamente o domínio do problema~ não devem cobrir apenas as operações normais ou
rotineiras, mas também as exceções e as condições nos limites do domínio do problema.
Normal mente, os dados coletados são separados em duas categorias: dados de
treinamento, que serão utilizados para o treinamento da rede e dados de teste, que serão
utilizados para verificar sua performance sob condições reais de utilização. Além dessa
divisão, pode-se usar também uma subdivisão do conjunto de treinamento, criando um
conjunto de validação, utilizado para verificar a eficiência da rede quanto a sua capacidade de
generalização durante o treinamento, e podendo ser empregado como critério de parada do
treinamento.
Depois de determinados estes conjuntos, eles são geralmente colocados em ordem
aleatória para prevenção de tendências associadas à ordem de apresentação dos dados. Além
disso, pode ser necessário pré-processar estes dados, através de padronizações,
escalonamentos e conversões de formato para tomá-los mais apropriados à sua utilização na
rede. É importante, também, verificar a presença de «outliers" e proceder, então, a exclusão
destes dados para que não afetem seriamente o treinamento da rede e os resultados obtidos.
4.6.2. CONFIGURAÇÃO DA REDE
O segundo passo é a definição da configuração da rede, que pode ser dividido em três
etapas:
1 Seleção do paradigma neural apropriado à aplicação.
2 Determinação da topologia da rede a ser utilizada - o número de camadas, o número de
unidades em cada camada, etc.
3 Determinação de parâmetros do algoritmo de treinamento e funções de ativação. Este passo
tem um grande impacto na performance do sistema resultante.
Existem metodologias para a condução destas tarefas. Normalmente estas escolhas são
feitas de forma empírica. A definição da configuração de redes neurais é ainda considerada
uma arte, que requer grande experiência dos projetistas.
4.6.3. TREINAMENTO
O terceiro passo é o treinamento da rede. Nesta fase, seguindo o algoritmo de
treinamento escolhido, serão ajustados os pesos das conexões. É importante considerar, nesta
fase, alguns aspectos tais como a inicialização da rede, o modo de treinamento e o tempo de
treinamento.
Uma boa escolha dos valores iniciais dos pesos da rede pode diminuir o tempo
necessário para o treinamento. Normalmente, os valores iniciais dos pesos da rede são
números aleatórios uniformemente distribuídos, em um intervalo definido. A escolha errada
destes pesos pode levar a uma saturação prematura.
Quanto ao modo de treinamento, na prática é mais utilizado o modo padrão devido ao
menor armazenamento de dados, além de ser menos suscetível ao problema de mínimos
locais, devido à pesquisa de natureza estocástica que realiza. Por outro lado, no modo batch se
tem uma melhor estimativa do vetor gradiente, o que torna o treinamento mais estável. A
eficiência relativa dos dois modos de treinamento depende do problema que está sendo
tratado.
Quanto ao tempo de treinamento, vários fatores podem influenciar a sua duração,
porém sempre será necessário utilizar algum critério de parada. O critério de parada do
55
algoritmo backpropagation não é bem definido, e geralmente é utilizado um número máximo
de ciclos (iterações). Mas, devem ser considerados a taxa de erro médio por ciclo, e a
capacidade de generalização da rede. Pode ocorrer que em um determinado instante do
treinamento a generalização comece a degenerar, causando o problema de over-training, ou
seja, a rede se especializa no conjunto de dados do treinamento e perde a capacidade de
generali zação.
O treinamento deve ser interrompido quando a rede apresentar uma boa capacidade de
generalização e quando a taxa de erro for suficientemente pequena, ou seja, menor que um
erro admissível. Assim, deve-se encontrar um ponto ótimo de parada com erro mínimo e
capacidade de generalização máxima.
4.6.4. TESTE
O quarto passo é o teste da rede. Durante esta fase o conjunto de teste é utilizado para
determinar a performance da rede com dados que não foram previamente utilizados. A
performance da rede, medida nesta fase, é uma boa indicação de sua performance real.
Devem ser considerados ainda outros testes como análise do comportamento da rede
utilizando entradas especiais e análise dos pesos atuais da rede, pois se existirem valores
muito pequenos, as conexões associadas podem ser consideradas insignificantes e assim
serem eliminadas (prunning). De modo inverso, valores substantivamente ma1ores que os
outros poderiam indicar que houve over-training da rede.
4.6.5. INTEGRAÇÃO
Finalmente, com a rede treinada e avaliada, ela pode ser integrada em um sistema do
ambiente operacional da aplicação. Para maior eficiência da solução, este sistema deverá
56
conter facilidades de utilização como interface conveniente e facilidades de aquisição de
dados através de planilhas eletrônicas, interfaces com unidades de processamento de sinais,
ou arquivos padronizados. Uma boa documentação do sistema e o treinamento de usuários são
necessários para o sucesso do mesmo.
Além disso, o sistema deve periodicamente monitorar sua performance e fazer a
manutenção da rede quando for necessário ou indicar aos projetistas a necessidade de
retreinamento. Outras melhorias poderão ainda ser sugeridas quando os usuários forem se
tornando mais familiares com o sistema, estas sugestões poderão ser muito úteis em novas
versões ou em novos produtos.

57
S. MODELAGEM ESTATÍSTICA
A metodologia de redes neurais artificiais podem ajudar muito nas análises de dados
estatísticos, contribuindo paralelamente às técnicas clássicas de análise estatística a obtenção
de melhores resultados. O interesse principal é mostrar alguns exemplos de aplicação de redes
neurais juntamente com as tradicionais técnicas estatísticas e comentar o seu inter-
relacionamento, de modo geral, com a Estatística. Primeiramente, é apresentado na Tabela 5. 1
um comparativo dos termos usados em Redes Neurais Artificiai s com os termos equivalentes
usados em Estatística.
TABELA 5.1: Quadro comparativo de termos
REDES NEURAIS ARTIFICIAIS ESTATÍSTICA

Neurônios de Entrada Variáveis Independentes, Regressares
Neurônios de Saída Valores Preditos
Valores de Treinamento, Alvos Variáveis Dependentes
Erros Resíduos
Treinamento, Aprendizagem, Adaptação Estimação
Exemplo Observações
Pesos Estimativas de Parâmetros
Neurônios Escondidos Interações
Topologia (Arquitetura) da Rede Modelagem Estatística
Conexões Funcionais Transformações
Aprendizagem Supervisionada Regressão e Análise Discriminante
Aprendizagem não-supervisionada Redução de Dados
Aprendizagem Competitiva Análise de Agrupamento
Generalização Interpolação e Extrapolação
Fonte: BISHOP (1995)
58
5.1 . ANÁUSE DISCRIMINANTE
A Análise Discriminante, desenvolvida por FISHER ( 1938), é uma técnica estatística
apropriada para discriminação e classificação (HAIR et ai, 1998). Os objetivos da técnica
envolvem a descrição, gráfica ou algébrica, das características diferenciais das observações
das várias populações, além de classificar as observações em uma ou mais classes
predeterminadas.
O interesse é obter uma regra que possa ser usada para classificar de forma otimizada
uma nova observação à uma classe já existente. Esta é, então, a semel hança da Análise
Discriminante com a técnica de Redes Neurais Artifícias que utiliza a informação de um
banco de dados para criar uma regra de classificação para valores futuros.
A Anál ise Discriminante é adequada nas situações onde se pretende separar duas ou
mais classes de objetos (pessoas, clientes, empresas, produtos, entre outros) ou alocar um
novo objeto a uma das classes existentes ou, ainda, se pretende, conjuntamente, separar as
classes e alocar um novo objeto. As classes poderiam ser, por exemplo, risco de crédito a
clientes ntins e bons de uma instituição financeira. O vetor de variáveis classificatórias
(variáveis explicativas) teria componentes tais como renda, idade, número de cartões de
crédito, tamanho da família, saldo bancário, tempo como cliente. Uma vez determinada a
reg ra de classificação, dado o conhecim ento de seu vetor de variáveis medidas, um futuro
cliente poderia ser classificado como mau ou bom pagador. (DlNIZ & LOUZADA-NETO,
2000)
Para ilustrar a comparação entre a técnica de Redes Neurai s Artificiais e a Análise
Di scriminante foi utilizado o exemplo de espécies de !RIS, um exemplo clássico de Análise
Di scriminate utilizado por FISHER (1938) para o desenvolvimento da técnica. As variáveis
explicativas para este exemplo são o comprimento e a largura da sépa la e o comprimento e a

59
largura da pétala. O exemplo consiste de 3 espécies de lris: Setosa, Versocolor e Virginica;
com 50 observações de cada uma, totalizando 150 observações.
O resultado da classificação das espécies por Análise Di scriminante é apresentado na
Tabela S. J . I.
TAB ELA 5.1. 1: T abela de classificação das espécies por Análise Discriminante.
~Setosa
o
Setosa
50
Versicolor
o
Virginica
o
TotaJ
50
100% 0% O% 33 ,33%
Versicolor
o 47 "'
.) 50
0% 94% 6% 33 ,33%
Virginica
o 2 48 50
0% 4% 96% 33,33%
50 49 SI 150
Total
33,33% 33,67% 34% 100%
Ao utilizar a Análise Di scriminante para classificar as 150 observações nas 3 espécies
obteve·se um erro de classificação de 3,33% (5 casos classificados incorretamente/ l 50 casos
totais) .
Para proceder a resolução do exemplo através de Redes Neurais Artificiais, utilizou-se
uma rede perceptron sem camadas ocultas e dividiu-se as observações em uma amostra de
treinamento contendo 80% dos dados e uma amostra de teste com os 20% restantes dos dados.
Os resultados de classificação da rede para amostras de treinamento e de teste são
apresentados nas Tabelas 5. 1.2 e 5.1 .3, respectivamente.

60
TABELA 5.1.2: Tabela de classificação das espécies para a amostra de treinamento.
~ o
Setosa
40
Versicolor
o
Yirginica
o
Total
40
Setosa
100% 0% O% 33,33%
Versicolor
o 39 I 40
O% 97,5% 2,5% 33,33%
Virginica
o I 39 40
0% 2,5% 97,5% 33,33%
40 40 40 120
Total
33,33% 33,33% 33,33% 100%
TABELA 5. 1.3: Tabela de classificação das espécies para a amostra de validação.
~ o
Setosa
lO
Yersicolor
o
Virginica
o
Total
10
Setosa
100% O% 0% 33,33%
Versicolor
o 9 l lO
0% 90% 10% 33,33%
Virginica
o o lO 10
0% 0% 100% 33,33%
10 9 11 30
Total
33,33% 30% 36,67% 100%
Para obter o erro de classificação da rede juntou-se as duas amostras em uma única
tabela. Este resultado é mostrado na Tabela 5. 1.4.
TABELA 5.1.4: Tabela de classificação das espécies para a rede utilizando todos os dados.
~Setosa
o
Setosa
50
Versicolor
o
Virginica
o
Total
50
100% 0% 0% 33 33%
Versicolor
o 48 2 50
0% 96% 4% 33,33%
Virginica
o 1 49 50
0% 2% 98% 33,33%
50 49 51 150
Total
33,33% 32,67% 34% 100%
61
Utilizando-se a técnica de Redes Neurai s Artificiais para classificar as 150
observações nas 3 espécies obteve-se um erro de classificação de 2% (3 casos classificados
incorretamente/ 150 casos totais). Sendo assim, neste caso, a técnica de Redes Neurais
mostrou-se superior a técnica de Análise Di scriminante.
5.2. ANÁLlSE DE REGRESSÃO LINEAR
A metodologia de regressão linear tem como objetivo predizer ou classificar valores
de y (variável resposta) a partir das variáveis explicativas X; (variáveis independentes ou
regressares). Para isso, obtém-se um plano de regressão para a resposta y em função de k
variáveis explicativas como a que segue, onde j], são os coeficientes para cada variável
independente e 8j a componente aleatório referente a cada observação:
Y.~ =f3o + L fJ,x" + b'j

I I
Este problema é equivalente a uma rede neural com uma única camada. As variáveis
independentes correspondem as entradas da rede e a variável resposta y corresponde a saída
da rede. Os coeficientes j3;'s correspondem aos pesos das conexões. A função de ativação é a
função identidade. Para encontrar os pesos da rede utiliza-se o algoritmo de retropropagação e
uma função custo similar a função objetivo da soma dos quadrados dos resíduos. A diferença
entre as duas metodologias é que a análise de regressão tem uma forma de solução fechada
para encontrar o valor dos coeficientes, enquanto que as redes neurais artificiais utilizam um
processo iterativo para a obtenção dos pesos das conexões.
O objetivo é obter os coeficientes f3,, que minimizem E = f (y ±{JixJ; J

;=I
1
-
r- 1
baseado
nas observações (x1, y,), j = I, ... , n. Então, o problema no contexto de regressão linear é
equivalente a uma rede neural com uma camada escondida. A função de ativação é a
62
identidade. Os pesos são obtidos por um processo iterativo ao passo que uma expressão
explícita é obtida na análise clássica de regressão.
Por analogia, qualquer modelo linear generalizado é equivalente a uma rede neural
com uma única camada. A fi.mção de ativação é escolhida para coincidir com o inverso da
função de ligação.
Uma desvantagem na utilização de redes neurais artificiais quando comparado a
utilização da análise de regressão envolve a escolha de muitos parâmetros como o número de
nós escondidos, o parâmetro de aprendizagem 11 (taxa de aprendizagem), os pesos iniciais, a
função custo e de ativação e a decisão de quando parar o treinamento.
Para ilustrar a aplicação de regressão em redes neurais artificiais, segue um exemplo
descrito em (CHURCH & CURRAM, 1996) que compara previsões de despesa pessoal
obtidas com rede neural e modelos de regressão (econométricos). Nenhum dos modelos foi
capaz de explicar a queda no crescimento das despesas no fim dos anos 80 e início dos anos
90.
Comparando as técnicas, obteve-se que as redes neurats utilizaram exatamente as
mesmas variáveis explicativas e observações usadas em cada modelo econométrico,
produzindo resultados semelhantes. As redes neurais usaram lO neurônios em uma camada
escondida para todos os modelos.
Em um exercício final utilizou-se uma rede neural com entradas de todas as variáveis
de todos os modelos. Esta rede foi capaz de explicar a queda de crescimento, mas resultou em
uma rede com muitos parâmetros. Além de comparação das previsões, também foi realizada
uma análise de sensibilidade com respeito a cada variável. Para isto, testou-se a rede com o
valor médio dos dados e variou-se cada variável para verificar o grau em que cada variação
afeta a previsão da variável dependente.

63
5.3. ANÁLISE DE REGRESSÃO LOGÍSTICA
O modelo de reb1fessão logística, também conhecido por modelo logístico, é, em geral,
utilizado para tratar problemas relacionados a dados dicotômicos em várias áreas do
conhecimento. Este modelo estabelece uma relação entre a probabilidade de ocorrência dos
resultados de uma variável respostas dicotômica (em geral chamada de variável dependente),
que normalmente é representada pelos termos sucesso e fracasso, e variáveis explicativas
categóricas ou contínuas. O interesse principal é estabelecer uma relação linear entre as
variáveis explicativas e uma transformação, denominada logito (logit), da variável resposta.
Este modelo é representado por
P{Y(x) =
log[ .
1}]
=f30 + f3 1x 1+ ... + f3 Px P,
P{Y(x) = O}
onde P{Y(x)=1} representa a probabilidade de sucesso para a variável resposta, P{Y(x)=O}
representa a probabilidade de fracasso, f3o denota o intercepto da regressão e x'=(x,, x2, ... , xp)
é um vetor de variáveis explicativas com coeficientes /31, /32, ... , f3p. (HOSMER &
LEMESHOW, 1989)
Um exemplo apresentado por PEREIRA e RODRIGUES (1998) trata de medições de
sonografia em 458 mulheres para diagnóstico de câncer de mama. Obteve-se que 325 destas
mulheres tinham tumores benignos (y=O) e as outras 133 tinham tumores malignos (y=I).
A priori, fazendo-se uma análise de regressão logística verificou-se que três variáveis
explicativas foram significativas que foram: idade da paciente, número de artérias no tumor
(AT) e número de artérias na mama controlateral (AC). A comparação do modelo de
Regressão Logística e da metodologia de Redes Neurais Artificiais é apresentada na
Tabela 5.3.1.
TABELA 5.3. 1 - Comparação dos modelos Logístico e Rede Neural.
Regressão Logística
Variável Coeficientes Erro Padrão Valor de P Pesos- Rede
Neural
Intercepto -8, 178 0,924 Wo=-8, 108
ldade 0,070 0,017 0,0001 W1=0,069
log AT+ l 5,187 0,575 0,0001 W2=S , l62
log AC+ 1 -1,074 0,437 0,0014 W3=-1,081
Como pode-se observar os resultados obtidos para os coeficientes da regressão
logística são muito próximos aos obtidos pela rede neural utilizando um perceptron multi-
camada com algoritmo retropropagação com quatro nós de entrada (Xo=l , x 1= idade, x2=log
AT+ l, x3=1og AC+ l ).
5.4. ANÁLISE DE SÉRIES TEMPORAIS
O problema da previsão de valores futuros de séries temporais tem se mostrado
bastante apropriado à aplicação de Redes Neurais Artificiais em busca de uma solução
satisfatória. O modelo de redes neurais utilizado para resolver este tipo de problema que
aparece com maior freqüência na literatura é o modelo dos perceptrons multi-camadas
(FERNANDES et ai, 1996).
O maior problema, neste contexto, está em determinar qual a melhor topologia
(arquitetura) da rede que é resolvido fazendo-se uma análise estatística prévia da série
temporal.
Sendo assim, pode-se detalhar as três fases para a construção da arquitetura de uma
rede neural para previsão de valores futuros:

65
r') Fazer a análise dos componentes da série temporal, como a tendência e a sazonalidade.
Realizar também uma análise da componente aleatória, pois quanto maior ela for, mais dificil
se toma encontrar um padrão de previsão com redução dos erros.
2~) Definir o número de nós na camada de entrada para conseguir representar as informações
referentes ao comportamento da série. Desta forma, permite-se que a fase de aprendizado da
rede capte as características mais imp01tantes da série.
3a) Determinar o número de nós na camada escondida, a partir do método de RUMELHART
& WEIGEND (1990), onde a rede que melhor generaliza os dados é a menor rede apta a
realizar o treinamento dos dados. Esta busca é feita de forma empírica, identificando-se a
melhor arquitetura a partir dos resultados obtidos pelos experimentos realizados.
FERNANDES et ai (1994) descreveram um exemplo de aplicação de Redes Neurais
Artificiais, apresentando a escolha da topologia da rede utilizada, os resultados obtidos e
comparações feitas com o método tradicional de Séries Temporais.
O exemplo utilizado é a série da produção industrial de 12 meses do estado do Rio
Grande do Sul. Através da análise estatística observou-se que se trata de uma série
estacionária e sazonal. A arquitetura proposta para o exemplo apresenta 13 nós na camada de
entrada, sendo um representando a informação passada (Yt-1) e os outros 12 representando os
fatores sazonais, sendo que estão sob a forma de uma seqüência binária que atribui um para o
mês em questão e zero para os demais. A arquitetura apresenta dois nós na camada
intermediária e um nó na camada de saída que fornece o prognóstico Yt .
Foram feitos prognósticos de valores futuros através da metodologia de Redes Neurais
Artificiais (RNA) e pelo método dos modelos de componentes não-observáveis (UCM). UCM
é um modelo de séries temporais que baseia-se, tanto na abordagem clássica quanto na
bayesiana, no filtro de Kalman que é um algoritmo que possibilita o aprendizado através dos
erros de seus prognósticos (HAR VEY, 1989). Os resultados obtidos pelos dois procedimentos
(UCM e RNA) são apresentados nas Tabelas 5.4. I e 5.4.2, respectivamente.

66
As representações gráficas das previsões pelos dois procedimentos e os valores reais
da série são apresentados nas Figuras 5.4.1 e 5.4.2.
TABELA 5.4.1 - Prognósticos dos modelos de componentes não-observáveis (UCM)
Período Realidade Previsão um Erro Previsão sete Erro

easso à frente eercentual eassos à frente eercentual
1-93 99,70 98,69 1,01% 98,69 1,01%
2-93 105,33 104, 10 1,15% 103,39 1,84%
3-93 131 ,95 118,04 10,54% 116,27 11 ,88%
4-93 127,39 129,24 -1,46% 117,91 7,44%
5-93 136,98 134,46 1,84% 123,77 9,65%
6-93 135,56 131,39 3,07% 119,63 11,75%
7-93 131 ,84 131,68 0,12% 117,13 11 ' 16%
TABELA 5.4.2 - Prognósticos da rede neural artificial (RNA)
Período Realidade Previsão um Erro Previsão sete Erro

passo à frente percentual passos à frente percentual
1-93 99,70 98,76 0,95% 98,76 0,95%
2-93 105,33 100,05 5,27% 103,12 2, 14%
3-93 13 I , 95 I 13,73 16,02% 124,95 5,60%
4-93 127,39 126,49 0,71% 134,56 -5,33%
5-93 136,98 134,03 2,20% 137,40 -0,30%
6-93 135,56 129,74 4,48% 139,50 -2,82%
7-93 131 ,84 127,79 3,16% 131,67 0,13%
140 _._Real
-e- RNA
130 - . - UCM
120
110
100
90
o 2 3 A 5 6 7
FIGURA 5.4.1 - Previsão um passo à frente

67
140 -+-Real
-a- RNA
130 --...- UCM
120
110
100
90+------.----~r-----~----~------r-----.-----~
o 2 3 4 5 6 7
FIGURA 5.4.2- Previsão sete passos à frente
Comparando as Figuras 5.4.1 e 5.4. 2, pode-se observar uma diferenciação quanto a
precisão dos dois métodos. Enquanto os UCM apresentam uma melhor performance na
realização de prognósticos apenas um passo à frente, as RNA mostraram-se bem mais
eficientes nas previsões de vários passos à frente. É importante ressaltar que a melhor
predição fo i obtida utilizando-se RNA em previsão 7 passos à frente. Percebe-se claramente
isso na Tabela 5.4.3 onde são apresentados o erro absoluto médio (EAM) e o erro quadrático
médio (EQM).
TABELA 5.4.3 - Comparação dos erros para cada método em função da etapa de previsão
Previsão um passo à frent e Previsão sete passos à frente
UCM RNA UCM RNA
EAM 3,55 5,45 10,28 3, 12
EQM 5,65 7,75 11 ,86 4, 17

68
6. APLICAÇÕES
O estudo de redes neurais é cada vez mais vasto tendo aplicações em várias áreas do
conhecimento. Nesta seção é detalhado alguns exemplos de aplicação de redes neurais em
algumas áreas do conhecimento.
6.1. ANÁLISE DE CRÉDITO
O uso de redes neurats como instrumento de apoto à avaliação de riscos de
inadimplência é apresentado por ALMEIDA (1993). Neste caso as redes neurais aprenderam a
identificar o risco de que uma dada empresa venha a se tornar concordatária num futuro
próximo (2 anos). A seguir é detalhado como se deu o processo de aprendizado e uso da rede.
O processo é dividido em duas etapas. Uma primeira etapa é a etapa de aprendizado da
rede, isto é a etapa onde a rede adquire o conhecimento sobre o problema. A segunda etapa é
o uso da rede já treinada contendo o conhecimento sobre o problema.
Inicialmente escolheu-se as variáveis que permitam avaliar uma empresa. Índices financeiros
são as variáveis normalmente utilizadas para a criação de ferramentas de análise de riscos de
inadimplência. Um dos g rupos de variáveis que foram escolhidos na pesquisa é mostrado na
Tabela 6. 1. l.
TABELA 6.1 .1: Índices Financeiros
R1 =Vendas Liquidas/ Ativo total R2= Total Exigível/Total Ativo

RJ =Fluxo de Caixa/Vendas líquidas R4= Ativo Circulante/Passivo Circulante
R5=Receita Bruta/Total de Juros Pagos R6=1og(Ativo Total)
69
Seleciona-se, então, um conjunto de empresas, contendo empresas inadimplentes e
adimplentes e coleta-se os seis índices financeiros para cada uma das empresas selecionadas.
Os dados de índices financeiros foram então utilizados para fazer com que a rede aprenda a
distinguir os dois grupos de empresas. Veja na Tabela 6. 1.2 como estes dados estariam
organizados para serem apresentados à rede.
Tabela 6.1 .2: Um exemplo de dados para as redes neurais
Situação da
!Empresa Índices das Empresas
Empresa
Rl R2 R3 R4 RS R6
Empresa 1 Rll Rl2 Rl3 Rl4 RIS R16 Inadimplente
Empresa 2 R21 R22 R23 R24 R25 R26 Inadimplente
Empresa 3 R31 R32 R33 R34 R35 R36 Inadimplente
Empresa 4 R41 R42 R43 R44 R45 R46 Adimplente
!Empresa 4 R41 R42 R43 R44 R45 R46 Adimplente
!Empresa 5 R5l R52 R53 R 54 R55 R56 Inadimplente
[Empresa 6 R61 R62 R63 R64 R65 R66 Adimplente
Cada linha é formada por um par de dados ou exemplo de uma empresa. Estes dados
são apresentados à rede ainda sem conhecimento que irá aprender a distinguir as empresas
boas das más. Este aprendizado se passará automaticamente e o tempo necessário será função
de fatores como o número de exemplos fornecidos, estrutura da rede, e sem dúvida da
velocidade do computador que se está usando.
Com o fim do aprendizado a rede passa a guardar dentro de sua estrutura o
conhecimento para distinguir empresas inadimplentes de adimplentes a partir dos 6 índices
financeiros usados no seu aprendizado.
Na segunda etapa, necessita-se não apenas que a rede aprenda a distinguir as empresas,
dentro do grupo de empresas que lhe apresentamos, mas que a rede seja capaz de generalizar
70
seu conhecimento para identificar riscos de inadimplência de outras empresas que não fi zeram
parte de seu aprendizado .
A rede treinada na primeira etapa é capaz de fornecer o risco de inadimplência de uma
empresa qualquer a partir de suas características financeiras. Começa-se, então, a usar a rede
como base de conhecimento, como instrumento de apoio à deci são.
Segundo (ALMEIDA 1993), as redes foram capazes de classificar corretamente
aproximadamente 70% das empresas de um grupo de empresas adimplentes e inadimplentes,
dois anos antes da inadimplência, a partir de uma amostra de controle (uma amostra di ferente
da utilizada para o processo de aprendizado).
Outro aspecto interessante da rede neural, é que uma vez construída, ela não depende
mais da base de dados que lhe deu origem. O conhecimento adquirido reside nas conexões
entre os neurônios e não na base de dados. É na verdade um conhecimento implícito e conciso
que é reconstituído pelo sistema a cada vez que é solicitado.
6.2. FI NANÇAS
As redes neurais tem encontrado bastante interesse na área financeira. Uma vez que
estas prec1sam de dados para serem criadas, a área financeira tem podido fornecê-los em
abundância.
Um tipo de aplicação que mostra evidentemente bastante interesse é a previsão de
cotações na bolsa. No entanto os resultados que se tem obtido mostram que não será fácil
obter algo de interessante neste campo mesmo com redes neura is (HA WLEY et ai, 1990). E m
princípio em um mercado eficiente não é possível fazer previsões, o que está de acordo com
os resultados obtidos pelas redes neurais. Mas também é possível que não se tenham usado os
dados adequados. Tem-se por hábito acumular e tratar somente dados quantitativos. Mas o
interessante das redes neurais é também a sua capacidad e de tratar dados qualitativos. Pode-se
7l
usar por exemplo dados qualitativos como setor de atividade da empresa, ou então tipo de
produto vendido. Pode-se até mesmo usar variáveis menos acessíveis como características de
gestão dos responsáveis pela empresa, propensão da direção a assumir riscos, ou capacidade
de inovação da empresa, flexibilidade a mudanças, etc. No entanto este tipo de informação
nã.o é atualmente utilizado e os sistemas tem-se limitado a dados quantitativos. Isto ocorre
muito provavelmente por uma questão de falta de disponibilidade de dados.
A área financeira oferece outras inúmeras oportunidades para o uso de redes neurais.
Por exemplo gestão de portfólios. Uma instituição financeira leva em conta inúmeros tipos de
papeis financeiros, ações, opções, etc. Um sistema baseado em redes neurais poderia ser
usado para levar em conta as características destes papeis, considerando-se riscos, valores
conjunturais, decisões do governo, flutuações do mercado, etc. As redes neurais são bastante
adaptadas a problemas do tipo não estruturado, onde as relações entre as variáveis ou mesmo
sua importância não é conhecida. As redes neurais permitem que se trabalhe com dados
incompletos se estes não estão todos disponiveis ou mesmo com a existência de certas
informações incorretas. Ela aprenderá a ignorá-las.
6.3. MARKETlNG
Uma área ainda pouco explorada é a área de marketing e vendas onde existem
aplicações potencialmente bastante interessantes. P or exemp lo as redes neurats podem ser
utilizadas para fazer simulações sobre o comportamento do consumidor face a novos
produtos. Uma rede poderia ser treinada a partir da característica de produtos já lançados no
mercado onde se pôde medir o grau de sucesso e volume de vendas obtido. Uma vez criada a
rede esta poderia ser usada para simular o resultado com novos produtos a partir de suas
características. O interessante é que seria possível não só introduzir características

72
quantitativas e qualitativas do produto mas também características do mercado ou da
conjuntura do país ou de uma região em um determinado momento.
Outra aplicação em marketing poderia ser simplesmente a simulação de vendas para
um próximo período em função do resultado obtido no período anterior, das características
esperadas para o mercado no futuro, etc.
Uma outra aplicação poderia ser o uso de uma rede neural para sugerir produtos mais
adaptados ao perfil de cada cliente. A rede neural seria treinada a associar perfis de clientes a
produtos da empresa. Poder-se-ia assim esperar por um lado a obtenção de um maior g rau de
satisfação do cliente, por outro lado apresentar produtos mai s direcionados ao cliente em
questão. Este tipo de aplicação pode ser encarado como um sistema de apoio especialista,
onde um vendedor menos experimentado ou menos informado a respeito dos produtos da
empresa, pode sugerir itens mais adequados ao cli ente em pé de igualdade com um vendedor
mai s experimentado.
No caso de atividades onde há uma grande velocidade de mudança ou atualização do
portfólio de produtos, este tipo de sistema permitiria à empresa fazer com que o vendedor
passasse a levar em conta os novos produtos de maneira mais rápida uma vez que atualizada a
base de conhecimentos, eles passariam a ser sugeridos. O sistema seria igualmente
interessante no caso daqueles produtos que são freqüentemente esquecidos pelo vendedo r.
Caso fossem do interesse do cliente eles seriam igualmente sugeridos. Não seria menos
interessante que o sistema incorporasse os interesses de venda da empresa.
Simulações, previsões ou sugestões, as redes neurais são uma tecnol ogia interessante
na área de marketing. Há que se levar em conta também o fato de que sua atuali zação, isto é, a
aquisição de novos conhecimentos é bastante facilitada e rápida uma vez que o aprendizado é
automático. Basta entrar as novas características do novo produto ou da nova situação de
mercado e refaze r o processo de aprendizado.

73
6.4. MORTALIDADE INFALTIL
O coefi ciente de mortalidade infantil tem sido considerado como um dos ma1 s
expressivos indicadores do estado de saúde, não somente de crianças menores de um ano, mas
de toda a população, refletindo as condições do meio-ambiente, contexto sócio-econômico,
nutrição, educação e cuidados com a saúde de uma comunidade. Tais considerações apontam
para a potencialidade da modelagem da mortalidade infant il, o que permitiria, por exemplo, a
avaliação do impacto de intervenções, através de simulação, e, consequentemente, a decisão
quanto às melhores estratégias no planejamento em saúde. Com este objetivo, modelos de
Regressão Linear Múltipla (RLM) e Redes Neurais Artificiais (RNA) foram desenvolvidos a
partir de 43 variáveis de 59 municípios brasileiros. Para os modelos RLM, os mais comuns na
literatura, o critério de seleção de variáveis independentes/variáveis explicativas baseou-se na
metodo logia stepwise ou foi orientado pela Análise Fatorial (AF). Neste último, a seleção de
preditores se deu tomando-se as variáveis de maior carga fàtorial em cada fator comum, e,
alternativamente, segundo um critério misto, que consistiu em selecionar a variável de cada
fator comum que também atendesse a outros requi sitos, tais como completude e confiança nos
dados. Para a modelagem não-linear, através de RNA, foram desenvolvidos doi s ensaios; o
primeiro, utilizando as 43 variáveis como entrada, e o segundo somente aquelas oito
selecionadas pelo critério misto. Na avaliação dos modelos utilizou-se o Coeficiente de
Determinação (R! ) e o Erro Quadrático Méd io de Estimação (EQM'), bem como replicações
bootstrap dessas estatísticas. Os modelos RLM slepwise apresentaram, em geral, estimativas
super-dimensionadas de R2 e multicolinearidade, prejudicando a interpretabilidade do próprio
modelo e dificultando sua utilização em estudos de simulações de intervenção. O modelo
RLM critério misto fo i o de melhor capacidade preditiva (R 2=0,44 e EQM=20,44 x I 03 ) e
interpretabilidade, entre os lineares. E ntretanto, a modelagem RNA critério misto mostrou-se
muito superior (K=0,80 e EQM=6,85 x 103) ao melhor modelo linear; resultado este
74
confirmado através de técnica bootstrap. A análise de sensibilidade do RNA critério misto
evidenciou a elevada importância relativa das variáveis número de pessoas alfabetizadas,
pessoas ocupadas nos estabelecimentos agropecuários e número de estabelecimentos
comerciais. A exclusão de qualquer uma dessas variáveis em estimativas bootstrap resultou
em aumento do erro de predição de 40 a 55%, bem como uma redução de 21 a 29% na
capacidade do modelo prever a variância da mortalidade infantil. Tais evidência s apontam
para a potencialidade do uso deste modelo em estudos de simulações de intervenção,
aux ili ando o estabeleci mento de estratégias de políticas públicas locais de saúde
(GISMONOI et ai, 1999).
6.5. SAÚDE
Vigilância epidemiológica é um procedimento contínuo de monitoração do
comportamento de variáveis de saúde. Para que este acompanhamento seJa eficaz, é
necessário dispor de análise adequados aos dados epidemiológicos. Com esta finalidade
diversas metodologias foram propostas, abordando o problema de algumas formas diferentes.
Uma das possíveis abordagens é comparar os novos dados, a medida que chegam, com
previsões feitas anteriormente, através de modelos matemáticos apropriados. Normalmente,
utilizam-se os modelos estocásticos construídos a partir de séries temporais das variáveis em
estudo. SÁ & NOBRE ( 1996) propuseram o uso de novos modelos preditivos, baseados em
Redes Neurais artificiais e testaram sua aplicação a séries temporais epidemiológicas.
Utilizaram redes neurais do tipo "feedforward", treinadas por Backpropagation para gerar
previsões "um passo a frente", a partir de um determinado grupo de observações anteriores.
No desenvolvimento de tais redes, dois importantes fatores foram estudados mais
profundamente, sendo testadas um número de opções para cada um deles. O primeiro foi o
tamanho e a composição do grupo de observações passadas que deve ser utilizado como
75
entrada da rede para cada previsão (que determina o tamanho da camada de entrada).
Investiga-se quatro propostas de metodologia para definição destes grupos, baseadas em
ferramentas clássicas de análi se de séries temporais. O segundo foi a ordem de apresentação
destes grupos de entradas e suas respectivas saídas-alvo durante o treinamento das redes.
Testa-se apresentações seqüenciais, aleatórias e em lote. Além disso, investiga-se também a
influência da proporção dos dados usados nos conjuntos de treinamento e de teste e o
comportamento do modelo para horizontes de previsão maiores. O procedimento baseado nos
"lags" significativos da Função de Autocorrelação apresentam algumas vantagens do ponto de
vista metodológico, mas os resultados obtidos nã.o permitem caracterizá-lo, ou a qualquer dos
outros métodos, como o mais eficiente. O treinamento por regra delta aleatória obteve, em
média, resultados melhores, embora para algumas redes resultados equivalentes ou superiores
foram alcançados pela regra delta seqüencial e pelo treinamento em lote. A proporção na
divisão dos dados entre conjunto de treinamento e teste foi de pouca influência.
PACHECO et ai ( J996) afirmam que os métodos mais difundidos de avaliação
tecnológica em saúde, nos países desenvolvidos, têm sido orientados a avaliação de
tecnologias específicas. As condições existentes nos países em desenvolvimento levam a
privilegiar uma avaliação tecnológica em saúde orientada a problemas. Interessa identificar
problemas em áreas de saúde deficitárias, de forma que a alocação de recursos resultantes da
aval iação cause o maior impacto no sistema de saúde. Utilizar esta avaliação geralmente
implica na avaliação de múltiplas tecnologias que atuam conjuntamente e p01tanto são
necessários novos métodos para enfrentar a complexidade deste problema. No trabalho
utilizou-se Redes Neuronais Art{ficiais (RNA ) de aprendizado supervisionado como um novo
paradigma - baseado em dados retrospectivos - para realizar Avaliação de Múltiplas
Tecnologias de Saúde (Aiv/TS). Utilizaram-se métodos estatísticos para obter o tamanho do
conjunto de aprendizado e redes com capacidade de generalização. Desenhou-se um método
para extrair o conhecimento de RNA que permite determinar o impacto das entradas nas
76
variáveis de saída, em estruturas hetero-associadas. Usando 523 casos (63 óbitos) coletados
em duas Unidades de Cuidados Intensivos Neonatais (UCIN) do estado do Rio de Janeiro,
aplica-se a metodologia para determinar a efetividade das tecnologias usadas e estimar a
estadia. A efetividade foi obtida de um modelo de mortalidade que inclui como entradas,
condições de admissão (peso ao nascer, idade gestacional e Apgar SQ min), severidade da
doença (baseada em oito grupos de hipóteses diagnósticas) e 20 tecnologias. Os resultados
mostram que é possível obter as efetividades relativas das tecnologias de terapia. Há uma
evidência forte de que as tecnologias básicas como antibióticos e hidratação venosa são mais
efetivas que tecnologias mais complexas como o exsangüíneo e ventilação mecânica. Mostra-
se também que os modelos baseados em RNA são significativamente superiores a modelos de
regressão na estimação da estad ia. Considerando que a obtenção da efetividade de múltiplas
tecnologias em UCIN constitui um problema metodologicamente complexo, é possível inferir
que o paradigma proposto pode fornecer resultados adequados ao ser aplicado em outros
problemas de AMTS.
6.6. MEDICINA
Algumas das aplicações mais freqüentes de redes neurais artificiais em medicina são:
Diagnosticando Câncer de Próstata. A corporação Kaman de Ciências (Colorado Springs, CO)
criou urna rede a qual pode predizer o câncer de próstata. Este sistema foi apresentado na
"CNN" (canal de televisão) e no "Jornal Wall Street" como um grande avanço tecnológico.
Redes foram treinadas para predizer resultados baseados em teste de PSA ("Prostate Specifíc
Antigen) e para predizer a recorrência de câncer depois do tratamento.
Prevendo permanência de paciente. Um grupo da Escola de Medicina da Universidade Johns
Hopkins desenvolveu uma rede neural para prever quais pacientes na Unidade de Tratamento
Intensivo (UTI) cirúrgico do Hospital iriam permanecer sete ou mais dias. As entradas da rede
77
incluíam idade, o uso de droga ou outras terapias, e sinais fisiológicos tais como taxa cardíaca
e pressão sangüínea, e resultados de laboratório tais como contagens de células brancas. Um
estudo da Hopkins concluiu que as "três redes neurais foram substancialmente melhores
modelos preditivos do que o modelo de regressão linear múltipla ... " Em uma aplicação
sim ilar, um grupo do Hospital de St. Michael em Toronto, Canadá, desenvolveu uma rede
neural para prever o tempo de estadia de um paciente seguido à cirurgia cardíaca .
Prevendo custos de tratamento. Os médicos e administradores da Clínica Cleveland
desenvolveram uma rede neural a qual prediz o custo associado com cateterização e
intervenção no coração. A rede prediz se o paciente irá ser um caso normal ou de alto custo.
As entradas incluem idade do paciente, sexo, e outros parâmetros médicos tal como dados
estruturais sobre o coração do paciente e vasos sangüíneos.
Determinando significância de drogas. O grupo de pesquisa da "Zeneca Pharmaceuticals" em
Wilmington, DE, desenvolveu uma aplicação de rede neural para examinar dados de
experimentos com drogas os quais reduzem o tempo de análise em até 68%. A rede neural foi
treinada para detectar "bons" picos de pressão da bexiga de centenas de picos em arquivos de
dados. Estes picos são críticos para determinar a significância da droga em experimentos
desenhados como "screening" de mais compostos de droga. Os pesquisadores previamente
usaram o método do papel e o lápis para analisar estes picos, um método que levou 40 horas
por mês. Usando redes neurais, reduziu o tempo de análise para 13 horas por mês.
Monitorando sinais fisiológicos. A Escola de Medicina da Universidade do Colorado
desenvolveu um aplicação consistindo de quatro redes neurais as quais detectam
anormalidades respiratórias por mal funções em equipamentos quando um paciente está sob
anestesia.
Monüorando sistemas cardiovasculares. O Laboratório Nacional do Noroeste do Pacífico
desenvolveu um algoritmo de treinamento que recebe dados fisiológicos tais como taxa
cardíaca e respiratória de um monitor usado por um indivíduo e descreve um modelo do

78
sistema cardiovascular da pessoa. Este modelo pode ser usado para predizer o que seria a
resposta da pessoa em uma situação particular (tal como combatendo fogo ou envolvendo-se
em atividade policial) ou para predizer a saúde de um indivíduo ao longo do tempo.

79
7. EXEMPLO
O mercado financeiro é afetado por um grande número de fatores econômicos,
políticos e psicológicos, altamente relacionados e que interagem entre si de uma maneira
bastante complexa. A maior parte destas relações parecem ser probabilísticas e não-lineares.
Portanto, estas relações dificilmente podem ser expressas através de regras detenninísticas.
Análise financeira é uma das aplicações mais promissoras e mais adequadas aos
sistemas de Redes Neurais Artificiais. No setor de serviços financeiros, sistemas de suporte a
decisões vêm sendo amplamente utilizados em uma grande gama de tarefas, incluindo:
• projeção de autorização de crédito;
• avaliação de risco de falência;
• revisão econômica e financeira, entre outras.
Os sistemas financeiros de suporte a decisões devem transformar grandes quantidades
de dados em classificações inteligíveis, reconhecendo tendências e padrões no conjunto de
dados. Qualquer pequena melhoria de desempenho nestes sistemas pode gerar muitos
beneficios financeiros.
Na maioria dos ambientes de decisão, os gerentes trabalham com uma enorme
variedade de informações vindas das mais diversas fontes. Muitas destas informações podem
ser incompletas, ambíguas, parcialmente incorretas ou de relevância dúbia. Os gerentes
analisam estas informações de uma maneira muito subjetiva. Muitas vezes eles não sabem
explicar os processos de tomada de decisão, mas conseguem apontar os fatores que
influenciam suas decisões.

80
Os sistemas que utilizam Redes Neurais Artificiais estão se tornando uma técnica
muito atrativa para estas aplicações, pois oferecem uma alternativa mais eficiente para tratar
informações dessa natureza.
O problema de avaliação de crédito pode ocorrer na forma de solicitação de cartão de
crédito, crediário, autorização de compra, empréstimos bancários e cheque especial, entre
outros. Estas avaliações envolvem previsão de candidatos confiáveis e de lucratividade da
empresa na transação.
Durante uma avaliação, os gerentes baseiam suas decisões em informações sobre o
cliente, em sua experiência gerencial e em relatórios de departamentos administrativos ou
agências de crédito. Essas decisões devem ser muito criteriosas. Decisões equivocadas podem
provocar não apenas prejuízos financeiros às instituições de crédito, mas também prejuízos
financeiros e morais aos clientes.
Este método de avaliação apresenta os seguintes problemas:
Ba ixa Eficiência. Consomem muito tempo e necessitam de pessoal altamente especializado.
Baixa Performance. A experiência de grande parte dos gerentes não é suficientemente
abrangente para produzir avaliações muito meticulosas.
Pouca Flexibilidade. Uma grande experiência é necessária antes que os gerentes possam
realizar esta tarefa. Este método reage muito vagarosamente a mudanças.
Inconsistência. Diferentes gerentes utilizam diferentes critérios de avaliação.
Inicialmente, técnicas estatísticas, como análise discriminante e regressão logística,
foram largamente utilizadas em sistemas automatizados para auxílio de avaliações. Estes
sistemas aumentaram as performances de avaliação, pois apresentam maior flexibilidade,
consistência e eficiência, mas fatores que limitam o uso destas técnicas indicam que nem
sempre são apropriadas para estes problemas.
Os sistemas neurais oferecem uma abordagem mais adequada para o tratamento de
problemas deste tipo. Uma rede neural artificial pode ser treinada utilizando grandes
81
quantidades de exemplos significativos, o que contribui para a obtenção de performance
elevada. Ou seja, a avaliação é modelada através de exemplos de aplicações bem ou mal
sucedidas, encontrados nos históricos dos clientes e não através de modelos objetivos ou
quantificáveis da operação de avaliação.
Desta forma, a rede é capaz de encontrar relações entre as diversas informações e
incorporar os aspectos subjetivos do processo de avaliação da empresa. Estes sistemas são
mais flexíveis, pois quando mudanças são necessárias, devido à aspectos políticos,
econômicos ou regionais, pode-se alterar apenas o conjunto de exemplos de treinamento, o
que não requer mudanças estruturais no siste ma. Estes sistemas podem, até mesmo, detectar
esta necessidade e realizar um novo treinamento. Eles também são considerados consistentes
e eficientes, pois um mesmo sistema pode ser utilizado nos diferentes postos de atendimento
da empresa e realizar avaliações mais rapidamente.
7.1. CARACTERIZAÇÃO E PREPARAÇÃO DOS DADOS
Com a finalidade de ilustrar a aplicação da técnica de redes neurais artificiais utilizou-
se um exemplo de banco de dados do Pacote SAS (Statistical Analysis System) sobre análise
de crédito. A preparação dos dados e a análise da Rede Neural é feita no Módulo Enterprise
Miner do SAS.
O arquivo de dados foi obtido através do nó de fonte de dados. A base de dados
constitui de lOOO pedidos de financiamentos de clientes de um banco alemão com as
in formações apresentadas na Tabela 7. 1. 1.

82
TABELA 7.1 .1: Nome, descrição e tipo das variáveis constantes no banco de dados.
Nome Descrição Tipo

checking Verificação da movimentação da conta ordinal
duration Duração em meses intervalar
hist01y Histórico de crédito ordinal
pmpose Motivo do empréstimo nominal
amount Valor do crédito intervalar
savings Valor em poupanças e investimentos ordinal
employed Permanência no emprego atual ordinal
installp Taxa da prestação sobre a renda disponível (em%) intervalar
marital Estado civi l e sexo nominal
coapp Outro fiador nominal
resident Data de início de permanência na atual residência intervalar
property Propriedade nominal
age ldade em anos intervalar
other Outros planos de crédito nominal
housing F erma de moradia nominal
existcr Número de créditos existentes neste banco intervalar
job Situação empregatícia ordinal
depend~· Número de dependentes intervalar
te/ephon Possui telefone binária
foreign Trabalhador estrangeiro binária
good_bad Bom ou mau pagador binária
A variável binária good_bad foi selecionada como a variável alvo (variável resposta
ou dependente) . As outras 20 variáveis no banco de dados servirão como variáveis de entrada
para a rede (variáveis independentes ou explicativas) para a predição de um bom ou mau
pagador. (Figura 7 .1. I)

83
R fnput Ottttt Sourcc · : ........ :,~-·~:~~ •. • "' -19.

; ·--;·1i=].
Data varlablee lnterual varlablee 1 crase varlablea Notes '· l
Hodel Role Heaeuret~tent
AGE lnput interval nu• BE

OTHER input ordinal nu til BE
HDUSING lnput ordinal nU til BE
EXISTCR lnput ordinal nUli BE
JOB lnput ordlnel nUM BE
OEPENDS lnput blnery 1'\UII BE
TELEPHON lnput blnery nu• BE
FOREION binery
I nput ---~-"""" nu• BE
GOOD_BAD targc input ) char 58
rejedeél'
ld
cosi
freq
triel
Cl úutput- (Unlilled) I O'Log •(Untitled) I!li-Editor- Untitle• predict otll Source

sequence 1-=-----==-===-=--
FIGURA 7. 1.1: Seleção da variável good_bad como variável alvo.
Primeiramente, definiu-se a matriz de perda para a aceitação ou rejeição de um
empréstimo. As linhas da matriz representam os valores alvos (bom ou mau pagador) e as
colunas representam as decisões (aceitar ou rejeitar o empréstimo). Para esta matriz de perda
foi determinado que o risco de aceitar um mau pagador é cinco vezes pior que o de rejeitar um
bom pagador. Se a função perda fosse atribuída em perda monetár1a poderia-se dizer que ao
aceitar o crédito de um mau pagador o banco perde 5 Reais e ao aceitar o crédito de um bom
pagador o banco ganhará 1 Real. (Figura 7.'1 .2)
Prof i les Target
*Profit vector Na Me: !Rea I i st i c Loss

Loes vector
Default profit L EUEL-- ,- - accep1 reject
Default IOSS good -1 o
Real istic Loss o
bad 5
Ed I t Dec I a i o na ••• I.
FIGURA 7. 1.2: Definição da Matriz de Perda para aceitação de um empréstimo.

84
Cada nó da rede utilizará esta matriz de perda para calcu lar as perdas esperadas.
Com base no banco de dados tem-se que 70% dos clientes são bons pagadores e que
30% são maus pagadores. Porém, utilizando a informação de que esta amostra de clientes não
representa a realidade dos empréstimos do banco e que na verdade estas proporções são de
90% e 10% de bons e maus pagadores, respectivamente, então modificou-se a probabil idade a
priori de ser bom pagador para 0,9 e de ser mau pagador para O, I como mostrado na
Figura 7.1.3 .
Profit e• 1 T~rget 1 A•sess~ent
Equal probab1lity N~111e: [Pr ior vect~------

Proportional t o data
None
~~
r- Target Ua 1ue PrIor Probab i I I ty . I
good o.s
l bad 0.1
l_j
FIGURA 7.1.3: Definição da Probabilidade a Priori de ser bom e mau pagador.
As probabilidades a priori serão usadas para ajustar a contribu ição relativa de cada
classe ao calcular a perda média e total.
Nesta etapa da preparação dos dados, divide-se a base de dados em três amostras
através do nó de partição de dados, sendo uma de treinamento, utilizada para ajustar o modelo
de rede neural, outra de validação, para escolher o melhor modelo de rede para projetar novas
disponibilizações de crédito baseada no modelo de perda mínima, e uma outra de teste para
ajudar a verificar o poder de predição da rede criada e para fazer uma última avaliação do
modelo escolhido. Neste caso, por existir apenas 1000 casos na base de dados, serão criadas
apenas as amostras de treinamento e validação. Dividiu-se, então, em 60% dos dados para a
amostra de treinamento e 40% para a amostra de validação. (Figura 7.1.4)

85
·Notes 1
Data } Varlablee Partltlon \ Stratl~lcatlon ) User Deflned l Output l (
I
~Method: - - - - - -
('
<i'
r ueer
Si~~tple RendoJII
Stratlfled
De~lned j Train :
va 1 i da t i on :
~ &Md: ------------------- Teet: r--o i'.
Oenerate Ne111 Seed I'

1<3··l Total : 100 ~
FIGURA 7.1.4: Divisão da base de dados em amostras de treinamento e validação .
O processo de amostragem para divisão da base de dados foi a amostragem
estratifi cada, utilizando a variável alvo good_bad como variável de estratificação para
garantir a mesma proporção de bons e maus pagadores nas duas amostras. (Figura 7.1 .5)
.... ..
Notes 1 .
Data l Uarlabte• Piirtltlon Strat ff lcatlon l USlt:r Oefl ned l output 1
Na ..e Hodel Role
PROPERTY use input nuPl
OTHER use input nu111
HOUSING use input ordinal nu111 BEST1Z.
EXISTCR don 't use input ordinal nuM BEST1Z.
JOB don't use input ordinal nu111 BEST1Z.
DEPENDS don ' t U8B lnput blnary nu"' BEST1Z .
TELEPHON don't use input binary nu ~~e BEST1Z.
F'DREIGN don't use input bin•ry nu"' BEST1Z.
GOOD_ BAD use target b inary char ss.
FIGURA 7.1.5: Escolha da variável good bad como variável de estratificação.
O próximo passo é verificar a distribuição das variáveis. Variáveis com assimetria e
curtose muito acentuadas devem ser transformadas para suavizar estes problemas. Esta
transformação é feita através do nó de transformação de variáveis. Na Figura 7. 1.6 é
apresentada algumas estatísticas das variáveis intervalares. Pode-se observar a presença de
uma forte assimetria na variável amount, pois o coefi ciente de assimetria é 1,9, sendo que o
valor deste coeficiente para uma di stribuição simétrica é O.

86
Dat~ Võlriõ~ble~ l nterval Varlablee ') Cl õlee Variab l ee Notee
NiiCIIe std oev. SkewneSie

DURAT ION 1Z . 059 1 • 09'iZ
AHOUNT eaee .1 t . 9"f9S ***
AOE 1 1 .375 I . OZO"l ***
FIGURA 7. 1.6: Estatísticas descritivas das variáveis intervalares.
Para observar como está a distribuição dos dados da variável amount solicitou-se um
histograma que é mostrado na Figura 7.1 .7.
Percentage
30.-----------------------------------------------------~
20
10
o
250 4793.5 9337 13880.5 18424
2521.75 7065.25 11608.75 16152.25
emount
FIGURA 7. 1.7: Histograma da variável amounl.

87
Como pode-se observar existe mesmo uma grande assimetria dos dados da variável
amounl. Para tornar a distribuição mais simétrica aplicou-se uma transformação denominada
Maximize Normality (maximizar a normalidade), obtendo-se a distribuição para os dados
transformados apresentada na Figura 7.1 .8.
Percente.ge
20~--------------------------------------------------~
15
10
5
r
o T '''' ~ ._. •·:
5.5214609119 6.5964480488 7.6714351797 8. 7464223106 9.821 4094·

6.0589544833 7.1339416142 8.2089287451 9.283915876
AMOUNT: Maximize normality
FIGURA 7. 1.8: Histograma da variável transformada log(amount).
Outra transformação interessante que pode ser utilizada é transformar variáveis
intervalares em categórica ordinal como é o exemplo da variável age, onde o interesse é
predizer bons pagadores em grupos de idades. Criou-se assim 4 grupos da variável age através
da transformação bucket (grupos). O hi stograma da variável age dividida em 4 categorias é
apresentado na Figura 7.1.9.

88
,_lofxl!
Bin: 11 Value : r· 33
-----···--- - ·-----------------·-··- --····-----··----····-···--------·····-·--·----
2 3
10
l.;._,:~:;J.,_ ··::: ·:,~ ·:,;·, :·" .. .:~ """ .,:.~ -·-r · · ..
22 5 26 29.5 33 36 5 47 50.5 54 57.5 61 64.5 68 71 .5 75

age
J) ,
FIGURA 7.1.9: Histograma da variável age dividida em 4 categorias.
7.2. ANÁLISE E RESULTADOS
Para proceder a análise dos dados, primeiramente cria-se o nó de Redes Neurais, onde
será ajustado o modelo de um Perceptron mu lti -camada. Escolheu-se a opção a interface
avançada do módulo de redes neurais para que fosse possível a criação da rede perceptron
com uma camada escondida. (Figura 7.2. 1)

• ,, • , ~..-rM~."'-~"~ •
Neural Network· Model Unhtled · .. ::: :-.:.::::p,~~~.,---.- _ .
Data l Varlables General ) B&$lC I Advançed I Output 1 Notes
Model selectlon crlterla: jProf-i t ;1 Losa
~ Advanccd uscr int erface
r Rccu"ulate trainlno history Clear
w Training process ~~ton itor Conf l9ure .•.
FIGURA 7.2. I : Seleção do modelo de Redes Neurais.

89
Logo após, começa-se a escolher o perfil da rede como o número de camada ocultas
bem como o número de nós escondidos. Na Figura 7.2.2 pode-se observar a estrutura da rede
que será cTiada. Os nós de entrada estão divididos pelo tipo de variável classificatória. O nó
de saída é o resultado predito para a variável alvo good_bad
easle Advanced 1Õutput Notes
Craate Natwork ... 3
NOMINAL J
ORDINAL
Network tnltlallzation Traln Prelifll
FIGURA 7.2.2 : Arquitetura da rede com uma camada escondida composta de 3 nós.
Na opção Create Network. .. tem-se a arquitetura da rede, onde escolhe-se qual o
modelo de rede neural a ser utilizado. Neste exemplo, utilizou-se uma rede perceptron
multicamada. (Figura 7.2.3)
...":-
-----· ----
jSet nuMber ...
.-. ........ -
Hldden neurons:
Dlrect connections:
Network archltecture: fHu I ti t•yer Perceptron
OK cancel
-
FIGURA 7.2.3: Escolha da arquitetura da rede neuraL
90
No item Hidden do menu pode-se escolher, dentre vári as opções, qual será a função de
ativação e a função somatória, bem como se a rede terá o fator de bias ou não. (Figura 7.2.4)
General l lnp\.lt Hidden} Taq~e.t ) lnltlal l
NuPiber o f neurans : i- 3
Default
Co~binat i on function: rLinear - General
No adivátion
lvc To.ngent
Elliott
HyperbolicTangent
Logistic
Go.uss
Sina
Cosina
iiQ <WUI ri 1111 C IW i i&W C 1011 ( upc IHIZW C IUI _
Exponential
~ Output • (Untitled) I O log - (Untitled) I !l} Edi1or • Untitled1 Squo.ra

FIGURA 7.2.4: Determinação dos formatos dos componentes dos nós escondidos.
Por fim , salva-se o modelo de rede neural construído para logo após rodar e obter os
resultados da análise. Dá-se o nome do modelo e a descrição como é mostrado na
Figura 7.2.5.
Model Nallle:
Hodel Description: !Neural Network Mode~
OK Cancet
FIGURA 7.2.5: Nome e descrição do modelo de rede neural construído.
Na Figura 7.2.6 é apresentado a estrutu ra fina l do proced imento de Redes Neurais no
Enterprise Miner com os nós utilizados na análise, restando apenas rodar o procedimento e
avaliar os resultados obtidos.

91
· credito
~neural
I SAHPS I O. Da ta Tr•ns'fon•
OHAGECR Pt~rt I tI on Uar i ab 1es
Neura 1
Network
DiOJgrõJI"'S
FIGURA 7.2.6: Nós do procedimento de Redes Neurais.
Enq uanto a rede está rodando, aparece uma janela da evolução do erro até a
otimização da rede para os dados de treinamento e validação que é mostrada na Figura 7.2.7.
Sto'p
""·~ -
Monitor
1•o
0.9
0.8
0.7
0.6 O Tra in
o.s "':,~
I""C'iiôi"
O.'t [;}.. Vai i d .
0.3
o.z
o .1
0.0
O 5 1 O 15 2 O Z5 3 O 35 'tO 't5
I tera ti an Nu~Wtber
Tra rn i .,9
FIGURA 7.2.7: Monitoramento da evolução do erro das amostras de treinamento e validação.

92
A rede para quando tiver completado 100 iterações, porém basta pedir para que o
processo continue para que o treinamento seja continuado. O primeiro resultado apresentado é
gráfico com o erro médio para cada iteração dos dados de treinamento e validação que é
mostrado na Figura 7 .2.8 . Para este exemplo, o ótimo para o erro médio foi alcançado na
iteração 42. A rede é treinada até que um padrão seja reconhecido pela rede. É possível notar
que as linhas do erro médio de treinamento e validação divergem após a 42a iteração.
Cada vez que se roda a rede novamente, uma nova aleatoriazação dos dados é criada e
utilizada para o treinamento da rede. Por este motivo, os resu ltados obtidos podem diferir a
cada vez que a rede é treinada.
-Wel9hts ..... -
Hodel Tablee Plot Co de Log l Output 1 Notes
Average Errar (Ne111)
0 .7
0.6
o.r;
O."f
~ . ~H
.... . h ;
0.3
o ~o "f O 60 80 1 00
Nulllber
1- Trt~~ln ~-Ua t id I
FIGURA 7.2.8: Erro médio de classificação para os dados de treinamento e validação.
A perda média para cada iteração para os dados de trei namento e validação é
apresentada na Figura 7.2.9. Nota-se que a perda méd ia é minim izada na 42a iteração.
Na Figura 7.2. 1O é apresentado valor obtido para a perda média para os dados de
treinamento e validação na 42a iteração. A perda média fo i de 55 centavos para os dados de
treinamento e de 59 centavos para os dados de validação. Está perda média foi ajustada pela
proba! idade a priori especificada no perfil da variável alvo good bad.

93
..
Model l Tables l WeiQhts Plot l C~de l I..OQ 'l Output 1 Notes }
Average L.o as (New)

-0.3
-O.'i
-o.s
-0.6
'(:: .~ '.
-0 . 7
o eo 'tO 60 80 100
NURber
·- TraI n: Average L.oea for GOOD_BAD
~ Ualld: Avarage L0 88 for GOOD_BAD
- - - - - - - - - - - ----
FIGURA 7.2.9: Perda média na predição de bom ou mau pagador para os dados de
-
treinamento e va lidação.
Run=1 Step=Train l'fera.tion='le

T~ain: aueraoe loss
Uatid: average loss:
= -S.SE-01
-S.9E:-01
FIGURA 7.2.10: Valor obtido para a perda média na 42a iteração.
Um último resultado obtido é apresentado na Tabela 7.2.1. Trata-se da tabela de
cruzamento dos valores observados com os valores preditos para a variável alvo bom ou mau
pagador (good had).
TABELA 7.2.1 : Tabela cruzada de classificação: observado x predito

Preditos
Observados Bom Pagador Mau Pagador Total
Bom Pagador 551 149 700
Mau Pagador 86 214 300
Total 637 363 1000
Com base nestes resultados pode-se concluir que a rede obteve um erro de
classificação de 23,5% (235 casos classificados incorretamente em 1000 casos totais).

Analisando os resultados separadamente tem-se na Tabela 7.2.2 a classificação da rede
para a amostra de trei namento e na Tabela 7.2.3 a classifi cação da rede para a amostra de
validação.
TABELA 7.2.2: Tabela cruzada de classificação para amostra de treinamento
Decisão
Observados Aceita Rejeita Total
Total 356 225 581
TABELA 7.2.3: Tabela cruzada de classificação para amostra de validação
Decisão
Observados Aceita Rejeita Total
Total 281 138 419
É importante também lembrar que para este mesmo exemplo foi procedido a análise
de regressão logística e a análise de árvore de decisão que juntamente com a metodologia de
redes neurais, são técni cas utilizadas no procedimento de Data Mining. Para decidir qual das
três técnicas consegu iu resolver o problema de classi fi cação de maneira mais eficiente
construiu-se um g ráfico de comparação das três técnicas que é apresentado na Figura 7.3 .4.
Os percentis do eixo dos X representam os casos sorteados da esquerda para direita
pelos indivíduos que tem mais chance de ser predito como bom pagador no modelo. O eixo
vertical representa a porcentagem de resposta corretamente classificada em cada percentil.
Assim, comparando as linhas de porcentagem de resposta para cada técni ca pode-se concluir
que a metodologia de rede neural foi sempre superior a técnica de árvore de resposta e foi
superior na maioria dos percentis à análise de regressão logística. Para conferir este resultado
95
construiu-se também o gráfico comparativo da perda esperada para cada uma das três técnicas
que é apresentado na Figura 7.3.5 .
-UertlC'al AXl'S Val:Ue ---···-···.·· ....

,--------------.-!
:
j
r. ~Rasponsa
r ~Captured Response
I
I,
%Response
100~------------,
! r Li f t V a I UB
I r Lo•• i
l r I
- r. Cuflll~a tlve-- lÍ 94
r Hon-cu~ul•tlve il
- _j 92
B~r Color for ---·-··---;
r. 90~===c~=========c==~
r 10 30 50 70 90
r
r 20 40 60 60 100
r _ _j P!=~rcentíle
f.Tool Nome
l
Target Profile
B~owso ... I Apply
-
I I
1
IO:soseline o~Neural o Reg 0Tree
- - -·---1
- - -
FIGURA 7.3 .4:Comparação das três técnicas através da porcentagem de classificação correta.
· ··' Vertl ~ l·~-AXl$ UlUOO - ' ::.. . . . ..
_j I
·-
r-- ·-··, 1 Loss
r
r
~Responsa Response
~captured -0.2
r Li f t Value ~·
r. Los s -o.4
r .
-- j
I -.I -o.s
.1 r. Cumu Ia t i ve I'i
_ . _ r ~on-Cumu •• tIve lI
1 -o.a ·
fsa;. Color for . , _,
r 30 70
10 50 90
r
r 20 40 60 ao 100
r Percentile
l - - -------·------' f.Too! Name
ÍTerget Profile - - -
8~01.111,9t:l •• ·I Apply
--l
I 10Bo.seline .. Ot4eural O Reg 0 T ree
·--- - - - --------~
-- -.... ..... -
FIGURA 7.3.5: Comparação das três técnicas através da perda esperada com a classificação.
Com base no gráfico da Figura 7.3.5 pode-se observar que a perda esperada foi sempre
menor para o modelo de redes neurais em comparação com a técnica de árvore de decisão e,
96
as redes neurais obtiveram resultados melhores na maioria dos percentis quando compara com
a análise de regressão logística
Então, para este exemplo o modelo que melhor explicou os dados foi o de rede neural.
É importante salientar que cabe ao estatístico responsável pela execução da análise do banco
de dados saber utilizar as ferramentas disponíveis no Data M ining e escolher qual a que
melhor soluciona o problema a ser resolvido.
7.3. INTEGRAÇÃO DA REDE
Este é o tópico mais interessante da análise por ser o mais prático do ponto de vista da
aplicação em tomada de decisão no que diz respeito a aceitar ou não um pedido de crédito. A
integração da rede será feita através de um novo banco de dados contendo 75 observações de
novos clientes. Neste banco de dados existem apenas as 20 variáveis explicativas que serão
utilizadas pela rede para predizer a variável resposta bom ou mau pagador e, assim, tomar a
decisão de aceitar ou rejeitar o fornecimento do crédito.
A Figura 7.3. 1 apresenta a perda esperada na tomada de decisão de aceitar ou rejeitar
uma concessão de crédito. Clientes que tem valores de perda esperada negativa representam
um risco de crédito bom para o banco, ou seja, o banco vai lucrar com estes clientes. A barra
vermelha representa os clientes com risco de mau crédito, ou seja, seus pedidos de concessão
de crédito devem ser rejeitados ou o banco poderá perder dinheiro apostando neles.
Após a rede rodar, obteve-se 64% de clientes com pedido de crédito aceito e 36% de
clientes com pedido de crédito rejeitado por terem grande risco de serem maus pagadores.
(Figura 7.3.2)
97
Da ta · l Var lables X Ax ls 1 Y Ax ls } ' z Axls 1 Notes
Va lue; o
MIN
o-+'---"--'---"-. - - - :. ~ ~~ - ... - r - - - ···· -· ..,.· ..: --.......---·..' ..... .. -~
-0.99022682 -{).742670115 -0.49511341 -{).247556705 o

-{).866<i48468 -0.618891763 -{).371335058 -{).123778353
Expeded Loss: GOOD_BAD
FIGURA 7.3. 1: Gráfico da perda esperada pela concessão do crédito.
Percentage
80.------------------------------------------------------------~
40
accept rejed
Decision: GOOD_B.A.D
FIGURA 7.3 .2: Gráfico da proporção de casos de crédito aceitados ou rejeitados.
Pode-se juntar as informações dos dois gráficos apresentados em um único gráfico
tridimensional apresentado na Figura 7.3 .3 onde pode-se ver claramente ao rejeitar um crédito
o banco nem perde nem ganha e que quanto maior o número de créditos aceitos maior é o
ganho esperada para o banco.

98
Percentage
0~---------r----~
-0.987863516 o
-o.370448819
Expected Loss: GOOD_BAD
[Percentage
1.35135135141
FIGURA 7.3 .3: Gráfico da perda esperada pela decisão de aceitação ou rejeição do crédito.
Finalmente, após a análise dos resultados obtidos pela rede neural devidamente
treinada e validada, pode-se selecionar então quais serã.o os clientes que terão seus pedidos de
crédito aceitos. A Tabela 7.3.1 fornece a informação da decisão de concessão de crédito para
cada um dos 75 clientes, bem como, a perda esperada que o banco terá com cada um deles.
Com esta tabela de resultados preditos pela rede, pode-se observar que a perda é zero
quando a decisão é rejeitar o crédito e que quando toma-se a decisão de aceitar e conceder o
crédito a perda esperada é negativa, mostrando que o banco só espera lucrar ao conceder o
financiamento àqueles clientes que a rede classificou como bom pagador.

99
TABELA 7.3. 1: Decisão de aceitação do crédito e perda esperada.

Código Decisão Perda Código Decisão Perda
do Cliente EsQerada Es2erada do Cl iente Es2erada Es2erada
325 accept -0.69061 921 accept -0.73290
858 accept -0.91849 65 accept -0.87344
151 accept -0.97277 694 accept -0.01491
348 accept -0.21071 844 accept -0.29493
212 accept -0.98786 21 ] accept -0.98641
990 accept -0.70823 535 accept -0.89320
166 accept -0.92598 7 accept -0.92564
952 accept -0.06478 518 accept -0.64279
495 accept -0.65280 759 accept -0.95903
563 accept -0.00845 446 accept -0.95072
894 accept -0.70598 649 reject o
768
6..,..,
accept -0.96530 384 reject o
.>.> accept -0.64683 705 reject o
244 accept -0.90319
100
8. CONCLUSÃO
Este trabalho descreveu os principais tópicos referentes à redes neurais, desde seu
início até propostas de implementação em diversas áreas de aplicação. No referencial
histórico detalhou-se desde o surgimento, propostas iniciais de redes neurais, conflitos e
progressos neste tema . Foi descrito o funcionamento de células humanas, na qual se baseou
todo o funcionamento das unidades componentes das redes neurais. Seguiu-se com um quadro
comparativo entre o cérebro humano e o computador, e entre máquinas tradicionais e
máquinas baseadas no conceito de redes neurais. Devido a grande aplicabilidade pode-se
entender os diversos motivos que levam inúmeros estudiosos a trabalhar e desenvolver redes
neurais.
Descreveu-se ainda, na Arquitetura da Rede, aspectos referentes à descrição destas a
partir de suas características de desenvolvimento e aplicação. Mostrou-se alguns conceitos e
teorias que descrevem o aprendizado de uma rede neural juntamente com uma coletânea de
apl icações das mesmas.
Todas as informações aqui expostas levam a crer que o campo de redes neurais
artificiais é acima de tudo extremamente vasto e promissor, necessitando do conhecimento
estatístico para auxiliar na modelagem da arquitetura e na escolha do algoritmo de
aprendizagem a ser utilizado. Trata-se de um assunto recente, mas que adquiriu muita
credibilidade, e devido a constantes descobertas relacionadas a Redes Neurais, tornou-se um
campo bastante atrativo para profissionais de domínios distintos, reforçando sua característica
multidisciplinar.
lOI
Acredita-se que o mais coerente é entender Redes Neurais Artificiais como ferramenta
estatística, sendo uma opção de solução de problemas e não metodologia competidora.
Mostrou-se também que pensar uma rede neural como uma caixa preta é um mito que
deve ser desmistificado, pois viu-se que existe uma metodologia para obtenção dos pesos da
rede, exemplificado no trabalho através do algoritmo de retropropagação.
Por fim, acredita-se que este trabalho tem consistência e pode ser um bom referencial,
tanto teórico quanto aplicado, para aqueles que quiserem uma introdução no estudo da
metodologia de Redes Neurais Artificiais, metodologia esta extremamente importante e útil
para análise de dados das diferentes áreas do conhecimento.

102
9. REFERÊNC IAS BfBLIOGRÁFTCAS
ALENCAR, R .J.N. ( 1997). Avaliação da Segurança Estática de Sistemas de F.nergia Elétrica
usando Mapeamento Auto-organizável. (Mestrado - Centro Tecnológico - Engenhari a
Elétrica I UFPA), 123p.
ALME IDA, F.C. (1993). L'l~va/uation des risques de défaillance des entreprises à partirdes
réseaux de neurones insérés dcms les systemes d 'aide à la décision. Grenoble:
Universidade de Grenoble, Ecole Supérieure des Affaires. (Doutorado - Ciências de
Administração).
ARBTB, M.A. ( 1987). Brains, Machines, and Mathematics. 23 ed. New York: Springer-Verlag.
BAXT, W.G. (1990). Use of an Artificial Neural Network for Data Analysis in Clinicai
Decision-Maki ng: The Diagnosis of Acute Coronary Occlusion. Neural Computa/íon,
vol.2, p.480-489.
BAXT, W.G . (1991). Use of an Artificial Neural Network for the Diagnosis of Myocardial
Tnfarction. Occlusion. Annals of In/ema! Medicine, vol.115, p.843-848.
BISHOP, C.M. (1995). Neural Networks for Paliem Recognilion. New York: Oxford
University Press.
BUNTINE, W.L. & WEIGEND, AS. ( 199 1). Bayesian Back-Propagation . Complex Systems,
voi.S , p.603-643 .
CAIRO, L. N.Jr & YONEYAM A, T. ( 1997). Inteligência Art[ficial em Automação e Controle.
Edgar Blucher. São Paulo, S.P.
CHURCH, K.B. & CURRAM, S.P. (1996). Forecasting consumer's expenditure: a
comparison between econometric and neural network models. Jntematíonal Journal of
Forecasfing, vol.12, p.255-267.

103
DJNIZ, C.A. & LOUZADA-NETO, F . (2000). Data Mining: Uma Introdução. XIV Simpósio
Nacional de Probabilidade e As"latística. Caxambú, M.G.
DUDA, R.O. & HART, P.E. ( 1973). Pallems Class{fication and Scene Analysis. New York:
Jolm Wiley.
EDELMAN, G.M. ( 1987). Neural Darwinism. New York: Basil Books.
FELDM AN, J.A. (1992). Natural computation and artificial intelligence. Plena1y Lecture
presented at the lnternational .Joint Conference on Neural Networks, Baltimore.
FERNANDES, L.G.L. , PORTUGAL, M.S. & NAVAUX, P.O.A. (1994). Um Estudo
Experimental do Poder Preditivo das Redes Neurais Artificiais Comparado a Métodos
Econométricos Tradicionai s. f Simpósio Brasileiro de Redes Neurais. Caxambu - MG,
p.l39-1 44.
FERNANDES, L.G.L. , PORTUGAL, M.S. & NAVAUX, P .O.A. (1996). O Problema da
Escolha da Topologia da Rede Neural na Previsão de Séries Temporais. 111 .S'impósio
Brasileiro de Redes Neurais. Recife - PE, p. 227-234.
FISCHLER, M .A. & FIRSCHEIN, O. (l 987) . lntelligence: The tye, The Bmin, and 'lhe
Compuler. Reading, MA: Addison-Wesley.
FISHER, R.A. (1938). The statistical utilization of multiple measurements. Annals of
Eugenics, 8, p.376-388.
FLUR Y, B. & RIEDWYL, H . (1990). M ultivariate Statistics: A Practical Approach, London:
Chapman & Hall.
FREEMAN, J.A. ( 1994). Simulating Neural Networks with Mathematica. Reading, MA:
Addison-Wesley.
FUJITA, H., KATAFUCHl, T., UEHARA, T. & NISHIMURA, T. (1992). Application of
Artificial Neural Network to Computer-Aided Diagnosis of Coronary Artery Disease in
Myocardial Spect Bull ' s-Eye Images. Joumal of Nuclear Medicine, vol.33, n°2,
p.272-276.
l O~
GISMONDI, R.C., rNFANTOSl, A.F.C. & ALMEIDA~ R.M.V.R. (1999). Modelagem da
Mortalidade Infantil em Municípios Brasileiros por Redes Neurais e Regressão Linear
Múltipla.
GORMAN, R.P. & SEJNOWSKI, T.J. ( 1998). Analysis of Hidden Units tn a Layered
Network to Classify Sonar Targets. Neural Networks, vol.1 , p.75-89.
HAIR, J.F., ANDERSON, R.E., TATHAM, R.L. & BLACK, W.C. (1998). Multivariate Data
Analysis. 5:1 ed. New Jersey. Pretice Hall, 730p.
HARTMANN, F.R . (1996). Redes Neurais Artificiais: Conceitos Básicos e Análise. São
Leopoldo, R.S . (Monografia apresentada para obtenção do grau de Bacharel em Análise
de Sistemas/UNISINOS), 90p.
HARVEY, A.C. (1989). Forecasting Stmctural Time Series Models and the Kalman Filter.
Cambridge University Press, Cambridge, 458p.
HAYKIN, S. (2000). Redes neurais: princípios e prática. Trad. Paulo Martins Engel. 2aed.
Porto Alegre. Bookman, 900p.
HAWLEY, D., JOHNSON, J.D. & RAINA, O. (1990). Artificial Neural Systems: A New
Tool for financiai Decision-Making. -Financia/ Analyst Joumal, p.63-72.
HECHT-NIELSEN, R. (1990). Application of Counte1propagation Networks. Neural
Network, vol. 1.
HEEB, P. (1944) Organization ofBehavior. New York. John Willey & Sons.
HERTZ, J., KROGH, A., & PALMER, R.G. (199 1). J111roductio11 to the The01y qf Neural
Computation. Santa Fe Institute Studies in the Sciences of Complexity ( vol.l ), Redwood
City, CA: Addison-Wesley.
HOSMER, D.W. & LEMESHOW, S. (1989). Applied Logistic Re~:,rression . Nova York:
Wiley.
105
HRUSCHK~ H. (1993). Determining Market Response Functions by Neural Network
modeling: A Comparison to Econometric Techniques. European Joumal o.f Operational
Research, vol.66, p.27-35.
HUTCHINSON, J.M. (1994). A Radial Basis fimction Approach to Financia/ Time Series
Analysis, Ph.D. dissertation, Massachusetts lnstitute ofTechnology.
KERLJRZIN, P. & VALLET, F. (1993). Robustness in multilayer perceptrons. Neural
Compulation, voi.S, p.473-482.
KOV ÁCS, Z .L. ( 1996). Redes Neurais Artificiais: Fundamentos e Aplicações. Edição
Acadêmica. São Paulo, S.P, l63p.
KROSE, B. J. & SMAGT, P.V. ( 1993). An lntroduction to Neural Networks. University o f
Amsterdam.
LlNSKER, R. (1988). Self-organization m a perceptual network. Compu ter, vol.21,
p.IOS- I 17.
LlPPMANN, R.P. (1987). An lntroduction to Computing with Neural Nets. !EEJ:.: ASSP
Magazine , p.4-22.
LIPPMANN, R.P. (1989). Review of neural networks for speech recognition. Neural
Compulalion, vol.1, p.l-38.
McCUULLOCH, W.S. & PITTS, W. (1943). A logical Calculus of the ldeas Immanent in
Nervous Activity. Bulletin qf Mathematical Biophysics, vol.S, p.ll 5-133.
MEAD, C.A. (1989). Anafog VLSI and Neural Systems. Reading, MA: Addison-Wesley.
MENDEL, J.M . & McCLAREN, R.W. (1970). Reinforcement-learning control and pattern
recognition systems. in Adaptive, Learning, and Pattem Recognition Systems: TheOty
and Applications, vol.66, p.287-318, New York: Academic Press.
MTNSKY, M.L. &PAPERT, S.A. (1969). Perceplrons. Cambrige. MA: MIT Press.
NETER, J. , WASSERMAN, W. & KUTNER, M.H. (1990). Applied Linear Statistical
Models. Homewood, IL: Richard D. Irwin.

106
OSÓRIO, F.S. (1991). Um Estudo sobre Reconhecimento Visual de Caracteres Através de
Redes Neurais. Porto Alegre: CPGCC. (Mestrado- Instituto de [nformática!UNlSrNOS).
PACHECO, M.L.C., NADAL, J. & PANERAl, R.B. (1996). Redes Neuronais Artificiais Na
Avaliação de Múltiplas Tecnologias de Saúde.
PEREIRA, B.B. & RODRIGUES, C.V.S . (1998). Redes Neurais em Estatística. Xlll Simpósio
Nacional de Probabilidade e Estatística. Caxambú, M.G.
POLI, R., CAGNONI, S., LIV1, R., COPPINI, G. & VALLI, G. (1991). A Neural Network
Expert System for Diagnosing and Treating Hypertension. Computer, p.64-71.
QIAN, N. & SEJNOWSKI, T.J. ( 1988). Predi cting the Secondary Structure of Globular
Proteins Using Neural Networks Models. Joumal of Molecular Bio/ogy, vol.202,
p.865-884.
REEKE, G.N.Jr., FINKEL, L.H. & EDELMAN , G.M. (1990). Selective recognition
automata. in An lntroduction to Neural and f:)ectronic Network, S. F. Zornetzer, J.L.
Davis, and C. Lau, p.203 -226, New York: Academic Press.
RIPLEY, B.D. (1993) . Statistical Aspects of Neural Networks. Tn Networks and Chaos -
Statistical and Prohabilistic Aspects, eds. O. Barndorff-Nielsen, J.Jensen, and W.Kendall,
London: Chapman & Hall, p.40-123 .
RIPLEY, B.D. ( 1994). Neural Networks and Related Methods for Classification. Journal ~f
the Royal Statistica/ Society B, vol. 56, 11°3, p.409-456.
ROSENBLATT, F. ( 1958). The Perceptron: A probabilistic model for information storage
and organization in the brain. Psychological Review, vol.65, p.386-408.
ROSENBLATT, F. (1962). Principies C?! Neurodynamics, Washington, DC: Spartan Books.
R UMELHART, D .E., HINTON , G.E. & WILLIAMS, R.J. (1986). Learning representations
ofback-propagation errors. Na1w·e (London), vol.323, p.533-536.
RUMELHART, D .E., & WEIGEND, S.A. (1990). Predicting lhe htture: A ('onnectionist
Approach. Stanford PDP-90-0 1, PARC-SSL-90-20.

107
SÁ, C.B.P. & NOBRE, F.F. (1996). Previsão de Séries Temporais Epidemiológicas
Utilizando Redes Neurai s.
SAGE, A.P., ed (1990). Concise Encyclopedia of !J~formation Processing in Systems and
Organizations. New Y ork: Pergamon.
SARLE, W .S. (1994). Neural Networks and Statistical Methods. In Proceedings of lhe 191h
Amwal SAS Users Group lntemational Conference.
SMITH, M . (1 993). Neural Networks for Statistical Modeling. New York: Yan Nostrand
Reinhold.
STUDENMUND, A.H. (1992). Using Econometrics: A Practical Cuide. New York: Harper
Collins.
TESAURO, G . (1990). Neurogammon Wins Computer Olympiad. Neural ('omputation,
vol.l, p.321 -323.
TSOUKALAS, L.H., UHRING, R.E., WTLEY, J. & SONS. (1996). Fuzzy and Neural.
Approaches in Engeneering.
VALIANT, L.G . (1984). A theory of the learnable. Communicalions of the Association for
Compuling Machine1y, vol.27, p. ll34-1142.
VAPNl K, V.N . (1992). Principies of risk minimi zation for learning theory. Advances in
Neural b?formation Processing Systems, vol.4, p.83 1-838, San Mateo, CA: Morgan
Kaufmann.
VAPN!K, Y.N. (1998). Statistical Leaming The01y. New York: Wiley.
WALTZ, D. (1997). Neural nets and AI: Time for a synthesis. plenary talk. Jnternationa/
COI?{erence on Neural Networks, vol.l , p.xiii, Houston.
WARNER, B. & MISRA, M . ('1996). Understanding Neural Network as Statistical Tools. The
Americam Statistician, vol.SO, n°4, p.284-293.

L08
WERBOS, P.J. (1991). Links Between Artificial Neural Networks (ANN) and Statistical
Pattern Recognition . ln Artificial Neural Networks and Statistical Paltern Recognition:
Old and Ne w Connections, eds. l. Sethi and 3 J ai n, Elsevier Science, p.1 1-31.
WHITE, H . ( 1989). Learning in artificial neural networks: A statistical perspective. Neural
Computa!íon, vol. l , p.425-464.
W IDROW, B. & HOFF, M.E. ( 1960). Adaptive switchi ng c irc uits. JRF: WESCON Convention
Record, p .96-104.
WU, F.Y. & YEN, K.K. (1992). Appl ications ofNeural Network in Regression Analysis. In
Proceedings of lhe 1-Ith Annual Conference 011 Computers and Industrial Engi11eering.

Redes: Neurais Artificiais No Contexto Estatístico

Enviado por

Direitos autorais:

Formatos disponíveis

Redes: Neurais Artificiais No Contexto Estatístico

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Redes: Neurais Artificiais No Contexto Estatístico

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVE RSIDADE FEDERAL DO RIO GRANDE DO SUL

REDES NEURAIS ARTIFICIAIS NO CONTEXTO

LISIANE PRISCILA ROLDÃO SELAU

ORIENTADOR: JOÃO RTBOLDI

Mo nografia apresentada para obtenção do

grau de Bacharel em Estatística

Porto A legre, Dezembro de 2000

quais gostaria, neste momento, de expressar meus mais sinceros agradecimentos:

interesse, sugestões, dedicação, paciência e total apoio.

Ao meu namorado, Everaldo, que sempre me incentivou a prossegu ir no

desenvolvimento deste trabalho, não me deixando desistir em momento algum, transmitindo-

Ás minhas amigas, Dierê, Juliane e Mariana, colegas de graduação, que sempre me

tudo, sempre me apoiaram em todas minhas decisões.

Á minha irmã, Lívian, pelo companheirismo em vários momentos da minha

Ao professor da Universidade Federal do Rio Grande do Norte, Paulo Roberto M. de

pela força transmitida em várias ajudas dadas via e-mail.

Agradeço, ainda, a todos que de alguma forma contribuíram, mesmo de mane1ra

indireta, para a elaboração deste trabalho.

Algoritmos genéticos: Modelos de aprendizado desenvolvidos baseados nos princípios de

evolução. Dentre soluções parctars de um problema a melhor solução é selecionada e

combinada para dar a base para a futura solução do problema.

Amostra de treinamento: Observações utilizadas na calibração da rede neural. Deve conter

determinados e usados para o processo de aprendizado.

Aprendizado/Treinamento: Processo seqüencial de grandes amostras de observações,

conhecidas como amostras de treinamento, em que os erros de predição ou classificação são

usados para recalibrar os pesos para melhorar a predição.

Retropagação: Processo de aprendizado mais comum de redes neura1s, em que erros de

usados como indicadores para recalibrar os pesos para cada nó.

Camadas escondidas ou intermediárias: Camadas de nós em um perceptron multi-camada que

forma a descobrir relacionamentos entre eles, procurando identificar padrões e tendências.

comum é a função sigmóide.

exemplo mais comum é a função logística.

respectivos pesos sinápticos do neurônio .

Inteligência artificial (IA): Área da ciência da computação habituada com a criação de

programas de computadores que tenta simular as propriedades de aprendizado do cérebro

humano. IA está envolvida em diversas áreas especializadas, incluindo redes neurais e

entrada, saída ou como função de processamento e análise. Análogo ao neurônio de um

menos uma camada de nós escondidas entre as camadas de entrada e saída.

exemplos. Se assemelha a estrutura do sistema neural biológico.

Sinagse: Mecanismo transmissor de informação entre os neurônios. A informação recebida

sinal elétrico e vice-versa.

Supervisionado: Processo de aprendizado que utiliza uma amostra de treinamento e dá retorno

para a rede neural a respeito dos error dos nós de saída.

quando existirem suas camadas intermediárias ou escondidas.

- WTRODUÇÃO .. .. . .. .. .. ... .. .. . .. .. .. .. .. . .. .. .. ... .. .. .. . .. .. .. . .... .. .. ... .. .. . .. .. . .. .. .. . .. . .. . .. .. . .. .. . .. .. . . 7

1.2 - ESTRUTURA DA MONOGRAFIA ................................................................. 9

2 - REFERENCIAL HISTÓRICO ................................................................................. ll

3 - REDES NEURAIS NATURAIS ........................................................................ ...... 15

4 - REDES NEURAIS ARTIFICIAIS ........................................................................... 19

4.1 - ARQUITEURA DE UMA REDE ............. ........................................................ 26

4.2 - APRENDIZADO DA REDE ............................................................................ 29

4.2.1- TEO RI A ESTATÍSTICA DO PROCESSO DE APRENDIZAGEM ............... 33

4.3 - INTELIGÊNCIA ARTIFICIAL E NEUROCOMPUTAÇÃO ................... ........ 40

4.4 - RE DES NATURAJS x REDES ARTIF ICIAIS ........... ................. ..................... 42

4.5 - ALGUMAS REDES MAIS UTILIZADAS ....................................................... 44

4.5.2- REDE HOPFIELD ............................. ....................................... ............ .......... 47

4.5.3- REDES ADALINE E MADALINE ................................................................ 48

4.5.4- REDE DE RESSONÂNCIA ADAPTAT IVA .................................................. 50

4.5.5- REDE KOHONEN ......................... ............................................... ................. 51