Redes: Neurais Artificiais No Contexto Estatístico
Redes: Neurais Artificiais No Contexto Estatístico
Redes: Neurais Artificiais No Contexto Estatístico
INSTITUTO DE MA TEMÁTTCA
DEPARTAMENTO DE ESTATÍSTICA
ESTATÍSTICO
AGRADECIMENTOS
Para que este trabalho fosse realizado contei com a colaboração de várias pessoas, as
Ao meu orientador, Prof Dr. João Riboldi ; que nunca desistiu de me orientar; pelo seu
me confiança e incentivo, que demonstrou enorme calma nos meus longos períodos de
ausência.
acompanharam nas horas de estudo, que me distraíram nas horas difíceis e que, acima de
graduação.
Azevedo, pela disponibilização de vários materiais usados como referências neste trabalho e
GLOSSÁRIO DE PALAVRAS
valores para os nós de saída para que os erros nos valores finais preditos possam ser
estimação nos nós de saída são retornados através do sistema às camadas de entrada. e sã.o
estão entre os nós de entrada e saída. O pesquisador pode ou não controlar o número de nós
bem como o número de camadas escondidas. Também conhecidas como camadas ocultas.
Data mining: Processo de busca de informações que analisa grande quantidade de dados de
Função de ativação: Função matemática dentro do nó que converte a soma de ativação das
entradas em ativação de saída. Existem vários tipos de funções de ativação, a forma mais
Função sigmóide: Função de ativação não linear com uma distribuição em forma de S. Um
Função somatório: Combinador linear que soma os sinais de entrada ponderando-os pelos
algoritmos genéticos.
Nó ou neurônio: Unidade de processamento mais básica de uma rede que pode atuar como
cérebro humano.
Perceptron multi-camada CMLP): A mais conhecida e utilizada rede neural que contem pelo
Pesos: Constantes que são usadas em um modelo para informar a influência de cada nó na
saída da unidade.
Rede Neural Artificial CRNA): Também chamada, de modo simplificado, de Rede Neural é
um modelo preditivo não linear que adquire conhecimento através do treinamento com
pelo neurônio é processada e produz uma saída que pode excitar ou inibir outros neurônios. O
tipo mais comum de sinapse é a sinapse química, que converte um sinal químico e retoma um
Topologia: É a arquitetura de uma Rede Neural com suas camadas de entrada e saída e
SUMÁRIO
I. I - OBJETIVOS . . .... .. .. ... .. .. .. .. ... .. .. .. . .... .. .. .. . .... .. . .... .. . .... .. . .. .. ... .. .. ... . .... .. . .. .. ... .. . .. . .. 8
4.5. 1- REDE PERCE PTRON ........... ..... ......... ................................. ....... ....... ............ 44
4.6.3- TREINAMENTO ........... ........ ....... ....... ... ............ ....... .. ........ ......... .. ........ ....... 54
G
4.6.4- TESTE ................. ... ..... ............. ...... .............. ............... .................... .............. 55
5.4 - ANÁLISE DE SÉRIES TEMPORAIS ... ...... .......... ............ ....... ............ .... ........ 64
6.2 - FINANÇAS ................. ................ .................... ..... ............ ...... ................. .. ... .... 70
7 - EXEMPLO . .... ............. ......... ......... ....... ................ ... ..... ........................................... 79
8 - CONCLUSÃO ....... .. ....................... .... .................. ........ ...... ......... .............. ........ ...... I 00
1. INTRODUÇÃO
homem tem sido a criação de uma máquina que possa operar independentemente do controle
humano. Uma máquina cuja indepe ndência seja desenvolvida de acordo com seu próprio
aprendizado e que tenha a capacidade de interagir com ambientes incertos, que possa ser
inspirado na estrutura neural de organismos inteli gentes e que adquirem conhecimento através
da experiência.
interconectados que se assemelham com neurônios e são ligados com conexões de pesos que
se assemelham com sinapses. O nome Redes Neurais decorre desta semelhança com o cérebro
humano.
utilizada em conjunto com Data Mining para, dentre outras aplicações, reconhecer padrões de
perfis. O Data Mining é uma metodologia de ide ntificação de padrões e tendências de dados
escondidas. Dentre estas várias técnicas está a metodologia de Redes Neurais que, utilizando
que é o Data Mining pode ser obtido através da visuali zação do esquema da Figura 1. I.
8
Padrões
1. Dd:;s
nr~:e:;s:~é:::s
Dados
FIGURA 1.1: Visão geral das etapas que compõe o processo de Data Mining.
O estudo de Redes Neurais é um dos ramos da Inteligência Artificial que mais tem se
estatísticas e sua sólida formação matemática e probabilística, e por ser capaz de auxiliar no
1.1. OBJETIVOS
do conhecimento.
9
soluções triviais utilizadas freqüentemente em diversas situações. Esta superioridade pode ser
de certa forma explicada pelo fato de que essas novas gerações de algoritmos podem aprender
com o passado e prever o futuro e, também, extrair regras para trabalhar em ambientes
complexos.
do conhecimento, bem corno ilustrar a análise correta dos resultados, mostrando, assim, como
Pretende-se, também mostrar que uma rede neural não pode ser encarada
simplesmente como urna caixa preta, que existem metodologias que lhe dão sustentabilidade,
Neste trabalho serão apresentados enfoques da técnica de Redes Neurais para análise
padrões.
O capítulo 2 apresenta um referencial histórico do que tem sido referido ao longo dos
últimos anos a respeito da técnica. Os fatos ocorridos são mencionados em ordem cronológica
mostrando a evolução da técnica, dando especial ênfase ao aspecto de entender redes neurais
biológico como ponto de partida para a apresentação de uma Rede Neural Artificial.
seguida é apresentada as diferentes formas de subdivisão e algumas das redes mais conhecidas
e utilizadas.
aplicações e relações com algumas conhecidas técnicas de Inferência Estatística com Redes
Neurais. Entendendo-se Redes Neurais Artificias como ferramenta estatística compara-se com
resultados que podem ser obtidos sugere-se que baseiem sua leitura no capitulo 7. Aos demais
2. REFERENCIAL HI STÓRICO
PITTS (1943) que sugeriram a construção de uma máquina baseada ou inspirada no cérebro
KOYACS (1996) a essência da proposta de McCULLOCH & PITTS (1943) foi a seguinte: 'A
inteligência é equivalente a cálculo preposicional que por sua vez pode ser implementado por
funções booleanas. Por outro lado, o sistema nervoso é composto de redes de neurônios, que
presente em qualquer parte dos animais pelo fato de que esta é uma propriedade de neurônios
individuais. Suas idéias não eram completamente novas, ele foi o primeiro a propor uma lei de
aprendizagem especifica para as sinapses dos neurônios. Este primeiro e corajoso passo serviu
1951 . O Snark operava com sucesso a partir de um ponto de partida técnico, ajustando seus
sucederam.
estrutura do cérebro, este sistema apresentará inteligência, ou seja, será capaz de aprender,
também é chamado, algoritmo de aprendizado LMS (Least Mean Square). Widrow também
modelos foram muito criticados por MTNSKY & PAPERT (1969) que apontavam a
impossibi lidade de uma rede de um único nível como o Perceptron e o Adaline ser capaz de
pesquisadores, que passaram a publicar muitos artigos e livros que faziam uma previsão
pouco confiável para a época, sobre máquinas que seriam tão poderosas quanto o cérebro
humano, que surgiriam em um curto espaço de tempo. fsto reduziu a credibilidade dos estudos
permitia ajustar os pesos em uma rede com mais de um nível, o problema veio a se resolver.
O algoritmo Retropropagação era capaz de propagar o erro através dos nívei s numa fração
modelo de Redes Neurais Artificiais, mais utilizado atualmente, o das redes Percepetron
Redes Neurais têm sido utilizadas em uma grande quantidade de aplicações onde os
métodos estatísticos são tradicionalmente empregados. Elas têm sido utilizadas em problemas
1990, 1991 ; FUJlT A et al, 1992). Redes Neurais também são usadas em diversas áreas como
estruturas secu ndárias protéicas (Ql AN & SEJNOWSKl, 1988). Pode-se resolver estes tipos
outros tipos de métodos classificatórios (DUDA & HART, 1973), regressão múltipla (NETER
et ai, 1990), e modelos de séries temporais como ARIMA e outros métodos de previsão
análise de dados.
Vários autores têm feito estudos comparativos entre métodos estatísticos e redes
introdutórios em redes neurais, por exemplo, LIPPMANN ( 1987) dá uma excelente visão de
redes neurais para o processamento de sinais. Há também um grande número de bons livros
introdutórios em redes neurai s, como HERTZ et al ( 199 1) reproduz uma boa descrição
1-l-
aplicado, e FREEMAN (1994) usando exemplos para explicar redes neurais. Há também
jornais falando a respeito de redes neurais e métodos estatísticos (BUNTINE & WEIGEND,
1991 ; RIPLEY, 1994; SARLE, 1994; WERBOS, 1991). Um dos melhores para uma visão
neurônios estão conectados uns aos outros através de sinapses, e juntos formam uma grande
concentrações de sódio e potássio, e o resultado disto pode ser estendido por todo o corpo
armazenamento de informação.
que produz uma substância neurotransmissora, fluindo do corpo celular para o axônio, que por
sua vez pode ou não estar conectado a um dendrito de outra célula. O neurônio que transmite
O sistema nervoso humano pode ser visto como um sistema de três estágios, como
Rede
Estimulo ~ Receptores Atuadores ~ Resposta
Neural
O centro do sistema é o cérebro, representado pela rede neural (natural), que recebe
são mostrados na figura. Aquelas que apontam da esquerda para direita indicam a transmi ssão
para frente do sinal portador de informação, através do sistema. As setas apontando da direita
informação para a rede neural natural (cérebro). Os atuadores convertem impul sos elétricos
gerados pela rede neural natural em respostas discerníveis como saída do sistema.
notável detalhe, pelo neurologista espanhol Ramón y Cajal no século 19 (KOY ÁCS, 1996).
• Os dentritos, que tem por função, receber os estímulos transmitidos pelos outros
neurônios;
de outros neurônios;
E finalm ente o axônio, que é constituído de uma fibra tubular que pode alcançar até
gânglios nervosos, por sua vez, constituem o sistema nervoso periférico . O sistema nervoso
geram um impulso nervoso, o qual se transmite ao corpo celular, de onde se propaga até as
Constituíntes da célula:
se por sinapse como a ligação estabelecida entre as terminações axônicas de um neurônio com
Pode-se dizer que as sinapses são regiões eletronicamente ativas, compreendidas entre
impulso nervoso no axônio de saída enquanto que uma conexão inibitória age no sentido
longo do seu axônio. Ao chegar nas extremidades axônicas, o impulso determina a liberação
que gerem nele o impulso nervoso. As terminações axônicas de muitos neurônios localizam-
se nos músculos, onde também são liberados mediadores químicos que o estimulam,
sistema nervoso, composto de muitas entradas e uma saída. As entradas são formadas atmvés
das conexões sinápticas que conectam os dendritos aos axônios de outras células nervosas. Os
sinais que chegam por estes axônios são pulsos elétricos conhecidos como impulsos nervosos
ou potenciais de ação e constituem a informação que o neurônio processa para produzir como
neurônios artificiais que simulam os reais. Estes neurônios artificiais são utilizados na
que têm seus princípios fundamentais assentados nos trabalhos de modelagem biológica de
inteligência artificial, construindo um sistema que tenha circuitos que simulem o cérebro
São mais que isso, são técnicas computacionais que apresentam um modelo inspirado na
experiência . Uma grande rede neural artificial pode ter centenas ou milhares de unidades de
neurônios.
adquirir propriedades tidas como especiais, tais como "aprender,. Porém, apesar de terem
sido criadas partindo de fundamentos biológicos, não o são mais. Atualmente constituem-se
biologia.
20
passadas para novos problemas ou situações, uma rede neural artificial utiliza exemplos
resolvidos previamente para construir um sistema de nós que toma novas decisões, faz
classificações e prognósticos.
As redes neurais artificiais são constituídas por camadas de nós, que conectados,
formam a rede (Figura 4.1). Estes nódulos são unidades de processamento unitárias que agem
em paralelo. São análogas aos neurônios do cérebro humano, aceitam uma determinada
O nó aceita uma quantidade de informação de entrada X1, X2, XJ, ... , pondera,
respectivamente, de acordo com os pesos, w1 , w2, w3. A fimção somatório, 2:, permite
combinar todas as entradas em um único valor que representa o nível de ativação global das
entradas, assim o potencial interno do nó é dado pela ponderação das entradas Xi com os pesos
informação de saída e a envia para outra unidade (nó) que a utiliza como informação de
entrada.
por McCUULLOCH & PlTTS (1943), pode ser resumida da seguinte maneira: sinais são
apresentados à entrada; cada sinal é multiplicado por um peso que indica a sua influência na
saída da unidade; é feita a soma ponderada dos sinais que produz um nível de atividade; e se
este nível de atividade exceder um certo limite (threshold) a unidade produz uma determinada
resposta de saída. O threshold é um nível determinado que as entradas ponderadas dos nós
serve para aumentar os graus de liberdade, permitindo uma melhor adaptação, por parte da
onde x 1, x 2, ... , Xp são os sinais de entrada; lV I, w 2, ... , w p são os pesos sinápticos do neurônio ; "
é a saída do combinador linear (função somatório) devido aos sinai s de entrada; b é o vies;
A função de ativação f(a) converte a soma de ativação das entradas de saída. Esta
função que é um fator básico de diferenciação entre os nós, decide baseada no potencial
interno do nó, qual o va lor que deve ser enviado aos demais nós. Geralmente as funções de
ativação são funções não-lineares. As duas funções de ativação mais comuns são a função
1
f(a) = _ e f (a) = tanh(a)
1+ e a
neurats.
As redes neurais artificiais são constituídas por uma camada de entrada, outra de saída,
e camadas intermediárias, conhecidas como camadas de nós ocultos. A Figura 4.2 mostra a
representação simplificada de uma rede neural com duas camadas de nós ocultos.
Os nós de entrada são responsáveis pela obtenção da informação inicial que será
transmitida pela rede. Um nódulo de entrada representa uma única variável ou padrão.
Quando as variáveis são quantitativas requerem somente um nó para cada uma delas,
entretanto as variáveis qualitativas devem ser codificadas adequadamente, de tal forma que
cada categoria seja representada por uma variável binária. Assim, uma variável codificada em
23
duas categorias seria representada . por dois nós de entrada; uma categoria teria os valores
FIGURA 4.2: Representação gráfica de uma rede com duas camadas intermediárias.
Os nódulos de saída recebem entradas e produzem uma saída, mas não passam essa
informação adiante para outro nódulo . Esta saída é o resultado final da rede. Se a rede é
direcionada por um modelo preditivo, então esta saída é um valor predito. Se a rede é
c lassificação.
mais complexos do que simplesmente relações um a um entre entrada e saída. Os nós ocultos,
com suas funções de ativação, são responsáveis pela representação de relacionamento não-
lineares.
A ação de cada nó em uma rede neural artificial é independente da ação de outro, mas
A generalização de uma rede se refere ao fato dela produzir saídas adequadas para
• Não linearidade: Uma rede composta por neurônios não-lineares é dita não-linear também.
treinamento, mas em ordem diferente. Assim, a rede aprende com os exemplos ao construir
estimação independente de modelo, ou seja~ não são feitas suposições prévias sobre o modelo
• Adaptabilidade: As redes neurais artificiais têm uma capacidade inata de adaptar seus pesos
ambiente específico pode ser facilmente retreinada para lidar com pequenas modificações
assegurando-se de que o sistema se mantenha estável, mais robusto tenderá a ser o seu
• Resposta a Evidências: No contexto de classificação de padrões, uma rede neural pode ser
projetada para fornecer informação não somente sobre qual padrão particular selecionar, mas
também sobre a confiança ou crença na decisão tomada. Esta última informação pode ser
utilizada para rejeitar padrões ambíguos e com isso melhorar o desempenho de classificação
da rede.
25
ativação de uma rede neural. Cada neurônio da rede é potencialmente afetado pela atividade
que seu desempenho se degrada suavemente sob condições de operações adversas. Para se
assegurar que uma rede seja de fato tolerante a falhas pode ser necessário adotar-se
• Implementação em VLS l: A natureza maciçamente paralela de uma rede neural a faz ser
potencialmente rápida na computação de certas tarefas. Esta mesma característica tona uma
(MEAD, 1989).
• Analogia Neurobiológica: O projeto de uma rede neural artificial é motivado pela analogia
com o cérebro, que é uma prova viva de que o processamento paralelo tolerante a falhas é não
realizar funções diversas. Na maior parte dos casos, modelos neurais são compostos de muitos
elementos não lineares que operam em paralelo e que são classificados de acordo com
Quando um processo é criado visando utilizar aspectos de redes neurais começam com
A maneira como os neurônios de uma rede estão estruturados está fortemente ligada
com o algoritmo de aprendizagem usado para treinar a rede. Pode-se, portanto, falar de
I. Redes Alimentadas Adiante com Camada Única: Temos uma camada de entrada de nós de
fonte que se projeta sobre uma camada de sa ída, mas não vice-versa, ou seja, esta rede é
estritamente do tipo alimentada adiante ou acíclica. Ela é ilustrada na Figura 4.1.1 para o caso
de quatro nós tanto na camada de entrada como na de saída. Esta rede é chamada de rede de
camada única, sendo a designação " camada única" referente à camada de nós de saída. Não
conta-se a camada de entrada de nós de fonte, porque lá não é realizada qualquer computação.
27
Camada de Saí da
Camada de Entada
FIGURA 4.1.1: Rede alimentada adiante ou acíclica com uma única camada de nós.
uma ou mais camadas ocultas (intermediárias), cujos nós são chamados de nós ocultos ou
unidades ocultas. A função destes nós ocultos é de intervir entre a entrada externa e a saída da
rede de maneira pertinente. Com a presença de uma ou mais camadas ocultas, a rede torna-se
capaz de extrair estatísticas de ordem elevada. A habilidade dos nós ocultos extraírem
Figura 4.1.2 ilustra a arquitetura de uma rede neural artificial de múltiplas camadas
De acordo com RUMELHART & WElGEND (1990), a rede neural deve possuir no
mínimo duas camadas, a de entrada de dados e a da saída dos resultados. Como a rede
apresenta desempenho muito limitado com somente duas camadas, a adição de uma camada
intermediária faz-se necessária. Neste tipo de configuração, cada neurônio está ligado com
todos os outros das camadas vizinhas, mas neurônios da mesma camada não se comunicam,
HECHT-NIELSEN (1990) afirma que com apenas uma camada oculta já é possível
calcular uma função arbitrária qualquer a partir de dados fornecidos, defendendo, assim, que a
camada oculta deve ter por volta de 2i+ 1 neurônios, onde i é o número de variáveis de
entrada.
28
Já UPPMANN (1989) afirma que a segunda camada escondida deve ter o dobro de
neurônios da camada de saída. No caso de apenas uma camada escondida ela deverá ter s(i+ l)
com que ela delimita regiões de decisão . Estas regiões de decisão são intervalos fixos onde a
camada de Saída
camada Escondi da
camada de Entrada
FIGUR A 4.1.2: Rede alimentada adiante ou acíclica com uma camada escondida e uma
camada de saída.
3. Redes Recorrentes: Distingui-se por ter pelo menos um laço de realimentação. Uma rede
recorrente pode consistir, por exemplo, de uma camada de nós com cada nó alimentando seu
sinal de saída de volta para as entradas de todos os outros nós, como é representado na
Figura 4.1 .3. As conexões de realimentação mostradas se originam dos nós ocultos bem como
ramos particulares compostos de elementos de atraso unitário (representados por z- 1), o que
29
J Saídas
Entndao [
a mbiente e com isso melhorar seu desempenho. lsso é feito através de um processo iterativo
de ajustes aplicado a seus pesos, o treinamento. O aprendizado ocorre quando a rede neural
rede de uma forma ordenada para alcançar um objetivo de projeto desejado. Existem muitos
estes algoritmos diferem entre si principalmente pelo modo como os pesos são modificados.
os parâmetros de uma rede neural são adaptados através de um processo de estimulação pelo
ambiente no qual a rede está inserida. O tipo de aprendizagem é determinado pela maneira
2. A rede sofre modificações nos seus parâmetros livres como resultado desta estimulação.
aprendizado. A correção dos pesos num ciclo pode ser executado de dois modos:
1. Modo Padrão: A correção dos pesos acontece a cada apresentação à rede de um exemplo do
2. Modo Batch: Apenas uma correção é feita por ciclo. Todos os exemplos do conjunto de
treinamento são apresentados à rede, seu erro médio é calculado e a partir deste erro fazem-se
Outro fator importante é a maneira pela qual uma rede neural se relaciona com o
quais classificam padrões ou executam predições de acordo com outros padrões de "entradas"
e "saídas" que eles aprenderam. Eles dão a resposta mais razoável baseada em uma variedade
de padrões de aprendizado. Em uma rede supervisionada, você mostra à rede como fazer
exemplos de coisas semelhantes para que a rede responda de maneira semelhante. Podem
31
sem ser mostrado antes como categorizar. A rede faz isto agrupando os padrões. Ela agrupa-
usuário diz à rede o número máximo de categorias e ela geralmente agrupa os dados em um
certo número de categorias. Entretanto, ocasionalmente a rede pode não ser capaz de separar
A rede neural se baseia nos dados para extrair um modelo geral. Portanto, a fase de
aprendizado deve ser rigorosa e verdadeira, a fim de se evitar modelos espúrios. Todo o
conhecimento de u.ma rede neural está armazenado nas sinapses, ou seja, nos pesos atribuídos
às conexões entre os neurônios. De 50 a 90% do total de dados devem ser separados para o
treinamento da rede neural, dados estes escolhidos aleatoriamente, a fim de que a rede
aprenda as regras e não adicione nenhuma tendência no seu resultado final. O restante dos
dados só é apresentado à rede neural na fase de testes a fim de que ela possa "deduzir"
regras permitem ir muito além do alcançável por fi ltros adaptativos lineares, tanto em termos
de um especialista capaz de fornecer COITeções exatas para as saídas da rede quando um erro
destes modelos é possível em organismos biológicos, que não possuem as conexões nervosas
recíprocas exatas necessárias para a retropropagaçã.o das correções de erro (em uma rede de
comunicação.
modelo de aprendizagem seletiva darwiniano (EDELMAN, 1987 ~ REEKE et ai. , 1990). Este
modelo é baseado na teoria de seleção de grupo mental, e pressupõe que o sistema nervoso
opera por uma forma de seleção similar a seleção natural evolutiva, mas que isto acontece
dentro do cérebro durante o período de vida de cada animal. De acordo com esta teoria, as
unidades operacionais básicas não são os neurônios isolados, mas sim grupos localizados de
alteração dos pesos si nápticos dos neurônios. A competição local e a cooperação entre células
são claramente necessárias para produzir ordenação local na rede. Uma coleção de grupos
assim que haja uma resposta a padrões de entrada não-esperados, que podem ser importantes.
normalmente utilizados no projeto de redes neurais artificiais, porque ela assume que, por
..,..,
.).)
projeto, haja muitas subredes e que somente aqueles com resposta desejada são selecionadas
Nenhum tipo de rede é garantida de sempre dar uma resposta absolutamente "correta",
que resultaram do modelo. Alguns problemas são bem apropriados para a capacidade de
reconhecimento de padrões de uma rede neural e outros são melhor resolvidos com métodos
estatísticos tradicionais.
"alvo" f (x) e a função "real" F(x, w), realizada pela rede neural, onde o vetor x representa o
realizações do escalar aleatório D que representa uma variável dependente representadas por
{d, };" 1 • Através do modelo proposto por WHITE (I 989), a relação funcional entre X e O pode
D = .f(X) + r-
onde .f{.) é uma função determinística de seu argumento vetorial, e e é um erro de predição
(a) (b)
FIGURA 4.2.1 . 1: (a) Modelo estatístico de regressão. (b) Modelo (físico) de rede neural.
estocástico. O seu propósito é utilizar o vetor X para explicar ou prever a variável dependente
pesos sinápticos w . Na verdade, a rede neural fornece uma aproximação para o modelo de
A caracterização estatística das redes neurais artificiais pode ser feita também através
2. Especialista: O especialista fornece uma resposta desejada d para cada vetor de entrada x
Fx(xld) que é também fixa mas desconhecida. A resposta desejada de o vetor de entrada x
y = F(x, w), onde y é a resposta real produzida pela máquina de aprend izagem em resposta à
que aproxima a resposta desejada d de uma forma ótima, sendo "ótimo" definido em um
correto (PAC) que é creditado a VALlANT (1984). Como o nome implica, o modelo PAC é
treinamento seja suficientemente grande, após a rede neural ter sido treinada com o conjunto
de dados, é " provável" que o mapeamento de entrada-saída calculado pela rede seja
práticas é a questão da complexidade da amostra. O enfoque nesta questão está sobre quantos
exemplos aleatórios devem ser apresentados ao algoritmo de aprendizagem para que ele
retropropagação proposto por HERTZ et ai ( 1991) é necessário o uso de uma função objetivo
ou uma medida de performance. O objetivo é utilizar a função objetivo para otimizar os pesos.
A medida de performance mais usada em redes neurais é a soma de quadrados dos resíduos
dada por:
modelo. Esta é, então, a soma dos quadrados das diferenças entre a resposta predita e a
que é a usual fu nção para min imização por mínimos quadrados em análise de regressão .
camada de entrada. Os nós de entrada não executam nenhuma operação com esta informação,
mas simplesmente passam esta informação para os nós da camada oculta. Como já foi
mostrado anteriormente, a estrutura do cálculo feito pelo j-ésimo nó da camada oculta é dado
por:
.\ '
u PJ = L w ji X pt
t= l
onde N é o número total de nós de entrada, llj 1 é o peso do nó de entrada i para o nó oculto), e
Xpi é o valor do i-ésimo nó de entrada para a observação p . O j-ésimo nó escondido aplica uma
função de ativação para suas entradas e saídas (neste caso a função sigmóide):
37
v PJ = /·cli · ) = -I +e-1 -
• P.l - 11
t!l
f pk = :Lwkj v PJ
; =I
O valor inicial não foi considerado na equação. Isso porque o valor inicial pode ser
calculado adicionando um nó extra e fixando seu valor em I. Isto é similar a adição de uma
intercepto.
Vale lembrar que o objetivo é encontrar o valor de wp, os pesos das conexões dos nós
de entrada aos nós ocultos, e U';k, os pesos das conexões dos nós ocultos aos nós de saída que
minimize a função objetivo que é a soma de quadrados dos resíduos. Assim a derivada parcial
da função objetivo em relação ao peso U/;k representa a taxa de mudança da função objetivo
método para iterativamente encontrar valores para os pesos. Avalia-se a derivada parcial da
função objetivo em relação aos pesos e então move-se os pesos em direção descendente da
inclinação, continuando até que a função erro não mais decresça. Matematicamente, isto é
representado como
38
onde o termo 17 é conhecido como a taxa de aprendizagem. A prática comum em redes neurais
Primei ramente, deriva-se uma expressão para calcular o ajustamento dos pesos dos nós
ocultos para os nós de saída W11. Fazendo as devidas substituições na função objetivo, obtém-
se o seguinte resultado
()F,
mas àW =- ( y pk -
A
y pk
)
~7
(p"',
e --'.Y pk f '( f ) = Y "k pela função sigmó id e e
l - Y"k
A ( A )
--;;;;:--- = . pk
<~, pk
Substituindo estes resultados na expressão de LlWki , tem-se que a mudança nos nós
Com isso chega-se a fórmu la para adaptação dos pesos da rede (dos nós da camada
Utiliza-se o peso atual da rede W~ adicionado por um peso ajustado LlW~, para obter o
peso estimado w~·>~ do passo seguinte. Para adapta r os pesos wp, utiliza-se o mesmo
procedimento com as devidas modificações. O processo de adaptação dos pesos é feito até
que se atinj a o mínimo para a função objetivo. (W ARNER & M ISRA, 1996)
Dado as equações acima utiliza-se, então, os passos descritos a seguir que são
1. Inicialmente atribua os pesos aleatoriamente. Estes pesos inicias de cada unidade podem
2. Escolha um exemplo (observação) p e propague-o para frente. Isto produz os valores de VpJ
e y
1
,k, as saídas para as camadas escondida e de saída.
requeiram máquinas para realizar tarefas cognitivas, para as quais os humanos são altamente
melhores. Um sistema de IA deve ser capaz de: (1) armazenar conhecimento, (2) aplicar o
conhecimento armazenado para resolver problemas e (3) adquirir novo conhecimento através
Representação
Raciocínio
do problema.
um sistema ser qualificado como um sistema de raciocínio ele deve ser capaz de expressar e
resolver uma vasta gama de problemas, ser capaz de tornar conhecidas para ele tanto a
mecanismo de controle que determine quais operações devem ser aplicadas para um problema
particular, quando uma solução para este problema foi obtida, ou quando deve ser encerrado o
máquina. O ambiente fornece alguma informação para um elemento de aprend izagem que a
i J
FlGURA 4.3.2: Modelo simples de aprendizagem de máquina
Uma comparação entre l A e Redes Neurais Artificiais pode ser feita sobre os aspectos
representações de dados em uma forma de cima para baixo (top-down). Por outro lado, as
redes neurais podem ser descritas como processadores distribuídos paralelamente com uma
habilidade natural de aprender e que normalmente operam de uma forma de baixo para cima
oferecidas pelas redes neurais com a representação, inferência e universalidade, que são
Neurais Artificiais, que tem como base fundamental o processamento distribuído, adaptativo e
não linear. As redes neurais executam processos de forma bem diferente dos computadores
seqüencialmente todas as partes de um problema. As redes neurais são constitu ídas por um
42
Computadores Neurocomputadores
- Executa programas -Aprende
- Executa operações lógicas -Executa operações não lógicas,
transformações, comparações
- Depende do modelo ou do - Descobre as relações ou regras dos dados e
programador exemplos
-Testa uma hipótese por vez -Testa todas as possibilidades em paralelo
Ao contrário das redes neurais artificiais, as redes neurais naturais não transmitem
sinais negativos, sua ativação é medida pela freqüência com que emite pulsos, freqüência esta
de pulsos contínuos e positivos. As redes naturais não são uniformes como as redes artificiais,
e apresentam uniformidade apenas em alguns pontos do organismo. Seus pulsos não são
síncronos ou assíncronos, devido ao fato de não serem contínuos, o que a difere de redes
artificiais.
-B
Velocidade de Processamento:
dezenas de manosegundos para executar uma instrução, enquanto que os neurônios levam
pelo menos 4 milisegundos para completar um ciclo de disparo. Sendo assim, um computador
5
pode ter componentes que são I 0 vezes mais rápidos que um neurônio.
Modo de Processamento:
computador em certas tarefas tais como visão é que, ao invés de executar um programa muito
de processadores relativamente simples e de baixa resolução (neurô nios) trabalham com alta
interconectividade (cada neurônio pode estar conectado a até cerca de 104 outros neurônios).
Armazenamento de Conhecimento:
uma unidade de memória contém um item inteiro de informação. Por outro lado, entende-se
que no cérebro a informação está distribuída nas sinapses, de tal forma que nenhuma sinapse
contém um item inteiro e cada sinapse pode contribuir para a representação de vários itens de
computador utiliza memória endereçada por endereço, enquanto o cérebro utiliza memória
-l4
endereçada por conteúdo, ou seja, um memória é lembrada usando-se partes de seu conteúdo
Controle do Processamento:
componentes, enquanto que no cérebro não existe uma área responsável pelo controle e
A semelhança da rede natural com a rede natural é muito g rande, pois ambas possuem
disparos de saídas, podendo receber várias entradas, e direcionando em uma única saída.
McCulloch, o Modelo de Rede Neural Perceptron é uma rede genuína de múltiplos neurônios
do tipo descriminadores lineares. Em sua origem era uma simulação computacional para a
retina, que demonstrou como o sistema nervoso visual reconhece padrões. Um Perceptron é
uma rede com uma topologia representada da Figura 4.5. 1. 1, com os neurônios dispostos em
várias camadas. Tipicamente, a rede consiste de um conjunto de nós que constituem a camada
de entrada, uma ou mais camadas ocultas (escondidas) e uma camada de saída. O sinal de
entrada se propaga para frente através da rede, camada por camada. Estas redes são
r
Camada de
entrada
Camada de
X} - - - - . 4 . Saída
y
X'3 ----.!. Saída
""- - - - 1 0 (
Entradas
~Camada.
Escondida
FIGURA 4.5. 1. I: Arquitetura de um perceptron com uma camada escondida.
dois passos através das diferentes camadas da rede: um passo para frente, a propagação, e um
passo para trás, a retropropagação. O funcionamento deste algoritmo pode ser visualizado na
Figura 4.5.1.2. No passo para frente, um padrão de atividade (vetor de entrada) é aplicado aos
saída obtida
padrão de entrada
FTGURA 4.5.1.2: Esquema do algoritmo de aprendizagem de retropropagação.
Então, um conjunto de saídas é produzido como a resposta real da rede. Dur-ante o
passo de propagação, os pesos sinápticos da rede são todos fixos. Durante a retropropagação,
por outro lado, os pesos sinápticos são todos ajustados de acordo com uma regra de correção
sinal de erro que é propagado para trás pela rede, contra a direção das conexões sinápticas. Os
pesos sinápticos são ajustados de modo que a resposta real da rede se torne mais próxima da
Em algumas redes muito complexas pode-se obter supertlcies de erro com a existência
de múltiplos pontos ótimos, pontos de sela e regiões planas. A Figura 4.5.1 .3 ilustra um
111111·1 1110!:;
ioc:~us ,
....· I \
i \
I '
I \
i
/ '\
\
-f '
lllll l UIH.'
[ __ ~lobul
·- - - - -···-··- · -- - -··
'' .
IH Hllln ( )
-r
m ú:dmü
Soluções
FIGURA 4.5. 1.3: Representação dos resultados de um processo de otimização com várias
soluções locais.
47
Uma das maiores contribuições para área de redes neurais artificias foi feita no inicio
dos anos sessenta por John Hopfield. A contribuição de Hopfield não foi simplesmente à
sugestão de um modelo adequado, mas a sua análise e estudo extensivo, o que fez seu nome
ser associado com a rede. Ele desenvolveu o uso de uma função de energia, e relacionou as
conectado ao outro: é uma rede completamente conectada, isto é, há uma conexão das
entradas com as saídas e por este motivo, estas redes dificilmente chegam a um estado
instável, ou seja, chegará um momento em que a saída, após oscilar entre alguns valores
É baseada no conceito de energia da rede, onde esta é proporcional à troca de estados da rede.
Isto é, quanto maior for a oscilação entre um estado e outro na saída, maior será a energia.
A rede de Hopfield pode ser comparada a um modelo físico, onde a cada troca de
estado da rede a energia da mesma diminui, pot1anto, a fase de aprendizado chegará ao fim no
(Multilayer adaline), criado pelos mesmos autores, possui uma arquitetura onde dois ou mais
elementos processadores tipo "adaline" são utilizados como entrada para um outro elemento
tipo " madaline", cuja saída nada mais é do que a resposta de maior incidência entre os
Entradas Saída
Adaline~
Pode-se treinar a rede Madaline para reconhecer, por exemplo, um padrão transladado
ou até rotacio nado, treinando cada elemento interno do Madaline para reconhecer o padrão
em uma dada posição ou orientação e fazer o " ou" das saídas destes elementos.
algoritmo de aprendizado LM.S (Least Mean Square), também conhecido como Regra Delta.
Este algoritmo procura minimizar o erro quadrático médio entre a saída desejada e a saída real
da rede. O Adaline, assim como o Perceptron, cria também uma reta limite entre duas regiões
de decisão . A diferença está no algoritmo de aprendizado e nas estmturas que devem ser
utilizadas para implementá-lo. A arquitetura é de uma rede de uma única camada disposta
linearmente com cada neurônio possuindo uma retroalimentação do erro na sua própria saída.
A diferença básica entre os dois é que o adaline não usa uma função de transferência em seus
correção de erros sendo baseada na descida do gradiente da curva de erro. Estas regras
corrigindo estes pesos numa fração proporcional ao erro. Este erro é obtido pela diferença
entre o valor da resposta correta desejada, e o valor obtido na saída do neurônio. Logo o erro
cada entrada, ou seja, de acordo com a alteração dos pesos podemos subir ou descer a curva
assim permite que sigamos no sentido de descida da curva. A Figura 4.5.3 .2 mostra o método
podemos minimizar o erro e m direção à um mínimo local, mínimo este que pode não ser a
E no na said.a
Co~ra~ões de p eso•
As redes de ressonância adaptativa (ART) são uns dos mais complexos projetos de
redes neurais disponíveis atualmente, contendo vários tipos de nós arranjados em diversos sub
- sistemas. Uma das razões chaves para considerar as redes ART importantes é que são elas
que fornecem uma visão rápida do que é requerido para fazer sistemas verdadeiramente
autônomos. Essa rede é baseada na teoria da ressonância adaptativa dese nvol vida por
Grossberg e Gail Carpenter. Essa rede pode processar somente dados binários de entrada.
podendo adaptar-se de acordo com a necessidade. Por outro lado, este modelo é muito
sensível a padrões distorcidos, não podendo fazer uma boa diferenciação entre padrões
reconhecimento de caracteres.
classificador projetado por Carpenter e Grossberg que possui entrada binária, conexão retro-
• A idéia de armazenamento dos padrões tem semelhanças com o modelo de Kohonen, uma
vez que há a distinção de zonas, a comparação entre as distâncias vetoriais das somas
• aprendizado do modelo ART é bem distinto dos modelos vistos anteriormente, apenas
em sua forma de distribuição dos pesos na rede através da seleção de um neurônio vencedor,
com a diferença de que no ART apenas o vencedor é atualizado, não havendo a atualização da
nota-se que o padrão a aprender confunde-se com o a reconhecer, uma vez que há iterações
para ambos.
(-1 e 1), como em outros modelos. Há somente um parâmetro a definir, o coeficiente de limiar
, também chamado de limiar de vigilância . Como nos outros modelos, este coeficiente
determina se um padrão está ou não treinado ou, neste caso, adaptado aos padrões atuais.
modificar o estado interno da rede. A rede é formada por duas camadas: a camada de entrada
Kohonen estão ligados a todos os neurônios da camada da rede Kohonen possui um conjunto
iniciam contendo valores aleatoriamente baixos, e um sinal de entrada x (com valores que
representam uma informação qualquer) é provido para a rede sem que se especifique a saída
52
desejada. Conforme o sinal de entrada, um neurônio de saída y deverá responder melhor para
a entrada respectiva, e este será o vencedor, ou seja, sempre que essa entrada for apresentada,
este neurônio será disparado. O neurônio vencedor y, e seus vizinhos, terão seus pesos
sinápticos ajustados e, dessa forma, responderão melhor do que antes à entrada apresentada x.
classificação de um padrão junto com outros que têm características semelhantes, formando
classes. E stas classes são organizadas num mapa, onde se pode observar a distribuição dos
padrões. Desta maneira, no instante em que um padrão é inserido na rede, esta o coloca na
plausível. No córtex auditivo, por exemplo, existem conjuntos de células que só reagem a
onde um padrão ao ser reconhecido faz com que um ou somente alguns neurônios de saída
sejam ativados (aqueles que mai s se assemelham ao padrão inserido) enquanto outros não.
• Este tipo de rede é usado quando se deseja~ por exemplo, reconhecer diversos padrões que
possuam alguma relação entre si, como reconhecimento de voz, que será explicado
conjunto de testes. Esta tarefa requer uma análise cuidadosa sobre o problema para minimizar
ambigüidades e erros nos dados. Além disso, os dados coletados devem ser significativos e
cobrir amplamente o domínio do problema~ não devem cobrir apenas as operações normais ou
treinamento, que serão utilizados para o treinamento da rede e dados de teste, que serão
utilizados para verificar sua performance sob condições reais de utilização. Além dessa
conjunto de validação, utilizado para verificar a eficiência da rede quanto a sua capacidade de
treinamento.
aleatória para prevenção de tendências associadas à ordem de apresentação dos dados. Além
destes dados para que não afetem seriamente o treinamento da rede e os resultados obtidos.
O segundo passo é a definição da configuração da rede, que pode ser dividido em três
etapas:
1 Seleção do paradigma neural apropriado à aplicação.
Existem metodologias para a condução destas tarefas. Normalmente estas escolhas são
4.6.3. TREINAMENTO
treinamento escolhido, serão ajustados os pesos das conexões. É importante considerar, nesta
fase, alguns aspectos tais como a inicialização da rede, o modo de treinamento e o tempo de
treinamento.
Uma boa escolha dos valores iniciais dos pesos da rede pode diminuir o tempo
necessário para o treinamento. Normalmente, os valores iniciais dos pesos da rede são
locais, devido à pesquisa de natureza estocástica que realiza. Por outro lado, no modo batch se
tem uma melhor estimativa do vetor gradiente, o que torna o treinamento mais estável. A
eficiência relativa dos dois modos de treinamento depende do problema que está sendo
tratado.
porém sempre será necessário utilizar algum critério de parada. O critério de parada do
55
de ciclos (iterações). Mas, devem ser considerados a taxa de erro médio por ciclo, e a
generali zação.
O treinamento deve ser interrompido quando a rede apresentar uma boa capacidade de
generalização e quando a taxa de erro for suficientemente pequena, ou seja, menor que um
erro admissível. Assim, deve-se encontrar um ponto ótimo de parada com erro mínimo e
4.6.4. TESTE
O quarto passo é o teste da rede. Durante esta fase o conjunto de teste é utilizado para
determinar a performance da rede com dados que não foram previamente utilizados. A
performance da rede, medida nesta fase, é uma boa indicação de sua performance real.
Devem ser considerados ainda outros testes como análise do comportamento da rede
utilizando entradas especiais e análise dos pesos atuais da rede, pois se existirem valores
4.6.5. INTEGRAÇÃO
Finalmente, com a rede treinada e avaliada, ela pode ser integrada em um sistema do
ambiente operacional da aplicação. Para maior eficiência da solução, este sistema deverá
56
retreinamento. Outras melhorias poderão ainda ser sugeridas quando os usuários forem se
tornando mais familiares com o sistema, estas sugestões poderão ser muito úteis em novas
S. MODELAGEM ESTATÍSTICA
A metodologia de redes neurais artificiais podem ajudar muito nas análises de dados
um comparativo dos termos usados em Redes Neurais Artificiai s com os termos equivalentes
usados em Estatística.
predeterminadas.
O interesse é obter uma regra que possa ser usada para classificar de forma otimizada
uma nova observação à uma classe já existente. Esta é, então, a semel hança da Análise
banco de dados para criar uma regra de classificação para valores futuros.
A Anál ise Discriminante é adequada nas situações onde se pretende separar duas ou
mais classes de objetos (pessoas, clientes, empresas, produtos, entre outros) ou alocar um
novo objeto a uma das classes existentes ou, ainda, se pretende, conjuntamente, separar as
classes e alocar um novo objeto. As classes poderiam ser, por exemplo, risco de crédito a
(variáveis explicativas) teria componentes tais como renda, idade, número de cartões de
crédito, tamanho da família, saldo bancário, tempo como cliente. Uma vez determinada a
reg ra de classificação, dado o conhecim ento de seu vetor de variáveis medidas, um futuro
cliente poderia ser classificado como mau ou bom pagador. (DlNIZ & LOUZADA-NETO,
2000)
Tabela S. J . I.
TAB ELA 5.1. 1: T abela de classificação das espécies por Análise Discriminante.
~Setosa
o
Setosa
50
Versicolor
o
Virginica
o
TotaJ
50
100% 0% O% 33 ,33%
Versicolor
o 47 "'
.) 50
0% 94% 6% 33 ,33%
Virginica
o 2 48 50
0% 4% 96% 33,33%
50 49 SI 150
Total
33,33% 33,67% 34% 100%
totais) .
uma rede perceptron sem camadas ocultas e dividiu-se as observações em uma amostra de
treinamento contendo 80% dos dados e uma amostra de teste com os 20% restantes dos dados.
~ o
Setosa
40
Versicolor
o
Yirginica
o
Total
40
Setosa
100% 0% O% 33,33%
Versicolor
o 39 I 40
O% 97,5% 2,5% 33,33%
Virginica
o I 39 40
0% 2,5% 97,5% 33,33%
40 40 40 120
Total
33,33% 33,33% 33,33% 100%
~ o
Setosa
lO
Yersicolor
o
Virginica
o
Total
10
Setosa
100% O% 0% 33,33%
Versicolor
o 9 l lO
0% 90% 10% 33,33%
Virginica
o o lO 10
0% 0% 100% 33,33%
10 9 11 30
Total
33,33% 30% 36,67% 100%
Para obter o erro de classificação da rede juntou-se as duas amostras em uma única
TABELA 5.1.4: Tabela de classificação das espécies para a rede utilizando todos os dados.
~Setosa
o
Setosa
50
Versicolor
o
Virginica
o
Total
50
100% 0% 0% 33 33%
Versicolor
o 48 2 50
0% 96% 4% 33,33%
Virginica
o 1 49 50
0% 2% 98% 33,33%
50 49 51 150
Total
33,33% 32,67% 34% 100%
61
incorretamente/ 150 casos totais). Sendo assim, neste caso, a técnica de Redes Neurais
variáveis explicativas como a que segue, onde j], são os coeficientes para cada variável
Este problema é equivalente a uma rede neural com uma única camada. As variáveis
da rede. Os coeficientes j3;'s correspondem aos pesos das conexões. A função de ativação é a
uma função custo similar a função objetivo da soma dos quadrados dos resíduos. A diferença
entre as duas metodologias é que a análise de regressão tem uma forma de solução fechada
para encontrar o valor dos coeficientes, enquanto que as redes neurais artificiais utilizam um
nas observações (x1, y,), j = I, ... , n. Então, o problema no contexto de regressão linear é
equivalente a uma rede neural com uma camada escondida. A função de ativação é a
62
identidade. Os pesos são obtidos por um processo iterativo ao passo que uma expressão
Por analogia, qualquer modelo linear generalizado é equivalente a uma rede neural
com uma única camada. A fi.mção de ativação é escolhida para coincidir com o inverso da
função de ligação.
descrito em (CHURCH & CURRAM, 1996) que compara previsões de despesa pessoal
obtidas com rede neural e modelos de regressão (econométricos). Nenhum dos modelos foi
capaz de explicar a queda no crescimento das despesas no fim dos anos 80 e início dos anos
90.
Em um exercício final utilizou-se uma rede neural com entradas de todas as variáveis
de todos os modelos. Esta rede foi capaz de explicar a queda de crescimento, mas resultou em
uma rede com muitos parâmetros. Além de comparação das previsões, também foi realizada
uma análise de sensibilidade com respeito a cada variável. Para isto, testou-se a rede com o
valor médio dos dados e variou-se cada variável para verificar o grau em que cada variação
conhecimento. Este modelo estabelece uma relação entre a probabilidade de ocorrência dos
resultados de uma variável respostas dicotômica (em geral chamada de variável dependente),
P{Y(x) =
log[ .
1}]
=f30 + f3 1x 1+ ... + f3 Px P,
P{Y(x) = O}
onde P{Y(x)=1} representa a probabilidade de sucesso para a variável resposta, P{Y(x)=O}
representa a probabilidade de fracasso, f3o denota o intercepto da regressão e x'=(x,, x2, ... , xp)
é um vetor de variáveis explicativas com coeficientes /31, /32, ... , f3p. (HOSMER &
LEMESHOW, 1989)
sonografia em 458 mulheres para diagnóstico de câncer de mama. Obteve-se que 325 destas
mulheres tinham tumores benignos (y=O) e as outras 133 tinham tumores malignos (y=I).
A priori, fazendo-se uma análise de regressão logística verificou-se que três variáveis
explicativas foram significativas que foram: idade da paciente, número de artérias no tumor
Tabela 5.3.1.
TABELA 5.3. 1 - Comparação dos modelos Logístico e Rede Neural.
Regressão Logística
Variável Coeficientes Erro Padrão Valor de P Pesos- Rede
Neural
Intercepto -8, 178 0,924 Wo=-8, 108
ldade 0,070 0,017 0,0001 W1=0,069
log AT+ l 5,187 0,575 0,0001 W2=S , l62
log AC+ 1 -1,074 0,437 0,0014 W3=-1,081
logística são muito próximos aos obtidos pela rede neural utilizando um perceptron multi-
camada com algoritmo retropropagação com quatro nós de entrada (Xo=l , x 1= idade, x2=log
satisfatória. O modelo de redes neurais utilizado para resolver este tipo de problema que
(arquitetura) da rede que é resolvido fazendo-se uma análise estatística prévia da série
temporal.
Sendo assim, pode-se detalhar as três fases para a construção da arquitetura de uma
r') Fazer a análise dos componentes da série temporal, como a tendência e a sazonalidade.
Realizar também uma análise da componente aleatória, pois quanto maior ela for, mais dificil
2~) Definir o número de nós na camada de entrada para conseguir representar as informações
& WEIGEND (1990), onde a rede que melhor generaliza os dados é a menor rede apta a
realizar o treinamento dos dados. Esta busca é feita de forma empírica, identificando-se a
Grande do Sul. Através da análise estatística observou-se que se trata de uma série
fatores sazonais, sendo que estão sob a forma de uma seqüência binária que atribui um para o
mês em questão e zero para os demais. A arquitetura apresenta dois nós na camada
Artificiais (RNA) e pelo método dos modelos de componentes não-observáveis (UCM). UCM
bayesiana, no filtro de Kalman que é um algoritmo que possibilita o aprendizado através dos
erros de seus prognósticos (HAR VEY, 1989). Os resultados obtidos pelos dois procedimentos
140 _._Real
-e- RNA
130 - . - UCM
120
110
100
90
o 2 3 A 5 6 7
140 -+-Real
-a- RNA
130 --...- UCM
120
110
100
90+------.----~r-----~----~------r-----.-----~
o 2 3 4 5 6 7
precisão dos dois métodos. Enquanto os UCM apresentam uma melhor performance na
eficientes nas previsões de vários passos à frente. É importante ressaltar que a melhor
isso na Tabela 5.4.3 onde são apresentados o erro absoluto médio (EAM) e o erro quadrático
médio (EQM).
TABELA 5.4.3 - Comparação dos erros para cada método em função da etapa de previsão
6. APLICAÇÕES
O estudo de redes neurais é cada vez mais vasto tendo aplicações em várias áreas do
inadimplência é apresentado por ALMEIDA (1993). Neste caso as redes neurais aprenderam a
identificar o risco de que uma dada empresa venha a se tornar concordatária num futuro
próximo (2 anos). A seguir é detalhado como se deu o processo de aprendizado e uso da rede.
rede, isto é a etapa onde a rede adquire o conhecimento sobre o problema. A segunda etapa é
Inicialmente escolheu-se as variáveis que permitam avaliar uma empresa. Índices financeiros
Tabela 6. 1. l.
adimplentes e coleta-se os seis índices financeiros para cada uma das empresas selecionadas.
Os dados de índices financeiros foram então utilizados para fazer com que a rede aprenda a
distinguir os dois grupos de empresas. Veja na Tabela 6. 1.2 como estes dados estariam
Situação da
!Empresa Índices das Empresas
Empresa
Rl R2 R3 R4 RS R6
Empresa 1 Rll Rl2 Rl3 Rl4 RIS R16 Inadimplente
Empresa 2 R21 R22 R23 R24 R25 R26 Inadimplente
Empresa 3 R31 R32 R33 R34 R35 R36 Inadimplente
Empresa 4 R41 R42 R43 R44 R45 R46 Adimplente
!Empresa 4 R41 R42 R43 R44 R45 R46 Adimplente
!Empresa 5 R5l R52 R53 R 54 R55 R56 Inadimplente
[Empresa 6 R61 R62 R63 R64 R65 R66 Adimplente
Cada linha é formada por um par de dados ou exemplo de uma empresa. Estes dados
são apresentados à rede ainda sem conhecimento que irá aprender a distinguir as empresas
boas das más. Este aprendizado se passará automaticamente e o tempo necessário será função
Na segunda etapa, necessita-se não apenas que a rede aprenda a distinguir as empresas,
dentro do grupo de empresas que lhe apresentamos, mas que a rede seja capaz de generalizar
70
seu conhecimento para identificar riscos de inadimplência de outras empresas que não fi zeram
empresa qualquer a partir de suas características financeiras. Começa-se, então, a usar a rede
dois anos antes da inadimplência, a partir de uma amostra de controle (uma amostra di ferente
Outro aspecto interessante da rede neural, é que uma vez construída, ela não depende
mais da base de dados que lhe deu origem. O conhecimento adquirido reside nas conexões
6.2. FI NANÇAS
As redes neurais tem encontrado bastante interesse na área financeira. Uma vez que
estas prec1sam de dados para serem criadas, a área financeira tem podido fornecê-los em
abundância.
cotações na bolsa. No entanto os resultados que se tem obtido mostram que não será fácil
obter algo de interessante neste campo mesmo com redes neura is (HA WLEY et ai, 1990). E m
princípio em um mercado eficiente não é possível fazer previsões, o que está de acordo com
os resultados obtidos pelas redes neurais. Mas também é possível que não se tenham usado os
dados adequados. Tem-se por hábito acumular e tratar somente dados quantitativos. Mas o
interessante das redes neurais é também a sua capacidad e de tratar dados qualitativos. Pode-se
7l
usar por exemplo dados qualitativos como setor de atividade da empresa, ou então tipo de
produto vendido. Pode-se até mesmo usar variáveis menos acessíveis como características de
gestão dos responsáveis pela empresa, propensão da direção a assumir riscos, ou capacidade
nã.o é atualmente utilizado e os sistemas tem-se limitado a dados quantitativos. Isto ocorre
A área financeira oferece outras inúmeras oportunidades para o uso de redes neurais.
Por exemplo gestão de portfólios. Uma instituição financeira leva em conta inúmeros tipos de
papeis financeiros, ações, opções, etc. Um sistema baseado em redes neurais poderia ser
usado para levar em conta as características destes papeis, considerando-se riscos, valores
conjunturais, decisões do governo, flutuações do mercado, etc. As redes neurais são bastante
adaptadas a problemas do tipo não estruturado, onde as relações entre as variáveis ou mesmo
sua importância não é conhecida. As redes neurais permitem que se trabalhe com dados
incompletos se estes não estão todos disponiveis ou mesmo com a existência de certas
6.3. MARKETlNG
Uma área ainda pouco explorada é a área de marketing e vendas onde existem
produtos. Uma rede poderia ser treinada a partir da característica de produtos já lançados no
mercado onde se pôde medir o grau de sucesso e volume de vendas obtido. Uma vez criada a
rede esta poderia ser usada para simular o resultado com novos produtos a partir de suas
Uma outra aplicação poderia ser o uso de uma rede neural para sugerir produtos mais
adaptados ao perfil de cada cliente. A rede neural seria treinada a associar perfis de clientes a
produtos da empresa. Poder-se-ia assim esperar por um lado a obtenção de um maior g rau de
satisfação do cliente, por outro lado apresentar produtos mai s direcionados ao cliente em
questão. Este tipo de aplicação pode ser encarado como um sistema de apoio especialista,
empresa, pode sugerir itens mais adequados ao cli ente em pé de igualdade com um vendedor
mai s experimentado.
portfólio de produtos, este tipo de sistema permitiria à empresa fazer com que o vendedor
passasse a levar em conta os novos produtos de maneira mais rápida uma vez que atualizada a
interessante no caso daqueles produtos que são freqüentemente esquecidos pelo vendedo r.
Caso fossem do interesse do cliente eles seriam igualmente sugeridos. Não seria menos
Simulações, previsões ou sugestões, as redes neurais são uma tecnol ogia interessante
na área de marketing. Há que se levar em conta também o fato de que sua atuali zação, isto é, a
aquisição de novos conhecimentos é bastante facilitada e rápida uma vez que o aprendizado é
O coefi ciente de mortalidade infantil tem sido considerado como um dos ma1 s
expressivos indicadores do estado de saúde, não somente de crianças menores de um ano, mas
nutrição, educação e cuidados com a saúde de uma comunidade. Tais considerações apontam
para a potencialidade da modelagem da mortalidade infant il, o que permitiria, por exemplo, a
Regressão Linear Múltipla (RLM) e Redes Neurais Artificiais (RNA) foram desenvolvidos a
metodo logia stepwise ou foi orientado pela Análise Fatorial (AF). Neste último, a seleção de
preditores se deu tomando-se as variáveis de maior carga fàtorial em cada fator comum, e,
fator comum que também atendesse a outros requi sitos, tais como completude e confiança nos
dados. Para a modelagem não-linear, através de RNA, foram desenvolvidos doi s ensaios; o
Determinação (R! ) e o Erro Quadrático Méd io de Estimação (EQM'), bem como replicações
muito superior (K=0,80 e EQM=6,85 x 103) ao melhor modelo linear; resultado este
74
aux ili ando o estabeleci mento de estratégias de políticas públicas locais de saúde
6.5. SAÚDE
necessário dispor de análise adequados aos dados epidemiológicos. Com esta finalidade
Uma das possíveis abordagens é comparar os novos dados, a medida que chegam, com
estudo. SÁ & NOBRE ( 1996) propuseram o uso de novos modelos preditivos, baseados em
Utilizaram redes neurais do tipo "feedforward", treinadas por Backpropagation para gerar
profundamente, sendo testadas um número de opções para cada um deles. O primeiro foi o
tamanho e a composição do grupo de observações passadas que deve ser utilizado como
75
entrada da rede para cada previsão (que determina o tamanho da camada de entrada).
destes grupos de entradas e suas respectivas saídas-alvo durante o treinamento das redes.
vista metodológico, mas os resultados obtidos nã.o permitem caracterizá-lo, ou a qualquer dos
outros métodos, como o mais eficiente. O treinamento por regra delta aleatória obteve, em
média, resultados melhores, embora para algumas redes resultados equivalentes ou superiores
foram alcançados pela regra delta seqüencial e pelo treinamento em lote. A proporção na
divisão dos dados entre conjunto de treinamento e teste foi de pouca influência.
aval iação cause o maior impacto no sistema de saúde. Utilizar esta avaliação geralmente
para extrair o conhecimento de RNA que permite determinar o impacto das entradas nas
76
variáveis de saída, em estruturas hetero-associadas. Usando 523 casos (63 óbitos) coletados
estadia. A efetividade foi obtida de um modelo de mortalidade que inclui como entradas,
mostram que é possível obter as efetividades relativas das tecnologias de terapia. Há uma
evidência forte de que as tecnologias básicas como antibióticos e hidratação venosa são mais
efetivas que tecnologias mais complexas como o exsangüíneo e ventilação mecânica. Mostra-
que o paradigma proposto pode fornecer resultados adequados ao ser aplicado em outros
problemas de AMTS.
6.6. MEDICINA
Algumas das aplicações mais freqüentes de redes neurais artificiais em medicina são:
criou urna rede a qual pode predizer o câncer de próstata. Este sistema foi apresentado na
"CNN" (canal de televisão) e no "Jornal Wall Street" como um grande avanço tecnológico.
Redes foram treinadas para predizer resultados baseados em teste de PSA ("Prostate Specifíc
Hopkins desenvolveu uma rede neural para prever quais pacientes na Unidade de Tratamento
Intensivo (UTI) cirúrgico do Hospital iriam permanecer sete ou mais dias. As entradas da rede
77
incluíam idade, o uso de droga ou outras terapias, e sinais fisiológicos tais como taxa cardíaca
estudo da Hopkins concluiu que as "três redes neurais foram substancialmente melhores
modelos preditivos do que o modelo de regressão linear múltipla ... " Em uma aplicação
sim ilar, um grupo do Hospital de St. Michael em Toronto, Canadá, desenvolveu uma rede
desenvolveram uma rede neural a qual prediz o custo associado com cateterização e
intervenção no coração. A rede prediz se o paciente irá ser um caso normal ou de alto custo.
As entradas incluem idade do paciente, sexo, e outros parâmetros médicos tal como dados
Wilmington, DE, desenvolveu uma aplicação de rede neural para examinar dados de
experimentos com drogas os quais reduzem o tempo de análise em até 68%. A rede neural foi
treinada para detectar "bons" picos de pressão da bexiga de centenas de picos em arquivos de
dados. Estes picos são críticos para determinar a significância da droga em experimentos
usaram o método do papel e o lápis para analisar estes picos, um método que levou 40 horas
por mês. Usando redes neurais, reduziu o tempo de análise para 13 horas por mês.
anormalidades respiratórias por mal funções em equipamentos quando um paciente está sob
anestesia.
desenvolveu um algoritmo de treinamento que recebe dados fisiológicos tais como taxa
sistema cardiovascular da pessoa. Este modelo pode ser usado para predizer o que seria a
resposta da pessoa em uma situação particular (tal como combatendo fogo ou envolvendo-se
7. EXEMPLO
bastante complexa. A maior parte destas relações parecem ser probabilísticas e não-lineares.
Portanto, estas relações dificilmente podem ser expressas através de regras detenninísticas.
Análise financeira é uma das aplicações mais promissoras e mais adequadas aos
decisões vêm sendo amplamente utilizados em uma grande gama de tarefas, incluindo:
dados. Qualquer pequena melhoria de desempenho nestes sistemas pode gerar muitos
beneficios financeiros.
variedade de informações vindas das mais diversas fontes. Muitas destas informações podem
analisam estas informações de uma maneira muito subjetiva. Muitas vezes eles não sabem
Os sistemas que utilizam Redes Neurais Artificiais estão se tornando uma técnica
muito atrativa para estas aplicações, pois oferecem uma alternativa mais eficiente para tratar
empresa na transação.
agências de crédito. Essas decisões devem ser muito criteriosas. Decisões equivocadas podem
provocar não apenas prejuízos financeiros às instituições de crédito, mas também prejuízos
Pouca Flexibilidade. Uma grande experiência é necessária antes que os gerentes possam
consistência e eficiência, mas fatores que limitam o uso destas técnicas indicam que nem
problemas deste tipo. Uma rede neural artificial pode ser treinada utilizando grandes
81
sucedidas, encontrados nos históricos dos clientes e não através de modelos objetivos ou
mais flexíveis, pois quando mudanças são necessárias, devido à aspectos políticos,
que não requer mudanças estruturais no siste ma. Estes sistemas podem, até mesmo, detectar
esta necessidade e realizar um novo treinamento. Eles também são considerados consistentes
e eficientes, pois um mesmo sistema pode ser utilizado nos diferentes postos de atendimento
se um exemplo de banco de dados do Pacote SAS (Statistical Analysis System) sobre análise
de crédito. A preparação dos dados e a análise da Rede Neural é feita no Módulo Enterprise
Miner do SAS.
TABELA 7.1 .1: Nome, descrição e tipo das variáveis constantes no banco de dados.
A variável binária good_bad foi selecionada como a variável alvo (variável resposta
rejedeél'
ld
cosi
freq
triel
colunas representam as decisões (aceitar ou rejeitar o empréstimo). Para esta matriz de perda
foi determinado que o risco de aceitar um mau pagador é cinco vezes pior que o de rejeitar um
bom pagador. Se a função perda fosse atribuída em perda monetár1a poderia-se dizer que ao
aceitar o crédito de um mau pagador o banco perde 5 Reais e ao aceitar o crédito de um bom
Ed I t Dec I a i o na ••• I.
Cada nó da rede utilizará esta matriz de perda para calcu lar as perdas esperadas.
Com base no banco de dados tem-se que 70% dos clientes são bons pagadores e que
30% são maus pagadores. Porém, utilizando a informação de que esta amostra de clientes não
representa a realidade dos empréstimos do banco e que na verdade estas proporções são de
90% e 10% de bons e maus pagadores, respectivamente, então modificou-se a probabil idade a
priori de ser bom pagador para 0,9 e de ser mau pagador para O, I como mostrado na
Figura 7.1.3 .
l_j
As probabilidades a priori serão usadas para ajustar a contribu ição relativa de cada
Nesta etapa da preparação dos dados, divide-se a base de dados em três amostras
através do nó de partição de dados, sendo uma de treinamento, utilizada para ajustar o modelo
de rede neural, outra de validação, para escolher o melhor modelo de rede para projetar novas
disponibilizações de crédito baseada no modelo de perda mínima, e uma outra de teste para
ajudar a verificar o poder de predição da rede criada e para fazer uma última avaliação do
modelo escolhido. Neste caso, por existir apenas 1000 casos na base de dados, serão criadas
apenas as amostras de treinamento e validação. Dividiu-se, então, em 60% dos dados para a
·Notes 1
Data } Varlablee Partltlon \ Stratl~lcatlon ) User Deflned l Output l (
I
~Method: - - - - - -
('
<i'
r ueer
Si~~tple RendoJII
Stratlfled
De~lned j Train :
va 1 i da t i on :
estratifi cada, utilizando a variável alvo good_bad como variável de estratificação para
garantir a mesma proporção de bons e maus pagadores nas duas amostras. (Figura 7.1 .5)
.... ..
Notes 1 .
Data l Uarlabte• Piirtltlon Strat ff lcatlon l USlt:r Oefl ned l output 1
Na ..e Hodel Role
PROPERTY use input nuPl
OTHER use input nu111
HOUSING use input ordinal nu111 BEST1Z.
EXISTCR don 't use input ordinal nuM BEST1Z.
JOB don't use input ordinal nu111 BEST1Z.
DEPENDS don ' t U8B lnput blnary nu"' BEST1Z .
TELEPHON don't use input binary nu ~~e BEST1Z.
F'DREIGN don't use input bin•ry nu"' BEST1Z.
GOOD_ BAD use target b inary char ss.
curtose muito acentuadas devem ser transformadas para suavizar estes problemas. Esta
uma forte assimetria na variável amount, pois o coefi ciente de assimetria é 1,9, sendo que o
Para observar como está a distribuição dos dados da variável amount solicitou-se um
Percentage
30.-----------------------------------------------------~
20
10
o
250 4793.5 9337 13880.5 18424
2521.75 7065.25 11608.75 16152.25
emount
Como pode-se observar existe mesmo uma grande assimetria dos dados da variável
amounl. Para tornar a distribuição mais simétrica aplicou-se uma transformação denominada
Percente.ge
20~--------------------------------------------------~
15
10
5
r
o T '''' ~ ._. •·:
predizer bons pagadores em grupos de idades. Criou-se assim 4 grupos da variável age através
,_lofxl!
Bin: 11 Value : r· 33
-----···--- - ·-----------------·-··- --····-----··----····-···--------·····-·--·----
2 3
10
Para proceder a análise dos dados, primeiramente cria-se o nó de Redes Neurais, onde
avançada do módulo de redes neurais para que fosse possível a criação da rede perceptron
Logo após, começa-se a escolher o perfil da rede como o número de camada ocultas
bem como o número de nós escondidos. Na Figura 7.2.2 pode-se observar a estrutura da rede
que será cTiada. Os nós de entrada estão divididos pelo tipo de variável classificatória. O nó
NOMINAL J
ORDINAL
FIGURA 7.2.2 : Arquitetura da rede com uma camada escondida composta de 3 nós.
modelo de rede neural a ser utilizado. Neste exemplo, utilizou-se uma rede perceptron
...":-
-----· ----
jSet nuMber ...
.-. ........ -
Hldden neurons:
Dlrect connections:
OK cancel
-
FIGURA 7.2.3: Escolha da arquitetura da rede neuraL
90
No item Hidden do menu pode-se escolher, dentre vári as opções, qual será a função de
ativação e a função somatória, bem como se a rede terá o fator de bias ou não. (Figura 7.2.4)
NuPiber o f neurans : i- 3
Default
Co~binat i on function: rLinear - General
No adivátion
lvc To.ngent
Elliott
HyperbolicTangent
Logistic
Go.uss
Sina
Cosina
iiQ <WUI ri 1111 C IW i i&W C 1011 ( upc IHIZW C IUI _
Exponential
Por fim , salva-se o modelo de rede neural construído para logo após rodar e obter os
Figura 7.2.5.
Model Nallle:
OK Cancet
Enterprise Miner com os nós utilizados na análise, restando apenas rodar o procedimento e
· credito
~neural
I SAHPS I O. Da ta Tr•ns'fon•
OHAGECR Pt~rt I tI on Uar i ab 1es
Neura 1
Network
DiOJgrõJI"'S
Enq uanto a rede está rodando, aparece uma janela da evolução do erro até a
otimização da rede para os dados de treinamento e validação que é mostrada na Figura 7.2.7.
Sto'p
""·~ -
Monitor
1•o
0.9
0.8
0.7
0.6 O Tra in
o.s "':,~
I""C'iiôi"
O.'t [;}.. Vai i d .
0.3
o.z
o .1
0.0
O 5 1 O 15 2 O Z5 3 O 35 'tO 't5
I tera ti an Nu~Wtber
Tra rn i .,9
A rede para quando tiver completado 100 iterações, porém basta pedir para que o
processo continue para que o treinamento seja continuado. O primeiro resultado apresentado é
gráfico com o erro médio para cada iteração dos dados de treinamento e validação que é
mostrado na Figura 7 .2.8 . Para este exemplo, o ótimo para o erro médio foi alcançado na
iteração 42. A rede é treinada até que um padrão seja reconhecido pela rede. É possível notar
que as linhas do erro médio de treinamento e validação divergem após a 42a iteração.
Cada vez que se roda a rede novamente, uma nova aleatoriazação dos dados é criada e
utilizada para o treinamento da rede. Por este motivo, os resu ltados obtidos podem diferir a
-Wel9hts ..... -
Hodel Tablee Plot Co de Log l Output 1 Notes
Average Errar (Ne111)
0 .7
0.6
o.r;
O."f
~ . ~H
.... . h ;
0.3
o ~o "f O 60 80 1 00
Nulllber
1- Trt~~ln ~-Ua t id I
A perda média para cada iteração para os dados de trei namento e validação é
apresentada na Figura 7.2.9. Nota-se que a perda méd ia é minim izada na 42a iteração.
Na Figura 7.2. 1O é apresentado valor obtido para a perda média para os dados de
treinamento e de 59 centavos para os dados de validação. Está perda média foi ajustada pela
..
Model l Tables l WeiQhts Plot l C~de l I..OQ 'l Output 1 Notes }
-0 . 7
o eo 'tO 60 80 100
NURber
·- TraI n: Average L.oea for GOOD_BAD
~ Ualld: Avarage L0 88 for GOOD_BAD
- - - - - - - - - - - ----
FIGURA 7.2.9: Perda média na predição de bom ou mau pagador para os dados de
-
treinamento e va lidação.
cruzamento dos valores observados com os valores preditos para a variável alvo bom ou mau
para a amostra de trei namento e na Tabela 7.2.3 a classifi cação da rede para a amostra de
validação.
Decisão
Observados Aceita Rejeita Total
Bom Pagador 309 92 401
Mau Pagador 47 133 180
Total 356 225 581
Decisão
Observados Aceita Rejeita Total
Bom Pagador 242 57 299
Mau Pagador 39 81 120
Total 281 138 419
É importante também lembrar que para este mesmo exemplo foi procedido a análise
redes neurais, são técni cas utilizadas no procedimento de Data Mining. Para decidir qual das
três técnicas consegu iu resolver o problema de classi fi cação de maneira mais eficiente
construiu-se um g ráfico de comparação das três técnicas que é apresentado na Figura 7.3 .4.
pelos indivíduos que tem mais chance de ser predito como bom pagador no modelo. O eixo
Assim, comparando as linhas de porcentagem de resposta para cada técni ca pode-se concluir
que a metodologia de rede neural foi sempre superior a técnica de árvore de resposta e foi
superior na maioria dos percentis à análise de regressão logística. Para conferir este resultado
95
construiu-se também o gráfico comparativo da perda esperada para cada uma das três técnicas
I I
1
IO:soseline o~Neural o Reg 0Tree
- - -·---1
- - -
FIGURA 7.3 .4:Comparação das três técnicas através da porcentagem de classificação correta.
_j I
·-
r-- ·-··, 1 Loss
r
r
~Responsa Response
~captured -0.2
r Li f t Value ~·
r. Los s -o.4
r .
-- j
I -.I -o.s
.1 r. Cumu Ia t i ve I'i
_ . _ r ~on-Cumu •• tIve lI
1 -o.a ·
fsa;. Color for . , _,
r 30 70
10 50 90
r
r 20 40 60 ao 100
r Percentile
l - - -------·------' f.Too! Name
ÍTerget Profile - - -
8~01.111,9t:l •• ·I Apply
--l
I 10Bo.seline .. Ot4eural O Reg 0 T ree
·--- - - - --------~
-- -.... ..... -
FIGURA 7.3.5: Comparação das três técnicas através da perda esperada com a classificação.
Com base no gráfico da Figura 7.3.5 pode-se observar que a perda esperada foi sempre
menor para o modelo de redes neurais em comparação com a técnica de árvore de decisão e,
96
as redes neurais obtiveram resultados melhores na maioria dos percentis quando compara com
Então, para este exemplo o modelo que melhor explicou os dados foi o de rede neural.
É importante salientar que cabe ao estatístico responsável pela execução da análise do banco
de dados saber utilizar as ferramentas disponíveis no Data M ining e escolher qual a que
Este é o tópico mais interessante da análise por ser o mais prático do ponto de vista da
aplicação em tomada de decisão no que diz respeito a aceitar ou não um pedido de crédito. A
integração da rede será feita através de um novo banco de dados contendo 75 observações de
novos clientes. Neste banco de dados existem apenas as 20 variáveis explicativas que serão
utilizadas pela rede para predizer a variável resposta bom ou mau pagador e, assim, tomar a
uma concessão de crédito. Clientes que tem valores de perda esperada negativa representam
um risco de crédito bom para o banco, ou seja, o banco vai lucrar com estes clientes. A barra
vermelha representa os clientes com risco de mau crédito, ou seja, seus pedidos de concessão
de crédito devem ser rejeitados ou o banco poderá perder dinheiro apostando neles.
Após a rede rodar, obteve-se 64% de clientes com pedido de crédito aceito e 36% de
clientes com pedido de crédito rejeitado por terem grande risco de serem maus pagadores.
(Figura 7.3.2)
97
Va lue; o
MIN
Percentage
80.------------------------------------------------------------~
40
accept rejed
Decision: GOOD_B.A.D
tridimensional apresentado na Figura 7.3 .3 onde pode-se ver claramente ao rejeitar um crédito
o banco nem perde nem ganha e que quanto maior o número de créditos aceitos maior é o
Percentage
0~---------r----~
-0.987863516 o
-o.370448819
Expected Loss: GOOD_BAD
[Percentage
1.35135135141
FIGURA 7.3 .3: Gráfico da perda esperada pela decisão de aceitação ou rejeição do crédito.
Finalmente, após a análise dos resultados obtidos pela rede neural devidamente
treinada e validada, pode-se selecionar então quais serã.o os clientes que terão seus pedidos de
crédito aceitos. A Tabela 7.3.1 fornece a informação da decisão de concessão de crédito para
cada um dos 75 clientes, bem como, a perda esperada que o banco terá com cada um deles.
Com esta tabela de resultados preditos pela rede, pode-se observar que a perda é zero
quando a decisão é rejeitar o crédito e que quando toma-se a decisão de aceitar e conceder o
crédito a perda esperada é negativa, mostrando que o banco só espera lucrar ao conceder o
8. CONCLUSÃO
Este trabalho descreveu os principais tópicos referentes à redes neurais, desde seu
progressos neste tema . Foi descrito o funcionamento de células humanas, na qual se baseou
todo o funcionamento das unidades componentes das redes neurais. Seguiu-se com um quadro
entender os diversos motivos que levam inúmeros estudiosos a trabalhar e desenvolver redes
neurais.
teorias que descrevem o aprendizado de uma rede neural juntamente com uma coletânea de
Todas as informações aqui expostas levam a crer que o campo de redes neurais
aprendizagem a ser utilizado. Trata-se de um assunto recente, mas que adquiriu muita
campo bastante atrativo para profissionais de domínios distintos, reforçando sua característica
multidisciplinar.
lOI
Acredita-se que o mais coerente é entender Redes Neurais Artificiais como ferramenta
Mostrou-se também que pensar uma rede neural como uma caixa preta é um mito que
deve ser desmistificado, pois viu-se que existe uma metodologia para obtenção dos pesos da
Por fim, acredita-se que este trabalho tem consistência e pode ser um bom referencial,
tanto teórico quanto aplicado, para aqueles que quiserem uma introdução no estudo da
ALME IDA, F.C. (1993). L'l~va/uation des risques de défaillance des entreprises à partirdes
Administração).
ARBTB, M.A. ( 1987). Brains, Machines, and Mathematics. 23 ed. New York: Springer-Verlag.
BAXT, W.G. (1990). Use of an Artificial Neural Network for Data Analysis in Clinicai
vol.2, p.480-489.
BAXT, W.G . (1991). Use of an Artificial Neural Network for the Diagnosis of Myocardial
BISHOP, C.M. (1995). Neural Networks for Paliem Recognilion. New York: Oxford
University Press.
BUNTINE, W.L. & WEIGEND, AS. ( 199 1). Bayesian Back-Propagation . Complex Systems,
voi.S , p.603-643 .
DJNIZ, C.A. & LOUZADA-NETO, F . (2000). Data Mining: Uma Introdução. XIV Simpósio
DUDA, R.O. & HART, P.E. ( 1973). Pallems Class{fication and Scene Analysis. New York:
Jolm Wiley.
FELDM AN, J.A. (1992). Natural computation and artificial intelligence. Plena1y Lecture
p.l39-1 44.
FISCHLER, M .A. & FIRSCHEIN, O. (l 987) . lntelligence: The tye, The Bmin, and 'lhe
Eugenics, 8, p.376-388.
FREEMAN, J.A. ( 1994). Simulating Neural Networks with Mathematica. Reading, MA:
Addison-Wesley.
Myocardial Spect Bull ' s-Eye Images. Joumal of Nuclear Medicine, vol.33, n°2,
p.272-276.
l O~
Múltipla.
GORMAN, R.P. & SEJNOWSKI, T.J. ( 1998). Analysis of Hidden Units tn a Layered
HAIR, J.F., ANDERSON, R.E., TATHAM, R.L. & BLACK, W.C. (1998). Multivariate Data
HARTMANN, F.R . (1996). Redes Neurais Artificiais: Conceitos Básicos e Análise. São
de Sistemas/UNISINOS), 90p.
HARVEY, A.C. (1989). Forecasting Stmctural Time Series Models and the Kalman Filter.
HAYKIN, S. (2000). Redes neurais: princípios e prática. Trad. Paulo Martins Engel. 2aed.
HAWLEY, D., JOHNSON, J.D. & RAINA, O. (1990). Artificial Neural Systems: A New
Network, vol. 1.
HEEB, P. (1944) Organization ofBehavior. New York. John Willey & Sons.
HERTZ, J., KROGH, A., & PALMER, R.G. (199 1). J111roductio11 to the The01y qf Neural
HOSMER, D.W. & LEMESHOW, S. (1989). Applied Logistic Re~:,rression . Nova York:
Wiley.
105
HUTCHINSON, J.M. (1994). A Radial Basis fimction Approach to Financia/ Time Series
KOV ÁCS, Z .L. ( 1996). Redes Neurais Artificiais: Fundamentos e Aplicações. Edição
Amsterdam.
p.IOS- I 17.
LlPPMANN, R.P. (1987). An lntroduction to Computing with Neural Nets. !EEJ:.: ASSP
Magazine , p.4-22.
LIPPMANN, R.P. (1989). Review of neural networks for speech recognition. Neural
McCUULLOCH, W.S. & PITTS, W. (1943). A logical Calculus of the ldeas Immanent in
MEAD, C.A. (1989). Anafog VLSI and Neural Systems. Reading, MA: Addison-Wesley.
MENDEL, J.M . & McCLAREN, R.W. (1970). Reinforcement-learning control and pattern
MTNSKY, M.L. &PAPERT, S.A. (1969). Perceplrons. Cambrige. MA: MIT Press.
PACHECO, M.L.C., NADAL, J. & PANERAl, R.B. (1996). Redes Neuronais Artificiais Na
PEREIRA, B.B. & RODRIGUES, C.V.S . (1998). Redes Neurais em Estatística. Xlll Simpósio
POLI, R., CAGNONI, S., LIV1, R., COPPINI, G. & VALLI, G. (1991). A Neural Network
QIAN, N. & SEJNOWSKI, T.J. ( 1988). Predi cting the Secondary Structure of Globular
p.865-884.
REEKE, G.N.Jr., FINKEL, L.H. & EDELMAN , G.M. (1990). Selective recognition
RIPLEY, B.D. (1993) . Statistical Aspects of Neural Networks. Tn Networks and Chaos -
RIPLEY, B.D. ( 1994). Neural Networks and Related Methods for Classification. Journal ~f
R UMELHART, D .E., HINTON , G.E. & WILLIAMS, R.J. (1986). Learning representations
RUMELHART, D .E., & WEIGEND, S.A. (1990). Predicting lhe htture: A ('onnectionist
SÁ, C.B.P. & NOBRE, F.F. (1996). Previsão de Séries Temporais Epidemiológicas
SARLE, W .S. (1994). Neural Networks and Statistical Methods. In Proceedings of lhe 191h
SMITH, M . (1 993). Neural Networks for Statistical Modeling. New York: Yan Nostrand
Reinhold.
STUDENMUND, A.H. (1992). Using Econometrics: A Practical Cuide. New York: Harper
Collins.
TSOUKALAS, L.H., UHRING, R.E., WTLEY, J. & SONS. (1996). Fuzzy and Neural.
Approaches in Engeneering.
VALIANT, L.G . (1984). A theory of the learnable. Communicalions of the Association for
VAPNl K, V.N . (1992). Principies of risk minimi zation for learning theory. Advances in
Neural b?formation Processing Systems, vol.4, p.83 1-838, San Mateo, CA: Morgan
Kaufmann.
WALTZ, D. (1997). Neural nets and AI: Time for a synthesis. plenary talk. Jnternationa/
WARNER, B. & MISRA, M . ('1996). Understanding Neural Network as Statistical Tools. The
WERBOS, P.J. (1991). Links Between Artificial Neural Networks (ANN) and Statistical
Old and Ne w Connections, eds. l. Sethi and 3 J ai n, Elsevier Science, p.1 1-31.
W IDROW, B. & HOFF, M.E. ( 1960). Adaptive switchi ng c irc uits. JRF: WESCON Convention
Record, p .96-104.
WU, F.Y. & YEN, K.K. (1992). Appl ications ofNeural Network in Regression Analysis. In
Proceedings of lhe 1-Ith Annual Conference 011 Computers and Industrial Engi11eering.