BI A Inteligência de Negócios

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 121

WBA0636_v1.

1
BI: A inteligência de negócios

Michel Bernardo Fernandes da Silva


© 2018 por Editora e Distribuidora Educacional S.A.

Todos os direitos reservados. Nenhuma parte desta publicação poderá ser reproduzida ou transmitida de qualquer modo ou por qualquer outro

meio, eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de sistema de armazenamento e transmissão de informação,

sem prévia autorização, por escrito, da Editora e Distribuidora Educacional S.A.

Presidente Rodrigo Galindo

Vice-Presidente de Pós-Graduação
Paulo de Tarso Pires de Moraes
e Educação Continuada
Carlos Roberto Pagani Junior
Camila Braga de Oliveira Higa
Carolina Yaly
Conselho Acadêmico Danielle Leite de Lemos Oliveira
Juliana Caramigo Gennarini
Mariana Ricken Barbosa
Priscila Pereira Silva

Coordenador Mariana Ricken Barbosa

Revisor Fábio Ferreira Cardoso


Alessandra Cristina Fahl
Daniella Fernandes Haruze Manta
Flávia Mello Magrini
Editorial
Leonardo Ramos de Oliveira Campanini
Mariana de Campos Barroso
Paola Andressa Machado Leal

Dados Internacionais de Catalogação na Publicação (CIP)

Silva, Michel Bernardo Fernandes da


S586b BI : a inteligência dos negócios / Michel Bernardo
Fernandes da Silva. – Londrina: Editora e Distribuidora
Educacional S.A., 2018.
107 p.

ISBN 978-85-522-0646-0

1. Inteligência Competitiva. 2. Negócios. I. Silva, Michel


Bernardo Fernandes da. II. Título.

CDD 330

Responsável pela ficha catalográfica: Thamiris Mantovani CRB: 8/9491

2018
Editora e Distribuidora Educacional S.A.
Avenida Paris, 675 – Parque Residencial João Piza
CEP: 86041-100 — Londrina — PR
e-mail: editora.educacional@kroton.com.br
Homepage: http://www.kroton.com.br/
SUMÁRIO

Tema 1: Introdução ao BI..............................................6

Tema 2: Data warehouse...................................................18

Tema 3: Mineração de dados e inteligência artificial...............34

Tema 4: Modelos descritivos...............................................46

Tema 5: Modelos preditivos................................................59

TEMA 6: Análise de negócios e visualização de dados I..........74

Tema 7: Análise de negócios e visualização de dados II..........89

Tema 8: Business performance management (BPM)...............102


APRESENTAÇÃO DA DISCIPLINA

As empresas de todas as áreas de atuação constantemente tomam deci-


sões sobre suas operações, tanto em níveis estratégicos, como na entrada
de um novo mercado, quanto em níveis gerenciais, na mudança de um dos
processos produtivos, ou mesmo em níveis operacionais: como atender a
reclamação de um cliente.

O ambiente no qual as empresas operam está se alterando cada vez mais


rápido. Tal fato pressiona as empresas a decidirem em tempos cada vez mais
curtos. Para serem mais assertivas em suas decisões, é fundamental que as
pessoas responsáveis pelas decisões tenham disponíveis informações neces-
sárias para um melhor embasamento de seu parecer.

Um nível de acerto maior nas decisões representa um importante dife-


rencial competitivo para as empresas. Para prover as melhores e mais atua-
lizadas informações e também projeções futuras, são construídos sistemas
computadorizados de inteligência de negócios ou Business Intelligence (BI).

Tais sistemas são capazes de prover informações armazenadas e, adicio-


nalmente, podem elaborar análises nos dados. O conceito de Business
Intelligence engloba arquiteturas, ferramentas, bancos de dados, aplicações
e metodologias. Um elemento frequentemente utilizado por ferramentas BI
é o Data Warehouse, bancos de dados ou “armazéns de dados” que contem-
plam dados e informações de toda a empresa. Posteriormente, foram desen-
volvidos Modelos Descritivos, focados na caracterização dos dados obser-
vados com base em modelos de agrupamento que separam os dados em
clusters e algoritmos de redes neurais. Foi necessário criar interfaces mais
amigáveis para visualização dos dados, os Dashboards. Em alguns casos, não
bastava somente os dados passados, era necessário projetar o futuro, como
em um orçamento.

Assim, foram desenvolvidos Modelos Preditivos, que podem incluir métodos


probabilísticos, métodos baseados em distância, como regressões, e métodos
baseados em procuras, como árvores de decisão. Outras ferramentas desen-
volvidas são Business Performance Management – BPM e Mineração dos
Dados. Um assunto bastante relevante nas pesquisas e muito promissor para
o futuro é a utilização de Inteligência Artificial, em que um computador
aprende com base em situações passadas, desenvolvendo um tipo de inteli-
gência que é aplicada para que o agente escolha a melhor ação possível para
uma determinada situação (RUSSEL; NORVIG, 1995).

Nesta disciplina, são abordados temas relevantes de BI, desde os conceitos


de um sistema de BI, os detalhamentos de seus elementos, a interligação
entre os elementos, os principais métodos desenvolvidos para modelos descri-
tivos e preditivos, bem como as formas de apresentação de resultados.

Bons estudos!
1
Introdução ao
BI
Objetivos Específicos
• Analisar como a alteração do ambiente de negócios implicou na criação de sistema de BI (Business

Intelligence).

• Apresentar os conceitos dos sistemas de inteligência de negócios ou BI.

• Entender as questões principais ao implementar o Business Intelligence.

Introdução
Desde o fim da década de 90, o ambiente de negócios se modificou radicalmente, com efeito

da globalização, da revolução da tecnologia de informação e comunicação, entre outros (LAUDON;

LAUDON, 2011). Com isso, houve um maior nível de competição para a empresa e ela teve de tomar

decisões mais rapidamente. Para isso e para ter uma maior assertividade nas decisões retirando sub-

jetividade, é necessário um sistema computadorizado de apoio à decisão.

Neste contexto, surgiram sistemas computadorizados de apoio à decisão que ficaram conhecidos

como Business Intelligence (BI) ou Inteligência de Negócios. BI contempla uma série de ferramentas,

bancos de dados, interfaces para o usuário e monitores de desempenho para acompanhamento de

resultados, seja de uma área ou da empresa como um todo. Para cada componente, existem diversas

opções disponíveis no mercado de software.

Adicionalmente, serão analisados quais os benefícios gerados pelos BI. Um dos benefícios principais

é a transformação de dados em informação, assim como a transformação de informação em conheci-

mento. Tal fato irá auxiliar a empresa na tomada de decisões mais assertiva, que é considerada como

uma vantagem competitiva em função das decisões mais rápidas, também pode ocorrer reduções de

custo relacionadas aos processos.

Para uma correta implementação de sistemas de BI, devem ser avaliadas as condições necessárias

para propiciar esse fato, pois a implantação de BI costuma ser lenta e custosa (CECI, 2012). Deve ser

realizado, ainda, o mapeamento de todas as dificuldades de implementação e elaborar um plano de

ação.

7
1. Ambiente de negócios, BI e seus
componentes
O termo Business Intelligence (BI) ou inteligência de negócios foi patenteado por Gartner Group em

meados da década de 1990. Entretanto, já existiam sistemas computadorizados desde os anos 1970,

que ainda não possuíam opções de análise e tinham baixa capacidade de customização. Tais sistemas

foram chamados de Decision Suport Systems (DSS) ou Sistemas de Suporte à Decisão.

Na década de 1980, surgiu o conceito de Executive Information Systems (EIS) ou Sistemas de

Informações Executivas que simplificavam o uso dos DSS e traziam informações estratégicas para os

analistas e executivos. Existia, no entanto, a limitação a alguma tela e relatórios. Posteriormente, na

década de 1990, surgiram soluções por meio das quais era possível inserir análises, tendências e gerar

relatórios dinâmicos e inclusive produtos comerciais com essas características.

Com a globalização e com as facilidades de transporte internacional de carga, as empresas pude-

ram entrar em novos mercados internacionais e comprar de fornecedores internacionais (TURBAN et

al., 2009). Contudo, por outro lado, diversos concorrentes de outros países surgiram em seu mercado

nacional. Tal fato aumentou o nível de concorrência em diversos mercados e, com isso, muitas empre-

sas foram compradas ou encerraram suas operações (OLIVEIRA, 2010).

Além disso, a evolução da Tecnologia da Informação e Comunicação (TIC), possibilitou tanto mudan-

ças na empresa quanto no público consumidor. Antes da proliferação da Internet e de mídias sociais,

os consumidores tinham um pequeno poder frente às empresas (CARVALHO, 2015). Com essas fer-

ramentas, o consumidor irá pesquisar as informações do produto antes de comprar, comparar com

concorrentes e ler opiniões de usuários do produto. Caso compre o produto e não esteja satisfeito,

certamente irá utilizar suas mídias sociais para reclamar desse fornecedor. Com isso, há significativo

aumento das demandas do consumidor que desejam produtos, bem como uma ampla gama de pro-

dutos que podem, ainda, ser customizados, ter qualidade excelente e entrega o mais breve possí-

vel. Além de deterem mais poder na relação com as empresas, os consumidores estão menos fiéis,

podendo facilmente trocar a empresa por concorrentes (OLIVEIRA, 2010).

8
Considerando o cenário ilustrado na Figura 1, a seguir, e com base nas análises, informações e pre-

visões que normalmente são obtidas por meio de sistemas computadorizados de suporte para decisão,

a empresa terá uma reação frente ao mercado.

FIGURA 1: RELAÇÃO ENTRE AS DECISÕES COM SUPORTE COMPUTADORIZADO, REAÇÕES DA

ORGANIZAÇÃO E FATORES DO AMBIENTE

FONTE: Turban et al. (2009, p. 24).

Para análise do ambiente de negócios, é importante o conhecimento da Matriz de Oportunidade,

Ameaças, Forças e Fraquezas.

9
1.1 Definição de BI 
Para saber mais
Segundo Silva (2011, p.32), Business A análise SWOT é um dos métodos mais tradicionais
para definir a estratégia de um negócio. Essa técnica
Intelligence (BI) ou inteligência de negócios permite revelar os pontos fortes e fracos da empre-
sa, e as oportunidades e ameaças do mercado.  Para
pode ser definida como a transformação ter uma visão bem didática e aplicada dessa matriz,
consulte o material elaborado por Paulillo (s.d). Mais
metódicos dos dados oriundos de quaisquer
detalhes em: <https://www.agendor.com.br/blog/
fontes de dados, sejam eles estruturados e analise-swot-de-uma-empresa/>. Acesso em: 7 de
maio de 2018.
não estruturados, em novas formas de propi- 

ciar informação e conhecimento dirigido aos

negócios e orientado aos resultados.

Segundo Laudon e Laudon (2011), um sis-

tema de informação pode ser definido tecni-



camente como um conjunto de componen- Assimile
BI pode ser considerado como uma estrutura que
tes que são coletados, processados, arma- contempla arquiteturas, ferramentas, bancos de da-
dos, metodologia e aplicações. Assim, BI é consid-
zenados e distribuem informação para auxi- erado um termo “guarda-chuva”, pois embaixo dele
estão diversas outras expressões como Competitive
liar no processo decisório e no controle da Intelligence ou Inteligência Competitiva, Market In-
telligence ou Inteligência de Mercado, Customer In-
organização. telligence ou Inteligência do Consumidor.


1.2 Arquitetura
e componentes de BI
Sistemas de BI podem ser divididos em quatro componentes principais: um data warehouse (DW)
com seus dados-fonte, a análise de negócios, uma coleção de ferramentas para manipular e anali-
sar os dados no data warehouse, inclui-se ainda o data mining e business performance management
(BPM), para monitoria e análise do desempenho e uma interface de usuário, por exemplo: o dashbo-
ard. Já existem ferramentas de inteligência artificial que estão dentro do escopo de BI.

10
O Data Warehouse é um banco de dados ou repositório de dados especial-
mente preparado para dar suporte a aplicações de tomada de decisão. Para
a análise de negócios dos data warehouse,
existem ferramentas que realizam consultas
e relatórios customizados. Adicionalmente, 
o processamento analítico online (OLAP) Para saber mais
O objetivo da Inteligência Artificial (IA) é o desen-
é uma das formas de modelagem do Data volvimento de sistemas que realizem tarefas que, no
Warehouse. momento, são melhor realizadas por seres humanos
do que por máquinas, ou não possuem uma solução
Em um data mining, há o processo de de algoritmo que seja implementável e viável pela
computação tradicional (RUSSEL; NORVIR, 1995).
identificação de padrões úteis, previamente 

desconhecidos de bases de dados que per-

mitem a construção de modelos. Os modelos

podem ser preditivos como Classificação, Regressão, baseados em probabili-

dades e Árvores de Decisão, ou podem ser

modelos descritivos como análise de clusters



e regras de associação. Link
Um exemplo de ferramenta de BI é Power BI da
O BPM se baseia na reengenharia de Microsoft, em que o usuário transforma dados em
dashboards em diferentes plataformas, como com-
processos que são necessários para que a putador, notebook e celular. É possível encontrar
informações acerca dessa ferramenta em: <https://
empresa obtenha um aumento na produti- powerbi.microsoft.com/pt-br/>. Acesso em: 7 maio
2018.
vidade. Por sua vez, Dashboards propiciam 
uma demonstração visual de diversos indi-

cadores de desempenho e suas tendências.

Nas próximas unidades, será abordado cada componente de sistemas de BI.

1.3 Benefícios do BI
Pode-se definir Dado como uma representação de atributos que podem representar transações e

operações de um determinado produto (CECI, 2012). Por sua vez, informação é um conjunto de dados

11
que cria um padrão e apresenta um significado. Para Fialho et al. (2006), pode-se definir conhecimento

como um conjunto completo de informações, dados e relações que auxiliam os

indivíduos na tomada de decisão, na realização de tarefas e na geração de

novas informações e conhecimentos.

Com adoção de técnicas de BI, além de ser

capaz de transformar dados brutos em infor- 


Exemplificando
mação e, também, informação em conheci- No final dos anos 1990, nos EUA, a Toyota estava
com problemas na cadeia de fornecimentos. Além
mento, existe uma maior agilidade na elabora- disso, os custos de logística, para armazenar os car-
ros, aumentaram muito. Foi instalado um sistema de
ção das informações, automação dos processos BI com data warehouse e dashboard. Rapidamente,
depois da instalação, o sistema detectou um erro
de informação, possibilidade de análise de indi-
de US$ 800.000 e possibilitou o aumento do vol-
cadores de gestão e menor tempo para dispo- ume de veículos sem praticamente não aumentar o
número de funcionários. Desse modo, soluções de BI
nibilizar informações, resultando em uma maior foram aplicadas em diversas áreas da Toyota USA e
de outras fábricas pelo mundo.
capacidade de análise. Fonte: adaptado de Cio Insight (2004) e Turban
et al. (2009).


1.4 Implantação
de sistemas de BI
A implantação de uma iniciativa de BI não é uma atividade simples, rápida, nem de baixo custo. E

caso não seja considerada uma série de demandas, a implementação pode resultar em falha (TURBAN,

2009). Um ponto fundamental para investimento em BI é o alinhamento com a estratégia de negó-

cios da empresa. O BI deve ser utilizado para melhoria dos processos da empresa (GARTNER, 2004).

Uma das primeiras etapas do processo de implementação de BI é avaliar a organização do sistema

de informação, os conjuntos de habilidades das possíveis classes de usuários e se a cultura da empresa

é receptiva a mudanças. Baseando-se nessa avaliação inicial e existindo justificativa e necessidade

para implantar o BI, a empresa pode preparar um plano de ação detalhado. Isso deve ocorrer devido

ao fato que um sistema de BI pode possuir três dimensões: a primeira dimensão é a tecnológica; a

segunda dimensão é organizacional, na qual estão os processos de negócio, a cultura, a estrutura e as

12
pessoas; por fim, a terceira dimensão é a gerencial, para a resolução de conflitos.
A comunidade de usuários de BI dentro de uma mesma organização pode ser de diferentes áreas
e de diferente nível de conhecimento, acerca das ferramentas, e nível hierárquico (LAUDON, 2011).
Um fator que dificulta a implantação é o tamanho e diversidade da comunidade de usuários, pois o
sucesso do BI será maior quanto mais usuários estiverem utilizando as informações vindas dele.
Atualmente, muitas empresas fornecedoras de software disponibilizam ferramentas diversificadas,
algumas delas são totalmente pré-programadas (chamadas shells).

Questão para reflexão


Como foi visto, a implementação de sistema de BI não é uma tarefa simples e sistemas de BI pos-
suem três dimensões: Tecnológica, Organizacional e Gerencial. Quais devem ser as razões para que
a implementação de BI na empresa seja realizada com sucesso e quais são as boas práticas para uma
implementação de sucesso?

Considerações finais
• O ambiente externo das empresas está cada vez mais competitivo. Por um lado, as empresas
têm novos mercados para explorar e fornecedores de todo o mundo, contudo possuem novos
concorrentes internacionais, os consumidores são mais exigentes, menos fiéis e a tecnologia está
evoluindo mais rápido.
• Para uma tomada de decisões melhor e mais rápida, os executivos precisam das informações
certas na hora certa e no lugar certo. Sistemas de BI possibilitam o envio dessas informações,
contribuindo para um diferencial competitivo da empresa.
• BI contempla diversos componentes, metodologias, interfaces, tais como o Dashboard, e ferra-
mentas de análise, como o Data Mining e os bancos de dados ou Data Warehouse.
• Informação é um conjunto de dados com um padrão, criando um significado. Sistemas de BI
conseguem obter informações de um grande conjunto de dados. Um conjunto de informações
forma conhecimento.
• O BI deve estar alinhado com a estratégia da empresa e deve ser utilizado para melhorar os pro-
cessos nas diversas áreas.

13
Glossário
Business Intelligence (BI): Inteligência de negócios, um “guarda-chuva” que contempla arquitetu-

ras, ferramentas, bancos de dados, metodologia e aplicações.

Data Warehouse (DW): repositório de dados especial, preparado para dar suporte a aplicações de

tomada de decisão.

Data Mining: ferramenta para construção de modelos de análise e previsão.

Dashboard: um painel para exibição visual das informações mais importantes e necessárias para

alcançar um ou mais objetivos, consolidados e organizados em uma única tela, para que a informação

possa ser monitorada de relance (FEW, 2006).

Verificação de leitura

QUESTÃO 1- Qual o componente do BI consiste em um banco de dados com a finalidade de


oferecer suporte às outras aplicações.
a) SQL.

b) Dashboard.

c) DSS.

d) DW.

e) BPM.

14
QUESTÃO 2- Sobre a relação entre fatores do ambiente de negócios, reação das empresas
e sistemas computadorizados de apoio à decisão, assinale a alternativa correta.
a) A Internet e as mídias sociais levaram mais informações aos consumidores, mas isso não
mudou a relação deles com as empresas, na qual os consumidores são o elo mais fraco.

b) As empresas líderes de seus respectivos setores não precisam implantar sistemas de BI.

c) A necessidade de uma maior agilidade na tomada de decisão é uma das motivações para
implementação de sistemas de BI.

d) Marcos regulatórios não interferem no ambiente das empresas e nem em seus sistemas
de informação.

e) O ambiente de negócios somente tem trazido pressões e prejuízos para empresas.

QUESTÃO 3- Sobre a implementação de BI, um fator que colabora para o seu sucesso é:
a) a compra de todas as ferramentas comerciais.

b) a realização uma avaliação inicial da organização dos sistemas de informação, dos usuários
do sistema e da cultura da empresa.

c) a cultura da empresa não permitir essa mudança.

d) a permissão para que somente um pequeno grupo de pessoas utilize o sistema.

e) a contração de uma empresa terceirizada para instalação do sistema de BI.

15
Referencias bibliográficas
CARVALHO, Cristina. O consumidor está no poder. Harvard Business Review, 23 mar. 2015.

Disponível em: <http://hbrbr.uol.com.br/o-consumidor-esta-no-poder/>. Acesso em: 7 maio 2018.

CECI, Flávio. Business intelligence. Palhoça: UnisulVirtual, 2012. Disponível em: <http://www.

smpark.com.br/site/static/placar/%5B6432_-_19829%5Dbussines_inteligence.pdf>. Acesso em: 7 de

maio de 2018.

CIO INSIGHT. Toyota’s Business Intelligence: Oh! What a Feeling. 2004. Disponível em: <https://

www.cioinsight.com/c/a/Case-Studies/Toyotas-Business-Intelligence-Oh-What-a-Feeling>. Acesso

em: 21 maio 2018.

FEW, Stephen. Common pitfalls in Dashboard Design. Perceptual Edge. 2006. Disponível em: <https://

www.perceptualedge.com/articles/Whitepapers/Common_Pitfalls.pdf>. Acesso em: 7 maio 2018.

FIALHO, Francisco Antônio Pereira et al. Gestão do conhecimento e aprendizagem: as estratégias

competitivas da sociedade pós-industrial. Florianópolis: Visualbooks, 2006.

GARTNER Inc. Using Business Intelligence to Gain a Competitive Edge. A special report. Gartner:

Stamford CT, 2004.

LAUDON, Jane P.; LAUDON, Kenneth C. Sistema de Informações Gerenciais. 11ª ed. São Paulo: Pearson, 2011.

OLIVEIRA, Marco César de. Efeitos da Globalização. O Economista, Joinville, 31 maio 2010. Disponível

em: <https://www.oeconomista.com.br/efeitos-da-globalizacao/>. Acesso em: 7 maio 2018.

PAULILLO, Gustavo. Tudo o que você tem que saber sobre análise SWOT de uma empresa. Blog

Agendor, s. d. Disponível em: <https://www.agendor.com.br/blog/analise-swot-de-uma-empresa/>.

Acesso em: 07 de maio de 2018.

RUSSELL, S. J.; NORVIG, P. Artificial Intelligence: A modern approach. Prentice Hall, 1995.

SILVA, Dhiogo Cardoso da. Uma arquitetura de business intelligence para processamento analítico

baseado em tecnologias semânticas e em linguagem natural. 2011. 161 f. Dissertação (Mestrado em

Engenharia do Conhecimento) – Universidade Federal de Santa Catarina, Florianópolis, 2011.

TURBAN, Efraim et al. Business intelligence: um enfoque gerencial para a inteligência do negócio.

Porto Alegre: Bookman, 2009.

16
Gabarito

QUESTÃO 1-Resposta Certa D: Data Warehouse (DW) é um banco ou repositório de dados


especial, preparado para dar suporte a aplicações de tomada de decisão.

QUESTÃO 2-Resposta Certa C: No ambiente de negócios, existem tanto pressões quanto


oportunidades. Sendo assim, empresa precisa rapidamente tomar uma decisão. Suporte
computadorizado à decisão integrada, Business Intelligence, irá reunir dados de todas as
áreas da empresa, gerando informações, e um conjunto dessas informações irá gerar o co-
nhecimento que embasará uma decisão mais rápida e assertiva.

QUESTÃO 3-Resposta Certa B: Uma das primeiras etapas do processo de implementação de


BI é avaliar a organização do sistema de informação, os conjuntos de habilidades das possí-
veis classes de usuários e se a cultura da empresa é receptiva a mudanças. Baseada nessa
avaliação inicial e existindo justificativa e necessidade para implantar o BI, a empresa pode
preparar um plano de ação detalhado.

17
2
Data
warehouse
Objetivos Específicos
• Entender as definições básicas, conceitos e arquiteturas de data warehouse.

• Descrever os processos usados no desenvolvimento e gerenciamento de data warehouse.

• Explicar as operações e o papel de data warehouses em suporte para decisão.

• Explicar os processos de integração de dados e de extração, transformação e carga (ETL).

Introdução
Devido ao aumento de pontos de contato entre a empresa e o cliente, como lojas físicas, site, ter-

minais de autoatendimento, ocorreu um aumento do número de sistemas de informação orientados

a transações. Com isso, existe uma tendência de os dados serem armazenados em bases de dados

independentes. Apesar de funcionar bem para o contexto operacional, do ponto de vista gerencial,

ter muitas bases de dados independentes e dispersas é um problema, posto que não traz uma visão

sistêmica da empresa.

Neste texto, serão definidos conceitos relacionados ao data warehouse e banco de dados como de

bit, byte, campo, registro, arquivo, banco de texto. Um data warehouse pode ser definido como um

banco de dados que armazena dados, atuais e históricos, de interesse potencial para os tomadores

de decisão dentro de uma empresa. Após esses conceitos iniciais, as principais arquiteturas de data

warehouse serão abordadas, verificando a quantidade de camadas, componentes e funções desses

componentes (TURBAN et al., 2009). Adicionalmente, as arquiteturas serão comparadas para verifi-

car as suas características, vantagens e desvantagens. Posteriormente, serão analisados os processos

de integração de dados com foco no processo que realiza a extração, transformação e carregamento

dos dados. Por fim, serão analisados os passos para o desenvolvimento de um data warehouse, bem

como os benefícios de sua implantação.

19
1. Data warehouse
No item 1.1, serão abordados conceitos introdutórios ao armazenamento de dados, como banco de

dados e registro. No item 1.2, é definido o conceito de Data Warehouse e são listadas as suas princi-

pais características. No item 1.3, são definidos os conceitos de Data Mart. O item 1.4 mostra as arqui-

teturas principais de Data Warehouse. Os itens 1.5 e 1.6 analisam os processos de obtenção, transfor-

mação e carregamento dos dados (ETL) e, posteriormente, o processo de desenvolvimento do data

warehouse.

1.1 Conceito de Armazenamento de dados


Um sistema de informações provê aos usuários informações precisas, relevantes, no tempo certo

para as pessoas que irão decidir ter o melhor embasamento.

O computador organiza os dados em uma hierarquia que inicia com bit e bytes, evoluindo para

campos, registros, arquivos e banco de dados. A palavra BIT é uma abreviação para BInary DigiT e

corresponde à menor informação computacional, possui 2 estados (0 ou 1). O byte é um agrupa-

mento de oito bits que representa um caractere, por exemplo, uma letra. Um grupo de caracteres ou

um grupo de palavras pode formar um campo como no caso de o nome de uma pessoa ou no caso

de um endereço.

Adicionalmente, um número pode representar um campo como no caso de idade ou valor de um

produto. Um grupo de campos relacionados forma um registro e um grupo de registro, por sua vez,

forma um arquivo. Um banco de dados pode ser definido como um conjunto de arquivos relaciona-

dos entre si com registros que descreve uma entidade, a qual pode ser uma pessoa, lugar, produto ou

evento, sobre a qual de se armazenar informações. Cada característica descrita por uma entidade é

chamada de Atributo. A figura 1 ilustra a hierarquia entre cada um desses elementos.

20
FIGURA 1: A HIERARQUIA DE DADOS

FONTE: o autor.

As motivações que levaram ao desenvolvimento das tecnologias do armazenamento de dados

iniciaram na década de 1970, quando o poder computacional estava concentrado em mainframes.

Adicionalmente, apenas existiam estruturas de banco de dados primitivas e entradas de dados sim-

ples. Uma empresa de destaque foi fundada em julho de 1979, nos Estados Unidos, com o nome de

Teradata, a fim de representar a capacidade de gerenciar Terabytes (Tb) de dados.


Com a década de 1980 e com o advento dos computadores pessoais, foi acarretado o problema
de ilhas de dados. A solução para esse problema é um novo tipo de software, chamado de sistema
distribuído de gerenciamento de banco de dados. Utilizando bases de dados por meio da organização,
todos os dados passam a ser colocados em um mesmo repositório, consolidados, classificados, filtra-
dos com o que for necessário para responder a uma questão de usuário.

21
1.2 Definição e características do Data Warehouse
Na década de 1990, houve uma nova abordagem para a solução do problema de ilhas de dados.

O início do Data Warehouse ocorre sem o acesso direto a arquivos e banco

de dados, mas a cópia local. Nos anos 2000, a popularidade e a quantidade

de dados aumentam. Adicionalmente, surgem diversos fabricantes e produtos

no mercado.

Data Warehouse (DW) pode ser definido



como um conjunto de dados produzidos para Assimile
Data Warehouse é um repositório de dados atuais e
dar suporte ao processo de decisão. históricos de potencial interesse para os administra-
dores por meio da organização.
Os dados armazenados serão estrutu- 

rados para disponibilizar o processamento

de métodos analíticos, por exemplo: data

mining, elaboração de relatórios, realização de pesquisas e processamento analítico online (online

analytical processing - OLAP).


Um Data Warehouse é orientado a um assunto, integrado, variante no tempo, não volátil, sendo
uma coleção de dados em suporte do processo de decisão gerencial. Em relação à organização por
assunto, um Data Warehouse pode ser organizado por produtos, clientes, compras e canais, devendo
conter apenas as informações relevantes para o processo de decisão.
Adicionalmente, o Data Warehouse deve ser integrado, trazendo dados de diferentes fontes em um
formato consistente. Analisando a questão temporal, Data Warehouse se trata de variantes no tempo,
pois os dados retratam a situação que estamos analisando em um determinado ponto do tempo.
Assim, é necessário manter um histórico temporal.
Por fim, os dados não são voláteis, uma vez que depois de entrarem no Data Warehouse, os usu-
ários não podem alterar ou atualizar tais dados.
Outras características de Data Warehouse são o uso da estrutura relacional ou da estrutura multidi-
mensional e a existência de metadados, que documentam sobre como os dados estão organizados e
como é possível utilizá-los efetivamente. Também, normalmente, são projetados como aplicações Web.
Um Data Warehouse utiliza a arquitetura cliente/servidor para prover acesso aos usuários finais.

22
1.3 Data Mart

Um Data Mart é normalmente menor e Exemplificando
As áreas de finanças, operações, vendas e marketing
foca em um departamento ou assunto espe- podem ter Data Warehouse customizado para elas,
sendo denominado Data Mart. Assim, cada área pode
cífico. Sendo assim, é um subconjunto de ter visões diferentes dos dados centralizados.

Data Warehouse, consistindo de apenas uma

única área de interesse.

Um Data Mart pode ser tanto dependente quanto independente. Um Data Mart dependente é um

subconjunto, que é criado diretamente para o Data Warehouse. A vantagem é o uso de um modelo

de dados consistentes e provimento de qualidade de dados.

Por sua vez, um Data Mart independente é um pequeno Warehouse projetado para uma unidade

de negócios ou um departamento, e não para uma empresa como um todo, pois o custo de um Data

Warehouse é um limitador de sua utilização em grandes empresas (TURBAN, 2009).

Um armazenamento de dados operacional (ODS) é um tipo de banco de dados utilizado para

memória de curto prazo. Um Enterprise Data Warehouse (EDW) é um Warehouse de grande escala

que é utilizado por meio da empresa para suporte à decisão.

1.4 Arquiteturas de Data Warehouse


Estas arquiteturas são normalmente denominadas cliente/servidor ou arquiteturas de n camadas, sendo

as arquiteturas de duas e três camadas mais comuns. Existem três partes em um Data Warehouse: o

conjunto de dados e o software associado aos dados; o software de aquisição de dados ou back-end,

responsável pela extração dos dados dos sistemas legados e fontes externas, pela consolidação e totali-

zação desses registros e pelo seu carregamento no Data Warehouse; e o software cliente, chamado de

front-end, que permite aos usuários acessarem e analisarem os dados do Data Warehouse.

Em uma arquitetura de duas camadas, como ilustrado na figura 2 a seguir, a primeira camada é

formada pela estação de trabalho. Já a segunda, contempla tanto os servidores de aplicação quanto

os servidores de banco de dados.

23
FIGURA 2: ARQUITETURA DE DATA WAREHOUSE DE DUAS CAMADAS

FONTE: adaptado de Turban et al. (2009).

Em uma arquitetura de três camadas, como ilustrado na figura 3 a seguir, a primeira camada é

formada pela estação de trabalho. Já a segunda, contempla os servidores de aplicação e a última

camada, por sua vez, possui os servidores de banco de dados.

24
FIGURA 3: ARQUITETURA DE DATA WAREHOUSE DE TRÊS CAMADAS

FONTE: adaptado de Turban et al. (2009).

Com o advento da Internet, passou a

existir a integração de tecnologia de Data 


Para saber mais
Warehouse com base em dados captados Existem várias questões que devem ser consideradas
na escolha da arquitetura de Data Warehouse. Qual
ou armazenados na internet. A arquitetura o sistema de gerenciamento de banco de dados deve
ser utilizado? Quais ferramentas de migração podem
também possui três camadas: estação de ser usadas para carregar o Data Warehouse? Quais
ferramentas podem ser utilizadas para suportar a
trabalho do cliente, o servidor Web e o análise e recuperação de dados?

servidor de aplicação. São vantagens dessa

25
arquitetura o baixo custo e o fácil acesso para os usuários, uma vez que é realizado por meio

de browser ou navegador, não dependendo de instalações de novos pacotes de softwares, que

poderiam ser incompatíveis com computador do usuário final. A figura 4 mostra essa arquitetura

de Data Warehouse baseada na Web.

FIGURA 4: ARQUITETURA DE DATA WAREHOUSE BASEADO NA WEB

FONTE: adaptado de Turban et al. (2009).

26
1.5 Processo de Integração, Extração, Transformação
e Carregamento de Dados
Por um lado, trabalhar com múltiplas bases de dados, sejam elas integradas a um Data Warehouse
ou não, é um desafio muito complexo que requer muita expertise. Por outro lado, os benefícios podem
ser de grandes proporções, excedendo em muitas vezes o custo dessa tarefa. O processo para Data
Warehouse inclui fontes de dados, extração e transformação de dados, carregamento de dados, banco
de dados, metadados e ferramentas de middleware. A figura 5, a seguir, ilustra as relações existentes
entre os componentes, a partir da obtenção dos dados para a visualização das informações.

FIGURA 5: ESTRUTURA E VISUALIZAÇÃO DE UM DATA WAREHOUSE

FONTE: Turban et al. (2009, p. 58)

27
As fontes de dados são originadas de múltiplos independentes sistemas “legados” e, provavel-

mente, de provedores de dados externos como o Instituto Brasileiro de Geografia e Estatística – IBGE.

Adicionalmente, os dados podem surgir de sistemas transacionais online (OLTP) ou de um sistema de

planejamento de recursos, isto é, Enterprise Resource Planning (ERP). Dados da Web, em forma de

web logs, podem também alimentar o Data Warehouse.

Os dados são extraídos e transformados usando softwares comerciais ou customizados, chamados

de Extraction Transformation Loading (ETL).

Os dados são carregados em uma área de teste, na qual são transformados e limpos. A partir disso,

os dados estão prontos para serem carregados em um Data Warehouse ou em um Data Marts.

Os bancos de dados devem ser compreensíveis, pois, essencialmente, o data warehouse da orga-

nização é utilizado para dar suporte a análises de decisões, com o fornecimento de informações deta-

lhadas e totalizadas de diversas fontes distintas

Os Metadados são mantidos para que possam ser acessados pelos responsáveis de TI e usuários.

Tal estrutura tem objetivo de facilitar a recuperação e organização e representa informações sobre os

dados existentes (CECI, 2012).

Ferramentas de Middleware permitem o acesso ao Data Warehouse. Usuários com determinadas

permissões, como analistas de sistemas, podem escrever suas consultas em SQL. Usuários com per-

missões mais restritivas, como analistas de negócios, podem somente acessar dados. Existem diver-

sas aplicações front-end, isto é, processos que interagem diretamente com o usuário de negócios

por meio de interfaces. E por meio dessas interações, os dados são armazenados em repositórios,

incluindo o Data Mining, OLAP, ferramentas de relatórios e visualizadores de dados.

A integração compreende três processos principais: acessos aos dados, serviços de federação de

dados e captura de mudanças. Quando os três processos são corretamente implementados, os dados

podem ser acessados e ser acessíveis para um conjunto de ETL e ferramentas de análises e ambientes

de Data Warehousing. Os serviços de federação de dados possibilitam, por meio de técnicas e softwa-

res, a coleta de dados de fontes distintas e a agregação de todos os dados coletados em um reposi-

tório virtual, para que seja utilizado em análise de BI.

28
Alguns fornecedores de software se nota-
bilizaram por oferecer ferramentas de inte-

gração de dados. O SAS Institute, por exem- Link
O SAS Institute está presente em 140 países do
plo, possui ferramentas de integração de
mundo e tem mais de 70 mil empresas, governos
dados de clientes que melhoram a qualidade ou universidades como clientes. O endereço para a
página do SAS Institute no Brasil é: <https://www.
dos dados no processo de integração. sas.com/pt_br/home.html>. Acesso em: 8 de maio
de 2018.
Várias tecnologias de integração possibili- 

tam a integração de dados e metadados:

• Enterprise application integration (EAI);

• Service-oriented architecture (SOA);

• Enterprise information integration (EII);

• Extraction, transformation, and load (ETL).


Integração de Aplicações corporativas (Enterprise application integration - EAI) é uma tecnologia
que provê um meio para disparar os dados de seus sistemas de fonte para o Data Warehouse.

A categoria Enterprise information integration (EII) é uma ferramenta em desenvolvimento que

promete uma integração de dados em tempo real e de diversas fontes, tais como: bancos de dados

relacionais, serviços Web e banco de dados multidimensionais.

O processo mais comum de Data Warehousing é baseado na extração, transformação e carrega-

mento, ou seja, extraction, transformation, and load (ETL). O processo ETL é tipicamente um projeto

centrado em dados. O processo ETL consiste na extração, leitura dos dados de uma ou mais base

de dados, e na transformação, isto é, na conversão dos dados extraídos de sua forma anterior para a

forma necessária, para que ele possa ser colocado no Data Warehouse, e no carregamento, ou seja,

deve-se imputar os dados no Data Warehouse.

1.6 Desenvolvimento de um Data Warehouse


Um projeto de Data Warehousing é um importante ativo para qualquer organização e é
muito mais complexo do que um projeto somente tecnológico, pois o projeto compreende e

29
influencia em muitas áreas da empresa,
que terão interfaces de entradas e saídas,
assim como pode ser parte da estratégia 
Para saber mais
de negócios. Existem questões que afetam se uma organização
comprará uma ferramenta de transformação de dados
Um Data Warehouse proporciona uma ou se ela mesma construirá um processo de transfor-
mação, tais como: preço das ferramentas de trans-
série de benefícios diretos e indiretos. Entre formação de dados; ferramentas de transformações
de dados podem ter uma curva de aprendizado lon-
os benefícios diretos, pode-se destacar que ga; há a dificuldade de mensurar como a empresa de
TI está desempenhando até que ela tenha aprendido
os usuários finais terão capacidade de realizar
a usar as ferramentas de transformações de dados
(LAUDON; LAUDON, 2011).
análises extensivas de diversas formas. Além

disso, é possível uma visão consolidada dos

dados da organização e permite que o proces-

samento da informação passe de sistemas operacionais de alto desempenho e custo para servidores de

baixo custo. Por fim, o acesso aos dados é simplificado.

Questão para reflexão


Considere uma pequena loja de conveniência dentro de uma rede de postos de gasolina. Quais as

características da empresa que devem ser consideradas para o projeto de um Data Warehouse? Quais

fontes de dados devem ser consideradas?

Considerações finais
• Data Warehouse é um repositório de dados atuais e históricos de potencial interesse para

os administradores da organização. Além de possuir como características: ser orientado por

assunto, integrado, variante no tempo, não volatilidade e incluir o metadados.

• Existem três partes em um Data Warehouse: o conjunto de dados e o software associado aos

dados, o software de aquisição de dados ou back-end e o software cliente, chamado de front-

-end que permite aos usuários acessar e analisar os dados do data warehouse.

30
• O processo mais comum de Data Warehousing é baseado na extração, transformação e carre-

gamento, ou seja, extraction, transformation and load (ETL).

• O desenvolvimento de um projeto de Data Warehouse é um importante ativo para a empresa.

Glossário
Data Warehouse: conjunto de dados produzidos para dar suporte ao processo de decisão.

Data Mart: subconjunto de data warehouse, consistindo em apenas uma única área de interesse.

Enterprise Data Warehouse (EDW) : warehouse de grande escala que é utilizado por meio da

empresa para suporte à decisão.

Verificação de leitura
QUESTÃO 1- Um subconjunto de um Data Warehouse, com uma única área da empresa, é
conhecido como:
a) metadados;

b) base de dados;

c) Data Mart;

d) Repositório das informações;

e) SAS.

QUESTÃO 2- Quais as etapas em processo ETL?


a) Extração; Transporte; Limpeza dos dados.

b) Extração; Transformação; Carregamento dos dados.

c) Especialização; Tratamento; Lavagem dos dados.

d) Escovação; Transformação; Carregamento dos dados.

e) Empreendedorismo; Turismo; Labuta dos dados.

31
QUESTÃO 3- Assinale a alternativa em que existe benefício em relação ao Data Warehouse.
a) Sistemas de Data Warehouse são sempre de baixo custo de hardware.

b) Com um Data Warehouse eficiente, é possível ter um bom balizamento para decisões.

c) Se um concorrente usa um Data Warehouse, a empresa também deve fazer um, mesmo
que não o utilize.

d) É de fácil implantação, afinal é somente uma base de dados.

e) Unir dados de diversas fontes de dados auxilia nas decisões gerenciais.

Referências bibliográficas
CECI, Flávio. Business intelligence. Palhoça: UnisulVirtual, 2012. Disponível em: <http://www.

smpark.com.br/site/static/placar/%5B6432_-_19829%5Dbussines_inteligence.pdf>. Acesso em: 08

de maio de 2018.

LAUDON, Jane P.; LAUDON, Kenneth C. Sistema de Informações Gerenciais. 11ª ed. São Paulo:

Pearson, 2011.

TURBAN, Efraim et al. Business intelligence: um enfoque gerencial para a inteligência do negócio.

Porto Alegre: Bookman, 2009.

32
Gabarito

QUESTÃO 1- Resposta Correta C. Data Mart: subconjunto de data warehouse, consistindo


em apenas uma única área de interesse.

QUESTÃO 2- Resposta Correta B. ETL: Extration: Extração; Transformation: Transforma-


ção; Load: Carregamento dos dados.

QUESTÃO 3- Resposta Correta B. Com a existência e utilização de um Data Warehouse,


serão fornecidas informações mais precisas aos tomadores de decisão, os quais serão mais
assertivos e trarão uma vantagem competitiva para a empresa

33
3 Mineração
de dados e
inteligência
artificial
Objetivos Específicos
• Descrever a mineração dos dados ou Data Mining e listar seus objetivos e benefícios.

• Entender diferentes aplicações e métodos de Data Mining, principalmente a árvore de decisão e

os modelos de agrupamento.

• Aprender o processo dos projetos de Data Mining.

• Conhecer conceitos e aplicações de Inteligência Artificial (IA), do inglês Artificial Intelligence (AI),

em sistema de BI.

Introdução
Com o aumento da quantidade de dados gerados para uma empresa nas suas operações, é neces-

sário que exista capacidade para analisar a base de dados originada. Dificilmente seria possível iden-

tificar padrões de comportamento dos dados somente com capacidade humana. As ferramentas de

mineração de dados contribuem na identificação desses padrões, na realização, nas classificações, na

clusterização da base de dados e nas previsões de comportamento futuro. Esses resultados podem ser

aplicados a diversos setores de atuação, desde bancos, varejo a governos. Além disso, é possível rea-

lizar descoberta de conhecimento em banco de dados, quando são realizadas etapas adicionais, tais

como Seleção de dados, Pré-processamento, Transformação, Data mining e, por fim, deve-se avaliar

e interpretar. Um tema corriqueiro é a inteligência artificial, na qual um agente se comporta de modo

que um observador qualquer pareceria ser inteligente.

35
1. Mineração de dados e inteligência
artificial
No item 1.1, serão elaboradas definições sobre Mineração de dados e serão verificadas algumas das

principais aplicações. No item 1.1.1, serão analisadas as principais características de Data Mining e seus

objetivos. Já o item 1.1.2, explora as classificações de Data Mining e as diferentes técnicas existentes.

A seção 1.2, por sua vez, aborda sobre a descoberta do conhecimento em banco de dados. Por fim,

a seção 1.3 elabora uma introdução à Inteligência Artificial.

1.1 Definição de Mineração de Dados e principais


aplicações
Nos últimos anos, os volumes de dados armazenados e disponíveis aumentaram rapidamente nas

empresas dos diversos setores, contudo a capacidade de análise de dados, sem ferramentas especí-

ficas, não. Assim, foram desenvolvidas ferramentas de inteligência de negó-

cios ou Business Intelligence (BI) que, a partir dos dados coletados, realiza

categorizações, classificações, organizações,

filtragens e processamentos para uma orga-



nização. Tais ferramentas são chamadas de Assimile
Pode-se definir de mineração de dados como um
Mineração de Dados ou Data Mining. processo que utiliza técnicas matemáticas, estatísti-
cas, de inteligência artificial e de aprendizado de
De acordo com Hand, Mannila e Smyth máquina para extrair e identificar informações úteis
e, consequentemente, conhecimento de bases de
(2001, p. 6), pode-se definir, sob uma pers- dados de larga escala

pectiva estatística, que a “Mineração de

Dados é a análise de grandes conjuntos de

dados a fim de encontrar relacionamentos inesperados e de resumir os dados de uma forma que eles

sejam tanto úteis quanto compreensíveis ao dono dos dados”.

Como o custo de armazenar dados e de processá-los diminuiu de forma drástica desde os anos

36
2000, a resultante desses fatos foi que a quantidade de dados armazenados em formatos digitais

cresceu em uma velocidade exponencial (TURBAN et. al, 2009). Com a geração de grandes bancos

de dados, existe um maior foco na análise desses dados coletados pela empresa.

A mineração de dados é utilizada em pesquisas acadêmicas, em áreas com abundância de dados

experimentais, como física, astronomia, medicina e farmácia. Já no mundo

corporativo, os setores financeiro, varejista e de seguros de saúde são os que

mais fazem a aplicação de Data Mining.

O Data Mining já é amplamente usado



para melhor visar clientes e, com o desen- Exemplificando
O Data Mining é usado para: reduzir perdas de crédi-
volvimento do comércio eletrônico, que pode to de clientes com empréstimos pessoais ou cartões
de crédito; identificar padrões de compra do cliente;
inclusive gravar informações sobre navega- recuperar clientes rentáveis e não perder esse cliente
para seus concorrentes; identificar regras de negócio
ção, preferências e produtos desejados, a a partir de dados históricos; ofertas de produtos dif-
erenciados por clientes, dependendo do seu perfil e
tendência é que isso se torne mais impor-
seu ciclo de vida.
tante com o passar do tempo. Um exem- 

plo de ferramenta de Data Mining pode ser

encontrado em (SAS INSTITUTE, 2016).

1.1.1 Principais características e objetivos de Data Mining


O ambiente de Data Mining geralmente é uma arquitetura cliente/servidor ou uma arquitetura

baseada na Web. O miner é um usuário final, capacitado com ferramentas poderosas de consulta para

obter respostas rapidamente, requerendo pouca ou nenhuma habilidade de programação.

Tais ferramentas sofisticadas, incluindo ferramentas de visualização avançada, ajudam a retirar

informações escondidas tanto em arquivos corporativos quanto aquelas arquivadas em registros públi-

cos. Ferramentas de Data Mining são facilmente combinadas com planilhas e com outras ferramentas

para desenvolvimento de software.

Sem ferramentas de Data Mining, seria necessário tirar a sorte grande, o que, muitas vezes,

37
envolve descobrir um resultado inesperado e exige que os usuários finais pensem de forma criativa.

Com as ferramentas, as informações são descobertas por meio da junção e da sincronização de dados

para a obtenção dos resultados certos.

Eventualmente, devido às grandes quantidades de dados e iniciativas sólidas de pesquisa, é neces-

sário usar processamento paralelo para Data Mining. Assim, o Data Mining inclui tarefas como: extra-

ção de conhecimento; arqueologia de dados; exploração de dados; processamento de padrões de

dados; limpeza de dados; colheita de informação.

1.1.2 Classificações de Data Mining


Uma das utilizações de Ferramentas de Data Mining é a obtenção de padrões em dados e, eventu-

almente, a dedução das regras desses padrões, a partir dos dados. Existem três tipos de métodos que

são usados para identificar padrões em dados.

• Modelos simples: consultas baseadas em linguagem SQL, isto é,

Linguagem Estruturada para Consulta ou Structured Querry Language,

processamento analítico online (OLAP) e raciocínio humano.

• Modelos intermediários: regressão, ár-

vores de decisão e agrupamento. 


Para saber mais
• Modelos complexos: redes neurais e Uma Rede Neural Artificial (RNA) pode ser defini-
da como um conjunto de neurônios artificiais inter-
outra indução de regras.
conectados, os quais são um construto matemático
inspirado no neurônio biológico.
Tais padrões e regras podem ser utilizados

para o processo de tomada de decisão e para

previsão do resultado das potenciais decisões.

É possível acelerar o desempenho da análise ao focar nas variáveis mais relevantes. Habitualmente,

os algoritmos de Data Mining são divididos em quatro categorias amplas: classificação, agrupamento,

associação e descoberta de sequência. Existem outras ferramentas de análise de dados, como visu-

alização, regressão de dados e análise de séries temporais que encontram ampla aplicação prática.

A classificação de dados ou Data Classification consiste no processo de encontrar propriedades

38
comuns e um determinado conjunto de objetos de um banco de dados, classificá-los em diferentes

classes, de acordo com um modelo de classificação, e gerar um modelo que pode, automaticamente,

gerar uma previsão do comportamento futuro. As ferramentas mais comuns de classificação são redes

neurais, regras se-então-senão e árvores de decisão, que são definidas como uma raiz seguida de

nós internos, em que cada nó é nomeado com uma questão e arcos associados, com cada nó cobrem

todas as possíveis respostas associadas ao nó.

Outra categoria é conhecida como Agrupamento ou Clusterização, que consiste na divisão do banco

de dados em segmentos que possuem características semelhantes. Uma diferença entre a categoria

de classificação e o agrupamento é que os clusters são desconhecidos no agrupamento quando o algo-

ritmo começa (TURBAN et al., 2009).

A Associação é uma categoria de algoritmo de Data Mining, a qual estabelece relações entre os

itens que ocorrem conjuntamente em um mesmo registro. Uma das aplicações primárias dessa técnica

é a análise de cesta de supermercado, em operações de venda.

A descoberta de sequência, por sua vez, trata-se de uma identificação de associações ao longo do

tempo. No momento em que as informações estão disponíveis, quando ocorre a identificação de um

cliente na loja, ocorre uma análise temporal para identificar o comportamento ao longo do tempo.

A visualização pode ser utilizada em conjunto com o Data Mining para

ganho de entendimento dos relacionamentos existentes entre os dados. A

Regressão é uma técnica estatística muito

conhecida que relaciona os dados das bases

como uma variável dependente com valo- 


Para saber mais
res de uma predição. Já a Previsão estima No trabalho “Mineração de dados: conceitos, tarefas,
métodos e ferramentas” (CAMILO; SILVA, 2009),
valores futuros baseados em padrões de con- além dos conceitos fundamentais, tarefas, métodos
e variante dos métodos de Mineração de Dados, é
juntos de extensos dados. Um exemplo é o apresentada uma lista das principais ferramentas para
trabalhar com mineração. Disponível em: <http://
cálculo de valores futuros de índices base- www.portal.inf.ufg.br/sites/default/files/uploads/re-
latorios-tecnicos/RT-INF_001-09.pdf>. Acesso em:
ados em comportamentos desse índice no
21 maio 2018.

passado.

39
Há diversos métodos para elaboração de Data Mining. Um software de Data Mining, por exemplo,
pode implementar uma ou mais dessas técnicas.

Com os dados organizados e armazenados no Data Warehouse, o próximo passo para a desco-

berta de conhecimento é aplicar métodos de análises estatísticas e de Inteligência Artificial (IA). Dessa

maneira, novas relações e informações serão descobertas (CARVALHO, 2005).

As ferramentas de Data Mining podem prever futuras tendências e comportamentos, permitindo às

empresas um novo processo de tomada de decisão, baseado, principalmente, no conhecimento acu-

mulado que, frequentemente, é deixado de lado, contido em seus próprios bancos de dados.

O Data Mining pode ser tanto baseado em hipótese quanto baseado em descoberta. Se base-

ado em hipótese, inicia-se com uma proposição do usuário que, então. busca validar a veracidade

da afirmação. Se baseado em descoberta, encontra padrões, associações e relações entre os dados.

Dessa forma, pode revelar fatos que uma empresa desconhecia ou ignorava no passado (CARVALHO,

2005).

Outro conceito importante é Text Mining que pode ser definido como a aplicação de Data Mining

em arquivos de texto não estruturados ou menos estruturados. Também existe Web Mining, que pode

ser definida como a descoberta e análise de informações úteis e interessantes provenientes da Web,

sobre a Web e, geralmente, por meio de ferramentas baseadas na Web (TURBAN et al., 2009).

Outra classificação das ferramentas e técnicas é baseada na estrutura dos dados e nos algoritmos

utilizados. Assim, pode-se dividir em computação neural, algoritmos genéticos, agentes inteligentes,

razões baseadas em casos e outras ferramentas, como indução das regras e visualização dos dados.

Ferramentas de Data Mining são aplicadas aos mais diversos setores, desde seguros, bancos, elei-

toral, telemarketing, segurança, policial, recursos humanos, companhias aéreas, sistemas de saúde e

medicina, empresas de software e hardware, produção e manufatura, vendas, marketing etc.

1.2 Descoberta de conhecimento em Banco de Dados


A Descoberta de conhecimento em bancos de dados, ou Knowledge Discovery in Databases (KDD),

40
pode ser definida como um processo que usa os métodos de Data Mining para encontrar informações

e padrões úteis nos dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1998). A figura 1, a seguir, mos-

tra cada uma das etapas desse processo que se inicia com a seleção dos dados do Data Warehouse e

que, a partir disso, são pré-processados e posteriormente transformados. Com os dados transforma-

dos, é realizada a etapa de mineração dos dados. Assim, são detectados padrões de comportamento

dos dados e, com base na avaliação e no entendimento desses padrões, pode-se construir um conhe-

cimento sobre os dados analisados.

FIGURA 1: PROCESSO DE KDD

FONTE: adaptado de Fayyad, Piatetsky-Shapiro e Smyth (1998).

1.3 Inteligência Artificial


Na década de 1950, surgiram os primeiros estudos sobre Inteligência Artificial (IA) ou Artificial

41
Intelligence (AI), cujo objetivo era o desenvolvimento de sistemas para realizar tarefas que, no

momento, são melhor realizadas por seres humanos do que por máquinas, ou não possuem solução

algorítmica viável pela computação convencional. Assim, Inteligência Artificial é o estudo dos sistemas

que agem de um modo que, para um observador qualquer, parece ser inteligente e envolve utilizar

métodos baseados no comportamento inteligente de humanos e outros animais para solucionar pro-

blemas complexos (COPPIN, 2017).

A IA tem interface com diversas ciências, tais como: computação, engenharia, matemática, socio-

logia, neurofisiologia, linguística, filosofia, psicologia, entre outras. Possui diversas aplicações, como

exemplo: atendimento simples a clientes, treinamentos, assistentes virtuais e

robôs autônomos.

Questão para reflexão 


Link
A página da IBM detalha algumas das aplicações
Mesmo as tarefas domésticas, como pre- de Inteligência Artificial. Disponível em: <https://
www.ibm.com/blogs/robertoa/2017/08/5-apli-
parar refeições, utilização de equipamen- cacoes-de-inteligencia-artificial-nas-empresas/> .
Acesso em: 8 maio 2018.
tos eletrônicos para entretenimento e passar 
roupas, estão se modificando com a utiliza-

ção de diferentes tecnologias. Com a evo-

lução da Inteligência Artificial e utilização de redes neurais, quais atividades domésticas poderão ser

mais impactadas no seu cotidiano nos próximos dez anos?

Considerações finais
• Mineração de Dados é a análise de grandes conjuntos de dados, a fim de encontrar relaciona-

mentos inesperados e de resumir os dados de uma forma que eles sejam tanto úteis quanto

compreensíveis ao dono dos dados.

• Três tipos de métodos são usados para identificar padrões em dados: Modelos simples, como

42
SQL ou raciocínio humano; Modelos intermediários, como árvores de decisão, regressão; e

Modelos complexos, como redes neurais.


• Algoritmos de Data Mining podem ser divididos nas seguintes categorias: classificação; agrupa-
mento ou cluster; associação e descoberta de sequência; regressão de dados; análise de séries
temporais; e visualização.

• Inteligência Artificial é o estudo dos sistemas que agem de modo que, para um observador qual-

quer, pareceria ser inteligente.

Glossário
Mineração de Dados ou Data Mining: processo que utiliza técnicas matemáticas, estatísticas, de

inteligência artificial e de aprendizado de máquina para extrair e identificar informações úteis e, con-

sequentemente, conhecimento de bases de dados em larga escala.

Inteligência artificial (IA) ou Artificial Intellingence (AI): Estudo dos sistemas que agem de modo

que, para um observador qualquer, pareceria ser inteligente.

Rede Neural Artificial (RNA): conjunto de neurônios artificiais interconectados, que são um cons-

truto matemático inspirado no neurônio biológico.

Verificação de leitura

QUESTÃO 1- Uma ferramenta de Data Mining possui nós e ligações entre os nós. Cada nó
indica um teste feito sobre um valor e as ligações entre nós representam os valores possíveis
do teste do nó superior. Qual o nome dessa ferramenta?
a) Redes Neurais.

b) Árvores de Decisão.

c) Clusterização.

d) Análise Temporal.

e) Regressão.

43
QUESTÃO 2- Assinale a alternativa correta em relação à Mineração de Dados.
a) Mesmo sem ferramentas, é muito fácil descobrir padrões nos dados para bases de dados
muito grandes.

b) A análise dos dados existe e não é uma tarefa relevante.

c) Data Mining só tem aplicação teórica e não foi aplicada com sucesso na prática.

d) Só existe uma única técnica de Mineração de dados: Classificação.

e) A Mineração de Dados pode ser aplicada com sucesso em diversos setores de negócio.

QUESTÃO 3- Com o surgimento da Inteligência Artificial,


a) verificou-se que o computador não aprende.

b) utilizou-se uma rede artificial de neurônios para transmissão da informação.

c) os robôs poderão ter emoção.

d) não é mais necessário armazenar dados.

e) foram desenvolvidos sistemas para realizar tarefas que antes eram melhor realizadas por
seres humanos do que por máquinas.

Referências bibliográficas
CAMILO, Cássio Oliveira; SILVA, João Carlos. Mineração de Dados: Conceitos, Tarefas, Métodos e

Ferramentas. Goiás, 2009. Disponível em: <http://www.portal.inf.ufg.br/sites/default/files/uploads/

relatorios-tecnicos/RT-F_001-09.pdf>. Acesso em: 21 maio 2018.

CARVALHO, Luís Alfredo Vidal de. Data Mining: A Mineração de Dados no Marketing, Medicina,

Economia, Engenharia e Administração. Rio de Janeiro: Ciência Moderna, 2005.

COPPIN, Ben. Inteligência artificial. Trad. Jorge Duarte Pires Valério. Rio de Janeiro: LTC, 2017.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge

Discovery in Databases. AI Magazine, v. 17, n. 3, p. 37-54, 1996.

44
HAND, David; MANNILA, Heikki; SMYTH, Padhraic. Principles of Data Mining. Cambridge: MIT

Press, 2001.

SAS INSTITUTE. Data Mining From A to Z: How to Discover Insights and Drive Better Opportunities.

2016, Disponível em: <https://www.sas.com/content/dam/SAS/en_us/doc/whitepaper1/data-mining-

-from-a-z-104937.pdf>. Acesso em: 8 maio 2018.

TURBAN, Efraim et al. Business intelligence: um enfoque gerencial para a inteligência do negócio.

Porto Alegre: Bookman, 2009.

Gabarito

QUESTÃO 1-Resposta B: Árvore de Decisão. As árvores de decisão são definidas como uma
raiz seguida de nós internos. Cada nó é nomeado com uma questão e arcos associados, com
cada nó cobrem todas as possíveis respostas associadas ao nó.

QUESTÃO 2-Resposta E: Ferramentas de Data Mining são aplicadas nos mais diversos seto-
res: seguros, bancos, eleitoral, telemarketing, segurança, policial, recursos humanos, com-
panhias aéreas, sistemas de saúde e medicina, empresas de software e hardware, produção
e manufatura, vendas, marketing etc.

QUESTÃO 3-Resposta E. A Inteligência Artificial possibilita agentes inteligentes, os quais


podem aprender com o ambiente e responder de formas tão satisfatórias quanto humanos.

45
4
Modelos
descritivos
Objetivos Específicos
• Identificar a necessidade de modelos descritivos.

• Apresentar diferentes algoritmos de modelos descritivos.

• Explicar parâmetros que comparam o desempenho de diferentes modelos.

Introdução
Uma classe importante de métodos de mineração de dados são os modelos descritivos ou mode-

los de aprendizado não supervisionado. São utilizados apenas dados históricos, com suas respecti-

vas variáveis, para a construção de um modelo, e inexiste uma figura externa para guiar o aprendi-

zado. Assim, para obter informações, são verificados se os dados passados possuem um padrão de

comportamento.

Esse tipo de modelo possui aplicação em diversas áreas de conhecimento, nas quais exista abun-

dância de dados experimentais, como Física, Medicina, Marketing e Engenharia. Existem diversas téc-

nicas de algoritmos para realização de modelos descritivos. Em modelos de associação, busca-se de

padrões frequentes de associações entre os atributos de um conjunto de dados. Por sua vez, o agru-

pamento trata de identificar grupos de dados com base na semelhança entre os objetos.

Existem diversas técnicas de algoritmos de agrupamento, a saber: hierárquicos, particionais base-

ados em erro quadrático, baseados em densidade, baseados em grafo, baseados em redes neurais e,

também, baseados em grid. É possível comparar o desempenho dos modelos por meio de indicadores

pré-definidos.

1. Modelos descritivos
Na modelagem de modelagem de um processo de Data Mining, uma classe importante de métodos

de mineração de dados são os modelos descritivos ou modelos de aprendizado não supervisionado.

Nesse tipo de modelo, são utilizados apenas dados históricos, com suas respectivas variáveis, para a

47
construção de um modelo. Além disso, inexiste uma figura externa para guiar o aprendizado.

Assim, para obter informações, são verificados se os dados passados possuem padrões de compor-

tamento e se as representações dos dados auxiliam na tomada de decisões. Considerando um con-

junto de dados, um algoritmo de aprendizado de máquina não supervisionado busca como representar

as entradas, segundo um critério de qualidade previamente definido (TURBAN et al., 2009).

A associação está relacionada à busca de padrões frequentes de associações entre os atributos de

um conjunto de dados. Conforme já mencionado, o agrupamento busca identificar grupos de dados

com base na semelhança entre os objetos e suas técnicas são valiosas para explorar dados, tendo apli-

cação em áreas diversas, tais como: Engenharia, Marketing, Medicina, Biologia e Física.

Na análise de agrupamento, o aprendizado está focado nos dados e não são necessários conheci-

mentos anteriores sobre as classes ou as categorias que formarão os agrupamentos (MITCHELL, 1997).

As regras de associações, por sua vez, são utilizadas para descobrir o relacionamento entre variá-

veis em grandes bases de dados, por exemplo: pesquisas em supermercados detectaram que existe

uma forte correlação entre quem são os clientes que compram fraldas e os

clientes que compram cervejas.

O fato, nesse caso, foi explicado pelo per-

fil de cliente, que era predominantemente

masculino e, após comprar tal item para o 


Link
seu filho, busca um produto para o seu con- Leia a reportagem “Fraldas, Cervejas e muito mais”,
a qual detalha importantes aplicações de modelos
sumo. Assim, diversas promoções de marke- de associação em empresas de varejo: <https://
www.mundodomarketing.com.br/artigos/mauro-ne-
ting ou de decisão sobre onde realizar a colo- grao/27146/fraldas-cervejas-e-muito-mais.html>.
Acesso em: 9 maio 2018.
cação de produtos são realizadas com bases 

em modelos de associações. Adicionalmente,

as regras podem ser aplicadas para minera-

ção de dados na Web, detecção de intrusos e sistemas de recomendação.

48
1.1 Definições sobre clusters
Existem definições sobre características de cluster. Segundo Barbara (2000), um cluster bem sepa-

rado é um conjunto de pontos de modo que qualquer ponto em um determinado cluster está próximo,

ou é mais similar, a cada ponto nesse cluster do que qualquer ponto não pertencente a ele.

Já um cluster baseado em centro considera um conjunto de pontos, de forma que qualquer ponto,

em um dado cluster, está mais próximo ao centro desse cluster do que ao centro de qualquer outro.

Também existe o cluster contínuo ou encadeado, no qual um conjunto de pontos assim como qual-

quer ponto, em um dado cluster, está mais próximo a um ou mais pontos nesse cluster do que a qual-

quer outro que não pertence a ele.


Outro tipo de cluster é baseado em densidade, em que o cluster será uma região densa de pon-
tos, separada de outras regiões de alta densidade e por regiões de baixa densidade. Existem clusters
baseados em similaridade, no qual o cluster é um conjunto de pontos similares, enquanto um ponto
fora do cluster não é similar.

1.2 Medidas para Atributos


É possível mensurar os atributos tanto de forma qualitativa quanto de forma quantitativa. As tarefas

descritivas possuem diferentes fases, tai como: sumarização, associação e agrupamento. Nessas eta-

pas, podem ser aplicadas desde medidas estatísticas mais rudimentares, como média e desvio padrão,

até complexas técnicas de visualização dos relacionamentos existentes entre atributos (FACELLI et al.,

2011).

A análise de cestas de compras é uma aplicação técnica de mineração de um conjunto de itens

frequentes, o que se trata de uma área de pesquisa com muitos estudos e descobertas de conheci-

mento para bases de dados, podendo descrever o comportamento de compra de clientes. O objetivo

dessa mineração de um conjunto de itens frequentes é a descoberta de grupos de produtos que são

comprados conjuntamente com uma frequência maior do que outras combinações de produtos e tam-

bém descobrir a inferência dos produtos que são adquiridos, considerando os que foram comprados

anteriores.

49
Os algoritmos de agrupamento são classificados com base em modelos. Assim é necessário ter

sempre em mente a escolha do algoritmo e em que instante ocorrerá a comparação.

1.3 Interpretação dos clusters


Denomina-se interpretação o processo de exame de cada cluster em relação aos seus componentes

para identificar esses elementos com rótulos, tendo como objetivo descrever a natureza do cluster.

Nessa etapa, busca-se mais que simplesmente descrever, mas também um modo de confirmação da

hipótese inicial e permitir avaliações subjetivas que possuam um significado.

Um facilitador é o conhecimento do domínio dos dados, pois pode contribuir na identificação de

cluster com um significado. Para fornecer subsídios ao especialista, existem ferramentas para visuali-

zar os clusters identificados no modelo.

1.4 Algoritmos de agrupamento


Será previamente estabelecido um critério de avaliação do algoritmo para

saber se são necessárias novas divisões. Ao

aplicar os dados obtidos no algoritmo esco-



lhido, caso o parâmetro do modelo esteja em Assimile
Os algoritmos de agrupamento existentes apresen-
conformidade com as exigências dos critérios,
tam diferentes formas de explorar e verificar estru-
a estrutura verdadeira de clusters pode ser turas presentes em um conjunto de dados

encontrada.

As categorias em que foram divididos os

algoritmos de agrupamento são: hierárquicos, particionais baseados em erro quadrático, baseados em

densidade, baseados em grafo, baseados em redes neurais e baseados em grid. É possível que os algo-

ritmos sejam enquadrados em mais de uma categoria.

50
1.4.1 Algoritmo de agrupamento o hierárquico
Em um algoritmo de agrupamento hierárquico, cria-se uma hierarquia de relacionamentos entre os

elementos e, assim, é gerada uma sequência de partições aninhadas. Existe a abordagem divisiva, na

qual um cluster inicia com todos os objetivos, e a sequência é formada a partir da divisão sucessiva

desse cluster. Na abordagem aglomerativa, no início, existe vários clusters, ou n clusters, com um único

objeto. A sequência de partições é formada por meio do agrupamento de clusters. A seguir, a Figura 1

mostra um exemplo de aplicação dos algoritmos hierárquicos divisivo e aglomerativo.

FIGURA 1: FUNCIONAMENTO DOS ALGORITMOS HIERÁRQUICOS AGLOMERATIVOS E DIVISIVOS

FONTE: Facelli et al. (2011).

51
1.4.2 Algoritmos participais baseados em erro quadrático
Essa categoria consiste de um algoritmo de partição que otimiza o critério de agrupamento utilizando

uma técnica iterativa. O passo inicial consiste na elaboração de uma partição inicial. Posteriormente, os

objetos são movidos de um cluster para outro, com o objetivo de melhorar o valor do critério de agru-

pamento. Esses algoritmos são computacionalmente eficientes, porém podem convergir para um ótimo

local, e não mostra o resultado considerando todo o domínio dos clusters.

O objetivo desse tipo de agrupamento é encontrar uma partição contendo k clusters, o que minimiza

E para um valor de k fixo. A partição resultante é denominada de partição de

variância mínima. Por sua vez, minimizar essa função é um problema NP-hard

(JAIN; DUBES; DUBES, 2010). Assim, os

algoritmos dessa categoria são gulosos e

podem convergir para ótimos locais. Com o 


Para saber mais
erro quadrático, existe uma garantia da pro- O erro quadrático médio é definido como sendo a
média da diferença entre o valor do estimador e do
priedade de compactação dos clusters. parâmetro ao quadrado.

Um algoritmo k-médio divide um con-

junto de dados em k clusters, no qual o valor

de k é fornecido pelo usuário (DUDA; HART; STORK, 2001).

1.4.3 Algoritmos Baseados em Densidade


Esses algoritmos assumem que os clusters são regiões de alta densidade de objetos, separadas por regi-

ões com baixa densidade, no espaço de objetos. Um cluster definido como um componente denso conec-

tado, cresce em qualquer direção dada pela densidade (BERKHIN, 2002), de modo que esses algoritmos

baseados em densidade podem resultar em clusters de formas arbitrárias, de difícil interpretação.


Um dos algoritmos de densidade é o algoritmo DENCLUE (do inglês, DENsity-based CLUstEring)
O algoritmo DENCLUE modela a densidade global de um conjunto de pontos, como o somatório de
funções “influência” associadas a cada cluster (HINNEBURG; KEIM, 1998). Uma desvantagem desse

52
algoritmo é que a função de densidade global resultante tem picos locais, os quais podem ser utiliza-
dos para definir clusters.
Além dos DENCLUE, também podem ser mencionados os algoritmos DBSCAN (do inglês, Density-
Based Spatial Clustering of Applications with Noise) (ESTER et al., 1996) e Wave-cluster (que também
é baseado em grid) (SHEIKHOLESMANI; CHATTERJEE; ZHANG, 1998) como baseados em densidade.

1.4.4 Algoritmos Baseados em Redes Neurais


Redes neurais são sistemas paralelos distribuídos, compostos por unidades de processamento sim-

ples que computam determinadas funções matemáticas, sendo dispostas em

uma ou mais camadas e interligadas por um grande número de conexões.

O algoritmo SOM (Self-Organizing Map)

(KOHONEN, 2001) é uma rede neural artifi-



cial não supervisionada, usualmente utilizada Para saber mais
Um outlier é um dado observacional consideravel-
em tarefas de agrupamento e visualização de mente diferente, em termos numéricos, das outras
observações em uma amostra. O termo é usado em
dados. Trata-se do algoritmo mais tradicional estudos estatísticos e pode apontar anormalidades
do conjunto de dados ou erros na medição realizada.
dessa categoria. Saber como calcular os outliers é importante para
assegurar uma compreensão das medidas e dos er-
ros.
1.4.5 Algoritmo baseado 

em grid
Esse grupo de algoritmos define um grid (reticulado) para o espaço de dados e realiza todas as

operações nesse espaço reticulado. Em termos gerais, essa abordagem é muito eficiente para gran-

des conjuntos de dados, é capaz de encontrar clusters de formas arbitrárias e lida bem com outliers

(FACELI, 2011).

1.5 Modelos Múltiplos Descritivos


A análise de agrupamento compreende diversos aspectos e possui uma série de complicações. Na

53
tentativa de superar as limitações discutidas, várias abordagens que combinam diferentes agrupamen-
tos, ou consideram distintos critérios de forma combinada, foram propostas na literatura. Essas abor-
dagens se mostram robustas perante a diferentes conformações dos dados.
Os ensembles, por exemplo, são direcionados à obtenção de uma única estrutura que melhor se
ajuste aos dados, além disso, necessitam de ajustes de parâmetros.

A combinação de estimadores independentes em comitês ou ensembles é uma técnica comumente

empregada em problemas de classificação e regressão, a fim de melhorar a precisão de estimadores

individuais, aproveitando as características intrínsecas de cada um.

1.6 Avaliação de Modelos Descritivos


A análise e a comparação de resultados em análise de agrupamento podem ser consideradas sob
o ponto de vista de dois objetivos diferentes: avaliação e comparação de algoritmos de agrupamento
e validação das estruturas encontradas por algoritmos de agrupamento. Esses dois objetivos possuem
em comum o fato de estarem ligados ao tema de validação de agrupamentos.
Os critérios relativos comparam diversos agrupamentos com respeito a algum aspecto. Já critérios
internos, estes mensuram a qualidade de um agrupamento com base apenas nos dados originais, isto
é, na matriz de objetos ou na matriz de similaridade. Por sua vez, os critérios externos avaliam um
agrupamento de acordo com uma estrutura estabelecida previamente, que pode refletir, por exemplo,
na intuição do pesquisador sobre a estrutura presente nos dados.

Questão para reflexão


Uma empresa do segmento de varejo construirá um modelo descritivo para representar sua base

de clientes, separando os clientes pela receita do último ano. Como saber qual o melhor modelo para

representar esses dados? Quais métricas podem ser utilizadas para comparar os modelos?

Considerações finais
• Para obter informações do modelo, são verificados se os dados passados possuem padrões de

54
comportamento e se as representações dos dados auxiliam na tomada de decisões.

• É possível mensurar os atributos tanto de forma qualitativa quanto de forma quantitativa.

• As categorias em que foram divididos os algoritmos de agrupamento são: hierárquicos, particio-

nais baseados em erro quadrático, baseados em densidade, baseados em grafo, baseados em

redes neurais e baseados em grid.

Glossário
Cluster bem separado: conjunto de pontos de modo que qualquer ponto em um determinado

cluster está próximo, ou é mais similar, a cada ponto nesse cluster do que qualquer ponto não per-

tencente a ele.

Erro quadrático médio: média da diferença entre o valor do estimador e do parâmetro ao quadrado.

Outlier: dado observacional consideravelmente diferente em termos numéricos das outras

observações.

Verificação de leitura

QUESTÃO 1- Com relação a definições de cluster, assinale V para as afirmativas verdadeiras


e F para as falsas.

( ) Cluster bem separado é um conjunto de pontos de modo que qualquer ponto em um


determinado cluster está próximo, ou é mais similar, a cada ponto nesse cluster do que qual-
quer ponto não pertencente a ele.

( ) Cluster baseado em centro considera um conjunto de pontos oriundos de dois clusters


menores e que compartilham parte dos dados, de forma que esse ponto de compartilha-
mento é chamado de centro.

( ) Cluster contínuo ou encadeado, no qual um conjunto de pontos assim como qualquer


ponto, em um dado cluster, está mais próximo a um ou mais pontos nesse cluster do que a
qualquer outro que não pertence a ele.

55
( ) Cluster é baseado em densidade, em que o cluster será uma região densa de pontos,
separada de outras regiões pela similaridade dos dados.

( ) Cluster baseado em similaridade, considera um conjunto de pontos similares, enquanto


um ponto fora do cluster não é similar

Assinale a única alternativa que apresenta a sequência correta:


a) F – F – V – V – V

b) V – V – F – F – F

c) V – F – V – F – V

d) F – F – V – F – V

e) V – V – F – V – F .

QUESTÃO 2- Os algoritmos de agrupamento existentes apresentam diferentes formas de


explorar e verificar estruturas presentes em um conjunto de dados e é possível que os algo-
ritmos sejam enquadrados em mais de uma categoria. Assinale a alternativa que apresenta
uma categoria de algoritmo de agrupamento NÃO existente:
a) Algoritmo de agrupamento hierárquico.

b) Algoritmos participais baseados em erro sistemático.

c) Algoritmos baseados em densidade.

d) Algoritmos baseados em Redes Neurais.

e) Algoritmo baseado em espaço reticulado.

56
QUESTÃO 3- Uma classe importante de métodos de mineração de dados são os modelos
descritivos ou modelos de aprendizado não supervisionado. Com relação aos modelos des-
critivos, analise as afirmativas a seguir:

I. São utilizados apenas dados históricos, com suas respectivas variáveis, para a cons-
trução de um modelo, e exige-se uma figura externa para guiar o aprendizado.

II. Na modelagem de um processo de Data Mining, uma classe importante de métodos


de mineração de dados são modelos de aprendizado supervisionado.

III. Na análise de agrupamento, o aprendizado está focado nos dados e não são neces-
sários conhecimentos anteriores sobre as classes ou as categorias que formarão os agrupa-
mentos.

IV. É possível mensurar os atributos apenas de forma quantitativa, usando, por exemplo,
medidas estatísticas, como média e desvio padrão.

V. A análise e a comparação de resultados em análise de agrupamento podem ser consi-


deradas sob o ponto de vista de dois objetivos diferentes: avaliação e comparação de algorit-
mos de agrupamento e validação das estruturas encontradas por algoritmos de agrupamento

Assinale a única alternativa que compreende apenas as afirmativas corretas:


a) Apenas II e IV.

b) Apenas I, II e V.

c) Apenas III e V.

d) Apenas III, IV e V.

e) Apenas I, III e IV.

57
Referencias bibliográficas
BARBARA, D. An introduction to cluster analysis for data mining. 2000. Disponível em: <http://

www-users.cs.umn.edu/~han/dmclass/cluster_survey_10_02_00.pdf>. Acessado em: 10 maio 2018.

BERKHIN, Pavel. Survey Of Clustering Data Mining Techniques. São Jose: Accrue Software, 2002.

DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification. 2ª ed. Nova Jersey: Wiley-

Interscience, 2001.

ESTER, M.; KRIEGEL, H. P.; SANDER, J.; XU, X. A density-based algorithm for discovering clusters

in large spatial databases with noise. In: SIMOUDIS, E.; HAN, J.; FAYYAD, U. Proceedings of 2nd Int.

Conf. on Knowledge Discovery and Data Mining. Palo Alto: AAAI Organization, 1996, p. 226–231.

FACELI, Katti et al. Inteligência Artificial: Uma abordagem de aprendizagem de máquina. Rio de

Janeiro: LTC, 2011.

HINNEBURG, A.; KEIM, D. A. An efficient approach to clustering in large multimedia databases with

noise. In: AGRAWAL, R.; STOLORZ, P.; PIATETSKY, G. (Org.) Proceedings of 4rd Int. Conference on

Knowledge Discovery and Data Mining. Barcelona: AAAI Press, 1998, p. 58-65.

JAIN, A. K., DUBES, R. C. e CHEN, C.-C. Bootstrap techniques for error estimation. IEEE –

Transactions on Pattern Analysis and Machine Intelligence, v. 9, n. 5, p. 628–633, 1987.

KOHONEN, Teuvo. Self-Organizing Maps. Berlin: Springer, 2001.

MITCHELL, Tom M. Machine Learning. Nova York: McGraw-Hill, 1997.

SHEIKHOLESLAMI, G.; CHATTERJEE, S.; ZHANG, A. WaveCluster: A multi-resolution clustering

approach for very large spatial databases. In: GUPTA, A.; SHMUELI, O.; WIDOM, J. Proceedings of the

24th International Conference on Very Large Data Bases. New York: ACM Press, 1998, p. 428-439.

TURBAN, Efraim et al. Business intelligence: um enfoque gerencial para a inteligência do negócio.

Porto Alegre: Bookman, 2009.

58
GABARITO

QUESTÃO 1- Resposta C: A segunda e a quarta afirmativa são falsas, pois um cluster ba-
seado em centro considera um conjunto de pontos, de forma que qualquer ponto, em um
dado cluster, está mais próximo ao centro desse cluster do que ao centro de qualquer outro;
um cluster baseado em densidade, considera que o cluster será uma região densa de pontos,
separada de outras regiões de alta densidade e por regiões de baixa densidade.

QUESTÃO 2- Resposta B: As categorias em que foram divididos os algoritmos de agru-


pamento são: hierárquicos, particionais baseados em erro quadrático (e não sistemático),
baseados em densidade, baseados em grafo, baseados em redes neurais e baseados em grid
(espaço reticulado).

QUESTÃO 3- Resposta C. Apenas as afirmativas III e V estão corretas.


A afirmativa I está incorreta porque, na verdade, inexiste uma figura externa para guiar o
aprendizado.
A afirmativa II está incorreta, pois na modelagem de um processo de Data Mining, são em-
pregados os modelos descritivos ou modelos de aprendizado não supervisionado.
A afirmativa IV está incorreta, pois é possível mensurar os atributos tanto de forma qua-
litativa quanto de forma quantitativa. As tarefas descritivas possuem diferentes fases, tai
como: sumarização, associação e agrupamento. Nessas etapas, podem ser aplicadas desde
medidas estatísticas mais rudimentares, como média e desvio padrão, até complexas téc-
nicas de visualização dos relacionamentos existentes entre atributos

59
5
Modelos
preditivos
Objetivos Específicos
• Apresentar o conceito de modelos preditivos e as classes de classificação e regressão.

• Explicar o funcionamento dos modelos baseados em distância.

• Elucidar sobre o funcionamento dos modelos probabilísticos.

• Apresentar o funcionamento dos modelos baseados em procura.

Introdução
As duas classes de métodos de mineração de dados são os modelos descritivos e os modelos pre-

ditivos (FACELI et al., 2011). Um modelo preditivo, também conhecido como aprendizado supervisio-

nado, utiliza dados de histórico, chamados de conjunto de treinamento, para criar uma função que

estima o valor de f(x) dado um valor de x que não estava no conjunto original. Os modelos preditivos

podem ser divididos em classes de classificadores e regressores, dependendo do domínio dos valores

da variável de entrada. O erro mínimo de um classificador é conhecido como erro de Bayes.

Um dos métodos preditivos é baseado na distância, que pode considerar apenas o vizinho mais

próximo ou k vizinhos mais próximos. Adicionalmente, existem métodos probabilísticos que conside-

ram a probabilidade condicional, o Teorema de Bayes. A forma gráfica para representação de modelos

probabilísticos é chamada de Redes de Classificação Bayesiana. Um outro tipo de modelo é o base-

ado em Busca, no qual existe árvore de decisão, árvore de regressão e modelos baseados em regras

(FACELI et al., 2011).

Uma árvore de decisão utiliza a estratégia de dividir para conquistar, e os nós representam, nesse

caso, elementos e os ramos os critérios de decisão. Por sua vez, uma regra de decisão representa uma

implicação. Para métodos de otimização, as técnicas mais difundidas são as Redes Neurais Artificiais

(RNA) e as máquinas de vetores de suporte.

61
1. métodos preditivos e classes
Existem duas classes de métodos de mineração de dados: os modelos descritivos e os mode-

los preditivos. Nos modelos descritivos, são utilizados apenas dados históricos, com suas respecti-

vas variáveis, para a construção de um modelo. Além disso, inexiste uma figura externa para guiar o

aprendizado.

Por sua vez, um algoritmo de aprendizado de máquina preditivo, também conhecido como apren-

dizado supervisionado, é representado por uma função que constrói um estimador com base em um

conjunto de dados rotulados.

Uma definição formal de modelo preditivo é dado a um conjunto de observações de pares orde-

nados (xi, f(xi)) para os diversos pontos em que f(x) é a função dada pelo

algoritmo preditivo, que aprende uma aproximação de f(x), permitindo a

estimação dos valores de f(x) para outros

valores de x que não estavam presentes no



conjunto anterior. Exemplificando
Os rótulos indicam o domínio dos valores. A Figura 1, a seguir, exemplifica os dois tipos de
classes de funções: classificação (gráfico a) e re-
Caso o domínio consistir em conjuntos finitos gressão (gráfico b). Na Gráfico (a) ou classificação,
com base no resultado em dois exames, os pacientes
de valores nominais, como os meses do ano são separados em duas classes: classe saudável e
classe doente. Isso é obtido por meio da fronteira de
no formato de texto, existe um problema de decisão, a partir da qual o paciente muda em classe,
classificação, e o estimador a ser gerador é com um pequeno deslocamento do resultado dos
exames, que será calculado por meio dos modelos
um classificador. Entretanto, se os domínios preditivos, e a determinação dessa fronteira é o foco
da implementação desse tipo de modelo.
forem um conjunto infinito de valores numé- Por sua vez, o gráfico (b), exemplifica uma regressão
cujo objetivo é encontrar a função que melhor de-
ricos, ocorre uma regressão, e o estimador screve o comportamento da vazão média da água de
é chamado de regressor. Tanto um classifi- um determinado rio, medida no decorrer de diversos
anos. No caso, existe uma variável dependente, a
cador como um regressor são funções que vazão em que será feita a regressão, e uma indepen-
dente, o tempo em anos. Também é possível realizar
dado um valor, não rotulado atribuem a este regressões com múltiplas variáveis, o que irá formar
superfícies na regressão.
uma das possíveis classes ou um valor real, 
respectivamente (DIETTERICH, 1998).

62
FIGURA 1. EXEMPLOS DE CLASSES DE MODELOS PREDITIVOS: (A) CLASSE DE CLASSIFICAÇÃO E (B)

CLASSE DE REGRESSÃO

FONTE: Faceli et al. (2011, p. 55).

Os dados podem estar representados em forma de tabela ou em forma gráfico. A função f pode ser

de variadas formas, por exemplo, pode ser representada por combinações lineares, ou seja, somas de

atributos de entradas multiplicados por constantes; combinações não lineares, quando os multiplica-

dores não são constantes; expressões lógicas; e funções por ramos.

Para compreender um problema de classificação, assuma que é conhecida a função densidade

de probabilidade (fpd). É possível dividir em duas classes e elaborar fpd para cada classe. O melhor

63
classificador possível é aquele que divide

as fpds no ponto de intersecção. Desse 


Para saber mais
modo, classifica um objeto conforme
Função densidade de Probabilidade: seja X uma variável
sua maior probabilidade. aleatória contínua. A função de densidade de probabili-
dade (f.d.p.) f(x) é uma função que satisfaz as seguintes
Esse classificador possui um erro condições:

mínimo, pois movendo em qualquer

direção, o erro cresce sempre. Esse erro

mínimo é conhecido como erro de Bayes

ótimo e é um mínimo teórico da capaci-

dade de generalização de classificadores.

1.1 Métodos Figura 2: Condições da função densidade de probabilidade


Fonte: Pires (2014, p. 19)
baseados em 

distância
Uma das técnicas de aprendizado de

máquina é baseada na proximidade dos

dados na realização de predições. A premissa



é que os dados similares se concentrem em Assimile
O erro de Bayes ótimo é um classificado que atribui
uma mesma região do espaço das variáveis a classe de maior probabilidade de fdp e possui o
menor erro como classificador.
de entrada. Já dados não similares, estão 

distantes entre si.

O algoritmo mais simples dessa técnica é

chamado de algoritmo dos vizinhos mais próximos, que classifica um novo ponto, baseado no con-

junto de dados próximos a ele, utilizados no treinamento. Esse algoritmo apenas memoriza os objetos

de treinamento, não aprende um modelo compacto para os dados. Sendo assim, é considerado um

algoritmo preguiçoso (lazy). Um benefício é que ele pode ser aplicado tanto em questões de regressão

como em questões de classificação, com apenas pequenos ajustes (FACELI et al., 2011).

64
Dependendo do número de vizinhos, o algoritmo dos vizinhos mais próximos possui variações. No

algoritmo mais simples, é considerado apenas um elemento da vizinhança, esse algoritmo é chamado

de 1-Vizinho mais próximo (1-NN, do inglês: 1-Nearest Neighbour).

Inicialmente, existe uma fase de treinamento, na qual o algoritmo armazenará os resultados obtidos,

que fazem parte do conjunto de treinamento. Para classificar um elemento que ainda não esteja rotulado,

calcula-se a distância entre esse ponto e o vetor de valores. O ponto de treinamento que estiver com a

menor distância, em relação ao elemento não rotulado, será o vizinho mais próximo, e a classificação do

elemento não rotulado será dada pela classificação do vizinho mais próximo (FACELI et al., 2011).

Verifica-se que é um algoritmo bastante simples, entretanto as superfícies de decisão desenhadas pelo

algoritmo 1-NN não são elementares e são representadas por poliedros convexos, com centro em cada

objeto do conjunto de treinamento. O conjunto desses poliedros é chamado de diagrama de Voronoi.

FIGURA 3: DIAGRAMA DE VORONOI

FONTE: Medeiros (2013, s. p.).


65
É possível estender o algoritmo 1-NN, para considerar os k vizinhos mais próximos em vez de con-
siderar somente o vizinho mais próximo. Com isso, serão utilizados os k objetos do conjunto de trei-
namento mais próximos do ponto de teste xt, em que k é um parâmetro de entrada do algoritmo.
Objetos com características semelhantes pertencem ao mesmo grupo. Por sua vez, o algoritmo de
treinamento consiste apenas em armazenar objetos.
O k-NN constrói aproximações locais da função objetivo, diferentes para cada novo dado a ser clas-
sificado. Essa característica pode ser vantajosa quando a função objetivo é muito complexa, mas ainda
pode ser descrita por uma coleção de aproximações locais de menor complexidade (MITCHELL, 1997).

Esse algoritmo é aplicável mesmo em problemas de alta complexidade e, ao passo que novos pon-

tos de treinamento são inseridos, o modelo considerará esse novo conjunto, funcionando de forma

incremental. Para um número infinito de objetos, o erro do 1-NN é majorado pelo dobro do erro do

Bayes ótimo, e o erro do k-NN tende para o erro do Bayes ótimo.

O algoritmo de vizinhos mais próximos possui, entretanto, desvantagens em relação a não obter

uma representação compacta dos objetos. Adicionalmente, a fase de treinamento só inclui a memo-

rização dos dados e pouco processamento. Para classificar um objeto, é necessário calcular a distância

do objeto em relação a todos os elementos do conjunto de treinamento, que já pode ter armazenado

muitas informações. Dessa forma, computacionalmente, a predição pode ser custosa, e para um con-

junto grande de objetos, esse processo pode ser lento.

O número de atributos define a quantidade de dimensões do espaço e existem trabalhos de pes-

quisa relacionados ao algoritmo k-NN que investigam a redução do espaço do problema.

1.2 Métodos Probabilísticos


Os métodos probabilísticos bayesinanos consideram que a probabilidade de ocorrência de um evento

A, dado um evento B, não depende apenas da relação entre A e B, mas também da probabilidade de

observar A, independentemente de observar B. O evento A pode ser uma classe, por exemplo, um

aluno aprovado, e o evento B pode ser um atributo de entrada, por exemplo, as notas obtidas por

esse aluno.

66
O modelo probabilístico quantitativo é

representado por tabelas com a distribuição 


Para saber mais
das variáveis. Já um modelo probabilístico grá-
O Teorema de Bayes é usado para calcular a probab-
fico é implementado pelo modelo qualitativo, ilidade a posteriori de um evento, sua probabilidade
e sua verossimilhança do novo dado. O teorema é
um grafo cujos nós representam as variáveis. baseado na probabilidade condicional, colocada a se-
guir.
Dos classificadores bayesianos, o mais

popular é o naive Bayes. O termo naive é Assim, é possível chegar no teorema de Bayes, que
é dado por:
derivado da hipótese de que os valores dos

atributos de um exemplo são independentes



de sua classe. Nesse modelo, um problema

de duas classes, definido por atributos boo-

leanos, é um hiperplano. Assim, a superfície de decisão é linear.

O modelo naive Bayes possui bom desempenho em diversos domínios, mesmo quando existe

dependência entre os atributos. Além disso, não é sensível a características irrelevantes e lida bem

com dados reais, contínuos e discretos. Um ponto negativo para esse modelo é que se assume uma

independência das características (FACELI et al., 2011).

1.2.1 Rede Bayesianas para Classificação


Há independência condicional quando existe uma relação estatística entre duas variáveis e quando

uma terceira variável é conhecida. Matematicamente, X é, condicionalmente, independente de Y dado

a Z, se P(X|Y,Z) = P(X|Z).

Os modelos gráficos probabilísticos ou redes bayesianas, com base no conceito de independência

condicional, verificam quais os parâmetros a serem utilizados e qual a representação de dependência

entre as entradas.

Pode ser apresentado como um modelo qualitativo, denominado como grafo acíclico direcionado,

cujos nós representam as variáveis e um modelo quantitativo, com tabelas de distribuição da variável

resposta, dadas as outras variáveis que podem modificá-la.

67
Um arco entre dois nós denota influência ou correlação. O conjunto de variáveis aleatórias, nós do

grafo, que influenciam uma variável resposta yi é conhecimento, como Pais de yi.

A dificuldade na escolha da estrutura para uma determinada questão está ligada à seleção de

modelos, verificando entre diversos modelos possíveis que “melhor se ajustam” em relação ao con-

junto de dados de treinamento. De certa forma, existe um problema de busca, no qual as propostas

de modelos são avaliadas por meio de uma função de pontuação, a qual mede a qualidade de cada

hipótese candidata.

No extremo mais geral, temos classificadores que assumem que todos os atributos interagem entre

si. Entre os dois extremos, temos modelos de granularidade crescente. É possível utilizar os modelos

gráficos probabilísticos em diferentes tarefas de aprendizado, desde previsão, em que se deseja obter

o resultado mais provável para os dados de entrada, até o diagnóstico, em que se pretende encontrar

as causas mais prováveis para os efeitos observados.

1.3 Métodos baseados em procura


É possível organizar o problema de aprendizado com uma procura em um espaço de diversas solu-

ções possíveis. Por esse raciocínio, é possível construir modelos baseados em árvores, tanto uma

árvore de decisão quanto uma árvore de regressão e modelos baseados em regras.

1.3.1 Árvore de Decisão e Regressão


Em uma árvore de decisão, para a resolução de um problema, utiliza-

-se a estratégia de dividir para conquistar,

quebrando um problema complexo em pro-

blemas mais simples recursivamente, até 


Link
que existam problemas simples de solução Leia o artigo “O Algoritmo ID3” que detalha o fun-
cionamento da árvore de decisão. Disponível em
já conhecida. Os algoritmos ID3, Assistant e <https://www.cise.ufl.edu/~ddd/cap6635/Fall-97/
Short-papers/2.htm>. Acesso em: 10 maio 2018.
CART são exemplos de algoritmos baseados 

em árvores de decisão.

68
Um nó folha é rotulado com uma função. Um nó de divisão contém um teste condicional baseado

nos valores do atributo. Cada nó da árvore corresponde a uma região nesse espaço. As regiões defi-

nidas pelas folhas da árvore são mutuamente excludentes, e a reunião dessas regiões cobre todo o

espaço definido pelos atributos.

O espaço de hipóteses das árvores de decisão é enquadrado no formalismo: Forma Normal Disjuntiva

(FND). Uma fórmula estará na forma normal disjuntiva quando for: A V A ou apenas A. Para cada FND,

as condições ao longo de um ramo são conjunções de condições, já os ramos individuais são disjunções.

As árvores de decisão possuem diversas vantagens e são aplicadas tanto no meio acadêmico como

no meio empresarial. Uma vantagem é que não é necessário assumir nenhuma distribuição dos dados,

sendo o modelo muito flexível. Adicionalmente, as árvores de decisão são muito robustas e selecionam

os atributos que farão parte do modelo de decisão. Além disso, possuem fácil interpretação e, por ser

um algoritmo guloso, é construído de cima para baixo e utiliza a estratégia de dividir para conquistar.

Se um dos atributos não for conhecido, no entanto, podem surgir problemas decisão. Também pode

ocorrer uma duplicação de testes em diferentes ramos da árvore. Dependendo dos dados de entrada,

o modelo obtido pode não ser estável.

1.3.2 Regras de Decisão


Uma regra de decisão representa uma implicação, descrito como: se A então B. O termo condicio-

nal pode ser uma junção de condições. Em uma condição, existe uma relação

entre um atributo e os valores do seu domínio.

Cada regra cobre certa região do espaço das instâncias. As regras de deci-

são removem condições em uma regra sem

remover outra regra e perdem a distinção 


Exemplificando
entre testes perto da raiz e perto das folhas.
Idade ≥ 18 v Passou teste motorista = Sim → Carta
Martin (1997) agrupa as medidas nas de Motorista = Sim
Celular = Pré-Pago v Saldo = 0 → Ligação efetuada
seguintes categorias das chamadas funções = Não

de mérito: Medidas de função de impureza,

69
medidas para enfatizar a disparidade dos subconjuntos e medidas estatísticas de independência.

Entropia mede a aleatoriedade de uma variável aleatória. A poda de uma árvore é a troca de nós

profundos por folhas. Também pode ser entendida quando serão removidos os sub-nós de um nó

de decisão. Poda é considerada a parte mais importante do processo de construção da árvore, pelo

menos em domínios com ruídos. Holte (1993) implementou o algoritmo OneR, do inglês OneRule, o

qual constrói regras baseadas em um atributo único.

1.4 Métodos baseado em otimização


Em problemas de otimização, a meta é maximizar ou minimizar o valor de uma função objetivo. As

duas técnicas mais difundidas em aprendizado de máquina, que utilizam otimização de uma função

em seu treinamento, são: as Redes Neurais Artificiais (RNA) e as máquinas de vetores de suporte, do

inglês Support Vector Machine (SVM).

Uma RNA é um sistema computacional distribuído que consiste em unidades de processamento

interconectadas, com alta densidade e simples. Essas unidades são denominadas neurônios artificiais

e realizam o processamento de funções matemáticas. As unidades são dispostas em camadas e inter-

ligadas por numerosas conexões. Essas conexões simulam as sinapses biológicas e têm pesos asso-

ciados, que ponderam a entrada recebida por cada neurônio da rede. Esses pesos podem ter valores

positivos ou negativos, dependendo do comportamento da conexão, e seus valores são ajustados pelo

processo de aprendizado (MITCHELL, 1997).

As SVMs possuem suas origens na aplicação de conceitos da Teoria de Aprendizados Estatístico

(TAE). A TAE determina condições matemáticas que auxiliam na escolha de um classificador particular,

a partir de um conjunto de dados de treinamento (FACELI et al., 2011).

Questão para reflexão


Considerando um conjunto de dados numéricos em uma empresa no setor de vendas, como saber qual

método preditivo aplicar para obter o menor erro na predição para as vendas nos próximos dois meses?

70
Considerações Finais
• Para um modelo preditivo, é dado um conjunto de observações de pares ordenados (xi, f(xi))

para os diversos pontos em que f(x) é a função dada pelo algoritmo preditivo, o qual aprende

uma aproximação de f(x), estima-se os valores de f(x) para outros valores de x que não estavam

presentes no conjunto anterior.

• Os principais tipos de modelos preditivos são: métodos baseados em distância, métodos proba-

bilísticos, métodos de procura e métodos de otimização.

• Um dos métodos preditivos é baseado na distância, que pode considerar apenas o vizinho mais

próximo ou k vizinhos mais próximos.

• Outros tipos de modelos são os baseados em Busca, no qual existem árvore de decisão, árvore

de regressão e modelos baseados em regras. Uma árvore de decisão utiliza a estratégia de divi-

dir para conquistar, e os nós representam elementos e os ramos os critérios de decisão.

• Para métodos de otimização, as técnicas mais difundidas são as Redes Neurais Artificiais (RNA)

e as máquinas de vetores de suporte.

Glossário
Redes Neurais Artificiais (RNA): técnicas computacionais que apresentam um modelo matemá-

tico inspirado na estrutura neural de organismos inteligentes e que adquirem conhecimento por meio

da experiência.

Diagrama de Voronoi: conjunto dos poliedros de decisão de um algoritmo do método de distância

com um vizinho.

Erro de Bayes ótimo: menor erro possível em um sistema de classificação.

71
Verificação de leitura

QUESTÃO 1- Classifique os métodos das seguintes técnicas de modelos preditivos: Redes


Neurais e Árvore de Decisão.
a) Baseados em Otimização; baseados em Distância.

b) Probabilístico; baseados em Otimização.

c) Baseados em Otimização; baseados em Procura.

d) Baseados em Distância; Probabilístico.

e) Baseados em Otimização; baseados em Otimização.

QUESTÃO 2- A técnica de árvores de decisão utiliza uma abordagem de cima para baixo, ou
seja, top-down e possui uma estratégia computacional. Qual é essa estratégia?
a) Explorar todos os casos.

b) Dividir para conquistar.

c) Programação orientada a objeto.

d) Fazer tudo de uma única vez.

e) O pré-processamento é simples, só armazena as informações.

QUESTÃO 3- Em relação ao método baseado em distâncias com a técnica do vizinho mais


próximo, assinale a alternativa correta.
a) O algoritmo é de fácil implementação.

b) O erro é minimizado com esse algoritmo.

c) A superfície de decisão é composta por círculos.

d) Não é possível fazer com mais de 1 vizinho.

e) A fase de treinamento é muito complexa computacionalmente.

72
Referências Bibliográficas
DIETTERICH, T. G. Approximate statistical tests for comparing supervised classification learning

algorithms. Neural Computation, v. 10, n. 7, p. 1895-1924, 1998.

FACELI, Katti et al. Inteligência Artificial: Uma abordagem de aprendizagem de máquina. Rio de

Janeiro: LTC, 2011.

HOLTE, R. C. Very simple classification rules perform well on most commonly used datasets.

Machine Learning, v. 11, p. 63-91, 1993.

MARTIN, J. An exact probability metric for decision tree spliting and stopping. Machine Learning,

v. 28, p 257-291, 1997.

MEDEIROS, Anderson. Diagrama de Voronoi e suas aplicações em SIG. Anderson Medeiros:

Consultor em Geotecnologias, 2 jan. 2013. Disponível em: <http://www.andersonmedeiros.com/dia-

grama-de-voronoi-aplicacoes-sig/>. Acesso em: 10 maio 2018.

MITCHELL, Tom M. Machine Learning. Nova York: McGraw-Hill, 1997.

PIRES, Juliana Freitas. Cálculo de Probabilidades e Estatística I, Universidade Federal da Paraíba.

2014. Disponível em <http://www.de.ufpb.br/~juliana/Calculo%20das%20Probabilidades%20e%20

Estatistica%20I/Aula3.pdf>. Acesso em: 10 maio 2018.

73
Gabarito

QUESTÃO 1- Resposta C.
Redes Neurais Artificiais são uma técnica de métodos de otimização. Árvores de decisão são téc-
nicas de modelos de busca.

QUESTÃO 2- Resposta B.
É utilizada a Estratégia de Dividir para conquistar, o que consiste em dividir um problema complexo

em problemas mais simples.

QUESTÃO 3- Resposta A.
O algoritmo é bem simples e está em diversos livros.

74
6 Análise de
negócios e
visualização
de dados I
Objetivos Específicos
• Descrever a análise de negócios ou Business Analisys (BA) e a sua importância para as

organizações.

• Apresentar e descrever sucintamente os principais métodos e ferramentas de BA.

• Compreender as razões pelas quais o processamento analítico online ou OnLine Analytical

Processing (OLAP), a visualização de dados e a multidimensionalidade podem melhorar a tomada

de decisões.

Introdução
O volume de informações que as empresas possuem aumentou exponencialmente nos últimos

anos, mas ter os dados não é suficiente. É necessário analisá-los de forma automatizada para que

esses dados se transformem em informações e estas se transformem em conhecimento. A Análise de

Negócios ou Business Analisys (BA) compreende uma ampla gama de aplicações e técnicas para reu-

nir, armazenar, analisar e fornecer acesso aos dados, com o objetivo de ajudar os usuários da empresa

a tomarem melhores decisões operacionais, comerciais e estratégicas.

A BA é conhecida também como processamento analítico, ferramentas de BI, aplicações de BI e

simplesmente BI. Pode-se dividir as ferramentas de BA em três grupos: descoberta de informações e

conhecimento, suporte à decisão e sistemas inteligentes e visualização. Os sistemas OLAP se enqua-

dram no grupo de descoberta de informações e conhecimento e se referem a uma grande quantidade

de atividades normalmente executadas por usuários finais no ambiente online. Inclui como suas ati-

vidades a geração e a resposta de consultas, solicitações de relatórios e gráficos ad hoc e a execução

deles. Os tipos de sistemas OLAP são: ROLAP, MOLAP, HOLAP, DOLAP e WOLAP.

Uma característica fundamental de sistemas OLAP é ser capaz de filtrar os dados por diversas for-

mas e modos customizados pelo usuário. Podem, ainda, sumarizar o conteúdo em uma estrutura cha-

mada de cubo OLAP. Existem algumas funcionalidades em um sistema OLAP para manipulação dos

dados como: slide-dice, drill-up, drill-down, drill-accross e drill-though.

76
1. Análise de negócios e visualização
de dados
Conforme já visto anteriormente, a inteligência de negócios ou Business Intelligence (BI) implica em

obter dados e informações, se possível transformando informações em conhecimento, de uma grande

variedade de fontes, e organizá-los em um Data Warehouse para usá-los na tomada de decisões.

Por sua vez, a Análise de Negócios ou Business Analisys (BA) compreende uma ampla gama de

aplicações e técnicas para reunir, armazenar, analisar e fornecer acesso aos dados, com o objetivo de

ajudar os usuários da empresa a tomarem melhores decisões operacionais, comerciais e estratégicas

(TURBAN et al., 2009). A BA é conhecida, ainda, como processamento analítico, ferramentas de BI,

aplicações de BI e simplesmente BI.

A BA oferece os modelos e procedimentos de análise para a BI. Existem muitos métodos e cente-

nas de ferramentas de software para conduzir análises.

Uma aplicação analítica é um passo rumo ao refinamento, em relação ao simples oferecimento de

técnicas ou ferramentas de análise. Essa aplicação permite atividades como:

• automatização do processamento e, na maioria dos casos, de uma parte da tomada de decisões

de um ser humano;

• uso disseminado de técnicas quantitativas complexas, como análise de Regressão multivariada,

Data Mining, Inteligência Artificial ou Programação não linear.

As soluções de Business Intelligence são compostas por uma série de componentes tecnológicos

que possibilitam um ambiente propício para tomada de decisão. Essas soluções podem combinar os

componentes para cada situação. Para a camada de apresentação dos dados e das informações, utili-

zam-se as soluções OLAP (OnLine Analitical Processing), isto é, processamento analítico online.

As soluções OLAP apresentam uma alternativa para a publicação dos dados e informações vindas

dos modelos dimensionais. A apresentação dessas informações pode ser de maneira tabular ou gráfica,

tanto dos dados históricos, armazenados nos repositórios Data Warehouse, quanto dos dados reais

para auxiliar o processo decisório.

77
Ao usar software para BA, o usuário pode fazer consultas, requisitar relatórios ad hoc ou realizar

análises. É possível, por exemplo, fazer análises executando consultas em várias camadas.

As aplicações mais sofisticadas de BA, que estão no chamado estado-da-arte, incluem atividades

como modelagem financeira, orçamentos, alocação de recursos e inteligência competitiva. Tais siste-

mas avançados de BA envolvem componentes como modelos de decisão, análise do desempenho dos

negócios, perfis de dados, métricas, ferramentas de reengenharia e podem ser usados em tempo real.

Ao identificar o cliente, por meio de uma aplicação analítica, com enfoque na parte comercial, pode

surgir uma tela que, além das informações de cadastrado, pode conter as últimas compras e visitas

desse cliente, bem como os produtos que ele tem maior propensão de compra.

1.1 Tipos de ferramentas de BA


A BA emprega um grande número de ferramentas e técnicas de análise. Podemos dividi-las em

três grandes categorias, conforme apresentado na Figura 1 a seguir. A primeira categoria é a desco-

berta de informações e conhecimento, que contempla as ferramentas OLAP, a ser detalhada posterior-

mente: consultas e relatórios ad hoc, data mining, web mining, text mining e mecanismos de busca. A

segunda categoria é o suporte à decisão e sistemas inteligentes, como exemplo: inteligência artificial,

análise estatística, análises preditivas, suporte executivo e corporativo. A última categoria é visualiza-

ção, que contempla análise visual, dashboards, scorecards e realidade virtual 3D.

78
FIGURA 1: CATEGORIAS DE ANÁLISE DE NEGÓCIOS

FONTE: Turban et al. (2009, p. 103).

Os fornecedores possuem diferentes formas de classificação das ferramentas de BA.

Diversas empresas de diferentes segmentos de negócios e espalhadas por todo o mundo utilizam

ferramentas de Business Analytics. O elemento Exemplificando abaixo mostra como a Nestlé utilizada

BA para previsão de demandas com ferramentas analíticas do SAS.

79
1.2 OLAP

Uma arquitetura de Business Intelligence é Link
Existem vários fornecedores de ferramentas de BA
composta por vários componentes, os quais como:
Microstrategy: <https://www.microstrategy.com/
podem ser combinados para que se obtenha br>. Acesso em: 10 maio 2018.
SAP, empresa líder em software empresarial:
a melhor solução para o problema em ques- <https://www.sap.com/brazil/products/analytics/
business-intelligence-bi.html>. Acesso em: 10 maio
tão da organização. 2018.
O SAS, empresa líder global de solução de Ana-
Após finalizar a concepção dos repositó- lytics: <https://www.sas.com/pt_br/home.html>.
Acesso em: 10 maio 2018.
rios de dados, o próximo passo é identificar

qual a melhor abordagem para consumir os

dados, bem como apresentar as informações

e conhecimentos descobertos.

Usualmente, podem-se utilizar duas abor-

dagens diferentes para a etapa de consumo 


Exemplificando
e processamento, transformando os dados A Nestlé está presente no Brasil desde 1921 e está
comprometida com o propósito de melhorar a qual-
em informações e conhecimento para, pos- idade de vida e contribuir para um futuro mais
saudável. A Nestlé e o SAS possuem um contra-
teriormente, o seu processamento. As abor- to global para a aquisição de novas soluções de in-
teligência analítica. O intuito é aprimorar a assertivi-
dagens citadas são: dade dos planejamentos de demandas. A previsão de
demandas é essencial para os processos da cadeia de
• Mineração de dados (Data Mining): téc- suprimentos e serve para que se determine também
a expectativa de faturamento de uma empresa. Ela é
nicas e ferramentas com base na Estatística determinante para a definição do plano de produção
de cada uma de suas fábricas, quando se tem uma
ou de Inteligência Artificial, as quais pos- noção mais clara do quanto será necessário de ocu-
pação de linhas, definição de mão de obra, compras
suem como função explicitar os conhecimen- de insumo etc.
Nesse caso, quanto melhor a previsão, melhor e mais
tos implícitos, seja nos repositórios ou nos qualidade terá o planejamento de produção, inclu-
indo a possibilidade de se trabalhar com inventári-
seus documentos.
os menores. Utilizando dados de diversas fontes e
• Sistemas OLAP: sigla para a expressão análise preditivas, a empresa melhorou em 9% a
precisão de seus planejamentos de vendas em uma
Processamento Analítico Online (em inglês: de suas unidades de negócio, gerando impacto dire-
to no nível de serviço aos clientes, redução de in-
Online Analytical Processing). Esses sistemas ventários e melhora no frescor do produto.
Fonte: SAS – The power to know (s. d.).


80
se referem a uma grande quantidade de ati-

vidades, normalmente executadas por usu- 


Para saber mais
ários finais no ambiente online. Inclui como
As ferramentas desenvolvidas para Business Intelli-
gence (BI) que, a partir dos dados coletados, realiza
suas atividades a geração e a resposta de
categorizações, classificações, organizações, filtra-
consultas, solicitações de relatórios e gráfi- gens e processamentos para uma organização são
chamadas de Mineração de Dados ou Data Mining.
cos ad hoc e a execução deles (TURBAN et 

al., 2009).

O processamento OLAP, aplicado pelas

ferramentas de apoio à decisão, possibilita a navegação de forma amigável pelo

modelo multidimensional do Data Warehouse.

Tal fato é importante para a transformação



de informação em conhecimento. Assimile
O termo OLAP (Online Analytical Processing) se ref-
A distinção entre OLAP e Mineração de ere à tecnologia de processamento analítico, que é
designada para obter novas informações de negócio
Dados vai além das distinções entre dados de
por meio de um conjunto de transformações e cálcu-
resumo e detalhes. As funções ou algoritmos los executados sobre as fontes de dados.

normalmente encontrados em ferramentas

OLAP são funções de modelagem descritiva.

No caso da mineração de dados, são funções de descoberta de padrão e modelagem explicativa

(THOMSEN, 2002).

Existem funções e algoritmos utilizados pelos sistemas OLAP que podem ser classificados em:

agregação, alocações, razões, produtos, entre outros.

1.3 Tipos de OLAP


As formas de processamento OLAP variam, principalmente conforme o tipo de armazenamento de

dados utilizado. Os principais tipos de OLAP são:

81
• OLAP multidimensional (MOLAP): quando o OLAP é implementado por meio de um banco de

dados multidimensional especializado, ele é chamado de OLAP multidimensional (MOLAP), por-

que resume transações em visões multidimensionais com antecedência. Os dados são organizados

em uma estrutura de cubos que o usuário pode girar, o que é adequado principalmente a resumos

financeiros. Com o MOLAP, as consultas são mais rápidas, pois a consolidação já foi feita.

• OLAP relacional (ROLAP): quando um banco de dados OLAP é implementado sobre um banco

de dados relacional existente, ele é chamado de OLAP relacional (ROLAP). As ferramentas do

OLAP relacional extraem dados de bancos de dados relacionais. Ao usar declarações de SQL

complexas em relação a tabelas relacionais, o ROLAP pode também criar visões multidimensio-

nais dinamicamente. O ROLAP tende a ser usado em dados que apresentam um grande número

de atributos, em que não possam ser colocados facilmente em uma estrutura de cubos. Os

dados do cliente com diversos campos descritivos, por exemplo, ao contrário dos dados finan-

ceiros, são normalmente candidatos a ROLAP.

• Database OLAP e Web OLAP (DOLAP e WOLAP): o database OLAP se refere a um sistema

de gerenciamento de banco de dados relacional (SGBDR), projetado para hospedar estruturas e

executar cálculos de OLAP. O Web OLAP se refere aos dados de OLAP acessíveis de um nave-

gador da Web.

• Desktop OLAP. o desktop OLAP envolve ferramentas OLAP simples e baratas, que executam

análise local multidimensional e apresentação de dados baixados de bancos de dados relacionais

ou multidimensionais para as máquinas do cliente. Versões da Web movem, constantemente, o

processamento de desktop para um servidor intermediário, o que aumenta a escalabilidade, no

entanto, na melhor das hipóteses, a funcionalidade é comparável à versão de desktop.

• Hybrid OLAP (HOLAP): o Híbrido OLAP combina as formas ROLAP e MOLAP, ou seja, as formas

relacional e multidimensional.

1.4 Características do OLAP

82
Uma principal característica que está presente em todas as abordagens é o cubo multidimensional,

capaz de filtrar os dados por diversas formas e modos customizados pelo usuário e podem sumarizar

o conteúdo em uma estrutura denominado também cubo OLAP ou hipercubo (CECI, 2012). A Figura 2

ilustra uma representação de um cubo tridimensional. Essa estrutura estabelece um formato em que

perspectivas de visualização de informações podem ser facilmente criadas conforme a interação com

o usuário.

FIGURA 2: EXEMPLO DE CUBO MULTIDIMENSIONAL

FONTE: Gouveia e Ranito (2011, p. 134).

Além da visão multidimensional dos dados e dos Cubos OLAP, é possível a realização de suma-

rização e agregação de dados. Existe capacidade de consultas e análises interativas sobre o retorno

83
dos dados, bem como suporte para que os analistas de negócio customizem suas próprias consultas,

relatórios e cálculos.

Por muito tempo, o foco dos sistemas de TI era, principalmente, o processamento de transações

corporativas. O processamento de transações online (OLTP) ofereceu uma solução eficaz, para tarefas

repetitivas e rotina, usando um ambiente de banco de dados relacional distribuído. Tanto as aplicações

de OLTP quanto de sistemas de suporte à gerência (MSS) necessitam de acesso aos dados constan-

temente. Infelizmente, tentar servir os dois tipos de solicitação pode ser uma tarefa problemática, por-

tanto algumas empresas escolhem separar os sistemas de informações em tipos OLTP e tipos OLAP.

O OLTP é voltado para o processamento de transações repetitivas em grandes quantidades e mani-

pulações simples. O OLAP envolve o exame de muitos itens de dados, entre alguns milhares até

milhões, em relacionamentos complexos. Além de responder às consultas dos usuários, o OLAP con-

segue analisar esses relacionamentos e buscar padrões, tendências e exce-

ções. Concluindo, o OLAP é um método direto de suporte à decisão.

As ferramentas OLAP têm característi-

cas que as diferenciam das ferramentas de



SIG, cujo propósito é suportar aplicações tra- Para saber mais
Codd, Codd e Salley desenvolveram uma lista com
dicionais de relatórios de OLTP. E. F. Codd, doze regras para avaliação de produtos OLAP. Al-
gumas delas são: visão conceitual multidimensional
Codd e Salley (1993) definiram sucintamente para formular consultas, relatórios flexíveis, transpar-
ência ao usuário e dimensões e níveis de agregação
as características das ferramentas OLAP nas ilimitados. O artigo está disponível em: <http://
www.uniriotec.br/~tanaka/SAIN/providing_olap_to_
doze regras. user_analysts.pdf>. Acesso em: 10 maio 2018.

Com base na padronização da modelagem

de dados multidimensionais, são definidos

quatro tipos de processamento executados pelos analistas em uma organização.

1. A análise categórica é uma análise estática baseada em dados históricos. Ela se vale da premissa

de que o desempenho passado é um indicador do futuro. Essa é a análise básica suportada por

bancos de dados OLTP baseados em transação.

2. A análise exegética também toma como base os dados históricos e acrescenta a capacidade de

84
análise drilldown. Por sua vez, a análise drilldown é a capacidade de consultar os dados mais a

fundo para determinar os dados detalhados usados para definir um valor derivado.

3. A análise contemplativa permite que um usuário altere um único valor, a fim de determinar seu impacto.

4. A análise formalista permite alterações a múltiplas variáveis.

1.5 Funcionalidade do OLAP


Com o intuito de navegar e localizar informações a partir do repositório de dados, as ferramentas

OLAP fornecem diversas funcionalidades, destacam-se principalmente:

• Slice-dice: capacidade de acessar o DW por meio de qualquer uma de suas dimensões de

maneira igual. É o processo de separação e combinação de dados, com várias possibilidades de

cruzamento de informações (KIMBALL; ROSS, 2002).

• Drill-up ou Roll-up: permite navegar até um nível ou hierarquia de detalhe imediatamente

superior (mais granular) a partir de uma dimensão. Normalmente, associado à ação de remo-

ver um cabeçalho de linha ou uma coluna para resumir um conjunto de dados (INMON, 1997;

KIMBALL; ROSS, 2002).

• Drill-down: ao contrário de roll-up, refere-se à ação de percorrer uma hierarquia de nível supe-

rior de agregação para níveis de menor detalhamento (INMON, 1997).

• Drill-across: possibilita a combinação de dados entre duas ou mais tabelas de fatos em uma

única análise, quase sempre envolvendo consultas separadas que são posteriormente unidas

(KIMBALL; ROSS, 2002).

• Drill-through: ocorre quando o usuário faz análises de distintas visões proporcionadas por troca

de informações entre dimensões, por exemplo: o usuário realiza análises de indicadores pela

dimensão geografia e, posteriormente, passa a analisar sobre a dimensão tempo (SELL, 2006).

Questão para reflexão


Considere uma empresa de bens de consumo de médio porte de destruição nacional, que analise

seus resultados de vendas por meio de relatórios. Como os benefícios de ferramentas OLAP podem

85
gerar resultado em uma empresa?

Considerações Finais
• Business Analisys (BA): compreende uma ampla gama de aplicações e técnicas para reu-

nir, armazenar, analisar e fornecer acesso aos dados, com o objetivo de ajudar os usuários da

empresa a tomarem melhores decisões operacionais, comerciais e estratégicas.

• Sistemas OLAP: referem-se a uma grande quantidade de atividades normalmente executadas

por usuários finais no ambiente on-line, tais como a geração e a resposta de consultas, solicita-

ções de relatórios e gráficos ad hoc.

• Tipos de sistemas OLAP: ROLAP, MOLAP, HOLAP, DOLAP e WOLAP.

• Característica fundamental de sistemas OLAP: é ser capaz de filtrar os dados por diversas for-

mas e modos customizados pelo usuário, bem como pode sumarizar o conteúdo em uma estru-

tura chamada de cubo OLAP.

Glossário
OLAP: processamento analítico online ou OnLine Analytical Processing.

OLTP: processamento de transações online.

Verificação de leitura

QUESTÃO 1- Uma estrutura que diferencia os sistemas OLAP ou sistemas de BI é:


a) a árvore;

86
b) o relatório ad hoc;

c) gráficos;

d) cubos multidimensionais;

e) redes neurais.

QUESTÃO 2- Comparando um sistema online de processamento de transação (OLTP) com


sistemas OLAP, assinale a alternativa correta.
a) Enquanto OLTP trabalha com dados presentes, OLAP trabalha com dados passados, pre-
sentes e projetados.

b) Em ambos os sistemas, as telas são definidas pelo usuário.

c) A OLAP é focada em atividades repetitivas e a OLTP é focada em análise.

d) Ambas possuem as mesmas rotinas.

e) Os relacionamentos entre os itens de dados na OLAP são simples.

QUESTÃO 3- Em uma OLAP, a ação de percorrer uma hierarquia de nível superior de agre-
gação para níveis inferiores de detalhamento é chamada de:
a) Slice-dice;

b) Drill-down;

c) Drill-across;

d) Drill-up;

e) Drill-through.

Referências Bibliográficas
CECI, Flávio. Business intelligence. Palhoça: UnisulVirtual, 2012.

COOD, E. F.; CODD, S. B.; SALLEY, C. T. Providing OLAP to User-Analysts: An IT Mandate. White Paper,

E.F. 1993. Disponível em: <http://www.uniriotec.br/~tanaka/SAIN/providing_olap_to_user_analysts.

87
pdf>. Acesso em: 10 maio 2018.

GOUVEIA, Luís Borges; RANITO, João. Sistemas de informação de apoio à gestão. Porto: Sociedade

Portuguesa de Inovação, 2004.

INMON, W. H. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997.

KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: The Complete Guide to Dimensional

Modeling. New Jersey: Wiley, 2002.

MICROSTRATEGY. Análises empresariais e mobilidade. Disponível em: <https://www.microstra-

tegy.com/br>. Acesso em: 10 maio 2018.

SAP. Soluções de Business Intelligence (BI). Disponível em: <https://www.sap.com/brazil/pro-

ducts/analytics/business-intelligence-bi.html>. Acesso em: 10 maio 2018.

SAS – The power to know. Nestlé aprimora previsão de demanda com soluções de análise do

SAS. Disponível em: <https://www.sas.com/pt_br/customers/nestle-aprimora-previsao-demanda-

-com-solucoes-analise-SAS.html>. Acesso em: 10 maio 2018.

SAS. Software & Soluções de Analytics. Disponível em: <https://www.sas.com/pt_br/home.

html>. Acesso em: 10 maio 2018.

SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias semânticas

para suporte a aplicações analíticas. 2006. 265 f. Tese (Doutorado) - Universidade Federal de Santa

Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia de Produção, Florianópolis,

2006.

THOMSEN, Erik. OLAP Solutions: building multidimensional information systems. 2ª ed. New

York: John Wiley & Sons, 2002.

TURBAN, Efraim. et al. Business intelligence: um enfoque gerencial para a inteligência do negó-

cio. Porto Alegre: Bookman, 2009.


Gabarito

QUESTÃO 1- Resposta certa: D.


Todos os sistemas OLAP podem ser representados por cubos.

88
QUESTÃO 2- Resposta certa: A.
Um sistema OLTP verifica as transações correntes. Já um sistema OLAP, além das transações atu-

ais, verifica as transações passadas e realiza projeções de dados futuros, por meio de ferramentas

preditivas.

QUESTÃO 3- Resposta certa: B.


Drill-down se refere à ação de percorrer uma hierarquia de nível superior de agregação para níveis

inferiores de detalhamento.

89
7 Análise de
negócios e
visualização
de dados II
Objetivos Específicos
• Apresentar tipos e aplicações de consultas e relatórios em Business Intelligence (BI).

• Descrever como a visualização de dados pode melhorar a tomada de decisões.

• Listar ferramentas de análise dos principais fornecedores.

• Apresentar os sistemas de informações geográficas (GIS) e seu apoio à tomada de decisões.

Introdução
Após a realização de processamento analítico online (OLAP), visto anteriormente, é possível a

geração de relatórios e consultas para exibição de resultados. Existe uma correlação entre consultas e

relatórios, posto que o resultado de consultas pode gerar um relatório, assim como o desenho de um

relatório pode gerar uma consulta.

Os relatórios podem ser de rotina ou ad hoc. Relatórios de rotina são gerados automaticamente e

distribuídos com periodicidade aos interessados em uma lista de discussão. Por exemplo, relatórios de

vendas semanais são fundamentais para o gerenciamento de uma loja de qualquer segmento, pois,

com posse desse relatório, o gerente pode determinar um plano de ação e verificar os problemas que

ocorreram no período anterior. Um relatório ad hoc possui um objetivo específico, sendo realizado

pelo determinado usuário com um subconjunto dos dados e períodos de referência, diferentes do rela-

tório de rotina.

Diversos fornecedores de software de BI realizam relatórios, consultas, análises e visualização de

dados. Para bancos de dados, a linguagem SQL é uma linguagem padronizada para realização de ope-

rações. A visualização é referente à forma de apresentação dos dados presentes no banco de dados,

que pode auxiliar na identificação de explicações para alguns resultados presentes nos relatórios.

Adicionalmente, existem sistemas que além dos dados, também gravam as informações de posi-

ções geográficas. Os sistemas de informações geográficas (GIS) são muito utilizados para determinação

91
de local para estabelecimentos, alterações de rotas logísticas e análise de público potencial em uma

determinada região. A forma de representação em mapas auxilia na diminuição da quantidade de

números mostrados, tornando a análise humana mais simples.

1. análise de negócios e visualização


de dados II
Como visto anteriormente, o processamento analítico online OLAP (Online Analytical Processing)

é uma tecnologia designada para obter novas informações de negócios por meio de um conjunto de

transformações e cálculos executados sobre as fontes de dados (TURBAN et al., 2009).

1.1 Relatórios e Consulta


Relatórios e consultas são as atividades mais antigas de inteligência de negócios (BI) e de

OLAP. Em muitos casos, existe uma correlação entre o relatório e a consulta, pois um relatório

pode designar uma consulta e a consulta, por sua vez, resulta em um relatório. A geração de

relatórios OLAP deve ser flexível e ajustável, visando facilitar a criação de relatórios pelo usuário,

para que ele possa analisar o desempenho diário.

É possível classificar os relatórios em dois tipos: rotina e ad hoc. Os relatórios de rotina são

aqueles gerados automaticamente e distribuídos aos assinantes em listas de discussão periodi-

camente. Por sua vez, relatórios ad hoc são criados para um usuário específico, quando houver

necessidade. Adicionalmente, podem conter um subconjunto dos dados ou intervalos de tempos

diferentes em relação aos relatórios de rotina.

92
Um exemplo muito frequente de relatório de rotina são os relatórios de desempenho recebidos

semanalmente para uma loja, que pode ser uma farmácia, uma loja de roupas e calçados, uma

loja de eletrônicos, entre outras. Com base no histórico de volume, quantidade de vendas e na

quantidade de horas trabalhadas, pode-se verificar como as vendas se comportaram em outros

períodos. Já um exemplo de relatório ad hoc são listagens de clientes que se interessaram por

um determinado produto, mas ainda não o compraram.

Softwares de BI são utilizados para produzir relatórios em diversas áreas funcionais. Na área

de finanças e contabilidade, os relatórios realizados são análise do fluxo de caixa, previsão e

orçamento financeiro, análise da demonstração de resultados e relatório

de contas a pagar. Para serviços Web, os relatórios são análise de comér-

cio eletrônico, análise de tráfego na Web,

análise de visitantes na Web e análise da



navegação Web. Exemplificando
A MicroStrategy oferece um conjunto amplo de fer-
ramentas poderosas para criação, personalização e
Uma funcionalidade útil de softwares de
distribuição de relatórios que facilitam o processo de
acesso a informações críticas pelos funcionários. A
BI é o envio de alertas e entregas de rela- figura 1 mostra um exemplo de relatório, fornecido
por essas ferramentas.
tórios, proativamente, a muitos usuários 

das empresas, sejam internos ou externos.

93
FIGURA 1: EXEMPLOS DE RELATÓRIO EM DIFERENTES PLATAFORMAS

FONTE: Microstrategy (s.d.).

Consulta ad hoc é o tipo de consulta que não pode ser determinada antes de ser realizada. Ao fim da

consulta, o usuário poderá receber um relatório. A vantagem desse tipo de consulta é a flexibilidade de con-

teúdo, estrutura e avaliações, os quais podem incluir informações não disponíveis em relatórios periódicos.

Para acesso e manipulação de dados, em um sistema de gerenciamento de banco de dados, utili-

za-se a Linguagem de Consulta Estruturada (SQL), que é padronizada e usada em diversos softwares

94
de bancos de dados, como Microsoft Access

2016, Oracle 10i e 11g e Microsoft SQL 


Para saber mais
Um Sistema Gerenciador de Bancos de Dados (SGBD)
Server 2016.
é um software instalado em um computador (servi-
dor) que tem a função de gerenciar um ou mais ban-
cos de dados. Quando existe um identificador único
1.2 Exemplos de entre tabelas diferentes, tem-se o Banco de Dados
Relacionais.
fornecedores de Os Bancos de Dados relacionais Possuem uma carac-
terística comum: a utilização da linguagem chamada
soluções de BI SQL (Structured Query Language). SQL não é uma
linguagem de programação, mas uma linguagem us-
ada exclusivamente para criar tabelas, manipular os
Existem diversos fornecedores específi- dados das tabelas e, principalmente, consultar os da-
dos.
cos para análise de BI, a fim de atender aos 

diferentes setores e tamanhos de empresa.

A Microstrategy é uma dessas empresas, a

qual lançou, em 2016, o MicroStrategy 10,

que possui mais de 400 funções estatísti-

cas, matemáticas e financeiras para criação 


Link
de relatórios e análise de seus resultados e No site da Microstrategy é possível verificar todas as
capacidades e recursos da ferramenta mencionada.
possibilita acesso móvel à plataforma.
Disponível em: <https://www.microstrategy.com/
br/products>. Acesso em: 11 maio 2018.
O IBM SPSS Statistics é o principal software

estatístico do mercado, o qual proporciona

encontrar novos insights nos dados existentes

de forma rápida. Outro software da IBM é o IBM Cognos Analytics on Cloud, que além de análises de séries

temporais e tendências personalizáveis, faz análise da concorrência, detalhamento e otimização.

A SAS é líder em Análise Preditiva e Data Mining. Uma de suas ferramentas é a SAS Enterprise Miner. Ela

fornece ferramentas financeiras, estatísticas e de previsão para a solução de problemas. Uma área de des-

taque é a de avaliação e gerenciamento de risco, usando modelos de pontuação de crédito (credit scoring).

Outros fornecedores nesse grupo são Tableau, Microsoft, Oracle, Totvs, SAP,Insightful Corp.,

StatSoft Inc., Knowledge eXtraction ENgines, Unica e Angoss Software.

95
1.3 Visualização de
dados 
Para saber mais
O Credit Scoring é uma espécie de pontuação de
Em muitos casos, os dados fornecidos crédito, usada por bancos e financeiras para medir
o risco ao qual se submeteriam caso concedes-
pelos relatórios exigem ações adicionais. sem crédito a uma determinada cliente. Tal pontu-
ação representa o histórico financeiro de quem solic-
Uma das ações consistem na Visualização ita crédito no mercado e na instituição em que está
solicitando o crédito.
dos Dados, que são tecnologias para dar 
suporte à exibição e, eventualmente, à inter-

pretação de dados e informações ao longo da

cadeia de processamento (FAYYAD; PIATESKY-SHAPIRO; SMYTH, 1996).

Essas tecnologias visuais podem condensar milhares de números em uma única imagem e permitir

que as aplicações de suporte à decisão sejam mais atraentes e compreensíveis aos usuários.

Essa etapa inclui imagens digitais, sistemas geográficos, interfaces gráficas de usuário, gráficos,

realidade virtual, representações dimensionais, vídeos e animações. As ferramentas visuais podem

ajudar a identificar relações, tais como: tendências. A visualização de dados se torna de mais fácil

implementação quando os dados necessários estão em um Data Warehouse, ou, melhor ainda, em um

banco de dados multidimensional especial ou servidor.

Uma das aplicações frequentes da visualização de dados de BI é na área financeira. Para evitar

que sistemas identifiquem automaticamente padrões inexpressivos nos dados, os diretores financeiros

(CFOs) querem ter certeza de que a capacidade de processamento de um computador sempre será

ajustada pelo discernimento de um ser humano.

1.3.1 Visualização por planilhas


As planilhas são as principais ferramentas do usuário final para programação de aplicações de

suporte à decisão. O Microsoft Excel oferece dezenas de ferramentas matemáticas, estatísticas, de

geração de relatório e de consulta, como regressões, identificação de objetivos, histogramas, elabora-

ção de cenários, entre outras ferramentas de BI.

96
Os principais fornecedores de OLAP oferecem ferramentas de visualização tridimensional, junto

com suas ferramentas de suporte à decisão. Existem ferramentas de desenvolvimento que têm uma

versão para visualização tridimensional, permitindo aos usuários ver e gerenciar facilmente múltiplas

dimensões de dados em uma única vista. Novas ferramentas visuais são desenvolvidas continuamente

para analisar o desempenho de websites.

1.3.2 Dashboards e indicadores


É comprovado que a visualização é extremamente importante para executivos atarefados. O sis-
tema de informações gerenciais (EIS), dos anos 90, era repleto de gráficos e tabelas. Ele evoluiu para
produtos de gerenciamento de cockpit e, posteriormente, para dashboards e indicadores.

1.3.3 Análise visual


Atualmente, a análise de dados empresariais pode ser feita por usuários não técnicos que colhem
informações valiosas, provenientes de dados comerciais. A VizQL (da Tableau Software) é uma lingua-
gem visual de consulta a banco de dados que ativa o Hyperion Visual Explorer. Diversas outras empresas
fornecem ferramentas para análise visual, por exemplo: Analytica (lumina.com) e Endeca (endeca.com).
A análise visual pode ser feita de maneira interativa, por exemplo NAVTEQ (navteq.com).

1.4 Sistemas de informação geográfica (GIS)


Um sistema de informações geográficas (GIS) é um sistema baseado em
computador para captura, armazenamento, modelagem, recuperação, veri-
ficação, integração, manipulação, análise e exibição de dados citados, geo-
graficamente, por meio do uso de mapas
digitais.

A característica mais distintiva do GIS é Assimile
GIS é um sistema constituído por um conjunto de
que cada registro ou objeto digital tem uma “ferramentas” especializadas em adquirir, armazenar,
recuperar, transformar e emitir informações espaciais
localização geográfica identificada. Ao inte-
(CÂMARA; ORTIZ, 1998).

grar mapas aos bancos de dados orientados

97
espacialmente, denominados de geocodificação, a outros bancos de dados, os usuários podem gerar

informações para planejamento, resolução de problemas e tomada de decisão, aumentando, com isso,

sua produtividade e a qualidade de suas decisões. Diversas áreas aplicam o GIS com êxito desde o iní-

cio dos anos 70, tais como: varejo, bancos, transportes, agricultura, gestão de recursos naturais, admi-

nistração pública, controle do espaço aéreo, militar, serviço de emergência e planejamento urbano

(URSERY, 2004).

É frequente a utilização de GIS em instituições financeiras para suporte de atividades como deter-

minação da localização de agências e caixas eletrônicos, análise dos padrões de volume e tráfego das

atividades comerciais, análise da área geográfica atendida pela agência e avaliação dos pontos fortes

e fracos em relação aos pontos da concorrência. Em varejistas, é comum o uso do GIS para planeja-

mento das rotas rodoviárias. Tanto a Toyota quanto outros fabricantes automotivos utilizam GIS e o

sistema de posicionamento global (GPS), ou Global Positioning System, como ferramenta para orientar

motoristas aos seus destinos nas melhores rotas.

O GIS oferece uma grande quantidade de informações extremamente úteis que podem ser anali-

sadas e utilizadas na tomada de decisão. O formato gráfico de um GIS facilita a visualização de dados

pelos gerentes.

Segundo Janet M. Hamilton, gerente de pesquisa de mercado da Dow Elanco, fabricante de defen-

sivos agrícolas de US$ 2 bilhões, com sede em Indianápolis: “Posso colocar planilhas de 80 páginas

com milhares de linhas em um único mapa. Levaria algumas semanas para compreender todas as

informações da planilha, mas, em um mapa, a história pode ser contada em segundos” (HAMILTON,

1996, p. 5).

1.4.1 GIS associado ao GPS


O Departamento de Defesa dos EUA investiu cerca de US$21 bilhões em sistemas de satélite que

alimentam sistemas de posicionamento global (GPS). Os dispositivos GPS são wireless e usam satéli-

tes para permitir que os usuários detectem a posição na Terra dos itens nos quais os dispositivos estão

anexados, por exemplo: carros e pessoas, com precisão razoável. Se desejar mais informações sobre

98
GPS, consulte: <trimble.com/gps>. O GPS, em conjunto com o GIS, está trazendo grandes progres-

sos nas aplicações de BI. São inúmeros os usos comerciais e governamentais, pois os dispositivos de

detecção são relativamente baratos.

Questão para reflexão


Um site de e-commerce é voltado à distribuição de produtos para computadores e tablets. Entre

os dispositivos vendidos estão: placas de circuitos de vídeo de última geração, processadores de alto

desempenho, memórias de alta capacidade e baixo tempo de acesso. Como é possível aplicar as fer-

ramentas de GIS para análise visando aumentar as receitas?

Considerações Finais
• Existem relatórios de rotina e ad hoc e podem ser aplicados a diversas áreas. Também existem

alertas e entrega de relatórios de modo automático.

• Vários fornecedores de software desenvolveram soluções de BI, como a Microstrategy, o SAS, a

SAP, a IBM, entre outras.

• Uma das ações consistem na Visualização dos Dados, que são tecnologias para dar suporte

à exibição e, eventualmente, à interpretação de dados e informações ao longo da cadeia de

processamento.

• Um sistema de informações geográficas (GIS) é um sistema baseado em computador para cap-

tura, armazenamento, modelagem, recuperação, verificação, integração, manipulação, análise e

exibição de dados citados, geograficamente, por meio do uso de mapas digitais.

99
Glossário
GIS: sistema constituído por um conjunto de “ferramentas” especializadas em adquirir, armazenar,
recuperar, transformar e emitir informações espaciais.
GPS: Sistema de Posicionamento Global.
Ad hoc: específico.
SQL: Linguagem de Consulta Estruturada.

OLAP: Processamento Analítico Online.

Verificação de leitura

QUESTÃO 1- Um sistema constituído por um conjunto de “ferramentas” especializadas em


adquirir, armazenar, recuperar, transformar e emitir informações espaciais é conhecido como:
a) SIG;
b) OLAP;
c) ad hoc;
d) GIS;

e) Text mining.

QUESTÃO 2- Quais são as características de consultas ad hoc?


a) São como consultas de rotina.
b) Geram relatórios de rotina.
c) Possuem flexibilidade de conteúdo, estrutura e avaliações, podendo incluir informações
não disponíveis em relatórios periódicos.
d) Os softwares de BI não possuem capacidade de realizar consultas ad hoc.
e) São consultas genéricas, feitas para rotinas.

QUESTÃO 3- A Linguagem SQL é utilizada em(na):

100
a) construção de sites de Internet;

b) construção de programas em linguagens de alto nível, como Java, C#;

c) construção de programas em linguagens de baixo nível, como Assembler;

d) criação de mensagens criptografadas;

e) sistemas gerenciadores de bancos de dados.

Referências Bibliográficas
CÂMARA, Gilberto; ORTIZ, Manoel Jimenez. Sistemas de Informação Geográfica para Aplicações

Ambientais e Cadastrais: Uma Visão Geral. In: SOUZA E SILVA, M. Cartografia, Sensoriamento e

Geoprocessamento. Lavras: UFLA/SBEA, 1998, p. 59-88. Disponível em: <http://www.dpi.inpe.br/

geopro/trabalhos/analise.pdf>. Acesso em: 11 maio 2018.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge

Discovery: An Overview. In: FAYYAD, Usama et al. Advances in Knowledge Discovery and Data

Mining. AAAI Press, 1996.

HAMILTON, Janet M. A Mappable Feast. CIO Magazine, 15 mar. 1996.

MICROSTRATEGY. Relatórios empresariais. Disponível em: <https://www.microstrategy.com/br/

products/capabilities/enterprise-reporting>. Acesso em: 11 maio 2018.

MICROSTRATEGY. Produtos. Disponível em: <https://www.microstrategy.com/br/products>.

Acesso em: 11 maio 2018.

URSERY, S. GIS more prevalent in big cities. The American City and County, fevereiro, 2004.

TRIMBLE. GPS Tutorial. Disponível em: <trimble.com/gps>. Acesso em: 11 maio 2018.

TURBAN, Efraim; SHARDA, Ramesh; ARONSON, E.; KING, David. Business Intelligence: Um

Enfoque Gerencial. Porto Alegre: Bookman, 2009.

Gabarito

101
QUESTÃO 1- Resposta certa: D.
O sistema definido no enunciado é um Sistema de Informações Geográficas (GIS).

QUESTÃO 2- Resposta certa: C.


As consultas ad hoc possuem flexibilidade de conteúdo, estrutura e avaliações, podendo incluir

informações não disponíveis em relatórios periódicos

QUESTÃO 3- Resposta E.
A linguagem SQL é utilizada para realizar operações em bancos de dados relacionais.

102
8 Business
performance
management
(BPM)
Objetivos Específicos
• Compreender o conceito do Business Performance Management (BPM).

• Descrever algumas das melhores práticas de planejamento e relatório de gerenciamento.

• Apresentar os elementos básicos das metodologias Balanced Scorecard.

• Apontar os usos potenciais de monitoramento de atividades de negócios (BAM).

Introdução
Desde a década de 1970, os métodos de avaliação de processo evoluíram muito, partindo da

Gestão da Qualidade Total, Total Quality Management (TQM) em inglês, passando pelas metodologias

Lean e Six Sigma e, por fim, resultando na abordagem de Gerenciamento de processos de negócio,

do inglês, Business Process Management (BPM).

Os sistemas de informação e inteligência de negócios evoluíram muito os primeiros sistemas com-

putadores da década de 1960. Essa evolução passou por sistemas suporte à decisão (DSS), ferramen-

tas de BI até BPM. É possível entender o Business Process Management (BPM), ou gerenciamento de

processos de negócios, como uma estrutura para organizar, automatizar e analisar as metodologias de

negócios, métricas, processos e sistemas, de modo a impelir o desempenho geral da empresa.

O BPM é um processo contínuo e engloba um conjunto de processos em um ciclo fechado, par-

tindo desde a estratégia até a execução, com objetivo de otimizar o desempenho dos negócios. O pri-

meiro passo é fazer a estratégia, respondendo ao questionamento “Aonde a empresa quer ir?”. Depois

será definido como implementar essa estratégia por meio de um plano que procura detalhar “Como a

empresa irá chegar lá?”. Posteriormente, a empresa irá monitorar os resultados dos indicadores frente

às metas estabelecidas que é análogo à pergunta “Como a empresa está fazendo?”. Por fim, a empresa

deve realizar ações e ajustes, que representa “O que a empresa deve fazer de forma diferente?”.

Uma metodologia para gerenciar e medir o desempenho é o Balanced Scorecard. Além da perspec-

tiva financeira, são incluídas as perspectivas Clientes, Processos Internos de Negócio e Aprendizado e

Crescimento da empresa, com um conjunto de iniciativas a serem implementadas.

104
Visando uma interface mais fácil para análise do resultado, são elaborados dashboards e scorecards.

Por fim, é apresentado o monitoramento de atividades de negócios (BAM), que alerta os gerentes em

tempo real sobre eventos que podem impactar a empresa.

1. Business performance management


(BPM)
Desde a década de 1970, os métodos de avaliação de processo evoluíram continuamente. Uma

metodologia inicial foi a Gestão da Qualidade Total, em inglês, Total Quality Management (TQM), pas-

sando pelas metodologias Lean e Six Sigma. Como resultado desses esforços realizados, surgiu a abor-

dagem de Gerenciamento de processo de negócio, do inglês, Business Process Management (BPM).

Os sistemas de informação também obtiveram grande evolução. Os primeiros sistemas foram os

sistemas de suporte à decisão, sistemas de informações gerenciais e Business Intelligence (BI). No

suporte à decisão, o BPM representa mais do que uma tecnologia.

1.1 Definição de BPM


Business Performance Management (BPM) é um conjunto integrado de processos, metodologias,

métricas e aplicações projetadas para impelir o desempenho geral financeiro e operacional de uma

empresa.

A utilização do BPM contribui fortemente com as empresas, pois estas

convertem suas estratégias e objetivos em

planos, monitoram o desempenho frente aos



planos, analisam variações entre resultados Assimile
Segundo o BPM Standards Group (2005), define-se
medidos e resultados pretendidos, bem como BPM como: uma estrutura para organizar, automa-
tizar e analisar as metodologias de negócios, métri-
ajustam seus objetivos e ações em resposta a cas, processos e sistemas, de modo a impelir o de-
sempenho geral da empresa.
essa análise. Assim, os resultados mostrados 

105
no BPM podem trazer ideias para melhoria do desempenho financeiro e operacional.

Na literatura de negócios, a gestão de desempenho possui diversos nomes, como BPM, gestão

de desempenho corporativo (CPM), gestão estratégica da empresa (SEM) e gestão de desempenho

empresarial (EPM). Entretanto, vale ressaltar, o termo padronizado é BPM.

1.2 Diferenças entre BPM e BI


O BPM é um resultado da inteligência de negócios (BI) e incorpora muitas tecnologias, aplicações

e técnicas de BI, entretanto existem diferenças consideráveis entre BI tradicional e BI para BPM, uma

vez que o BPM possui concentração em estratégia e objetivos.

O BI para BPM foca em questões empresariais, enquanto BI se concentra em questões departamen-

tais. A visualização dos indicadores de desempenho de BPM ocorre em painéis ou placares. As métri-

cas de BI, por sua vez, são exibidas em tabelas ou diagramas. Enquanto o BPM procura gerar alertas

atuando de forma proativa, o BI é reativo e atende perguntas ad hoc.

1.3 Resumo de processos BPM


Todas as empresas melhor estruturadas possuem processos em operação como orçamento e pla-

nos detalhados. O diferencial do BPM é integrar os processos existentes, metodologias, métricas e

sistemas.

O BPM é um processo contínuo e engloba um conjunto de processo em um ciclo fechado, partindo

desde a estratégia até a execução, com objetivo de otimizar o desempenho dos negócios. A seguir, a

figura 1 retrata o ciclo do BPM.

106
FIGURA 1: PROCESSO DE CICLO FECHADO DE BPM

FONTE: Turban (2009, p. 192).

Analisando o ciclo, é possível verificar que o desempenho perfeito é alcançado pela definição de

metas e objetivo, isto é, por elaborar estratégias para depois propor e iniciar planos para chegar às

metas, ou seja, planejar. Posteriormente, o desempenho será monitorado e comparado com as metas

e objetivos, deve-se, portanto, monitorar os resultados e, por fim, ações corretivas devem ser toma-

das, ou seja, deve-se agir e ajustar.

107
1.3.1 Estratégia
Uma estratégia possui elementos como metas, objetivos, prioridades, pensamento crítico e planos.

Uma questão-chave para definir a estratégia é “Aonde queremos ir no futuro?”. As respostas para essa

questão são fornecidas no plano estratégico.

Inicialmente, os planos estratégicos devem ser realizados para a empresa

como um todo. Posteriormente, podem ser criados planos estratégicos para

as unidades de negócios ou unidades funcio-

nais da empresa. As etapas do planejamento

estratégico são comuns e independem do 


Assimile
nível de planejamento realizado (WADE; As oito etapas do planejamento estratégico são:
1. conduzir uma análise de situação atual;
RECARDO, 2001). 2. determinar o horizonte de planejamento;
3. conduzir uma varredura do ambiente;
A primeira etapa é conduzir uma análise 4. identificar fatores críticos de sucesso;
5. analisar de compleição de uma lacuna ou análise
da situação atual, o que serve para examinar de gap;
6. criar uma visão estratégica;
a empresa naquele momento (“onde esta- 7. desenvolver uma estratégia de negócios;
8. identificar objetivos e metas estratégicas.
mos?”) e para estabelecer os parâmetros de

referência para o desempenho financeiro e

operacional.

Na segunda etapa, o foco é determinar o horizonte de planejamento, que

pode ser de um ano ou por um período maior de tempo. Posteriormente,

ocorre a etapa de conduzir uma varredura

de ambiente, analisando os pontos fortes e



fracos, fraquezas e oportunidades (SWOT) Para saber mais
Fatores críticos de sucesso (FCS) delineiam atributos
da empresa. A quarta etapa é identificar os que a empresa deve sobressair para obter sucesso no
seu nicho de mercado.
fatores críticos de sucesso. 
A próxima etapa é a análise de compleição
de lacuna ou análise de gap. Ao encontrar
lacunas, serão priorizadas forças e fraquezas internas no processo da empresa, estruturas, tecnologias

108
e aplicações. Segundo Niven (2005), existem quatro fontes para a lacuna entre a execução e a estra-
tégia: visão, pessoas, gerenciamento e recursos.

A sexta etapa é a criação de uma visão estratégica, que projeta a empresa

no futuro. Na penúltima etapa, é desenvolvida uma estratégia de negócios, a

qual deve ser coerente com a visão estraté-

gica da empresa.

Por fim, o objetivo da última etapa é iden- 


Para saber mais
tificar objetivos e metas estratégicas, tor- Um objetivo estratégico é uma declaração ampla ou
o curso geral de uma ação que prescreve direções
nando claros os objetivos estratégicos e refi- com alvo para uma empresa. Uma meta estratégica
é a quantificação de um objetivo para um período
nando as metas. designado de tempo.


1.3.2 Plano
A elaboração do Plano busca responder a pergunta “Como chegaremos lá?”. Quando os gerentes

operacionais sabem e entendem o que (i.e., os objetivos e metas organizacionais), eles podem vir

com o como (i.e., planos detalhados operacionais e financeiros). Um plano operacional converte uma

estratégia operacional e metas em um conjunto de iniciativas e táticas previamente definidas, exigên-

cia de recursos e resultados esperados para o próximo período, normalmente um ano. O planejamento

operacional pode ser centrado em orçamento ou em táticas.

Já no planejamento e orçamento financeiro, como existem restrições de recursos, a empresa deve

aplicar recursos financeiros e humanos onde suas estratégias e táticas estejam vinculadas. É necessá-

rio alinhar o orçamento e os objetivos táticos e estratégicos, para isso o plano financeiro deve estar

baseado no plano operacional.

1.3.3 Monitoração
A maior dificuldade da estrutura de monitoramento é ter o conhecimento de: “O que monitorar?”

e “Como monitorar?”. Depois da escolha dos indicadores, é necessário definir uma estratégia para

monitorar os fatores e responder efetivamente.

109
Por sua vez, um sistema de controle de diagnóstico é um sistema computacional, o que significa

que tem entradas, um processo para transformar as entradas em saídas, um padrão ou marca com-

parativa, com a qual se pode comparar as saídas, e um canal de retorno, a fim de permitir que infor-

mações sobre variâncias entre as saídas e o padrão sejam comunicadas e agilizadas.

1.3.4 Ação e Ajuste


As empresas utilizam muitos recursos financeiros e tempo desenvolvendo planos, coletando dados

e gerando relatórios de gerenciamento, que são desperdiçados, a não ser que a empresa tome uma

atitude em relação aos dados de desempenho coletados. As empresas que possuem as melhores prá-

ticas usam “previsões contínuas” para fazer esses ajustes, e não somente o orçamento do fim do ano

anterior.

1.4 Medida de desempenho


BPM possui um sistema de medida de desempenho. Esse tipo de sistema auxilia os gerentes a

rastrear as implementações de estratégia de negócios, comparando os resultados reais com as metas

estratégicas e objetivos. Tal sistema geralmente engloba métodos sistemáticos de união de metas de

negócios com relatórios de retorno periódicos, os quais indicam progresso contra metas.

O sistema mais popular em uso é uma variante do indicador balanceado, do inglês, Balanced

Scorecard (BSC), de acordo com Kaplan e Norton (1996). Segundo Britto (2012), o principal tópico

da metodologia BSC é uma visão holística de um sistema de medidas ligado à direção estratégica da

empresa, baseado em quatro perspectivas do mundo, com a medida financeira suportada por cliente,

interno, e métricas de aprendizado e crescimento.

Ao medir e gerenciar o negócio usando esse conjunto de métricas, uma empresa pode assegurar

implementação rápida e eficaz da estratégia e facilitar a comunicação e o alinhamento organizacional.

Os Relatórios financeiros mensais, trimestrais e anuais são importantes componentes da maior parte

dos sistemas de medida de desempenho. Esse fato pode ser explicado, pois a maioria desses sistemas

110
está sob a competência do departamento financeiro. Adicionalmente, a maior parte dos executivos não

confia plenamente em outras métricas, mas somente em informações financeiras e operacionais.

A sobrecarga de medida e a obliquidade de medida são também problemas que confrontam a atual

safra de sistemas. Para muitas das medidas, sendo rastreadas, o gerenciamento tem falta de controle

direto. Michael Hammer (2003) denominou tal fato de princípio de obliquidade. Por um lado, medidas

como rendimentos por ação, retorno sobre patrimônio, lucratividade, participação no mercado e satis-

fação do cliente precisam ser monitoradas.

1.4.1 BSC
As medidas devem se concentrar em fatores cruciais, tais como: as medidas devem ser uma mis-

tura de passado, presente e futuro. Adicionalmente, elas devem equilibrar as necessidades dos acio-

nistas, colaboradores, parceiros, fornecedores e stakeholders. Também o fluxo das medições deve ser

do topo para baixo. Por fim, as medidas precisam ter metas que se baseiam em pesquisa e realidade,

em vez de serem arbitrárias.

Balanced Scorecard (BSC) é tanto uma medida de desempenho e metodologia de gerenciamento

que ajuda a traduzir os objetivos e metas financeiras, de clientes, de processos internos e de apren-

dizado e crescimento de uma empresa em um conjunto de iniciativas passíveis de implementação.

Como uma metodologia de medida, o BSC é planejado para superar as limita-

ções de sistemas que possuem foco financeiro.

Os objetivos não financeiros caem em uma das três perspectivas: Clientes,

Processos internos de negócio e Aprendizado e

crescimento. Na perspectiva Clientes, os objeti-



vos definem como a empresa deveria aparecer Link
O Balanced Scorecard Institute (BSI) pode ajudar as
para os seus clientes, se for realizar sua visão. empresas a implementação do BSC por meio de tre-
inamentos ou consultoria especializada. O site do
Analisando os processos internos de negócios, BSI também contém diversos artigos e vídeo so-
bre BSC. Acesse: <http://www.balancedscorecard.
esses objetivos especificam os processos nos org/>. Acesso em: 12 maio 2018.

quais a empresa deve se superar, de modo a

111
satisfazer seus clientes e acionistas. Por fim, em relação ao Aprendizado e crescimento, os objetivos indi-

cam como uma empresa pode melhorar sua capacidade de mudar e melhorar para alcançar sua visão.

1.4.2 Etapas do BSC


O BSC permite o alinhamento das estratégias da empresa. Para isso, é necessária a realização de

um fluxo de etapas inter-relacionadas. A primeira etapa é identificar objetivos estratégicos para cada

perspectiva. Depois, deve-se associar medidas com cada um dos objetivos estratégicos. Além disso,

uma composição de quantitativo e qualitativo deve ser utilizada. Então, é necessário atribuir metas

para as medidas. A próxima etapa é listar iniciativas estratégicas para realizar cada um dos objetivos.

Por fim, associa-se aos vários objetivos estratégicos por meio de um diagrama de causa e efeito cha-

mado de mapa estratégico.

Como outros mapas estratégicos, este começa no topo com um objetivo

financeiro. Esse objetivo é impulsionado por um objetivo de cliente. Por sua

vez, o objetivo do cliente é o resultado de

um objetivo de processo interno. O mapa



continua até o fim de uma hierarquia, em Exemplificando
Um objetivo financeiro é o crescimento em segmen-
que os objetivos de aprendizado são encon- tos-chave de 10% no próximo ano em relação ao re-
sultado atual. O objetivo de Cliente é construir fortes
trados, desenvolvendo habilidades-chave. relações com o cliente por meio de relacionamen-
to. Como Processo interno, a empresa busca reduzir
custos de contato com o cliente. Como Aprendizado
e crescimento, a empresa busca novas oportunidades
1.4.3 Six Sigma de negócio.

Desde a década de 80, o Six Sigma des-

frutou de ampla adoção pelas empresas ao

redor do mundo. Empresas o utilizam como uma metodologia de melhoria de processos, que permite

analisar esses processos, apontar problemas e aplicar soluções. Esta metodologia aplica um processo

de melhoria de negócios chamada DMAIC, que representa as etapas: Definir, Medir, Analisar, Melhorar

e Controlar.

112
Como o BPM, o DMAIC é um modelo de melhoria de negócios de circuito fechado que engloba as

etapas: definição, medida, análise, melhoria e controle de um processo.

1.5 Arquitetura de BPM


O BPM é suportado por diversas tecnologias e aplicações. Na falta de uma lista ou coleção defini-

tiva, o BPM Standards Group (bpmstandardsgroup.org) propôs uma arquitetura da tecnologia de BPM,

que destaca as tecnologias capacitadoras e algumas das aplicações cruciais necessárias para oferecer

suporte aos processos de BPM de ciclo fechado, os quais conectam a estratégia à execução.

Um sistema de BPM necessita de três componentes a fim de contribuir para a implementação bem-

-sucedida da estratégia: camada de banco de dados, camada de aplicações e camada de cliente ou

interface de usuário.

A camada de banco de dados proporciona os metadados e os dados sobre os quais se suportam as

aplicações de BPM. Os metadados incluem definições de campo, estruturas hierárquicas, definições de

medidas, atribuições de conta, métodos de conversão de moedas, entre outros. A maioria dos siste-

mas de BPM usa Datamarts ou um Data Warehouse, que normalmente armazenam os dados em um

Banco de dados multidimensional ou de Processamento analítico online (OLAP).

No BPM, é necessária uma grande variedade de aplicações para abranger os processos de ciclo

fechado, que partem de planejamento estratégico ao planejamento operacional e orçamentos para

monitoramento a ajustes e ação.

1.5.1 Benefícios do BPM


Os principais benefícios são Melhoria de Serviço, Redução de Custo e Maior Lucro. Também ocorre
melhoria de qualidade da informação para a tomada de decisão. Com BPM, a decisão estratégica é,
finalmente, embasada na capacidade real dos processos e seu alinhamento com os objetivos do negó-
cio, e não mais apoiada em suposições funcionais e percepções múltiplas e desconectadas do todo.
Com isso, será mais fácil que os colaboradores das diversas áreas trabalhem com o mesmo pro-
pósito, buscando maximizar as métricas e medidas da organização, diferentemente do que ocorre

quando cada área busca atingir os melhores resultados individualmente.

113
1.6 Aplicações de Scorecards
Scorecards são um recurso genérico de BI que também podem vincular indicadores de desempenho

a um mapa estratégico, a partir de uma relação hierárquica de causa e efeito entre os KPIs.

A interface de usuário é o ponto de contato entre as aplicações de BPM e o usuário final. A inter-

face particular fornecida depende da aplicação específica que está sendo acessada, bem como do

papel do usuário, seus objetivos e sua experiência.

Scorecards e Dashboards são componentes comuns de quase todos os sistemas de gerenciamento

do desempenho, sistemas de medição do desempenho e pacotes de softwares de BPM.

Tanto Dashboards quanto Scorecards proporcionam exibições visuais de informações relevantes,

que são consolidadas e organizadas em uma tela única, para que sejam absorvidas rapidamente e

exploradas facilmente.

Um Dashboard exibe vários dados de KPI e pipeline para uma empresa de software, que produz

componentes especializados de gráficos e apresentações visuais para desenvolvedores de software e

os vende diretamente pela Web. Enquanto um Scorecard mapeia o progresso, o Dashboard mede o

desempenho. O Dashboard é voltado para um público específico e especialista, enquanto o scorecard

é utilizado por executivos, gerentes e demais funcionários.

1.7 Monitoramento de atividade de negócio (BAM)


Monitoramento de atividades de negócios (BAM) é um termo inventado pela Gartner, uma empresa

de consultoria fundada em 1979 por Gideon Gartner. O termo reflete o interesse da empresa e de

outras consultorias nos conceitos estratégicos da empresa de latência zero e de processamento direto

(straight-through processing) (MCKIE, 2003).

Uma empresa de latência zero é aquela na qual os dados estão imediatamente disponíveis, permi-

tindo a uma empresa ser proativa ao invés de reativa. Processamento direto se refere ao processo no

qual etapas ineficientes (como registro manual) são eliminadas.

114
Essencialmente, os dois benefícios mais importantes são acesso em tempo real aos dados, em um

formato utilizável, e acesso às ferramentas para colaboração e modelagem do problema, levando a

uma solução rápida.

Situação problema
Em 1946, foi fundada na Austrália a transportadora TNT com apenas um caminhão. Em 1958, a

empresa atendia toda a Austrália. E em 1978, mudou sua sede para a Inglaterra. Em 2015, essa cor-

poração era uma das maiores transportadoras de carga expressa do mundo e tinha mais de 56.000

funcionários em 61 países. Por ser uma empresa global, TNT buscou projetar uma imagem consistente

pelo mundo com o slogan “Sure we can”.

Alguns dos valores da empresa são satisfazer seus clientes a todo tempo, desafiar e melhorar tudo

que a empresa faz e medir o sucesso por meio de um lucro sustentável. A estratégia de negócios foca

na entrega como uma experiência do consumidor superior aos concorrentes. Para isso, a TNT empre-

gava sofisticada tecnologia para checar exatamente onde as entregas dos clientes estavam em tempo

real.

No mapa estratégico, foi definido que, para se chegar ao lucro sustentável, a empresa deveria pos-

suir excelência operacional, trazer inovações e gerenciar o relacionamento com seus clientes.

Como a empresa conseguiu integrar seus objetivos estratégicos com entregas operacionais?

A empresa implementou um sistema de medição das ações, o Balanced Scorecard (BSC). Com ele,

era possível estabelecer uma ligação entre as atividades operacionais e a estratégia, mensurando o

impacto. O mapa estratégico da TNT e seu plano de comunicação foi considerado o melhor da cate-

goria. Desde a implantação do BSC, a empresa aumentou market share, aumentou a fidelização de

seus clientes e alcançou um maior retorno percentual sobre o faturamento.

Para manter a excelência de seus serviços, a empresa precisava de um sistema avançado de análise

de dados, e o degrau para alcançar esse objetivo foi a Inteligência de Negócios ou Business Intelligence

(BI).

Como a empresa poderia dar um próximo passo, além de monitorar onde a entrega estava?

115
A empresa adotou ferramentas de BI que eram capazes de realizar análises preditivas para melhorar
sua eficiência operacional, além de dar continuidade na qualidade de serviços oferecidos aos consumi-
dores por meio de novas técnicas estatísticas. Com isso, foi possível prever determinados problemas
ou situações inconvenientes, as quais poderiam ocorrer com as entregas dos clientes.

A TNT escolheu as ferramentas SAS Analytics e SAS Statistics como nova plataforma de BI. Com

base nas novas ferramentas obtidas, foi possível desenvolver novas soluções que apoiaram a estra-

tégia da empresa e trouxeram indicadores importantes para melhoria da capacidade analítica da

empresa. Em 13 de maio de 2016, a empresa TNT Express foi adquirida pela americana Fedex, em um

negócio de 4 bilhões de euros. Nada mal para em começou com apenas um caminhão.

Bibliografia Adicional Referente à Situação Problema


BUSINESS CASE STUDIES. Delivering a business strategy: A TNT case study. Disponível em:

<https://businesscasestudies.co.uk/tnt/delivering-a-business-strategy/introduction.html>. Acesso

em: 12 maio 2018.

TI INSIDE ONLINE. TNT usa novas ferramentas analíticas para melhorar eficiência operacional.

2015. Disponível em: <http://tiinside.com.br/tiinside/services/12/08/2015/tnt-usa-novas-ferramen-

tas-analiticas-para-melhorar-eficiencia-operacional/>. Acesso em: 12 maio 2018.

Questão para reflexão


É mais difícil ser conciso em aspectos de medição de indicadores do que ter muitas medições. No

caso de uma empresa que atue em vários segmentos, como deve ser realizado o Balanced Scorecard

dessa organização?

116
Considerações finais
• BPM é uma estrutura para organizar, automatizar e analisar as metodologias de negócios, métri-

cas, processos e sistemas, de modo a impelir o desempenho geral da empresa.

• Balanced Scorecard (BSC) é uma medida de desempenho e metodologia de gerenciamento, que

ajuda a traduzir os objetivos e metas financeiras, de clientes, de processos internos e de aprendi-

zado e crescimento de uma empresa em um conjunto de iniciativas passíveis de implementação.

• Com a implantação do BPM será possível que os colaboradores das diversas áreas trabalhem

com o mesmo propósito, buscando maximizar as métricas e medidas da organização.

• Monitoramento de atividade de negócio (BAM) são sistemas em tempo real que alerta os geren-

tes sobre possíveis oportunidades, problemas iminentes e ameaças, capacitando-os a reagir com

modelos e colaboração.

Glossário
Balanced Scorecard (BSC): metodologia de gerenciamento e medição de desempenho que ajuda

a traduzir os processos financeiros, de cliente, objetivos e metas de aprendizado e crescimento da

empresa em um conjunto de iniciativas acionáveis.

Business performance management (BPM): abordagem avançada de medição e análise de desem-

penho que inclui planejamento e estratégia.


Dashboard: apresentação visual de dados críticos para executivos, mostrando claramente pontos
de atenção.
Fatores críticos de sucesso (FCS): fatores-chave que descrevem as ações que uma empresa deve
primar para ser bem-sucedida no seu espaço de mercado.

Verificação de leitura

117
QUESTÃO 1-A primeira etapa para um BPM é:
a) fazer a estratégia;
b) elaborar o scorecard;
c) definir o orçamento;
d) instalar todos os softwares para BSC;
e) monitorar o desempenho.

QUESTÃO 2- Complete a frase: ______________ e ____________ são componentes co-


muns em quase todos os sistemas de gerenciamento do desempenho, sistemas de medição
do desempenho e pacotes de softwares de _____.
a) estratégia; planos; BPM.
b) scorecard; dashboard; BPM.
c) financeiro; produtos; BSC.
d) balanced; scorecard; BAM.
e) Data warehouse; ferramentas de análise; BI.

QUESTÃO 3- Assinale a alternativa correta.


a) No BPM, basta medir vários indicadores, sem que seja preciso analisá-los.
b) BPM é uma abordagem avançada de medição e análise de desempenho, mas não inclui a
estratégia.
c) BPM e BI são sinônimos e não há diferença entre eles.
d) O BPM não acrescentou nenhuma melhoria em relação ao gerenciamento de qualidade
total (TQM).
e) BPM auxilia na execução da estratégia da empresa.

Referências bibliográficas
BPM STANDARDS GROUP. Business Performance Management: Industry Framework Document.

118
2005. Disponível em: <www.bpmpartners.com/documents/BPMIndustryFramework-V5.pdf>. Acesso
em: 12 maio 2018.

BRITTO, Gart Capote de. BPM Para Todos: Uma Visão Geral Abrangente, Objetiva e Esclarecedora

sobre Gerenciamento de Processos de Negócio. 1ª ed. Rio de Janeiro: Gart Capote, 2012. Disponível

em: <http://www2.unifap.br/claudiomarcio/files/2016/10/bpm_para_todos-_julho_2013.pdf>.

Acesso em: 12 maio 2018.

HAMMER, Michael. Agenda: What Every Business Must Do to Dominate the Decade. Pittsburgh:

Three Rivers Press, 2003.

KAPLAN, R.; NORTON, D. The Balanced Scorecard: Translating Strategy into Action. Boston:

Harvard University Press, 1996.

MCKIE, S. The Big BAM. Intelligent Enterprise, 18 jul. 2003.

NIVEN, P. Balanced Scorecard Diagnostics. Hoboken: Wiley, 2005.

TURBAN, Efraim; SHARDA, Ramesh; ARONSON, E.; KING, David. Business Intelligence: Um

Enfoque Gerencial. Porto Alegre: Bookman, 2009.

WADE, D.; RECARDO, R. Corporate Performance Management. Boston: Butterworth-Heinemann,

2001.

Gabarito

QUESTÃO 1- Resposta A.

119
A primeira etapa é fazer a estratégia, pois o plano, o monitoramento e as ações e ajustes irão

depender dessa etapa.

QUESTÃO 2- Resposta B.
Scorecards e Dashboards são componentes comuns de quase todos os sistemas de gerenciamento

do desempenho, sistemas de medição do desempenho e pacotes de softwares de BPM.

QUESTÃO 3- Resposta E.
BPM é uma abordagem avançada de medição e análise de desempenho que inclui planejamento e

estratégia.

120

Você também pode gostar