Aula 04 (1) Banco de Dados
Aula 04 (1) Banco de Dados
Aula 04 (1) Banco de Dados
1. O Contexto Atual
De 1990 em diante, o volume de informações armazenadas em meio eletrônico
cresceu aceleradamente. Estudos mostram que a quantidade de informação
no mundo dobra a cada 20 meses, e como consequência o tamanho e a
quantidade de banco de dados espalhados pelo mundo cresce ainda mais
aceleradamente.
Importante observar...
◦ Dado NÃO é Informação.
◦ Informação não é Conhecimento.
◦ Conhecimento não é Inteligência.
◦ Inteligência não é Sabedoria.
**Interpretação e avaliação
Esta é mais uma fase que deve ser feita em conjunto com um ou mais
especialistas no assunto. O conhecimento adquirido através da técnica de data
mining deve ser interpretado e avaliado para que o objetivo final seja
alcançado.
Caso o resultado não seja satisfatório, o que não é raro, o processo pode
retornar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado,
conforme pode ser observado na Figura.
Duas das ações mais comuns caso o resultado não seja satisfatório são:
modificar o conjunto de dados inicial e/ou trocar o algoritmo de data mining
(ou ao menos alterar suas configurações de entrada).
O processo de KDD segundo outros autores, como Terra (2000) pode ser visto
a seguir:
Caiu em prova!
A mineração de dados é a exploração e análise, por meios automáticos ou
semiautomáticos, de grandes quantidades de dados a fim de descobrir
padrões e regras significativas (1997).
Na edição mais atual do livro o conceito é o seguinte:
A mineração de dados é um processo de negócio para explorar grandes
quantidades de dados para descobrir padrões e regras significativas
(2011).
**Classificação
Classificar um novo objeto é determinar com que grupo (ou classe) de
objetos, já classificados anteriormente, esse novo objeto apresenta
mais semelhança.
É o processo de encontrar um conjunto de modelos (funções) que descrevem e
distinguem classes ou conceitos, com o propósito de utilizar o modelo para
predizer a classe de objetos que ainda não foram classificados.
Por exemplo, a descrição de classe pode ser usada para comparar as vendas
européias e asiáticas de uma companhia, identificar os fatores importantes que
discriminam as duas classes e apresentar um resumo conciso.
Utilizando por exemplo uma base de dados sobre o tempo (com a classe
“jogar?”), que utiliza apenas atributos nominais (ou categóricos), pode-se
obter as seguintes regras de classificação:
Referências Bibliográficas
BERRY, M. J. A.; LONOFF, G.. Data Mining Techniques: for Marketing, Sales
and Customer Support. New York: John Wiley & Sons, Inc., 1997.
BERSON, Alex; SMITH, Stephen; THEARLING, Kurt. Building Data Mining
Applications for CRM. USA, New York: MacGrawHill, 1999.
DINIZ, Carlos Alberto; LOUZADA NETO, Francisco. Data Mining: uma
introdução. São Paulo: ABE, 2000.
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 4. ed. Pearson.
2006.
FAYYAD, Usama; PIATETSKI-SHAPIRO, Gregory; SMYTH, Padhraic (1996) The
KDD Process for Extracting Useful Knowledge from Volumes of Data.
In: Communications of the ACM, pp.27-34, Nov.1996.
HAN, J.; KAMBER, M.. Data Mining: concepts and techniques. Morgan
Kaufmann, 2001.
HERNANDEZ, Michael J. Aprenda a projetar seu próprio banco de dados.
Tradução Patrizia Tallia Parenti. São Paulo: Makron, 2000.
HEUSER, Carlos Alberto. Projeto de banco de dados. 4. ed. Porto Alegre:Sagra,
2001.
Comentários
Bill Inmon destaca que o “Data Warehouse é uma coleção de dados
orientados por assuntos, integrados, variáveis com o tempo e não
voláteis, para dar suporte ao processo de tomada de decisão.“
O Data Warehouse é um banco de dados multidimensional grande, de escopo
organizacional (ou seja, abrange toda a empresa) e reúne dados de todos os
departamentos de forma a permitir a busca rápida de informações para auxiliar
a tomada de decisões estratégicas.
A principal ideia do Data Warehouse é construir um depósito no qual será
mantida a memória histórica dos dados, possibilitando a utilização dos
mesmos para consulta e análise estratégica para a tomada de decisão!!
• Data Mart: é um banco de dados multidimensional de escopo
departamental (ou seja, abrange apenas um determinado departamento).
“Um subconjunto lógico do Data Warehouse, geralmente visto como um
data warehouse setorial” (Kimball).
As diferenças entre o Data Mart e o Data Warehouse são apenas com
relação ao tamanho e ao escopo do problema a ser resolvido.
• Data Mining (ou Mineração de dados): define uma série de
procedimentos, técnicas e ferramentas para recuperar e analisar dados de
um Data Warehouse ou Data Mart à procura de padrões e tendências a
respeito dos dados armazenados.
Gabarito: letra C.
Comentários
O enunciado da questão dá fortes indicações de que a questão trata de Data
Mining. O texto diz: “descobrir relacionamentos significativos” e também
“concluir sobre padrões de comportamento de clientes de uma organização”,
tudo isso faz parte da descrição de Data Mining.
Contudo vamos comentar as demais opções:
A letra A cita o Data Warehouse. Uma das atividades de uma empresa que
pretende trabalhar com Data Mining é justamente coletar os registros das
bases de dados transacionais e organizá-los em bases de dados agrupadas por
assunto e destinadas a análises. Cada base de dados organizada por assunto
dá-se o nome de Data Mart, e ao conjunto de Data Marts dá-se o nome de
Data Warehouse. Essa organização dos dados é importante e muito válida,
pois tende a facilitar em muito o trabalho de mineração de dados.
A letra B cita o Metadados. Metadados são dados com a finalidade de
descrever outros dados. É como se fosse um dicionário, trata-se de um grupo
específico de registros em banco de dados cuja finalidade é permitir melhor
entendimento dos dados a que se referem.
A letra C cita o Data Mart, que é uma base de dados em que os dados já estão
organizados por assunto. Assim, numa grande empresa seria comum encontrar
um Data Mart de Vendas (tratando de registros sobre vendas), um Data Mart
de Recursos de Humanos, ou outro sobre Compras da Empresa, e por aí vai.
A letra E cita Sistemas Transacionais. Esses são os sistemas da empresa de um
modo geral. Pode ser tanto a loja virtual da empresa, como pode ser seu
sistema de gerenciamento de vendas ou de recursos humanos. Esses sistemas
são caracterizados inclusive por realizarem contínuas operações de consulta,
inserção, alteração e exclusão em banco de dados transacionais. Chamamos
de banco de dados transacionais os bancos de dados preparados para se
comportarem em transações (inserção, exclusão e alteração). Esses bancos de
dados são chamados de OLTP (On-line Transaction Processing).
Gabarito: letra D.
Comentários
Item A. Item correto. Um Data Warehouse (Armazém ou Depósito de
Dados) é um sistema utilizado para armazenar informações consolidadas de
um banco de dados, possibilitando a análise de grandes volumes de dados,
coletados a partir de sistemas transacionais (OLTP).
Item B. Item errado. Define-se Gestão do Conhecimento como a busca da
melhoria de desempenho das instituições por meio de processos de procura,
extração, compartilhamento e criação de conhecimento, aplicando diferentes
ferramentas e tecnologias de informação e de comunicação.
Item C. Item errado. Define-se Business Intelligence (Inteligência de negócios
– BI) como o processo de coleta, estruturação, avaliação, disponibilização e
monitoramento de informações para suporte ao gerenciamento de negócios.
Item D. Item errado. Etapa do processo de Descoberta de Conhecimento em
Bases de Dados (KDD – Knowledge Discovery in Databases) que corresponde à
execução de um algoritmo particular que, sob algumas limitações aceitáveis de
eficiência computacional, encontra padrões ou modelos nos dados.
Item E. Item errado. OLAP (On-line Analytical Processing) é a processo de
manipulação e avaliação de um grande volume de dados sob múltiplas
aspectos.
Gabarito: letra A.
Comentários
Conforme visto o Data Mining é um processo de procura de padrões e regras
de associações em conglomerados de dados. Esse processo pode é realizado
com o uso de softwares com algoritmos que implementam as técnicas de Data
Mining conhecidas e também com a supervisão de um especialista no domínio
de negócio em estudo. Por isso, podemos dizer que Data Mining é também
semi-automático. Portanto, somente a letra B está correta.
Gabarito: letra B.
Comentários
O processo de Data Mining tem o objetivo de buscar informações relevantes
num conglomerado de dados. Essas informações relevantes são padrões,
tendências e associações que quando analisadas serão úteis para produção de
conhecimento sobre um dado domínio de negócio. Portanto, a opção correta é
a letra E.
Gabarito: letra E.
Comentários
O Data Mining tem entre seus objetivos a descoberta de padrões e tendências
e associações em conglomerados de dados. A partir desse conhecimento
adquirido ao minerar as bases de dados espera-se que seja possível à gestão
das empresas otimizar o uso de recursos e aumentar os resultados do
negócio. Portanto as letras C e E estão corretas.
Ainda o Data Mining também permite, a partir de tendências e análises
temporais, a previsão do estado futuro de atributos(características) do
negócio. Portanto a letra B está correta.
Estudamos também que uma das técnicas de Data Mining é a Classificação
que permite a organização dos registros em classes. A Letra D descreve um
dos usos da técnica de Classificação.
Vamos agora à Letra A. Essa opção afirma que “garantir a não redundância
nos bancos transacionais” é responsabilidade do Data Mining. Essa opção está
incorreta. Os bancos de dados transacionais são os banco de dados que estão
por traz da operação dos sistemas comerciais, ou seja, é onde são registrados
todas as transações do dia-a-dia de uma empresa. O processo de Descoberta
de Conhecimento em Bases de Dados tem uma etapa chamada de Preparação
de Dados que antecede o Data Mining. E a etapa de Preparação de Dados tem
a função de coletar os dados originais das bases de dados e purificá-los,
removendo redundâncias (ou seja, duplicações de dados), a fim de tornar
estes dados adequados para o processo de Data Mining.
Gabarito: letra A.
Comentários
Conforme estudado, as técnicas mais conhecidas de Data Mining (que também
são chamadas de tarefas, por alguns autores) são: Descrição de Classes,
Associação, Classificação, Previsão e Agrupamento (também conhecida como
“clustering”). Alia-se a estas técnicas ainda, algumas ferramentas estatísticas
como Regressão Linear, Modelo Linear Generalizado e Análise de Correlação. A
partir disso, podemos afirmar que a opção E é a que melhor se encaixa com os
conceitos de Data Mining.
Gabarito: letra E.
Comentários
Conforme vimos anteriormente Data Mining é um processo “de identificar
informações relevantes, tais como padrões, associações, mudanças,
anomalias e estruturas, em grandes conglomerados de dados que
estejam em banco de dados ou outros repositórios de informações”.
Portanto não se trata apenas de “acessar um banco de dados para realizar
consultas genéricas” como diz a letra B.
A letra C está incorreta, por citar que o Data Mining recupera “informações de
um banco de dados específico” quando na verdade o processo de Data Mining
pode atuar sobre diversas bases de dados.
A letra D está incorreta por afirmar que Data Mining é um banco de dados,
quando na verdade é um processo.
E por fim, a letra E descreve Data Mining como uma forma de representar
dados, quando na verdade é um processo de busca de padrões e associações,
entre outros.
Gabarito: letra A.
Comentários
Alguns exemplos de tarefas:
Classificação Predizer a classe de um item.
Clusterização Encontrar grupos nos dados.
Associação Encontrar padrões de ocorrências de dados associados.
Sumarização Descrever uma base de dados.
Análise de Encontrar alterações nos dados.
Desvio
Regressão Prever um valor numérico contínuo.
Comentários
O item I trata da técnica de Data Mining conhecida como Associação. Conforme
visto, aplicar a técnica de associação é procurar identificar correlação entre
dados distintos. Assim por exemplo quando identificamos numa base de dados
de uma empresa de telefonia que Clientes Pré Pagos enviam em média 60%
mais mensagens que clientes Pós Pagos, estamos com isso aplicando uma
associação, na qual o tipo de Plano do cliente determina sua taxa de utilização
do serviço SMS. Assim o Item I está correto.
O item II cita a técnica de Classificação, aprendemos que a técnica de
classificação tem o propósito de organizar os dados existentes na base de
dados em classes de modo a ajudar o entendimento da distribuição de
comportamento num banco de dados. A classificação não é uma técnica de
aprendizado supervisionado e também não trabalha com dados de treinamento
(ou seja, dados apenas para teste ou simulação, que não são os dados reais).
Portanto item incorreto.
Por fim, o item III cita o Agrupamento. Esta técnica não particiona o banco em
grupos de dados, e tenta identificar se existem grupos, onde os registros
contidos nesses grupos apresentem semelhança significante entre si. Também
não se trata de uma técnica de aprendizado supervisionado. Portanto, item
incorreto.
Gabarito: letra A.
Comentários
Esta questão merece atenção por tratar de uma atividade em Data Mining
chamada de Análise de Outliers. Na busca de padrões e associações em
banco de dados, é comum identificarmos numa amostra de dados alguns
registros que fogem aos padrões identificados, ou seja, num grupo de registros
é muito comum alguns registros apresentarem grande discrepância em relação
à maioria dos registros. E esses registros que apresentam grande discrepância
são chamados de Outliers.
É necessário em um processo de Data Mining eliminar os outliers, pois a
presença de alguns raros registros com grande discrepâncias na amostra
podem induzir a tendências, médias estatísticas e padrões distorcidos. Por isso,
a atividade de Análise de outliers consiste em procurar os outliers, e
eliminá-los antes da apuração dos padrões e associações durante o Data
Mining.
Gabarito: letra D.
e.Sistemas Transacionais.
Gabarito
1. Letra C.
2. Letra D.
3. Letra D.
4. Letra A.
5. Letra B.
6. Letra E.
7. Letra A.
8. Letra E.
9. Letra A.
10. Item errado.
11. Letra A.
12. Letra A.
13. Letra D.