Mineração de Dados - Topico 1
Mineração de Dados - Topico 1
Mineração de Dados - Topico 1
br
MINERAÇÃO DE DADOS
MINERAÇÃO DE DADOS, SUAS
ABORDAGENS E FASES
Autor: Esp. Wesley Soares de Souza
Revisor: Bruno Roberto Nepomuceno Matheus
INICIAR
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 1/34
23/02/2020 Ead.br
introdução
Introdução
Nos dias de hoje, di cilmente uma empresa não possui seus dados armazenados
digitalmente. A tecnologia tem-se mostrado cada vez ais presente e com um custo
muito baixo, comparado a anos anteriores. Isso faz com que um amontoado de
informações, que antes cavam restritas a salas de arquivos, hoje se restrinjam a
servidores. Esse volume desmedido de dados desconexos tem ganhado
notoriedade na mídia e organizações, por vezes, trazendo fascínio e descon ança
(DAVENPORT, 2012) em pessoas que se envolvem diretamente com a gestão de
informação.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 2/34
23/02/2020 Ead.br
Apresentação da
Disciplina, De nição de
Mineração de Dados
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 3/34
23/02/2020 Ead.br
saiba mais
Saiba mais
O Big Data é uma referência ao grande volume
de dados que temos nos dias de hoje para os
mais diversos assuntos distribuídos pela
internet. Diante dessa grande oportunidade e
desa o na mineração de dados, sugerimos o
artigo para se aprofundar no assunto.
ACESSAR
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 4/34
23/02/2020 Ead.br
Esse volume de informações mostra a necessidade de fazê-las útil para que possa
auxiliar as empresas e organizações na tomada de decisão, gerando resultados
positivos ao negócio. Para que isso ocorra, é necessário que esses dados sejam
catalogados e organizados de forma que possamos transformar os dados gerados
em conteúdos gerem valor. Segundo Laudon e Laudon (2011), um dos motivos
para as empresas investirem em sistemas e tecnologias da informação está no fato
de que eles se tornaram imprescindíveis à prática dos negócios. Observando o
ambiente atual, chegamos a alguns empasses, como: “É possível trabalhar com
todos esses dados?” e “Como estudar e compreender de maneira e ciente todo
esse volume de informações disponíveis em benefício das instituições?”
Para atender a este novo contexto, surgiu uma nova área denominada Descoberta
de Conhecimento em Bases de Dados (Knowledge Discovery in Databases –
KDD), que vem despertando grande interesse junto às comunidades cientí ca e
industrial (GOLDSCHMIDT; PASSOS, 2005). Para termos uma compreensão
ampla do assunto, precisamos separar hierarquicamente conhecimento,
informação e dados, conforme Figura 1.1.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 5/34
23/02/2020 Ead.br
Segundo Rezende (2015), dados são registros soltos, aleatórios, sem qualquer
análise. Conforme a Figura 1.1, podemos ver que os dados constituem a base para
a formação do conhecimento. A informação é gerada a partir da organização
desses dados, assim, disponíveis à assimilação crítica para a produção do
conhecimento. Por m, o conhecimento é a informação organizada e
transformada em experiência, ou seja, resultados positivos ou negativos que irão
facilitar a tomada de decisão. Nesse contexto, compreendemos que os dados em
conjunto formam informações coerentes de fatos, situações e movimentações,
gerando o conhecimento a partir da junção dessas informações, daquilo que foi
positivo ou negativa para a organização.
Re ita
reflita
O Big Data vem com a ideia de um grande volume de dados
descoordenados e sem uma estrutura prede nida. Nesse
sentido, poucas empresas utilizam esses dados na tomada de
decisão a nível comercial, como você acha que poderia ser o
comportamento das empresas, caso houvesse uma ferramenta
que classi casse os itens da web de forma que pudéssemos
inseri-los na mineração de dados, como seria a tomada de
decisão? Faria alguma diferença?
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 6/34
23/02/2020 Ead.br
O KDD é composto por várias etapas que são de nidas como não triviais,
interativas e iterativas. A etapa de nida como não trivial consiste em um alerta ao
nível de complexidade presente no processo, determinando o grau de relevância
do contexto em que os dados se encontram. No iterativo sugere a possibilidade de
repetições integrais ou parciais do processo, buscando dados satisfatórios pelo
re namento ocasionado na repetição da ação. O interativo considera a atuação
do homem como necessária e responsável por controlar o processo durante a
execução. Essas etapas permitem a identi cação de alguns padrões que são
compreensíveis, válidos, novos e potencialmente úteis, vindas de uma base de
dados de grande volume.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 7/34
23/02/2020 Ead.br
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 8/34
23/02/2020 Ead.br
atividade
Atividade
Um fenômeno de destaque é o crescente aumento de fontes de informações exógenas às
empresas, captadas por redes sociais, sensores em diversos produtos ou registros de
tráfego de internet, entre outros, muitas vezes, caracterizado pela expressão Big Data
(SILVEIRA et al., 2015). Considerando as etapas operacionais de KDD, assinale a
alternativa correta.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 9/34
23/02/2020 Ead.br
Exemplos de Aplicações
de Mineração de Dados
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 10/34
23/02/2020 Ead.br
A intenção é organizar as despesas para o próximo ano com base nos dados
apresentados em períodos anteriores e, com isso, podemos gerar uma regra
referente ao tempo. Podemos observar que as receitas são maiores no segundo
semestre, portanto, podemos de nir que:
SENÃO
A intenção é de se de nir uma regra que seja compreensível pelo homem e possa
ser trabalhada de forma inteligível. Embora o ideal seja uma uniformidade entre
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 11/34
23/02/2020 Ead.br
Para que possamos avaliar a regra adotada, precisamos veri car o seu nível de
con ança ou precisão na apuração dos dados. Com isso, é possível notar a
existência de casos que satisfazem a regra assim como sua negativa apurada na
parte principal, não existem outros fatores que fujam dessas duas hipóteses.
Então, podemos ressaltar que a nossa regra é linear obedecendo duas situações
distintas, porém o problema em si não é linearmente separável em nosso
diagrama, conforme demonstrado na Figura 1.4, ou seja, não podem ser separados
por uma reta em duas regiões distintas e homogêneas.
Estatística nanceira.
Inteligência computacional.
Reconhecimento de padrões uniformes de dados.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 12/34
23/02/2020 Ead.br
Banco de dados.
A estrutura das ações tomadas pelo KDD é dividida em três áreas, conforme
demonstrado na Figura 1.5, que são o desenvolvimento tecnológico, execução,
aplicação dos resultados, segundo Goldshmidt e Passos (2005). Veja no infográ co
a seguir as de nições.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 13/34
23/02/2020 Ead.br
Desenvolvimento
Tecnológico
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 14/34
23/02/2020 Ead.br
atividade
Atividade
O nível de precisão ou con ança dos dados é de extrema importância para que possamos
compreender a melhor forma possível de criarmos conhecimento. Por exemplo, em
nosso restaurante vemos que os dados estão linearmente organizados, de forma que a
movimentação gera uma receita ou uma despesa, porém, não é linearmente distribuída
em nosso plano, sendo que no primeiro semestre é evidente a existência despesas bem
acima das receitas. Assinale a alternativa correta.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 15/34
23/02/2020 Ead.br
Fases da Mineração de
Dados e Desenvolvimento
de Produtos de
Mineração
Pré-processamento
Essa é a etapa mais importante a ser abordada, pois em todas as fases posteriores,
o resultado nal estão totalmente dependentes no tratamento dos dados
realizado inicialmente. A descoberta do conhecimento por meio das bases de
dados é o processo que precisa identi car aquilo que não é trivial, que são padrões
válidos a serem considerados e, potencialmente, úteis. Nessa etapa são de nidas
as perguntas e decisões que irão servir de guia. Nesse sentido, é importante
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 16/34
23/02/2020 Ead.br
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 17/34
23/02/2020 Ead.br
Data de execução da
Data_lancto Date
movimentação
Tipo de conta
D - Despesa
Origem da movimentação
V - Venda à Vista
Origem Char(1)
P - Venda a prazo
D - Despesa
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 18/34
23/02/2020 Ead.br
F - Gasto fornecedor
D - Despesas diversas
A redução de dados verticais consiste em uma análise mais ampla dos campos
selecionados. Segundo Goldschmidt e Passos (2005), a redução de dados vertical,
também denominada redução de dimensão, é implementada pela eliminação ou
pela substituição dos atributos de um conjunto de dados. Dessa forma, a intenção
é diminuir ao máximo os atributos sem perder a informação original.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 19/34
23/02/2020 Ead.br
saiba mais
Saiba mais
O que é Data Warehouse?
ACESSAR
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 20/34
23/02/2020 Ead.br
Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é
determinada pelo conjunto de dados utilizados para a avaliação. Na Figura 1.6,
podemos observar a gestão nanceira do restaurante, contendo no plano
cartesiano os eixos que consistem no tempo e no saldo, cada ponto representa
uma movimentação nanceira.
Entretanto, é necessário que os processos guiados pelo KDD gerem tarefas que
levarão os especialistas do domínio da aplicação a criarem o modelo de
conhecimento que podem trazer diferentes tipos de padrões a serem analisados.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 21/34
23/02/2020 Ead.br
Considere que o restaurante deseja fazer uma expansão e, para isso, terá um
aumento de 10% nos gastos. Ele quer aplicar uma melhor estratégia para que os
lucros acompanhem esse aumento e o saldo ainda consiga se manter positivo.
Essa intenção nos leva a classi cação das movimentações nanceiras que
veremos nas unidades posteriores.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 22/34
23/02/2020 Ead.br
atividade
Atividade
Os dados coletados precisam ser distribuídos em uma estrutura de dados tabular e
organizados de forma nita, para que possa facilitar a geração de informações na base de
conhecimento. Levando em consideração essa informação, assinale a alternativa correta.
a) Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é
determinada pelo conjunto de dados utilizados para a avaliação.
b) Para a geração do modelo de conhecimento, inicialmente, não é necessária a
utilização de algoritmos de mineração de dados.
c) O especialista em KDD é necessário desde a fase de preparação dos dados até
a mineração de dados, acompanhando o especialista na área.
d) O especialista da área é desnecessário a partir da fase de mineração de dados,
sendo importante somente após a mineração de dados ter ocorrido para
avaliação dos resultados.
e) O KDD exige que os dados estejam reunidos em um Data Warehouse.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 23/34
23/02/2020 Ead.br
Abordagens de
Mineração de Dados -
De nição de Regras ou
Aprendizagem
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 24/34
23/02/2020 Ead.br
Regras de Associação
É a junção de objetos que tenham características e tendências semelhantes,
gerando redes interconectadas de conhecimento adquirido. Segundo Côrtez et al.
(2002), o banco de dados é visto como uma coleção de transação, cada uma
envolvendo um conjunto de itens. Utilizando esse modelo simpli camos a geração
de conhecimento para o auxílio na tomada de decisão.
Redes Neurais
Consiste na aplicação digital das redes biológicas de neurônios, ou seja, utilizam a
mesma regra. Denominados como RN (redes neurais), implementam detecções
so sticadas de padrões e algoritmos de aprendizado de máquina, para auxiliar a
compreensão de grandes bases de dados.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 25/34
23/02/2020 Ead.br
Algoritmos Genéticos
Algoritmos genéticos são formados por algoritmos baseados na seleção natural e
genética para otimização na busca por resultados que auxiliem a tomada de
decisão de uma organização. Geralmente, considerando que uma busca ocorre de
forma sequencial até conseguir alcançar o resultado esperado. Os algoritmos
genéticos realizam a busca de possíveis soluções de forma simultânea em N bases
de informação. Segundo Côrtez, Porcaro e Lifschitz (2002), algoritmos genéticos
são aplicados com sucesso em campos diversi cados como análise de imagens,
escalonamento e projetos de engenharia.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 26/34
23/02/2020 Ead.br
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 27/34
23/02/2020 Ead.br
atividade
Atividade
Para que a mineração de dados seja mais efetiva com o passar do tempo, seu
funcionamento é de extrema importância, o sistema utiliza o aprendizado por
experiência, baseado no modelo de experiência gerado. Considerando essa a rmação,
assinale a alternativa correta.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 28/34
23/02/2020 Ead.br
indicações
Material
Complementar
LIVRO
ISBN: 978-8536527000
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 29/34
23/02/2020 Ead.br
FILME
TRAILER
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 30/34
23/02/2020 Ead.br
conclusão
Conclusão
Nesta unidade, vimos que não existe uma forma especí ca de aplicação do
conhecimento adquirido ao longo da unidade, não possui uma de nição exata,
muito menos qual seria a melhor técnica de mineração de dados ou descoberta de
conhecimento a ser utilizada. Nesse sentido, podemos utilizar de árvores, regras,
tabelas estruturadas ou semiestruturadas, cubos de dados, entre outros
elementos possíveis. O que precisamos entender é qual o resultado esperado?
Quais dados temos em mão e qual a maneira que eles se encontram distribuídos?
Dessa maneira, conseguimos identi car a técnica utilizada e quais algoritmos
melhor se aplicam para alcançarmos os resultados esperados.
referências
Referências
Bibliográ cas
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 31/34
23/02/2020 Ead.br
DAVENPORT, T. H.; BARTH, P.; BEAN, R. How “big data” is different. MIT: Sloan
Management Review. MIT Sloan Management Review, v. 54, n. 1, 2012.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. São Paulo: Elsevier
Editora Ltda., 2005.
GOLDMAN, A.; KON, F.; JUNIOR, F. P.; POLATO, I.; DE FÁTIMA PEREIRA, R.
Apache Hadoop: Conceitos teóricos e práticos, evolução e novas possibilidades.
In: JORNADAS DE ATUALIZAÇÕES E INFORMÁTICA, 31., 2012. Anais… Maceió:
SBC, 2012. Disponível em: https://bit.ly/39aMzW3. Acesso em: 1 dez. 2019.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 32/34
23/02/2020 Ead.br
SILVEIRA, M.; MARCOLIN, C. B.; FREITAS, H. M. R. Big Data e seu uso corporativo:
Uma revisão literária. In: SIMPÓSIO INTERNACIONAL DE GESTÃO DE
PROJETOS, INOVAÇÃO E SUSTENTABILIDADE, 4., 2015. Anais… São Paulo:
SIGEP, 2015. Disponível em: https://singep.org.br/4singep/resultado/245.pdf.
Acesso em: 25 nov. 2019.
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 33/34
23/02/2020 Ead.br
https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 34/34