tn21 Datamining Livrooffline
tn21 Datamining Livrooffline
tn21 Datamining Livrooffline
DATA MINING
(MINERAÇÃO DE DADOS)
Com Fabiano Castello e Júlio Machado
EMENTA DA DISCIPLINA 4
BIBLIOGRAFIA BÁSICA 5
MAPA DA AULA 7
ARTIGOS 38
RESUMO DA DISCIPLINA 39
AVALIAÇÃO 40
2
Conheça
c seus professores
-
FABIANO CASTELLO
Professor convidado
JÚLIO MACHADO
Professor PUCRS
3
Ementa da Disciplina
4
Bibliografia básica
a
-
As publicações destacadas têm acesso gratuito.
Bibliografia básica
Bibliografia complementar
IIBA. A guide to the business analyst body of knowledge: version 3.0. Toronto: IIBA,
2015.
JIAWEI, H.; MICHELINE, K.; JIAN, P. Data mining: concepts and techniques.
Burlington: Morgan Kaufmann, 2011.
SHARP, S. Competitive intelligence advantage. New Jersey: John Wiley & Sons, Inc.,
2009.
TOURTE, E. et al. Working with text: tools, techniques and approaches for text
mining. Oxford: Chandos Publishing, 2016.
5
o o
O que compõe
s
Mapa da Aula?
MAPA DA AULA
São os capítulos da aula, demarcam
momentos importantes da disciplina,
servindo como o norte para o seu FUNDAMENTOS
aprendizado.
Conteúdos essenciais sem os quais
você pode ter dificuldade em
compreender a matéria. Especialmente
importante para alunos de outras
EXERCÍCIOS DE FIXAÇÃO
áreas, ou que precisam relembrar
assuntos e conceitos. Se você estiver
Questões objetivas que buscam
por dentro dos conceitos básicos dessa
reforçar pontos centrais da disciplina,
disciplina, pode tranquilamente pular
aproximando você do conteúdo de
os fundamentos.
forma prática e exercitando a reflexão
sobre os temas discutidos.
CURIOSIDADES
Apresentação de figuras públicas
e profissionais de referência
PALAVRAS-CHAVE mencionados pelo(a) professor(a),
além de fatos e informações que dizem
Conceituação de termos técnicos, respeito à conteúdos da disciplina.
expressões, siglas e palavras específicas
do campo da disciplina citados durante
a videoaula. DESTAQUES
Frases dos professores, que resumem
sua visão sobre um assunto ou
VÍDEOS situação.
CASE
Neste item você relembra o case
analisado em aula pelo professor.
LEITURAS INDICADAS
A jornada de aprendizagem não
termina ao fim de uma disciplina. Ela
MOMENTO DINÂMICA segue até onde a sua curiosidade
alcança. Aqui você encontra uma lista
Aqui você encontra a descrição
de indicações de leitura. São artigos e
detalhada da dinâmica realizada pelo
livros sobre temas abordados em aula.
professor em sala de aula com os alunos.
6
Mapa da Aula
Os tempos marcam os principais momentos das videoaulas.
AULA 1 • PARTE 1
PALAVRAS-CHAVE
01:48
7
LEITURAS INDICADAS
10:05
Data Mining Models
LEITURAS INDICADAS
10:41
Data Mining: Concepts and
Techniques
8
PALAVRAS-CHAVE
13:59
LEITURAS INDICADAS
15:55
The Support of Decision
Processes with Business
Intelligence and Analytics
CURIOSIDADE
16:15
Thomas Davenport
9
19:48 Contextualizando BI&A e KDD
CRISP-DM 29:05
10
de ferramenta específica. Essa técnica
compreende cinco fases:
CRISP-DM.
PCA.
AULA 1 • PARTE 2
11
CASE
08:39
SAS Institute
10:08
De 2014 para cá, não surgiu
nenhum grande novo
framework que foi adotado
pelo mercado, o que se viu foi
a consolidação do CRISP-DM
como o principal framework.
Fundada em 1976 por Anthony Barr, James
Goodnight, John Sall e Jane Helwig, é uma
empresa pioneira em Business intelligence e
de uma família de softwares gerenciadores
de bancos de dados. Em 2001, foi rebatizada
13:12 Exploração de dados
como SAS.
17:01
Eu gosto de pensar em big data
como um grande conceito de
uso de dados.
PALAVRAS-CHAVE
20:14
12
EXERCÍCIO DE FIXAÇÃO
28:23
AULA 1 • PARTE 3
04:39
Quando falamos de explorar
dados, uma das melhores
Resposta desta página: alternativa 2.
13
• Gráfico de barras (histograma);
• Scatter plot (gráfico de dispersão);
• Tree maps;
VÍDEO
• Bloxpot (diagrama de caixa); 05:13
• Facets. 200 países, 200 anos, 4 minu-
tos
PALAVRAS-CHAVE
10:18
CURIOSIDADE
11:02
Hans Rosling
LEITURAS INDICADAS
11:15
Factfulness
14
LEITURAS INDICADAS
12:07
Storytelling com Dados
CURIOSIDADE
12:45
Edward Tufte
PALAVRAS-CHAVE
14:26
29:50 Ferramentas
15
LEITURAS INDICADAS
36:29
Análise de Dados
EXERCÍCIO DE FIXAÇÃO
42:04
Boxplot e bining.
Sampling e facets.
AULA 1 • PARTE 4
Resposta desta página: alternativa 3.
16
10:55
Do ponto de vista do
processamento, não podemos
esquecer que o computador
é uma máquina burra, ela é
programada para fazer as
Noise: erros aleatórios 11:32 coisas.
LEITURAS INDICADAS
12:02
O sinal e o ruído: por que tantas
previsões falham e outras não
CURIOSIDADE
12:19
Nate Silver
17
Data integration 14:53
CURIOSIDADE
25:20
Joseph F. Hair Jr.
CURIOSIDADE
26:04
Maria Aparecida Gouvêa
18
Quando reduzimos dados, 26:39
perdemos uma coisa chamada
granularidade.
23:14 PCA
EXERCÍCIO DE FIXAÇÃO
33:55
19
AULA 1 • PARTE 5
20
Não tem como você obter um 11:24
resultado bom se você partir
de dados que são ruins.
PALAVRAS-CHAVE
12:52
19:02
Quais são os principais tipos de
padronização? Padronização
por mínimo e máximo e por
z-score.
PALAVRAS-CHAVE
23:07
21
EXERCÍCIO DE FIXAÇÃO
29:53
AULA 2 • PARTE 1
22
A inteligência artificial pode 07:38
nos ajudar a encontrar as
respostas, mas está muito
longe de nos ajudar a fazer as
perguntas.
PALAVRAS-CHAVE
09:54
PALAVRAS-CHAVE
18:46
Mainframe: Trata-se de um
computador de grande porte
normalmente dedicado ao
processamento de grandes volumes
de informação.
23
EXERCÍCIO DE FIXAÇÃO
32:40
Machine learning e predictive
analysis são divisões de qual área?
Progressão logística.
Inteligência artificial.
Progressão linear.
AULA 2 • PARTE 2
11:02
Não tem nenhum tipo de
Resposta desta página: alternativa 3.
24
FUNDAMENTO I
19:20
Modelos de atribuição
Os modelos de atribuição são ferramentas
que auxiliam na definição das campanhas/
mídias que terão mais possibilidades de
23:13 Manter a mente aberta!
conversão. Para tanto, o domínio das
ferramentas é essencial. Um modelo de A regressão é a forma mais simples
atribuição é a regra ou um conjunto de de análise preditiva, trata-se de uma
regras que determina como o crédito de ferramenta poderosa que pode ajudar a
vendas e conversões é atribuído a pontos resolver muitos problemas do dia a dia,
de contato em caminhos de conversão. O com base em fatos e dados (cada vez
modelo mais utilizado é o “último clique”, mais necessários para suportar decisões
no qual a conversão aponta para o último de negócio). A matemática utilizada é
clique do usuário, seja no Google, Facebook, simples e acessível; mesmo que os alunos
YouTube ou Bing. não sejam da área das exatas, essa é uma
O DDA é a capacidade de processamento ótima oportunidade para aprender uma
e interpretação massiva de dados aplicada ferramenta que pode ser uma vantagem
à atribuição. O algoritmo da atribuição competitiva no negócio e na carreira de
baseada em dados analisa diversos todos os alunos.
caminhos de conversão com diferenças
sutis e, utilizando alguns métodos e
modelos estatísticos, é capaz de entender 25:14
Você pode ter opiniões, mas,
a importância de cada um dos passos do se tiver fatos e dados, tem uma
usuário para gerar a conversão final. chance de questionamento
muito menor.
CASE
26:48
Gretl
Pacote de software multiplataforma para
análise econométrica, escrito na linguagem
de programação C. É um software de
LEITURAS INDICADAS
código aberto gratuito. Saiba mais. 28:35
Discurso sobre o Método
25
favorecendo o protagonismo da razão.
CASE
35:39
R Studio
É um ambiente computacional e uma
linguagem de programação que vem
progressivamente se especializando em
manipulação, análise e visualização gráfica
de dados.
EXERCÍCIO DE FIXAÇÃO
36:04
Padronização e normatização.
AULA 2 • PARTE 3
26
Regressão linear múltipla 23:31
39:07
Quanto menos variáveis eu
tiver, menos trabalho terei para
me preocupar com a qualidade
do material.
Demonstração de regressão múltipla 40:34
Regressão logística.
Resposta desta página: alternativa 4.
Regressão linear.
27
AULA 2 • PARTE 4
Demonstração de progressão
03:00
logística
07:06
Esta é a diferença importante
sobre a questão da regressão
linear e da regressão logística:
elas são diferentes porque
PALAVRAS-CHAVE muda o tipo de função que elas
07:38 usam para calcular a previsão.
Função sigmoide: É uma função
matemática de amplo uso em campos
como a economia e a computação. O
nome “sigmoide” é oriundo da forma
em S de seu gráfico.
PALAVRAS-CHAVE
11:28
28
14:35
O R quadrado não é uma boa
métrica para trabalhar com
regressão logística.
29
EXERCÍCIO DE FIXAÇÃO
49:34
AULA 3 • PARTE 1
30
23:08 Algoritmo apriori
LEITURAS INDICADAS
35:57
Artigos sobre o caso das cervejas e das
fraldas
31
LEITURAS INDICADAS
39:37
Artigos sobre o caso da Target
EXERCÍCIO DE FIXAÇÃO
49:26
Fundada por George Draper Dayton em Assinale a alternativa correta em
1902, é a segunda maior rede de varejo dos relação ao algoritmo apriori.
Estados Unidos, atrás apenas da Walmart.
Em 2019, o rendimento da corporação girava Não precisa de pós-processamento
em torno dos 75 bilhões de dólares. pois o número de regras resultantes
da mineração é pequeno.
AULA 3 • PARTE 2
Resposta desta página: alternativa 2.
32
comum nomear os objetos da classe de
maior interesse de “positivos”, enquanto
os demais objetos são denominados
04:05
“negativos”. Em alguns casos, os erros têm A matriz de confusão também
igual importância, mas, em muitos outros, é chamada de matriz de
têm prioridades distintas, considerando as contingência.
possíveis consequências.
11:07
Eu não avaliar mais a fundo
um determinado paciente
por causa de uma predição
mal feita, pode me levar a
problemas sérios.
16:50
A precisão diz respeito a uma
determinada classe. A acurácia
está tratando das classes como
um todo.
F-Score 26:36
33
EXERCÍCIO DE FIXAÇÃO
44:42
Assinale a alternativa correta em
relação à mineração de regras de
associação.
AULA 3 • PARTE 3
34
HILARIO, A. F. et al. Learning from
imbalanced data sets. Berlim: Springer,
2018.
20:01
Não preciso, necessariamente,
entrar a fundo em todo
formulismo matemático ou na
codificação do algoritmo em si
para saber que existe e que eu
Dados: treino, validação e testes 20:31 devo utilizar a técnica quando
necessária.
Os três conjuntos de dados de interesse
são os seguintes:
Cross-validation I 35:16
Matriz de confusão.
Regras de associação.
Resposta desta página: alternativa 1.
Métricas.
35
AULA 3 • PARTE 4
Cross-validation II 00:29
FUNDAMENTO III
21:00
TensorFlow
Trata-se de uma biblioteca de software
de código aberto para computação
numérica utilizando grafos computacionais.
MLOps 24:17 Originalmente desenvolvida pela Google
Brain Team, na organização de pesquisa
O Machine Learning Operations
Machine Intelligence do Google para
(MLOps) nasce a partir da necessidade
aprendizado de máquina e pesquisa de
de novas técnicas para a obtenção de
redes neurais profundas (Deep Learning),
dados, estabelecendo uma prática de
a biblioteca é ampla o suficiente para ser
engenharia de machine learning (ML)
aplicada em uma grande variedade de
que visa unificar o desenvolvimento e a
domínios. Foi disponibilizada em código
operação de sistemas de ML. O desafio
aberto no ano de 2015, e alcançou a
é criar um sistema integrado e operá-lo
versão 1.0 em fevereiro de 2017, com um
continuamente na produção.
desenvolvimento e adoção incrivelmente
rápidos e muitos colaboradores externos.
36
dos projetos do TensorFlow, o MobileNet,
está desenvolvendo um conjunto de
modelos de visão computacional que são
especialmente projetados para abordar
O mundo muda, a 25:38 os trade-offs de velocidade/precisão que
característica dos dados precisam ser considerados em dispositivos
muda. móveis ou em aplicativos embarcados.
LEITURAS INDICADAS
36:28
Desafios em Machine Learning
37:31
No momento em que o modelo
preditivo foi implantado em
produção, ele começa a se
degradar.
EXERCÍCIO DE FIXAÇÃO
39:02
37
Artigos
Nesta página, você encontra links de artigos científicos, informativos
e vídeos sugeridos pelo professor PUCRS.
LIVROS
CHAPMAN, Pete et al. CRISP-DM 1.0: step-by-step data mining guide. SPSS
Inc.: Chicago, 2000.
38
Resumo da disciplina
Nesta página, veja um resumo dos principais conceitos trabalhados ao longo da
disciplina.
AULA 1
AULA 2
AULA 3
39
Avaliação
Veja as instruções para realizar a avaliação da disciplina.
Fique tranquilo! Caso você perca o prazo do teste online, ficará aberto
o teste de recuperação, que pode ser realizado até o final do seu curso.
A única diferença é que a nota máxima atribuída na recuperação é 8.
MBA em
Tecnologia para Negócios: AI, Data Science e Big Data