2 - Data Science
2 - Data Science
2 - Data Science
BIG DATA
SELEÇÃO DE DADOS
PRÉ-PROCESSAMENTO E LIMPEZA
Esta é uma parte crucial no processo, pois a qualidade dos dados vai
determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser
realizadas tarefas que eliminem dados redundantes e inconsistentes,
recuperem dados incompletos e avaliem possíveis dados discrepantes ao
conjunto. O auxílio de um especialista é fundamental.
Nesta fase também são utilizados métodos de redução ou transformação
para diminuir o número de variáveis envolvidas no processo, visando com isto
melhorar o desempenho do algoritmo de análise. (HAN, KAMBER e PEI 2011).
Um problema constante nesta fase é a ausência de valores (missing
values) para determinadas variáveis, ou seja, registros com dados incompletos,
seja por falhas no processo de seleção ou de revisão. O tratamento desses
casos é necessário para que os resultados do processo de mineração sejam
confiáveis. Como solução deste problema, FAYYAD (1996) propõe três
alternativas:
INTERPRETAÇÃO E AVALIAÇÃO
Esta é mais uma fase que deve ser feita em conjunto com um ou mais
especialistas no assunto. O conhecimento adquirido através da técnica de data
mining deve ser interpretado e avaliado para que o objetivo final seja
alcançado.
Caso o resultado não seja satisfatório, o processo pode retornar a
qualquer um dos estágios anteriores ou até mesmo recomeçado, conforme
pode ser observado na Figura 3. As ações mais comuns caso o resultado não
seja satisfatório são: modificar o conjunto de dados inicial e/ou trocar o
algoritmo de data mining, ou alterar suas configurações de entrada.
VISUALIZAÇÃO DE DADOS