2 - Data Science

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 11

DATA SCIENCE

A ciência de dados (Data Science) tem sido estudada e considerada


como uma área com característica interdisciplinar por parte dos pesquisadores
da temática (CONWAY, 2010; STANTON, 2012; ZHU, XIONG, 2015) ou
multidisciplinar (TIERNEY, 2016). Dentro do contexto de grande volume de
dados (Big Data), há três linhas de pesquisas que podem ser exploradas com
vistas à consolidação da área de Data Science, a saber:
• Gerência de dados;
• Análise de dados;
• Análise de Redes Complexas.
Nesses aspectos fundamentais de análise de dados em larga escala, há
também um grande potencial tecnológico na pesquisa aplicada em ciência de
dados com impacto em diferentes áreas do conhecimento e do conhecimento e
de setores de atuação. (PORTO; ZIVIANI, 2014).
Data Science utiliza métodos e técnicas semelhantes ao da Ciência da
Computação, que incluem aquisição dos dados, gestão, armazenamento,
segurança, análise e visualização de dado, sendo que de modos distintos.
Nesta perspectiva, COWNAY (2010) criou o Diagrama de Venn para
especificar as habilidades que compete à área (Figura 1) englobando outras
disciplinas. No diagrama, a Ciência de Dados aparece no centro, em lugar de
destaque, indicando a ascensão da área e a correlação com outras
capacidades como conhecimento de matemática e estatística, habilidades
hacker e expertise substantiva, além de aprendizagem de máquina. Aspectos
como conhecimentos em estatística e matemática e habilidades de hacking e
aprendizagem de máquinas aparecem em aspectos cruzados para
operacionalizar e gerenciar grandes quantidades de dados em contexto de
Ciência de Dados.

DADOS, INFORMAÇÃO E CONHECIMENTO


Primeiramente, é importante definir dados, informação e conhecimento,
que apesar de serem termos relacionados, possuem diferente definições na
literatura.
Os dados são as representações de fatos na forma de textos, números,
gráficos, imagens, sons ou vídeos. Fatos são capturados, armazenados e
expressados como dados (DAMA INTERNACIONAL, 2009).
A informação são os dados em um contexto. Sem um contexto, os dados
não possuem sentido. Uma informação significativa é criada a partir da
interpretação do contexto relacionado aos dados. Este contexto deve incluir:

• O significado dos elementos e dos termos relacionados;


• O formato no qual os dados estão representados;
• O período representado pelos dados;
• Os objetivos buscados durante a geração destes dados;
A relevância dos dados para um determinado uso.

Os dados são a matéria-prima que os consumidores de dados


interpretam para continuamente gerar informação. A informação resultante
deste processo direciona nossas decisões.
Figura: Dados, informação e conhecimento (Dama Internacional, 2009)

As informações contribuem para o conhecimento. O conhecimento é o


entendimento, consciência e o reconhecimento de uma situação. O
conhecimento é a informação em uma perspectiva, integrado a um ponto de
vista com base no reconhecimento e interpretação de padrões, tais como
tendências, formadas a partir de outras informações e experiências. Podendo
ser incluídas também hipóteses e teorias. O conhecimento é obtido quando o
significado das informações é compreendido (DAMA INTERNACIONAL, 2009).
Os dados são a base da informação e do conhecimento, mas dados
imprecisos, incompletos, desatualizados e incompreensíveis podem gerar
falsas afirmações, que irão apoiar decisões incorretas. Por isso, a grande
importância do reconhecimento da gestão de dados como parte fundamental
dos processos realizadas nas organizações.
Vivencia-se o quarto paradigma da ciência, o qual tem redefinido o modo
de operar da ciência como consequência dos desafios impostos pela produção
de dados em larga escala. A era Big Data também revolucionou o mundo dos
negócios e vem exigindo uma nova postura das organizações para lidar com o
grande volume e variedade de dados tanto estruturados, quanto não-
estruturados, produzidos diariamente, de modo a subsidiar melhores decisões
estratégicas (GONÇALVES e CERVANTES, 2016).
Como resultado destas transformações na ciência e no mundo dos
negócios, e como forma de responder às demandas existentes, observa-se a
expansão de uma área de estudo, interdisciplinar e intensivamente
computacional: a ciência de dados. A ciência orientada a dados se vale do
potencial de robustas ciberinfraestruturas de informação e comunicação,
incluindo tecnologias de grids, e padrões que possibilitam a interoperabilidade
e a interligação de dados. Tais padrões e ciberinfraestruturas sustentam as
diferentes fases do ciclo de vida de grandes e heterogêneas coleções de dados
disponíveis na web e em repositórios de dados digitais, com vistas a atribuir
sentido e extrair insights de dados aplicáveis a diferentes domínios e contextos,
para a resolução de problemas práticos e reais (GONÇALVES e CERVANTES,
2016).
GESTÃO DE DADOS

A gestão de dados, do inglês, Data Management, é a disciplina


responsável por definir, planejar, implantar e executar estratégias,
procedimentos e práticas necessárias para a gestão efetiva dos recursos de
dados e informações das organizações, incluindo planos para a sua definição,
padronização, organização, proteção e utilização (DAMA INTERNACIONAL,
2009). As atividades de gestão de dados são consideradas nas diversas áreas
de uma instituição, estendendo-se aos fornecedores, parceiros e
consumidores. No nível institucional, envolve desde os gestores, que utilizam
dados para a tomada de decisões, até profissionais de nível operacional, que
são responsáveis pela coleta, produção e análise de dados.
Entre os objetivos da gestão de dados os principais são (DAMA
INTERNACIONAL, 2009; STRASSER et al., 2012):
• Garantia da qualidade dos dados;
• Correta utilização e reutilização dos dados;
• Decisões ágeis e corretas baseadas nos dados;
• Confiabilidade e proveniência dos dados;
• Segurança e gestão de riscos;
• Manutenção dos dados a longo prazo.

BIG DATA

O termo Big Data é amplo e ainda não existe um consenso em sua


definição.
Para MADDEN (2012), o conceito é definido em relação à existência e
aplicabilidade dos três V’s:
• Velocidade: Consiste em processar o mais rápido quanto
possível o conjunto, independentemente de seu volume de dados,
ou seja, os algoritmos de processamento, idealmente, precisam
ter complexidade sublinear;
• Variedade: Corresponde ao formato dos dados
provenientes de diversas fontes que precisam ser integrados,
possuindo esquemas diferentes em cada repositório e domínios
diferentes, tal como imagens, vídeos, áudios, documentos, dentre
outros.
• Volume: Compreende o conceito que os conjuntos de
dados vêm acumulando grande quantidade de itens
(cardinalidade) e medidas (dimensionalidade).
Segundo SMITH (2012), Big Data refere-se ao processamento e análise
de repositórios de dados extremamente grandes e que não seriam possíveis se
processar ou analisar com as ferramentas convencionais de análise de dados.
MAYER-SCHONB e CUKIER (2014), mencionam que Big Data compete a
grandes conjuntos de dados que são difíceis de armazenar, pesquisar,
visualizar e analisar como, por exemplo, uma empresa aérea que coleta 10
terabytes de dados de sensores durante 30 minutos de voo do avião.
Outra definição para Big Data é realizada por LOUKIDES (2010) e está
relacionada ao fato de que quando o tamanho do conjunto de dados faz parte
do problema ou as técnicas existentes deixam de ser eficientes, trata-se de Big
Data. Seguindo a mesma linha, JACOBS (2009) define que pode-se chamar de
big qualquer volume de dados que requisite a utilização ou criação de novas
metodologias de processamento.

PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BANCOS


DE DADOS

O processo de descoberta de conhecimento em bancos de dados (KDD


– Knowledge Discovery in Databases) é formalmente definido por FAYYAD
(1996) como um processo não trivial de identificação de padrões contidos nos
dados que sejam válidos, novos, potencialmente úteis e compreensíveis. De
acordo com HAN, KAMBER e PEI (2011), trata-se de um processo que pode
ser dividido em sete etapas, como mostrado na Figura 3: limpeza dos dados e
integração (realizadas no pré-processamento), seleção, transformação,
mineração, avaliação dos padrões e apresentação do conhecimento.
Figura: Conhecimento em Bancos de Dados (Fayyad, 1996)

SELEÇÃO DE DADOS

A fase de seleção dos dados é a primeira no processo de descobrimento


de informação e possui impacto significativo sobre a qualidade do resultado
final, uma vez que nesta fase é escolhido o conjunto de dados contendo todas
as possíveis variáveis e registros que farão parte da análise. Normalmente
essa escolha dos dados fica a critério de um especialista do domínio.
O processo de seleção é bastante complexo, uma vez que os dados
podem vim de diversas fontes diferentes (Data Warehouses, planilhas,
sistemas legados) e podem possuir os mais diferentes formatos.

PRÉ-PROCESSAMENTO E LIMPEZA

Esta é uma parte crucial no processo, pois a qualidade dos dados vai
determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser
realizadas tarefas que eliminem dados redundantes e inconsistentes,
recuperem dados incompletos e avaliem possíveis dados discrepantes ao
conjunto. O auxílio de um especialista é fundamental.
Nesta fase também são utilizados métodos de redução ou transformação
para diminuir o número de variáveis envolvidas no processo, visando com isto
melhorar o desempenho do algoritmo de análise. (HAN, KAMBER e PEI 2011).
Um problema constante nesta fase é a ausência de valores (missing
values) para determinadas variáveis, ou seja, registros com dados incompletos,
seja por falhas no processo de seleção ou de revisão. O tratamento desses
casos é necessário para que os resultados do processo de mineração sejam
confiáveis. Como solução deste problema, FAYYAD (1996) propõe três
alternativas:

• Usar técnicas de imputação (fazer a previsão dos dados


ausentes e completa-los individualmente);
• Substituir o valor faltante pela média aritmética da variável;
• Excluir o registro inteiro.

Dados que possuem valores extremos, atípicos ou com características


bastante distintas dos demais registros são chamados de discrepantes, ou
outliers.
Normalmente, registros que contêm valores discrepantes não serão
aproveitados da amostra, porém isto só deve ocorrer quando o dado outlier
representar um erro de observação, de medida ou algum outro problema
similar. Deve-se observar cautelosamente o dado antes da exclusão, pois
embora atípico, o valor pode representar um dado verdadeiro. Outliers podem
representar, por exemplo, um comportamento não usual, uma tendência ou
ainda transações fraudulentas (DINIZ, 2000).

TRANSFORMAÇÃO DOS DADOS

Após serem selecionados, limpos e pré-processados os dados


necessitam ser armazenados e formatados adequadamente para que os
algoritmos de aprendizado possam ser aplicados (FAYYAD, 1996).
Nesta fase, se necessário, é possível obter dados faltantes através da
transformação ou combinação de outros (dados derivados). Um exemplo de um
dado que pode ser calculado a partir de outro é a idade de um indivíduo, que
pode ser encontrada a partir da sua data de nascimento. Outro exemplo é o
valor total de um financiamento que pode ser calculado a partir da multiplicação
do número de parcelas pelo valor da parcela.
MINERAÇÃO DE DADOS

A mineração de dados (Data Mining) é o processo de descobrir


informações relevantes como padrões, associações, mudanças, anomalias e
estruturas, em grandes quantidades de dados armazenados em banco de
dados, depósitos de dados ou outros depósitos de informação. Data Mining
fornece percepções dos dados, descobrindo padrões e relacionamentos
ocultos em grandes bancos de dados e inferindo regras a partir deles, para
prever comportamentos futuros (ZAKI; MINEIRA, 2014).
Segundo, HAN, KAMBER e PEI (2011) a mineração de dados é definida
como o processo de descoberta de padrões que venham a ajudar os analistas
na avaliação e otimização de processos de produção, negócios, prever o futuro
comportamento dos dados, auxiliar na decisão estratégica, dentre outros.
De acordo com FAYYD (1997), as técnicas de Data Mining podem ser
aplicadas a tarefas como:
• Associação: Determina quais fatos ou objetos tendem a
ocorrerem juntos num mesmo evento;
• Classificação: Construção de um modelo que possa ser
aplicado a dados não classificados visando categorizar os objetos
em classes;
• Predição/Previsão: Usada para definir um provável valor
para uma ou mais variáveis;
• Segmentação: Visa dividir uma população em subgrupos
os mais heterogêneos possível entre si;
• Sumarização: Métodos para encontrar uma descrição
compacta para um subconjunto de dados.

INTERPRETAÇÃO E AVALIAÇÃO

Esta é mais uma fase que deve ser feita em conjunto com um ou mais
especialistas no assunto. O conhecimento adquirido através da técnica de data
mining deve ser interpretado e avaliado para que o objetivo final seja
alcançado.
Caso o resultado não seja satisfatório, o processo pode retornar a
qualquer um dos estágios anteriores ou até mesmo recomeçado, conforme
pode ser observado na Figura 3. As ações mais comuns caso o resultado não
seja satisfatório são: modificar o conjunto de dados inicial e/ou trocar o
algoritmo de data mining, ou alterar suas configurações de entrada.

VISUALIZAÇÃO DE DADOS

A visualização de dados vem se tornando mais frequente, tanto do ponto


de vista de abordagem acadêmica, quanto do ponto de vista de alargamento
dos usos na mídia impressa e digital, tornando-se comuns como modelos que
visam à representação visual de grandes volumes de dados. Na literatura,
existem algumas terminologias e definições sobre visualização de dados
(MEIRELES, 2010; VIÉGAS, 2013). De forma mais ampla, a visualização é o
resultado de uma tecnologia plural que transforma dados complexos em
informação semântica e facilita a interação por meio de ferramentas para que
qualquer usuário complete o processo de modo autônomo.
Segundo MEIRELES (2010), a visualização de dados conceitua-se como
representações de dados que pode assumir diferentes formas, tais como
sistemas de notação, mapas, diagramas, explorações de dados interativos, e
outras invenções gráficas. A visualização de dados é o processo de utilização
de tecnologias mediadas por computador e digitais para exibir informações
quantitativas e qualitativas. As visualizações de dados estão ficando cada vez
mais complexas para narrativas sofisticadas que se utilizam de mapas com
dados que permitem interação (VIÉGAS, 2013).
De acordo com VIÉGAS (2013) os dados podem ser aprofundados numa
visualização, já que são complexas e tendem a ter uma malha informacional
maior que não se limita a apenas apresentar, mas explorar e analisar. SEGEL
e HEER (2010), diz que os dados, às vezes, não contam uma história
convincente por si só, mas deve haver uma narrativa que relaciona as
consequências reais e causar o impacto no usuário.
SEGEL e HEER (2010) definem dois parâmetros que auxiliam na
decodificação dos dados complexos:
• Visualização assistida por informações: É fornecido ao
usuário um segundo formato de visualização que normalmente
exibe informações sobre um conjunto de dados, mas também
pode apresentar atributos da visualização do processo, das
propriedades dos resultados, ou das características dos
comportamentos de percepção do usuário.
• Visualização assistida por conhecimento: O conhecimento
do usuário é um aspecto indispensável, uma vez que pode-se
atribuir cores dependendo do conhecimento.
Segundo MURRAY (2013), a visualização de dados também se
configura num campo interdisciplinar, e que na era de dos grandes volumes de
dados há uma sobrecarga que precisa ser decodificada de um modo
compreensível.

SISTEMA DE APOIO À DECISÃO

Segundo TWEEDALE, PHILLIPS-WHEN e JAIN (2016) os sistemas de


apoio à decisão são definidos como software que visam melhorar a tomada de
decisão individual ou coletiva, combinando conhecimento dos tomadores de
decisão dados relevantes de fontes confiáveis, nos quais são aplicados
conceitos de Data Science, ou seja, métodos e modelos matemáticos, análise
de dados, programação, para suportar a análise, comparação e escolha de
alternativas no processo de decisão.
Os sistemas de apoio à decisão apoiam o entendimento de processos
complexos, auxiliam na comparação dos fenômenos envolvidos e suportam a
análise e escolha de alternativas no processo de decisão. A compreensão do
domínio surge da combinação das habilidades e métodos dos especialistas à
capacidade das máquinas de acessar dados, estruturá-los em modelos,
interpretar, formular e avaliar alternativas e cenários diferentes (HEINZLE,
GAUTHIER e FIALHO, 2010).
A arquitetura de um sistema de apoio à decisão pode ser representada
de acordo com a Figura, no qual recebem uma entrada, fazem o
processamento dela e retorna resultados que são analisadas pelo tomador de
decisão (TWEEDALE, PHILLIPS-WHEN e JAIN, 2016).
Nota-se na Figura 4 que os componentes de um sistema de apoio à
decisão são agrupados em:
• Entradas (Inputs): Corresponde às entradas do sistema,
composta dos dados que serão processados e dos modelos de
conhecimento dos especialistas.
• Processamento (Processing): Composto pelos modelos e
métodos de organização e processamento de dados, que têm
restrições para avaliar as alternativas de resposta.
• Saídas (Outputs): São os resultados do processamento dos
inputs e permitem comparar as alternativas de decisão.

Figura: Componentes Sistema de apoio à decisão (Tweedale, 2016).

Você também pode gostar