Livro - Leitura 3
Livro - Leitura 3
Livro - Leitura 3
A CIÊNCIA DE
DADOS
Introdução
A extração de conhecimento é um trabalho necessário diante de um
conjunto de dados a serem analisados. O que eles significam e o que têm
a mostrar sobre a realidade é objeto de estudo de vários pesquisadores,
alunos e profissionais. Assim, há diversas técnicas baseadas em inteligên-
cia artificial que podem ser aplicadas no contexto de ciência de dados,
permitindo-nos observar melhor e aprender com os dados disponíveis.
Dentro desse contexto estão o aprendizado de máquina (ou machine
learning) e as redes neurais. Existe ainda o conceito de deep learning,
um termo específico, dentro do aprendizado de máquina, que oferece
maior capacidade de processamento dos dados. Essas técnicas simulam
o aprendizado humano, os dados são o seu fomento para a descoberta
de informações.
Neste capítulo, você estudará as técnicas utilizadas em ciências de
dados. Além disso, verá a aplicação do aprendizado de máquina, e lerá
sobre os conceitos de aprendizagem profunda.
e podem ter esse conhecimento extraído deles. Desse modo, existem técnicas
específicas em ciência de dados que permitem o tratamento e a extração de
informações.
Nesse sentido, o aprendizado de máquina se refere a um contexto inteligente,
capaz de obter, de forma automática, conhecimento a partir de dados. O intuito
dessa técnica é simular o processo de aprendizagem humana e ter os mesmos
insights que um humano teria — porém, trata-se de um conhecimento adquirido
de forma artificial, por uma máquina. Atualmente, sabe-se que, para tarefas
específicas, a máquina pode ser até mais eficaz e eficiente que o ser humano.
Segundo Ventura (2010), as nossas funções locomotoras e sensoriais, a
aprendizagem e a memória são objeto de pesquisa em inteligência artificial.
Ferramentas tecnológicas são utilizadas para entender os sistemas biológicos
como fonte de inspiração para o desenvolvimento de soluções. Assim, tem-se
a aplicação de modelos biologicamente inspirados em áreas como engenharia,
indústria, transporte, entre outras.
O aprendizado de máquina tem aplicações em vários âmbitos da sociedade
e pode auxiliar diversos segmentos nas suas tarefas. Além disso, como pontua
Amaral (2016), a ciência de dados é composta por várias outras ciências, mo-
delos, tecnologias, processos e procedimentos relacionados aos dados. Dentro
do contexto do aprendizado de máquina, estão as redes neurais, que se baseiam
em neurônios artificiais, em referência aos biológicos, conforme a Figura 1.
As redes neurais se inspiram no funcionamento anatômico e fisiológico, a fim
de se assemelhar à aprendizagem humana.
Aprendizado supervisionado
O aprendizado supervisionado tem esse nome porque o indutor tem o objetivo
de extrair um modelo de generalização a partir de dados de entrada rotulados.
Assim, dado um conjunto de entrada de dados conhecidos, já se sabe qual é
a saída esperada.
Nesse sentido, ao enviarmos novos dados para esse indutor, que apren-
deu com os dados iniciais, esperamos que ele possa compreender os novos,
de acordo com os rótulos aprendidos. Por exemplo, um técnico de futebol
aprende a partir de dados de times adversários; assim, quando há um novo jogo,
espera-se que ele saiba manejar a sua equipe, já que conheceu previamente
as jogadas do oponente.
Usando técnicas do aprendizado de máquina, podemos resolver proble-
mas de regressão ou de classificação. O problema de regressão (Figura 2a)
ocorre quando precisamos prever o resultado em uma saída contínua. Assim,
o objetivo é mapear as variáveis de entrada em uma função contínua. Já o de
classificação (Figura 2b) se coloca quando estamos tentando prever o resultado
em uma saída discreta.
e regressão. A regressão linear é uma análise que tem o intuito de gerar uma
função linear para descrever a relação entre os dados, de forma que se possa
estimar uma variável numérica por meio da função gerada. A regressão logística
é semelhante à linear, mas a variável estimada será categórica.
O SVM foi proposto por Buser et al. (1992) e utiliza o conceito de planos
de decisão em um espaço multidimensional utilizando uma função kernel,
que é ajustada de forma a generalizar o modelo. O KNN foi proposto por Fix
e Hodges (1951), como um algoritmo simples que gera um modelo baseado
nos dados e nos seus vizinhos.
As árvores de decisão são um conjunto de raízes e de nós que se orga-
nizam como um fluxograma de deliberações, a fim de se consolidar um
modelo. Pode-se ter inúmeras árvores para um dado conjunto, ao ponto de
haver famílias de árvores de decisão. Por último, o Naïve Bayes, dentro do
contexto do aprendizado de máquina, tem a aplicação direta do teorema
com o mesmo nome. Assim, o intuito é encontrar uma probabilidade, dado
que já ocorreu algo.