0% acharam este documento útil (0 voto)
16 visualizações

M3 - Análise de dados com Python

Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
16 visualizações

M3 - Análise de dados com Python

Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 27

Análise de Dados com Python

Módulo 3 - Visualização de Foto de snowing


disponível no Freepik.
Editada pelo autor.

dados e Projeto Final


Sumário

Aula 1: Visualização de Dados Básica Aula 3: Projeto de análise de dados

1.1 Aprenda a criar gráficos com a biblioteca Matplotlib 4 3.1 Projeto guiado 25
1.2 Histograma com Matplotlib 9
1.3 Boxplots com Matplotlib 10
1.4 Crie gráficos interativos com Plotly 13

Aula 2: Boas práticas e Storytelling

2.1 Boas práticas para elaboração gráficos 16


2.2 Storytelling 21
3

Foto de kroshka__nastya
disponível no Freepik.
Editada pelo autor.

Aula 1 - Visualização de Dados Básica


4

1.1 Aprenda a criar gráficos com


a biblioteca Matplotlib
Uma das etapas mais importantes na análise de dados é apresentar as Estrutura básica de um grá co
informações extraídas de forma clara e objetiva. Uma das formas mais
eficientes de fazer isso é por meio de gráficos. Python possui várias bibliotecas Para começar, o primeiro passo é importar a biblioteca Matplotlib e o módulo
que permitem a criação de gráficos, sendo a Matplotlib uma das mais ‘pyplot’ usando o seguinte código:
populares e fáceis de usar.

import matplotlib.pyplot as plt


Con guração inicial
x = [1, 2, 3, 4]
Para instalar o Matplotlib, utilize o seguinte comando: y = [1, 4, 9, 16]

plt.plot(x, y)
pip install matplotlib plt.show()

‘pyplot’ é um módulo da biblioteca Matplotlib que fornece uma interface


baseada em funções para criar e customizar grá cos em Python.
fi
fi
fi
5

Conjunto de dados

Vamos trabalhar com um exemplo de conjunto de dados sobre meteoritos,


meteorites_landings.csv, que estará disponível para download no material de
apoio.

Este conjunto de dados possui as seguintes colunas: lugar encontrado,


identi cador único, tipo do meteorito, classi cação de meteoritos, massa, se
caiu ou foi encontrado, ano, latitude, longitude e coordenadas. Veja a seguir um
recorte.

Figura 01 – Recorte do conjunto de dados sobre meteoritos. Fonte: Disponível


em: < https://www.kaggle.com/datasets/sahirmaharajj/meteorite-landings-
analysis >. 31 mar. 2024. Acesso em: 3 jun. 2024
fi
fi
6

Tipos de grá cos Saída:

Com base no conjunto de dados sobre meteoritos, vamos criar diferentes tipos
de grá cos, iniciando pelo grá co de linhas.

• Grá co de linhas: os grá cos de linhas são utilizados para mostrar dados
como uma série de pontos ligados por uma linha. São úteis para observar
tendências ao longo do tempo. Para criar um grá co de linhas no Python,
utilize a função ‘plt.plot(x, y)’, passando listas ou arrays com os valores de
cada eixo. Veja um exemplo:

import matplotlib.pyplot as plt


import pandas as pd

df = pd.read_csv("meteorite_landings.csv")
d = df['year'].value_counts()
met = pd.DataFrame({'ano': d.index, 'cont': Este grá co revela picos de registros em determinados anos, como próximo de
d.values}).sort_values(by='ano') 1980 e entre 2000 e 2005.
met = met[(met['ano'] > 1958) & (met['ano'] < 2013)]
plt.plot(met['ano'], met['cont'])
plt.show()
fi
fi
fi
fi
fi
fi
fi
7

• Grá co de barras: os grá cos de barras são excelentes para representar Saída:
relações entre dados categóricos. A função ‘plt.bar(x, y)’ cria um grá co de
barras vertical, enquanto ‘plt.barh(x, y)’ cria um grá co de barras
horizontal. Observe um exemplo de grá co de barras vertical.

barras = df.groupby(by="recclass").agg({"mass (g)":"mean",


"id":"count"}).reset_index()
barras = barras[barras["id"] > 300]
g, ax = plt.subplots()
bar_container = ax.bar(barras["recclass"], barras["mass (g)"])
ax.set(ylabel='Média da massa', title='Classes')
ax.bar_label(bar_container, fmt='{:.0f}')
plt.show()

O grá co criado mostra apenas as treze classes de meteoritos mais frequentes


para simpli car a visualização.
fi
fi
fi
fi
fi
fi
fi
fi
8

• Grá co de dispersão: os grá cos de dispersão são ideais para visualizar a


relação entre duas variáveis. Use a função ‘plt.scatter(x, y)’ para criar esse No grá co temos um conjunto de latitudes e longitudes onde foram
tipo de grá co. encontrados meteoritos. É nítido um ponto acima de 180°, o que pode
representar um erro de registro, pois a longitude varia de –180° à +180°.

plt.scatter(df["reclong"], df["reclat"]) Os grá cos de dispersão são poderosos para revelar relações ocultas nos
dados. Exemplos de aplicações incluem:

Saída:
• Relação entre idade e renda de um grupo de pessoas;
• Correlação entre horas de estudo e notas em exames;
• Relação entre investimento em marketing e vendas de um produto;
• Relação entre temperatura e consumo de energia elétrica.
fi
fi
fi
fi
fi
9

1.2 Histograma com Matplotlib

Saída:
Histogramas revelam a distribuição de frequências de um conjunto de
dados, dividindo os valores em intervalos (bins) e mostrando a
quantidade de ocorrências em cada um. A função ‘plt.hist()’ é usada
para criar histogramas. É possível personalizar a aparência com cores,
rótulos e outros parâmetros.

No contexto dos meteoritos, podemos calcular os histogramas para


latitude e longitude, com bins padrão igual a 10.

plt.hist(df"reclong"], bins=10)
plt.hist(df["reclat"], bins=10, color="green")

Os histogramas ilustram a distribuição de meteoritos em relação à longitude e latitude,


indicando concentrações em regiões especí cas. Por exemplo, a maior concentração de
meteoritos ocorre em torno de 0° de longitude e -75° de latitude.
fi
10

1.3 Boxplots com Matplotlib

O boxplot, ou diagrama de caixa, é uma ferramenta grá ca que exibe a


dispersão dos valores de um conjunto de dados, a partir dos quartis e
da mediana. Ele permite identi car visualmente os outliers e resume as
principais características estatísticas de um conjunto de dados em um
único grá co. Com este diagrama é possível identi car rapidamente os
seguintes elementos:
• A mediana (valor central);
• Os quartis (dividem os dados em três partes);
• Os valores mínimos e máximos;
• A presença de outliers.
Veja um exemplo de boxplot.

Figura 2 - Elementos que compõem um boxplot. Fonte: disponível em


<fernandafperes.com.br/blog/interpretacao-boxplot/>. Acesso em: junho de
2024
fi
fi
fi
fi
11

Exemplo prático Saída:

Agora, vamos aplicar o conceito de boxplot utilizando um dataset com dados


de postagens em redes sociais. Neste dataset temos colunas de sentimento,
país, texto da postagem, plataforma, likes, entre outras.

Usamos a função ‘boxplot’, passando os valores numéricos de likes e o rótulo


'USA' em labels para ltrar os posts com origem nos Estados Unidos (EUA).

g, ax = plt.subplots()
ax.boxplot([df_new["Likes"]], labels=["USA"])
ax.set_title("País X Likes")
plt.show()

Com esses comandos temos nosso primeiro boxplot, onde podemos observar
os likes dos EUA, seus valores máximo e mínimo, que são 70 e 15
respectivamente. Podemos observar também os outliers, 10 e 80, a mediana,
que é igual a 43, o 1° quartil em 34.75 e o 3° quartil em 50.
fi
fi
12

Comparando conjuntos de dados Saída:

Uma vantagem do boxplot é permitir a visualização de mais de um conjunto


numérico. Para isso, ao criar o boxplot, vamos passar os dois conjuntos de
valores numéricos na forma de lista e em labels indicamos também os dois
rótulos.

df_positive_likes = df_new[df_new["Sentiment"] == "Positive"]

g, ax = plt.subplots()
ax.boxplot([df["Likes"],df_positive_likes["Likes"]], labels=["USA",
"Postive"])
ax.set_title("País x Likes")
plt.show()

Observando os dois boxplots lado a lado, percebemos que as postagens com


sentimento positivo têm um limite inferior de likes maior, assim como a
mediana e os valores dos quartis. Podemos concluir que as postagens com
sentimentos positivos tendem a ter um número de likes maior comparado com
as estatísticas gerais.
fi
13

1.4 Crie gráficos interativos


com Plotly
A biblioteca Plotly eleva a visualização de dados a um novo patamar de
interatividade e impacto. Com grá cos dinâmicos e personalizáveis, a
Plotly permite que você explore os seus dados de forma intuitiva e
envolvente, facilitando a comunicação de resultados complexos.

Alguns exemplos de aplicação da Plotly na análise de dados em Python:


• Monitorar o desempenho de negócios com dashboards interativos.
• Visualizar dados geográ cos com mapas interativos e grá cos de
dispersão 3D. Foto de rawpixel.com

• Explorar relações complexas entre variáveis. disponível no Freepik.


Editada pelo autor.
fi
fi
fi
14

Exemplo prático Saída:


Assim como zemos com o matplotlib, vamos gerar um grá co de dispersão
das longitudes e latitudes do conjunto de dados sobre meteoritos, focando na
ocorrência de meteoritos na américa do sul.

import plotly.express as px
import pandas as pd

meteoritos = pd.read_csv('meteorite_landings.csv') Podemos observar com o Ploty o ano conforme a cor e a localização dos
sentimentos = pd.read_csv('sentiment_dataset.csv') meteoros espalhados no mapa. Podemos dar Zoom em áreas especi cas e ver
informações dinamicamente.
meteoritos = meteoritos[(meteoritos['year'] > 1958) & (meteoritos['year']
< 2013)] Esse foi apenas um exemplo de como criar um grá co utilizando a Plotly. Essa
meteoritos = meteoritos[ biblioteca oferece muitas possibilidades para apresentar dados de forma
(meteoritos['reclong'] >= -180) & (meteoritos['reclong'] <= 180) interativa.
& (meteoritos['reclat'] >= -90) & (meteoritos['reclat'] <= 90)
]

px.density_mapbox(
meteoritos, lat='reclat', lon='reclong',
z='year', radius=10,
center=dict(lat=0, lon=0), zoom=1,
mapbox_style="open-street-map"
)
fi
fi
fi
fi
15

Aula 2 - Boas práticas e Storytelling


16

2.1 Boas práticas para


elaboração gráficos
Como criar boas visualizações
A visualização de dados é a representação grá ca de informações e
dados. Utilizando elementos visuais como grá cos, mapas e diagramas, Observe algumas dicas essenciais para aprimorar suas habilidades e
ela proporciona uma maneira acessível de visualizar e compreender garantir uma comunicação e caz.
tendências, outliers e padrões nos dados.
• Use títulos descritivos: um título claro e informativo ajuda a
Ela é uma ferramenta poderosa para comunicar informações contextualizar o grá co.
complexas de forma clara e e caz. Boas práticas na criação de grá cos • Escolha paletas de cores apropriadas: utilize paletas de cores
garantem que os dados sejam apresentados de maneira precisa e fácil que facilitam a distinção entre categorias e que sejam acessíveis
de entender, enquanto más práticas podem distorcer a mensagem e para pessoas com daltonismo. Não utilize combinações de cores
confundir o público. que di cultem a leitura dos dados.
• Adicione anotações: destaque pontos importantes diretamente
no grá co para melhorar a compreensão.
• Evite excesso de informação: mantenha os grá cos simples e
diretos, evitando sobrecarregar o público com demasiados
detalhes.
É importante garantir que o uso de grá cos realmente ajude, em vez
de prejudicar a comunicação das informações desejadas. A seguir, veja
algumas dicas e cuidados especí cos para diferentes tipos de grá cos.
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
17

Grá co de barras
• Título genérico: o título "Vendas Mensais" é muito vago e não fornece
• Quando usar: comparação de categorias diferentes. contexto su ciente sobre qual produto foi vendido e qual o ano.
• Melhores práticas: use barras com larguras iguais e organize-as em • Cor única: o uso de uma única cor não ajuda a distinguir os diferentes
ordem lógica. meses.
Vamos usar um conjunto de dados ctício, que mostra as vendas mensais de • Falta de anotações: não há destaques ou anotações para pontos
uma empresa ao longo de um ano, para ilustrar boas e más práticas de importantes nos dados.
visualização de dados.

Vamos começar com um exemplo de visualização inadequada.

Figura 03 – Exemplo de grá co de barras com visualização inadequada,


representando quantidade de vendas mensais. Fonte: criado pelo autor.

Podemos observar os seguintes problemas:


fi
fi
fi
fi
18

Então, como poderíamos resolver estes problemas? Veremos agora um • Título informativo: o título "Vendas Mensais do produto A ao Longo do
exemplo de uma visualização adequada. Ano de 2023" fornece mais contexto e é mais descritivo.
• Uso de paleta de cores:o uso de mais de uma cor torna o
grá co visualmente mais atraente e, neste caso, facilita a distinção entre os
meses no qual a meta não foi batida.
• Anotações: os valores das vendas anotados diretamente nas barras facilita
a leitura e interpretação dos dados.

Outra dica importante é utilizar as escalas apropriadas, ou seja, certi car-se de


que os eixos estejam corretamente escalados para representar os dados com
precisão.

Figura 04 – Exemplo de grá co de barras com visualização adequada,


representando quantidade de vendas mensais. Fonte: criado pelo autor.

Perceba os pontos que foram alterados nesta visualização, deixando-a mais


clara.
fi
fi
fi
19

Grá cos de linhas Podemos observar que o grá co está sem legenda, possui muitas informações
e cores similares, di cultando a compreensão.
• Quando usar: representação de tendências ao longo do tempo.
• Melhores práticas: mantenha a linha simples e evite a sobreposição de
muitas linhas.

Vamos observar exemplos de visualizações deste tipo de grá co, começando


pelo exemplo inadequado.

Figura 06 – Grá co de linhas com boa visualização. Fonte: criado pelo autor.

Já nesta versão ajustada, há menos informações, cores distintas e utilização de


símbolos nas linhas para diferenciar, caso a imagem seja mostrada em escala
de cinza, por exemplo.

Figura 05 – Grá co de linhas com difícil visualização. Fonte: criado pelo autor.
fi
fi
fi
fi
fi
fi
20

Grá cos de Pizza (ou de rosca) Este grá co mostra a quantidade de meteoritos que foram encontrados na
Terra durante um período. Pela quantidade de classes diferentes, não
• Quando usar: representação de proporções de um todo. conseguimos distinguir bem as classes com menos frequência. As legendas se
• Melhores práticas: use apenas quando tiver poucas categorias e misturam devido a organização do grá co e não conseguimos visualizar os
assegure-se de que as fatias são facilmente diferenciáveis. Ao utilizar mais números totais de meteoritos de cada classe.
do que quatro categorias, o grá co pode car confuso e visualmente
poluído com muitas cores. Agora, veja uma versão modi cada do grá co. Nessa versão, estamos focando
apenas nas classes de meteoritos com mais de quatro mil ocorrências,
Vamos analisar o grá co a seguir. agrupando o restante. Também é possível visualizar rapidamente a quantidade
de elementos em cada classe, e a legenda está bem mais legível.

Figura 07 – Grá co com muitas categorias. Fonte: criado pelo autor. Figura 08 – Grá co ajustado com menos categorias. Fonte: criado pelo autor.
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
21

2.2 Storytelling

Estrutura de uma boa história com dados


Storytelling com dados é a prática de transformar dados em narrativas
envolventes e compreensíveis. Em vez de apenas apresentar números 1. Contexto: estabeleça o cenário e explique por que os dados são
e grá cos, o storytelling conecta fatos e insights de maneira lógica e relevantes. Quem está envolvido? O que está acontecendo?
atraente, tornando as informações mais acessíveis e memoráveis, 2. Con ito: apresente um problema ou questão que os dados
fundamental para a tomada de decisões e cazes. ajudarão a resolver. Qual é o problema?
3. Clímax: mostre a análise dos dados, destacando os insights mais
Isso é fundamental para a análise de dados, pois permite: importantes.
Aumentar o engajamento do público, facilitando a comunicação de 4. Resolução: proponha soluções ou conclusões baseadas nos dados
insights complexos; analisados. Como o problema é resolvido?
• Aumentar a retenção de informações, assegurando que as 5. Conclusão: resuma os pontos principais e indique os próximos
descobertas sejam memorizadas de forma e caz. passos.
• In uenciar a tomada de decisões, transformando os dados em uma
ferramenta poderosa para a estratégia de negócios.

Ao contextualizar os dados dentro de uma narrativa coerente, a análise


se torna mais relevante e persuasiva, permitindo que as pessoas se
conectem com as informações de forma mais profunda e tomem
decisões mais assertivas
fl
fl
fi
fi
fi
22

Exemplo prático de storytelling com dados Ações principais recomendadas como resolução
1. Melhoria na logística: implementar um sistema de monitoramento em
• Contexto: uma loja online está enfrentando problemas com a insatisfação tempo real para otimizar a rota de entrega.
dos clientes, principalmente devido aos longos tempos de entrega e ao 2. Treinamento sobre atendimento ao cliente: desenvolver um programa de
atendimento ao cliente treinamento intensivo focado em habilidades de comunicação e resolução
• Con ito: os índices de satisfação do cliente estão abaixo do esperado, e as de problemas.
queixas sobre prazos de entrega e qualidade do atendimento ao cliente
estão aumentando. Conclusão: com essas ações, projetamos que a satisfação do cliente
• Clímax: analisamos os dados das avaliações dos clientes e das métricas de aumentará em 15% nos próximos seis meses. A melhoria contínua nos tempos
desempenho de entrega e identi camos que: de entrega e na qualidade do atendimento ao cliente resultará em uma
experiência de compra mais agradável e na delização dos clientes.
◦ Tempos de entrega: variaram signi cativamente nos últimos 12 meses,
com picos de atraso em determinados períodos.
◦ Avaliações de atendimento ao cliente: avaliações são consistentemente
baixas durante os períodos de picos de atraso.

Formas de visualização
• Grá co de linha: mostra a variação dos tempos de entrega ao longo do
tempo.
• Grá co de barras: exibe a distribuição das avaliações do atendimento ao
cliente.
• Grá co de dispersão: destaca a correlação entre os tempos de entrega e
as avaliações negativas.
fi
fi
fi
fl
fi
fi
fi
23

Boas práticas para storytelling com dados O poder do storytelling com dados pode transformar a maneira como você
comunica insights e in uencia decisões. Ao seguir boas práticas e usar
• Conheça o público: adapte a narrativa ao conhecimento e interesse do ferramentas adequadas, é possível transformar dados brutos em narrativas
seu público-alvo. impactantes que informam e in uenciam decisões.
• Seja claro e conciso: evite jargões e mantenha a história direta ao ponto.
• Use visualizações e cazes: grá cos e tabelas devem complementar a
história, não confundir.
• Contextualize os dados: forneça contexto su ciente para que os dados
façam sentido.
• Revise e re ne: teste a história com colegas ou stakeholders e ajuste
conforme necessário.

Ferramentas de Visualização
• Matplotlib: ideal para grá cos básicos e personalizáveis.
• Seaborn: bom para grá cos estatísticos e visualmente atraentes.
• Plotly: útil para grá cos interativos.

Técnicas de Visualização
• Grá cos de linha: para mostrar tendências ao longo do tempo.
• Grá cos de barra: para comparações entre diferentes categorias.
• Grá cos de dispersão: para visualizar relações entre variáveis.
• Mapas de calor: para mostrar a intensidade dos valores em uma matriz.
fi
fi
fi
fi
fi
fi
fi
fl
fi
fl
fi
fi
24

Aula 3 - Projeto de análise de dados


25

3.1 Projeto guiado

Requisitos:
Agora que você passou por todos os conteúdos do módulo, chegou a
hora de praticar. Que tal um desa o? 1) Instalação: instale o Python, o Jupyter Notebook e as bibliotecas
Pandas e Plotly;
Objetivo: analisar um conjunto de dados de vendas de videogames 2) Conjunto de dados: faça download do conjunto de dados e o insira
para responder perguntas utilizando bibliotecas de visualização no mesmo diretório do arquivo Python;
interativas (Plotly). 3) Análises: crie um grá co de barras para mostrar Quais são os 10
jogos mais vendidos? E como é a venda desses em cada
1. Quais são os 10 jogos mais vendidos? E como é a venda desses em plataforma?
cada plataforma? ◦ A partir desse grá co, mostre também as plataformas dos jogos,
2. Como foi a venda de jogos por ano para as distribuidoras que mais assim podemos ver qual plataforma vendeu mais um determinado
venderam? jogo, quais são as plataformas mais comuns entre os jogos mais
3. A nota de um jogo in uência as suas vendas? vendidos, por exemplo.
4. Como variam as notas de acordo com o gênero? ◦ Crie um grá co de linha para mostrar Como foi a venda de jogos
5. Como varia o número de vendas dos jogos em cada região? por ano para as distribuidoras que mais venderam?
fi
fi
fl
fi
fi
26

Explore mais!

• Assista ao vídeo do canal Hashtag Programação e saiba mais sobre


usar dados para contar histórias (Storytelling) envolventes e e cazes,
especialmente no contexto da ciência de dados. Clique aqui.

• Encontre mais exemplos de visualização em Python, além de exercícios


com solução para você praticar. Clique aqui.

• Explore mais sobre visualização de dados com Seaborn, uma biblioteca


poderosa que torna a criação de grá cos estatísticos em Python simples e
elegante. Acesse o tutorial o cial e descubra como Seaborn facilita a
análise de padrões complexos em dados, oferecendo recursos avançados
de personalização e integração com Matplotlib. Clique aqui.
fi
fi
fi
27

Referências bibliográficas

DUARTE, Nancy. DataStory: Explain Data and Inspire Action Through Story.
Hoboken, NJ: Wiley, 2019.

KNAFLIC, Cole Nussbaumer. Storytelling with Data: A Data Visualization


Guide for Business Professionals. Hoboken: Wiley, 2015.

TUFTE, Edward R. The Visual Display of Quantitative Information. Cheshire,


CT: Graphics Press, 2001.

Você também pode gostar