M3 - Análise de dados com Python
M3 - Análise de dados com Python
1.1 Aprenda a criar gráficos com a biblioteca Matplotlib 4 3.1 Projeto guiado 25
1.2 Histograma com Matplotlib 9
1.3 Boxplots com Matplotlib 10
1.4 Crie gráficos interativos com Plotly 13
Foto de kroshka__nastya
disponível no Freepik.
Editada pelo autor.
plt.plot(x, y)
pip install matplotlib plt.show()
Conjunto de dados
Com base no conjunto de dados sobre meteoritos, vamos criar diferentes tipos
de grá cos, iniciando pelo grá co de linhas.
• Grá co de linhas: os grá cos de linhas são utilizados para mostrar dados
como uma série de pontos ligados por uma linha. São úteis para observar
tendências ao longo do tempo. Para criar um grá co de linhas no Python,
utilize a função ‘plt.plot(x, y)’, passando listas ou arrays com os valores de
cada eixo. Veja um exemplo:
df = pd.read_csv("meteorite_landings.csv")
d = df['year'].value_counts()
met = pd.DataFrame({'ano': d.index, 'cont': Este grá co revela picos de registros em determinados anos, como próximo de
d.values}).sort_values(by='ano') 1980 e entre 2000 e 2005.
met = met[(met['ano'] > 1958) & (met['ano'] < 2013)]
plt.plot(met['ano'], met['cont'])
plt.show()
fi
fi
fi
fi
fi
fi
fi
7
• Grá co de barras: os grá cos de barras são excelentes para representar Saída:
relações entre dados categóricos. A função ‘plt.bar(x, y)’ cria um grá co de
barras vertical, enquanto ‘plt.barh(x, y)’ cria um grá co de barras
horizontal. Observe um exemplo de grá co de barras vertical.
plt.scatter(df["reclong"], df["reclat"]) Os grá cos de dispersão são poderosos para revelar relações ocultas nos
dados. Exemplos de aplicações incluem:
Saída:
• Relação entre idade e renda de um grupo de pessoas;
• Correlação entre horas de estudo e notas em exames;
• Relação entre investimento em marketing e vendas de um produto;
• Relação entre temperatura e consumo de energia elétrica.
fi
fi
fi
fi
fi
9
Saída:
Histogramas revelam a distribuição de frequências de um conjunto de
dados, dividindo os valores em intervalos (bins) e mostrando a
quantidade de ocorrências em cada um. A função ‘plt.hist()’ é usada
para criar histogramas. É possível personalizar a aparência com cores,
rótulos e outros parâmetros.
plt.hist(df"reclong"], bins=10)
plt.hist(df["reclat"], bins=10, color="green")
g, ax = plt.subplots()
ax.boxplot([df_new["Likes"]], labels=["USA"])
ax.set_title("País X Likes")
plt.show()
Com esses comandos temos nosso primeiro boxplot, onde podemos observar
os likes dos EUA, seus valores máximo e mínimo, que são 70 e 15
respectivamente. Podemos observar também os outliers, 10 e 80, a mediana,
que é igual a 43, o 1° quartil em 34.75 e o 3° quartil em 50.
fi
fi
12
g, ax = plt.subplots()
ax.boxplot([df["Likes"],df_positive_likes["Likes"]], labels=["USA",
"Postive"])
ax.set_title("País x Likes")
plt.show()
import plotly.express as px
import pandas as pd
meteoritos = pd.read_csv('meteorite_landings.csv') Podemos observar com o Ploty o ano conforme a cor e a localização dos
sentimentos = pd.read_csv('sentiment_dataset.csv') meteoros espalhados no mapa. Podemos dar Zoom em áreas especi cas e ver
informações dinamicamente.
meteoritos = meteoritos[(meteoritos['year'] > 1958) & (meteoritos['year']
< 2013)] Esse foi apenas um exemplo de como criar um grá co utilizando a Plotly. Essa
meteoritos = meteoritos[ biblioteca oferece muitas possibilidades para apresentar dados de forma
(meteoritos['reclong'] >= -180) & (meteoritos['reclong'] <= 180) interativa.
& (meteoritos['reclat'] >= -90) & (meteoritos['reclat'] <= 90)
]
px.density_mapbox(
meteoritos, lat='reclat', lon='reclong',
z='year', radius=10,
center=dict(lat=0, lon=0), zoom=1,
mapbox_style="open-street-map"
)
fi
fi
fi
fi
15
Grá co de barras
• Título genérico: o título "Vendas Mensais" é muito vago e não fornece
• Quando usar: comparação de categorias diferentes. contexto su ciente sobre qual produto foi vendido e qual o ano.
• Melhores práticas: use barras com larguras iguais e organize-as em • Cor única: o uso de uma única cor não ajuda a distinguir os diferentes
ordem lógica. meses.
Vamos usar um conjunto de dados ctício, que mostra as vendas mensais de • Falta de anotações: não há destaques ou anotações para pontos
uma empresa ao longo de um ano, para ilustrar boas e más práticas de importantes nos dados.
visualização de dados.
Então, como poderíamos resolver estes problemas? Veremos agora um • Título informativo: o título "Vendas Mensais do produto A ao Longo do
exemplo de uma visualização adequada. Ano de 2023" fornece mais contexto e é mais descritivo.
• Uso de paleta de cores:o uso de mais de uma cor torna o
grá co visualmente mais atraente e, neste caso, facilita a distinção entre os
meses no qual a meta não foi batida.
• Anotações: os valores das vendas anotados diretamente nas barras facilita
a leitura e interpretação dos dados.
Grá cos de linhas Podemos observar que o grá co está sem legenda, possui muitas informações
e cores similares, di cultando a compreensão.
• Quando usar: representação de tendências ao longo do tempo.
• Melhores práticas: mantenha a linha simples e evite a sobreposição de
muitas linhas.
Figura 06 – Grá co de linhas com boa visualização. Fonte: criado pelo autor.
Figura 05 – Grá co de linhas com difícil visualização. Fonte: criado pelo autor.
fi
fi
fi
fi
fi
fi
20
Grá cos de Pizza (ou de rosca) Este grá co mostra a quantidade de meteoritos que foram encontrados na
Terra durante um período. Pela quantidade de classes diferentes, não
• Quando usar: representação de proporções de um todo. conseguimos distinguir bem as classes com menos frequência. As legendas se
• Melhores práticas: use apenas quando tiver poucas categorias e misturam devido a organização do grá co e não conseguimos visualizar os
assegure-se de que as fatias são facilmente diferenciáveis. Ao utilizar mais números totais de meteoritos de cada classe.
do que quatro categorias, o grá co pode car confuso e visualmente
poluído com muitas cores. Agora, veja uma versão modi cada do grá co. Nessa versão, estamos focando
apenas nas classes de meteoritos com mais de quatro mil ocorrências,
Vamos analisar o grá co a seguir. agrupando o restante. Também é possível visualizar rapidamente a quantidade
de elementos em cada classe, e a legenda está bem mais legível.
Figura 07 – Grá co com muitas categorias. Fonte: criado pelo autor. Figura 08 – Grá co ajustado com menos categorias. Fonte: criado pelo autor.
fi
fi
fi
fi
fi
fi
fi
fi
fi
fi
21
2.2 Storytelling
Exemplo prático de storytelling com dados Ações principais recomendadas como resolução
1. Melhoria na logística: implementar um sistema de monitoramento em
• Contexto: uma loja online está enfrentando problemas com a insatisfação tempo real para otimizar a rota de entrega.
dos clientes, principalmente devido aos longos tempos de entrega e ao 2. Treinamento sobre atendimento ao cliente: desenvolver um programa de
atendimento ao cliente treinamento intensivo focado em habilidades de comunicação e resolução
• Con ito: os índices de satisfação do cliente estão abaixo do esperado, e as de problemas.
queixas sobre prazos de entrega e qualidade do atendimento ao cliente
estão aumentando. Conclusão: com essas ações, projetamos que a satisfação do cliente
• Clímax: analisamos os dados das avaliações dos clientes e das métricas de aumentará em 15% nos próximos seis meses. A melhoria contínua nos tempos
desempenho de entrega e identi camos que: de entrega e na qualidade do atendimento ao cliente resultará em uma
experiência de compra mais agradável e na delização dos clientes.
◦ Tempos de entrega: variaram signi cativamente nos últimos 12 meses,
com picos de atraso em determinados períodos.
◦ Avaliações de atendimento ao cliente: avaliações são consistentemente
baixas durante os períodos de picos de atraso.
Formas de visualização
• Grá co de linha: mostra a variação dos tempos de entrega ao longo do
tempo.
• Grá co de barras: exibe a distribuição das avaliações do atendimento ao
cliente.
• Grá co de dispersão: destaca a correlação entre os tempos de entrega e
as avaliações negativas.
fi
fi
fi
fl
fi
fi
fi
23
Boas práticas para storytelling com dados O poder do storytelling com dados pode transformar a maneira como você
comunica insights e in uencia decisões. Ao seguir boas práticas e usar
• Conheça o público: adapte a narrativa ao conhecimento e interesse do ferramentas adequadas, é possível transformar dados brutos em narrativas
seu público-alvo. impactantes que informam e in uenciam decisões.
• Seja claro e conciso: evite jargões e mantenha a história direta ao ponto.
• Use visualizações e cazes: grá cos e tabelas devem complementar a
história, não confundir.
• Contextualize os dados: forneça contexto su ciente para que os dados
façam sentido.
• Revise e re ne: teste a história com colegas ou stakeholders e ajuste
conforme necessário.
Ferramentas de Visualização
• Matplotlib: ideal para grá cos básicos e personalizáveis.
• Seaborn: bom para grá cos estatísticos e visualmente atraentes.
• Plotly: útil para grá cos interativos.
Técnicas de Visualização
• Grá cos de linha: para mostrar tendências ao longo do tempo.
• Grá cos de barra: para comparações entre diferentes categorias.
• Grá cos de dispersão: para visualizar relações entre variáveis.
• Mapas de calor: para mostrar a intensidade dos valores em uma matriz.
fi
fi
fi
fi
fi
fi
fi
fl
fi
fl
fi
fi
24
Requisitos:
Agora que você passou por todos os conteúdos do módulo, chegou a
hora de praticar. Que tal um desa o? 1) Instalação: instale o Python, o Jupyter Notebook e as bibliotecas
Pandas e Plotly;
Objetivo: analisar um conjunto de dados de vendas de videogames 2) Conjunto de dados: faça download do conjunto de dados e o insira
para responder perguntas utilizando bibliotecas de visualização no mesmo diretório do arquivo Python;
interativas (Plotly). 3) Análises: crie um grá co de barras para mostrar Quais são os 10
jogos mais vendidos? E como é a venda desses em cada
1. Quais são os 10 jogos mais vendidos? E como é a venda desses em plataforma?
cada plataforma? ◦ A partir desse grá co, mostre também as plataformas dos jogos,
2. Como foi a venda de jogos por ano para as distribuidoras que mais assim podemos ver qual plataforma vendeu mais um determinado
venderam? jogo, quais são as plataformas mais comuns entre os jogos mais
3. A nota de um jogo in uência as suas vendas? vendidos, por exemplo.
4. Como variam as notas de acordo com o gênero? ◦ Crie um grá co de linha para mostrar Como foi a venda de jogos
5. Como varia o número de vendas dos jogos em cada região? por ano para as distribuidoras que mais venderam?
fi
fi
fl
fi
fi
26
Explore mais!
Referências bibliográficas
DUARTE, Nancy. DataStory: Explain Data and Inspire Action Through Story.
Hoboken, NJ: Wiley, 2019.