Apostila - Módulo 2 - Bootcamp Desenvolvedor (A) Python
Apostila - Módulo 2 - Bootcamp Desenvolvedor (A) Python
2021
Python para a Análise de Dados
Bootcamp Desenvolvedor(a) Python
Matheus de Oliveira Mendonça
© Copyright do Instituto de Gestão e Tecnologia da Informação.
Todos os direitos reservados.
Referências ………………………………………………………………………………29
Existem diversas ferramentas para análise de dados, mas sem dúvida alguma
o Python, em conjunto com diversas bibliotecas disponíveis, é uma ferramenta
poderosíssima que vem ganhando cada vez mais popularidade entre a comunidade
1. NumPy;
2. Pandas;
3. Scikit-learn.
Fonte: https://numpy.org/install/.
▪ Arrays
Uma array em numpy é uma grade de valores, todos do mesmo tipo, indexada
por uma tupla de inteiros não negativos. O número de dimensões de uma array é
chamado de rank do array; o shape de uma array é representada através de uma
Fonte: https://fgnt.github.io/python_crashkurs_doc/include/numpy.html.
Assim como listas em Python, arrays em numpy podem ser fatiadas (slicing,
termo comum em inglês). Dado que arrays podem ser multidimensionais, é
necessário especificar uma fatia para cada uma das dimensões da array:
▪ Funções aritméticas
‒ Subtração:
‒ Multiplicação:
‒ Divisão:
▪ Comparações
‒ Maior/Maior ou igual:
‒ Igualdade:
‒ Indexação booleana:
Fonte: https://www.geeksforgeeks.org/python-Pandas-dataframe/.
Fonte: http://www.datasciencemadesimple.com/create-series-in-python-Pandas/.
‒ Entre outros.
Para carregar uma base de dados em memória, basta utilizar um dos métodos
de leitura disponíveis conforme o formato do arquivo que contém os dados a serem
analisados. Segue um exemplo de leitura de um arquivo com extensão .csv:
Note que a coluna date claramente é uma representação de datas, mas como
não explicitamos na leitura do arquivo quais os tipos de cada coluna, o Pandas inferiu
que essa coluna é do tipo object. Para que possamos usufruir das funcionalidades de
comparações de datetimes, precisamos forçar a conversão da coluna date para o tipo
datetime:
‒ Estatísticas básicas:
‒ Indexação booleana: