Librerias - Guillermo Ramirez - TI 51

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 5

Librerías para análisis de

datos
Big Data

Guillermo Ramirez Rosas


UNIVERSIDAD TECNOLOGICA DE SAN LUIS POTOSI TECNOLOGIAS DE LA INFORMACION
Tabla de contenido
Pandas ................................................................................................................................................. 2
Matplotlib............................................................................................................................................ 2
Tensorflow........................................................................................................................................... 2
Keras .................................................................................................................................................... 3
Scikit-learn........................................................................................................................................... 3
Cuadro Comparativo ........................................................................................................................... 0
Pandas
La librería de Pandas tiene como núcleo dos bibliotecas de Python: matplotlib para poder hacer la
visualización de todos los datos que se contienen y utiliza NumPy para poder realizar procesos
matemáticos. Panda es una especie de contenedor de estas bibliotecas, permitiéndole acceder a
muchos de los métodos de matplotlib y NumPy con mucho menos código. Hay funciones para poder
combinar múltiples métodos y funciones matplotlib en tan solo un método, nos permite realizar
trazos de gráficos en tan solo pocas líneas.
Numpy
NumPy es una librería esencial para la computación científica en Python. Es una biblioteca de
Python que nos brinda un objeto de matriz multidimensional, de esta se derivan muchos objetos
(como matrices y matrices enmascaradas), proporcionan una gran variedad de rutinas para poder
realizar operaciones rápidas en matrices, en las que incluyen operaciones matemáticas, lógica, de
formas, clasificación, selección, E/S, incluye algunas funciones de álgebra lineal básica,
operaciones estadísticas básicas, simulación aleatoria. Su núcleo se encarga de encapsular
matrices n-dimensionales de datos que son de tipo homogéneos, con muchas operaciones que se
realizan en código compilado para el rendimiento.

Matplotlib
Matplotlib es una biblioteca integrada para la creación de pre visualizaciones estáticas, animadas e
interactivas en Python. La visualización de datos es una parte de importancia y prácticamente
esencial del conjunto de habilidades de un científico de datos. Es extremadamente necesario que
para poder mostrar todos los conocimientos encontrados a partir del análisis de los datos en forma
de gráficos detallados y visualmente perfectos. Con tan solo dos líneas de código es capaz de poder
crear un gráfico circular que nos muestra la distribución de un conjunto de datos.

Tensorflow
TensorFlow es una librería de código abierto que está orientada a la computación numérica y para
el aprendizaje automatizado a gran escala. Esta librería nos ayuda a poder manejar y gestionar una
gran cantidad de modelos y algoritmos de aprendizaje automático y aprendizaje profundizado (a
este tipo de aprendizaje, también se le conoce como redes neuronales). Utiliza el lenguaje de
programación de Python para poder brindar una API que ayuda al front-end conveniente, nos ayuda
a crear aplicaciones con el marco, mientras ejecuta esas aplicaciones en C++ de alto rendimiento.
TensorFlow brinda todas estas herramientas y funciones al programador a través del lenguaje
Python. Python se caracteriza por ser un lenguaje fácil de utilizar y poder trabajar. Los nodos y
tensores que integran a la librería de TensorFlow son objetos de Python, y cada una de las
aplicaciones de TensorFlow son prácticamente las mismas aplicaciones de Python. Las operaciones
matemáticas en TensorFlow no se realizan en Python. Las bibliotecas de transformaciones que se
proporcionan en TensorFlow están escritas como binarios de C++ de alto rendimiento. Python se
encargan de dirigir el tráfico entre las piezas y proporciona abstracciones de programación de alto
nivel para poder unificarlas.
Keras
Keras fue creado para que su uso pueda ser fácil y sin complicaciones, modular, con una posibilidad
de ampliar y escalar, como también trabajar con Python. La API sigue las mejores prácticas para
reducir la carga cognitiva. Keras es una API de aprendizaje profundo de alto nivel que fue
desarrollada por la popular empresa Google, con la finalidad de crear e implementar redes
neuronales. Keras es una librería que se basa en Python y la utilizamos para facilitar la
implementación de redes neuronales. También es compatible con el cálculo de múltiples redes
neuronales de back-end. Keras se caracteriza por ser fácil de aprender y trabajar, esta proporciona
una interfaz de Python, con un alto nivel de abstracción, nos da la opción de varios back-end con
fines de cálculo. Lo que provoca que Keras se convierta mucho más lento que otros marcos de
aprendizaje profundo, sin embargo, la convierte como una herramienta 100% amigable con los
principiantes.

Scikit-learn
Scikit-Learn es una de estas librerías gratuitas disponibles para Python. Ofrece algoritmos de
clasificación, regresión, clustering y reducción de dimensionalidad. Por otro lado, también muestra
compatibilidad con demás librerías de Python como NumPy, SciPy y matplotlib. Muchos de los
algoritmos y utilidades que nos ofrece la librería de Scikit-learn la hacen como una herramienta
básica para introducirse en el mundo de la programación, realizar una estructuración de cada uno
de los sistemas de análisis datos y modelado estadístico. Los algoritmos que ofrece la librería Scikit-
Learn se pueden combinar y depurar con otras estructuras de datos y aplicaciones externas como
Pandas o PyBrain. Uno de los beneficios de la programación en Python, y utilizando Scikit-Learn es
que cuenta con una gran variedad de módulos y algoritmos que nos ayudan a facilitar el aprendizaje
y trabajo a los desarrolladores que se dedican al análisis de datos en las primeras fases de su
desarrollo.
Cuadro Comparativo
Pandas Permite manipular Data y realizar operaciones, así
como gestionar datos de cualquier tip de manera
rápida.
Numpy Este escrito en C lo que proporciona una velocidad muy
alta cuando trabajamos con ella.

Matplotlib Genera graficas a partir de datos contenidos en listas y


vectores.

Tensorflow Tiene un ecosistema integral y flexible de herramientas,


bibliotecas y recursos comunitarios que permite crear e
implementar fácilmente aplicaciones impulsadas por
ML.
Keras Esta diseñada para posibilitar la experimentación en
mas o menos poco tiempo con redes de aprendizaje
profundo (Deep learning)
Scikit-learn Esta diseñada para interoperar con las bibliotecas
numéricas y científicas.

También podría gustarte