Practica de Web Scraping PDF
Practica de Web Scraping PDF
Practica de Web Scraping PDF
Integrantes:
• Brenda Eunice Leyva Sánchez
• Galicia Garatachía José Enrique
• Hernández Márquez David Iván
Docente: Ramirez Vite Kevin Giovany
Grupo: 6951
LENGUAJE R
R es un entorno de software libre (licencia GNU GLP) y lenguaje de programación
interpretado, es decir, ejecuta las instrucciones directamente, sin una previa compilación
del programa a instrucciones en lenguaje máquina.
Características de R
– Manejo y almacenamiento efectivo de los datos.
– Un conjunto de operadores para la realización de cálculos con matrices.
– Una gran colección de herramientas para el análisis de datos.
– Utilidades gráficas para la visualización de datos.
– Un lenguaje de programación bien desarrollado que incluye saltos
condicionales, bucles, funciones recursivas, utilidades para la entrada y salida
de datos, etc.
– Tiene un formato de documentación basado en LaTeX, que se utiliza para
proporcionar documentación completa tanto en formato físico como digital.
RASPADO WEB EN IMDB: https://www.imdb.com/?ref_=nv_home (RStudio)
Como primer pasose instalaló el paquete RVEST que permite definir tuberías
de instrucciones para recuperar y extraer información.
La siguiente función que se ejecuto nos mostró como resultado una tabla de datos,
la cual corresponde a la tabla de “elenco” dentro del sitio.
amelie_movie %>%
html_nodes("table") %>%
.[[3]] %>%
html_table()
Una vez generados los datos pudimos notar que se distrubuyeron en cuatro
columnas de datos
Otra función que se ejecutó fue la siguiente, la cual nos permite conocer los eerores
de codificación del sitio:
guess_encoding()
También pudimos notar que es posible mostrar datos específicos con la función
hyml_nodes(), la cual nos permite extraer un array de elementos de html.
Una vez generado el archivo llamado prueba.csv que contiene los registros, procedemos
a hacer el volcado de datos con la siguiente consulta:
LOAD DATA INFILE 'C:/Users/mPC/Desktop/prueba.csv' INTO TABLE tabla1
FIELDS TERMINATED BY '","'
LINES TERMINATED BY '\n'
Asimismo, hace el mismo proceso con para el escarbado de datos de la página
datatables.
LOAD DATA INFILE 'C:/Users/mPC/Desktop/datatables.csv'
INTO TABLE tabla2
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
Y por último, haremos el volcado de datos para el ultimo archivo generado de la página de
blockchain, mostrando los hashes de las transacciones que no se realizaron.
LOAD DATA INFILE 'C:/Users/mPC/Desktop/hash2.csv'
INTO TABLE tabla3
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'