Practica de Web Scraping PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 14

TECNOLÓGICO DE ESTUDIOS SUPERIORES DE

CHALCO INGENIERÍA INFORMÁTICA

PRACTICA WEB SCRAPING: LENUAJE R

Integrantes:
• Brenda Eunice Leyva Sánchez
• Galicia Garatachía José Enrique
• Hernández Márquez David Iván
Docente: Ramirez Vite Kevin Giovany

Asignatura: Plataformas para el análisis y Visualización de Datos

Grupo: 6951
LENGUAJE R
R es un entorno de software libre (licencia GNU GLP) y lenguaje de programación
interpretado, es decir, ejecuta las instrucciones directamente, sin una previa compilación
del programa a instrucciones en lenguaje máquina.

Características de R
– Manejo y almacenamiento efectivo de los datos.
– Un conjunto de operadores para la realización de cálculos con matrices.
– Una gran colección de herramientas para el análisis de datos.
– Utilidades gráficas para la visualización de datos.
– Un lenguaje de programación bien desarrollado que incluye saltos
condicionales, bucles, funciones recursivas, utilidades para la entrada y salida
de datos, etc.
– Tiene un formato de documentación basado en LaTeX, que se utiliza para
proporcionar documentación completa tanto en formato físico como digital.
RASPADO WEB EN IMDB: https://www.imdb.com/?ref_=nv_home (RStudio)

Como primer pasose instalaló el paquete RVEST que permite definir tuberías
de instrucciones para recuperar y extraer información.

Después se manda a llamar la librería:


library(rvest)

Y se creó el objeto Amelie movie que contiene todo el código o etiquetas


HTML.
Para conocer más información del sitio colocamos la siguiente función:
lego_movie %>%
html_node("strong span") %>%
html_text() %>%
as.numeric()
La cual manda a traer el primer numero en negritas que se encuentre en la etiqueta
span, en este caso corresponde a la calificación de la película.

La siguiente función que se ejecuto nos mostró como resultado una tabla de datos,
la cual corresponde a la tabla de “elenco” dentro del sitio.
amelie_movie %>%
html_nodes("table") %>%
.[[3]] %>%
html_table()
Una vez generados los datos pudimos notar que se distrubuyeron en cuatro
columnas de datos
Otra función que se ejecutó fue la siguiente, la cual nos permite conocer los eerores
de codificación del sitio:
guess_encoding()

Finalmente para extraer los resultados de la función y generarlos en una base de


datos fue necesario crear un dataframe con la función de html_table() y así lograr
la extracción de los datos, como se muestra a continuación:

Una vez ejecutada la función creo de forma inmediata un archivo csv


El cual contenía los mismos datos que se mostraron en la consola de RStudio
Para el desarrollo de esta práctica también se utilizaron otros dos url para
demostrar que de cualquier sitio web se puede realizar un raspado de datos.
Para ello se utilizó un sitio oficial de datatables :
https://datatables.net/examples/basic_init/multiple_tables.html

Se aplicaron las mismas funciones y también se genero un archivo csv resultante


de la ejecución de un dataframe:

De igual forma se creó un archivo, el cual contiene la misma información mostrada


en la consulta anterior :
También se tomo como prueba el sitio Blockchain:
https://www.blockchain.com/btc/unconfirmed-transactions
Del cual se obtuvieron algunos Hash

También pudimos notar que es posible mostrar datos específicos con la función
hyml_nodes(), la cual nos permite extraer un array de elementos de html.

El archivo generado se muestra de la siguiente forma


Creamos una base de datos llamada “web_scraping” en donde generamos 3 tablas para
hacer un volcado de datos con los 3 escarbados de datos que se realizaron en la práctica.

Una vez generado el archivo llamado prueba.csv que contiene los registros, procedemos
a hacer el volcado de datos con la siguiente consulta:
LOAD DATA INFILE 'C:/Users/mPC/Desktop/prueba.csv' INTO TABLE tabla1
FIELDS TERMINATED BY '","'
LINES TERMINATED BY '\n'
Asimismo, hace el mismo proceso con para el escarbado de datos de la página
datatables.
LOAD DATA INFILE 'C:/Users/mPC/Desktop/datatables.csv'
INTO TABLE tabla2
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
Y por último, haremos el volcado de datos para el ultimo archivo generado de la página de
blockchain, mostrando los hashes de las transacciones que no se realizaron.
LOAD DATA INFILE 'C:/Users/mPC/Desktop/hash2.csv'
INTO TABLE tabla3
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'

También podría gustarte