T-GCPBDML-B M3-Big Data With BigQuery ILT Slides ESLA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 52

Slide #3

En el módulo anterior del curso, aprendió a crear un flujo de datos de transmisión con
Pub/Sub, Dataflow y Looker en comparación con Data Studio. Ahora, enfoquémonos en
BigQuery, un producto de almacén de datos popular en Google.
Slide #4
Comenzará explorando los dos servicios principales de BigQuery, el almacenamiento y
el análisis y, luego, verá una demostración del uso de BigQuery.

A continuación, descubrirá cómo BigQuery ML proporciona un ciclo de vida de datos a


IA en un solo lugar. También aprenderá sobre las fases de los proyectos de BigQuery ML
y los comandos clave.

Por último, adquirirá práctica con BigQuery ML para crear un modelo de AA


personalizado.

Comencemos.
Slide #5
BigQuery es un almacén de datos completamente administrado.

Un almacén de datos es un almacén grande que contiene terabytes y petabytes de datos


recopilados de varias fuentes en una organización y se usa para orientar las decisiones
de administración.

Que sea completamente administrado quiere decir que BigQuery se encarga de la


infraestructura subyacente a fin de que usted se pueda enfocar en usar consultas en
SQL para responder preguntas empresariales sin preocuparse de la implementación, la
escalabilidad ni la seguridad.
Slide #6
Revisemos algunas de las características clave de BigQuery.

BigQuery proporciona dos servicios en uno: almacenamiento y análisis.


Es un lugar para almacenar petabytes de datos. A modo de referencia, 1 petabyte
equivale a 11,000 películas de calidad 4K.
BigQuery también es un lugar para analizar datos, con funciones incorporadas, como
aprendizaje automático, inteligencia empresarial y análisis geoespacial, que
exploraremos más adelante.

BigQuery es una solución completamente administrada y sin servidores, lo que significa


que puede usar consultas en SQL para responder las preguntas más grandes de su
organización en el frontend sin preocuparse de la infraestructura en el backend.
No se preocupe si nunca antes ha escrito SQL. En este curso, se proporcionan recursos
y labs para ayudarlo.

BigQuery cuenta con un modelo de precios prepago flexible, lo que significa que usted
solo paga la cantidad de bytes de datos que procesa su consulta y cualquier
almacenamiento permanente de la tabla.
Si prefiere tener una factura fija todos los meses, también puede suscribirse a un
precio de tarifa plana que cuenta con una cantidad reservada de recursos para usar.

Los datos en BigQuery están encriptados en reposo de forma predeterminada sin que el
cliente deba realizar alguna acción.
Esta encriptación en reposo hace referencia a la encriptación que se usa para proteger
los datos que están almacenados en un disco (incluidas las unidades de estado sólido) o
en medios de copias de seguridad.

BigQuery cuenta con funciones de aprendizaje automático incorporadas para que pueda
escribir modelos de AA directamente en BigQuery con SQL.
Además, si decide usar otras herramientas profesionales para entrenar sus modelos de
AA (como Vertex AI de Google Cloud), puede exportar conjuntos de datos de BigQuery
directamente a Vertex AI a fin de lograr una integración continua en todo el ciclo de vida
de datos a IA.
Slide #7
¿Cómo luce una arquitectura típica de una solución de almacén de datos?

Los datos de entrada pueden ser en tiempo real o por lotes. Si piensa en el último
módulo del curso, recordará que hay cuatro desafíos que presentan los macrodatos para
las organizaciones modernas. Los datos pueden tener cualquier formato (variedad),
tamaño (volumen), rapidez (velocidad) y exactitud (veracidad).

Si son datos de transmisión, que pueden ser estructurados o no estructurados, tener alta
velocidad y gran volumen, se necesita Pub/Sub para transferir los datos. Si son datos
por lotes, se pueden subir directamente a Cloud Storage.

Después de eso, ambas canalizaciones llegan a Dataflow para procesar los datos.
Dataflow es el lugar para realizar ETL, es decir, extraer, transformar y cargar los datos si
es necesario.

BigQuery se encuentra en medio para vincular el procesamiento de datos con Dataflow y


el acceso a los datos mediante herramientas de análisis, IA y AA.

El trabajo del motor de análisis de BigQuery al final de la canalización de datos es


transferir todos los datos procesados después de realizar ETL, almacenarlos, analizarlos
y posiblemente enviarlos para seguir usándolos como visualización de datos y
aprendizaje automático.
Los resultados de BigQuery se suelen enviar a dos buckets: herramientas de inteligencia
empresarial y de IA/AA.

Si es un analista empresarial o de datos, puede conectarse a herramientas de


visualización como Looker, Data Studio, Tableau y otras herramientas de IE.

Si prefiere trabajar con hojas de cálculo, puede buscar conjuntos de datos de BigQuery
pequeños o grandes directamente en las Hojas de cálculo de Google y hasta realizar
operaciones comunes como dinamizar tablas.

En cambio, si es un científico de datos o un ingeniero de aprendizaje automático, puede


llamar a los datos directamente desde BigQuery mediante AutoML o Workbench. Estas
herramientas de IA/AA son parte de Vertex AI, la plataforma de AA unificada de Google.

BigQuery es como una zona común de etapa de pruebas para las cargas de trabajo de
análisis de datos. Cuando sus datos se encuentran ahí, a los analistas empresariales,
desarrolladores de IE, ingenieros de aprendizaje automático y científicos de datos se les
puede otorgar acceso a sus datos para que ellos realicen sus propias estadísticas.
Slide #9
BigQuery proporciona dos servicios en uno. Es una instalación de almacenamiento
completamente administrada para cargar y almacenar conjuntos de datos y también un
motor analítico rápido basado en SQL.

Ambos servicios están conectados por la red interna de alta velocidad de Google. Es
esta red de alta velocidad la que permite que BigQuery escale tanto el almacenamiento
como el procesamiento de forma independiente, según la demanda.

Observemos cómo BigQuery administra el almacenamiento y los metadatos para los


conjuntos de datos.
Slide #10
BigQuery puede transferir conjuntos de datos desde varias fuentes, como las que se
indican a continuación:
datos internos, que son datos guardados directamente en BigQuery,
datos externos, BigQuery también ofrece la opción de consultar fuentes de datos
externas, como datos almacenados en otros servicios de almacenamiento de
Google Cloud, por ejemplo, Cloud Storage, o en otros servicios de bases de datos de
Google Cloud, como Spanner o Cloud SQL, y evitar el almacenamiento administrado de
BigQuery. Esto significa que un archivo CSV sin procesar en Cloud Storage o una hoja
de cálculo de Google se pueden usar para escribir una consulta sin que BigQuery los
transfiera primero.
Tenga en cuenta que guardar y procesar datos por separado puede generar
incoherencias. Para no correr ese riesgo, le recomendamos crear una canalización de
transmisión de datos en BigQuery con Dataflow.
Datos de múltiples nubes: datos almacenados en varios servicios en la nube, como AWS
o Azure,
y conjuntos de datos públicos. Si no tiene datos propios, puede analizar cualquier
conjunto de datos disponible en el mercado de conjuntos de datos públicos.

Luego de que los datos se almacenan en BigQuery, estarán completamente


administrados y se replicarán, se creará una copia de seguridad de ellos y se
configurarán para el ajuste de escala automático, todo de forma automática.
Slide #11
Existen tres patrones básicos para cargar datos a BigQuery.

El primero es la carga por lotes, en la que los datos de origen se cargan a una tabla de
BigQuery en una sola operación por lotes. Puede ser una operación de una vez o se
puede automatizar para programar su ejecución. Una operación de carga por lotes puede
crear una tabla nueva o agregar datos a una tabla existente.
El segundo es la transmisión, en la que se transmiten lotes más pequeños de datos de
forma continua a fin de que los datos estén disponibles para realizar consultas casi en
tiempo real.
Y el tercero son los datos generados, en los que las instrucciones de SQL se usan para
insertar filas en una tabla existente o escribir los resultados de una consulta en una
tabla.
Slide #12
Sin embargo, el objetivo de BigQuery no es solo guardar datos, sino analizarlos y ayudar
a tomar decisiones empresariales.

Está optimizado para ejecutar consultas de análisis en conjuntos de datos grandes.


Puede realizar consultas en terabytes de datos en segundos y petabytes en minutos.
Este rendimiento le permite analizar grandes conjuntos de datos de forma eficiente y
obtener estadísticas casi en tiempo real.
Slide #13
Conozcamos las funciones de análisis disponibles en BigQuery.

BigQuery admite las siguientes funciones:

Análisis ad hoc con SQL estándar, el dialecto SQL de BigQuery.


Análisis geoespacial con tipos de datos geográficos y funciones geográficas de SQL
estándar.
Compilación de modelos de aprendizaje automático con BigQuery ML.
Compilación de paneles de inteligencia empresarial interactivos y detallados con
BigQuery BI Engine.
Slide #14
BigQuery ejecuta de forma predeterminada las consultas interactivas, esto significa que
se ejecutan según sea necesario.

BigQuery también cuenta con consultas por lotes, que se ponen en cola de forma
automática y la consulta comienza cuando los recursos inactivos están disponibles, por
lo general, en unos minutos.
Slide #16
Como cualquier analista de datos le dirá, explorar un conjunto de datos con SQL es, a
menudo, uno de los primeros pasos para descubrir estadísticas ocultas.

En esta sección, encontrará lo siguiente:

Cómo usar BigQuery para descubrir estadísticas de un conjunto de datos públicos.


El objetivo es encontrar las estaciones más populares en todo San Francisco para
recoger bicicletas.
Siga estos pasos para encontrar este conjunto de datos públicos en BigQuery:
Navegue a Google Cloud Console > BigQuery > Agregar datos > Conjunto de datos
públicos > Busque servicio de bicicletas compartidas en San Francisco > En
san_francisco_bikeshare, elija bikeshare_trips
Haga clic en los tres puntos junto al conjunto de datos para iniciar la consulta. Si desea
obtener más información, consulte el video.
En el esquema, puede encontrar el conjunto de datos que incluye la siguiente
información:
ID del viaje
Duración del viaje
Estación inicial, fecha
Estación final, fecha
Número de la bicicleta
Información del suscriptor, etcétera
Tómese un momento para considerar esta pregunta: ¿Cómo puede encontrar la estación
más popular con SQL?
Slide #17
Vea el video de demostración completo en Google Drive.

El objetivo de este código es encontrar las diez estaciones más populares según la
cantidad de viajes que comienzan en ellas.

SELECT: los campos que se deben mostrar en los resultados de la consulta


FROM: especificación del nombre del conjunto de datos
WHERE: la condición de la consulta
GROUP BY: recuento de la cantidad de viajes de la estación inicial
ORDER BY: ordena el resultado
LIMIT: especificación de la cantidad de los resultados de la consulta (en este caso, las
10 estaciones principales)

Los resultados parciales de la consulta aparecen en el lado derecho.


¿Qué estadísticas obtuvo?
¿Cómo puede usar las estadísticas para mejorar la empresa?
¿Se le ocurre algún otro análisis con este conjunto de datos?
Slide #18
BigQuery empezó solo como un almacén de datos, pero con el tiempo evolucionó para
poder ofrecer funciones que asisten al ciclo de vida de datos a IA.
Slide #19
En esta sección del curso, exploraremos las capacidades de BigQuery para compilar
modelos de aprendizaje automático y las fases de los proyectos del AA. Además, le
explicaremos los comandos clave del AA en SQL.
Slide #20
Si ya trabajó con modelos de AA, sabe que compilarlos y entrenarlos puede llevar mucho
tiempo.

Primero, debe exportar datos del almacén de datos a un IDE (entorno de desarrollo
integrado), como un notebook de Jupyter o Google Colab, y luego transformar los datos
y realizar los pasos de ingeniería de atributos antes de poder enviarlos a un modelo de
entrenamiento.
Por último, debe compilar el modelo en TensorFlow o en una biblioteca similar y
entrenarlo de manera local en una computadora o una máquina virtual.

Para mejorar el rendimiento del modelo, también debe avanzar y retroceder a fin de
obtener más datos y crear funciones nuevas. Este proceso se deberá repetir, pero
consume tanto tiempo que usted probablemente se detenga después de algunas
iteraciones. También mencioné TensorFlow y la ingeniería de atributos. Antes, si no
conocía estas tecnologías, el AA se les designaba a los científicos de datos en su equipo
y usted no tenía acceso.
Slide #21
Existen dos pasos necesarios para comenzar:

Paso 1: Cree un modelo con una instrucción de SQL. Aquí podemos usar el conjunto de
datos de las bicicletas compartidas como ejemplo.
Slide #22
Paso 2: Escriba una consulta de predicción en SQL y, luego, invoque ml.Predict.

¡Y eso es todo! Ahora tiene un modelo y puede ver los resultados.

Los pasos adicionales podrían incluir actividades como evaluar el modelo, pero si
conoce los conceptos básicos de SQL, ahora puede implementar el AA. ¡Excelente!
Slide #23
BigQuery ML se diseñó para ser sencillo, como compilar un modelo en dos pasos. Esa
sencillez se extiende a la definición de los hiperparámetros de aprendizaje automático,
que le permiten ajustar el modelo para lograr el mejor entrenamiento.

Los hiperparámetros son los parámetros de configuración que se aplican a un modelo


antes de que comience el entrenamiento, como la tasa de aprendizaje.

Con BigQuery ML, puede controlar de forma manual los hiperparámetros o derivarlos a
BigQuery, al principio con una configuración predeterminada y, luego, con ajuste
automático.
Slide #24
Cuando usa un conjunto de datos estructurado en BigQuery ML, debe elegir el tipo de
modelo adecuado. Decidir el tipo de modelo de AA depende de su objetivo comercial y
los conjuntos de datos.
BigQuery admite modelos supervisados y no supervisados.

Los modelos supervisados se centran en las tareas y en identificar un objetivo.


En un modelo supervisado, si su objetivo es clasificar datos, por ejemplo, si un correo
electrónico es spam, use la regresión logística.
Si su objetivo es predecir un número, por ejemplo, las ventas de zapatos de los próximos
tres meses, use la regresión lineal.
Por el contrario, los modelos no supervisados se centran en los datos y en identificar un
patrón.
En un modelo no supervisado, si su objetivo es identificar patrones o clústeres y, luego,
determinar la mejor forma de agruparlos, por ejemplo, agrupar fotos aleatorias de flores
en categorías, debe usar el análisis de clústeres.
Slide #25
Cuando tenga definido su problema, debe elegir el mejor modelo. Las categorías
incluyen modelos de clasificación y de regresión. También hay otras opciones de
modelos para elegir, junto con operaciones de AA.

La regresión logística es un ejemplo de un modelo de clasificación y la regresión lineal


es un ejemplo de un modelo de regresión. Recomendamos que comience con estas
opciones y use los resultados en las comparativas a fin de compararlo con modelos más
complejos, como DNN (redes neuronales profundas), que es posible que consuman más
tiempo y recursos de procesamiento para implementar y entrenar.
Slide #26
Además de proporcionar distintos tipos de modelos de aprendizaje automático,
BigQuery ML admite funciones para implementar, supervisar y administrar la producción
del AA, lo que se conoce como ML Ops, que es la forma abreviada en inglés de
operaciones de aprendizaje automático.

Incluye las siguientes opciones:


Importar modelos de TensorFlow para la predicción por lotes
Exportar modelos desde BigQuery ML para la predicción en línea
Ajustar los hiperparámetros con Cloud AI Vizier

Exploraremos las operaciones de AA de forma más detallada posteriormente en este


curso.
Slide #28
Ahora que conoce los tipos de modelos de AA disponibles para elegir, debe usar datos
de alta calidad a fin de enseñarles a los modelos lo que deben aprender. La mejor forma
de aprender los conceptos clave del aprendizaje automático en conjuntos de datos
estructurados es con un ejemplo.

En este caso, vamos a predecir el valor del ciclo de vida del cliente con un modelo.

El valor del ciclo de vida del cliente (LTV) es una métrica común en el marketing que se
usa para estimar cuántos ingresos o ganancias puede esperar de un cliente según el
historial y los patrones similares con otros clientes.
Slide #29
Usaremos un conjunto de datos de comercio electrónico de Google Analytics de la
propia tienda de artículos promocionales de Google, en la que venden artículos de
marca, como camisetas y chaquetas.

El objetivo es identificar clientes valiosos y dirigirlos a nuestra tienda con incentivos y


promociones especiales.
Slide #30
Cuando explore los campos disponibles, es posible que encuentre alguna utilidad en
determinar si un cliente es valioso según su comportamiento en nuestro sitio web.

Estos campos incluyen lo siguiente:


vistas de página del cliente desde el principio,
total de visitas,
tiempo promedio en el sitio,
ingresos totales generados,
transacciones de comercio electrónico en el sitio.

Recuerde que en el aprendizaje automático usted completa las columnas de datos y


permite que el modelo reconozca la relación para predecir de mejor manera la etiqueta.
Incluso es probable que algunas columnas no sean útiles para el modelo en la
predicción del resultado. Le mostraremos más adelante cómo identificar esto.
Slide #31
Ahora que tenemos algunos datos, podemos prepararlos para enviarlos al modelo. Por
cierto, a fin de mantener simple este ejemplo, solo usaremos siete registros, pero se
necesitan miles de ellos para entrenar un modelo de manera eficaz.

Antes de enviar los datos al modelo, primero debemos definir nuestros datos y columnas
en el lenguaje que usan los científicos de datos y otros profesionales del AA.

Si usamos el ejemplo de Google Merchandise Store, un informe o fila en el conjunto de


datos se denomina ejemplo, observación o instancia.

Una etiqueta es la respuesta correcta, y lo sabe porque proviene de datos históricos.


Esto es lo que necesita para entrenar el modelo a fin de predecir datos futuros. Según lo
que desee predecir, una etiqueta puede ser una variable numérica, que requiere un
modelo de regresión lineal, o una variable categórica, que requiere un modelo de
regresión logística.

Por ejemplo, si sabemos que un cliente que ha realizado transacciones anteriormente y


que pasa mucho tiempo en nuestro sitio web a menudo resulta con un ingreso alto
desde el principio, podemos usar ingresos como etiqueta y predecir lo mismo para los
clientes nuevos con la misma trayectoria de inversión.

Esto significa predecir un número, así que podemos usar una regresión lineal como
punto de partida para el modelo.
Las etiquetas también pueden ser variables categóricas como valores binarios, por
ejemplo, si es un cliente valioso o no. Para predecir una variable categórica, si recuerda
la sección anterior, debe usar un modelo de regresión logística.

Saber lo que está intentando predecir, como una clase o un número, influirá de gran
manera en el tipo de modelo que usará.
Slide #32
Pero ¿cómo llamamos a las otras columnas de datos en la tabla de datos?

Esas columnas se llaman atributos o atributos potenciales. Cada columna de datos es


como un ingrediente de la despensa que puede usar para cocinar. Sin embargo, muchos
ingredientes pueden arruinar un plato.

El proceso de filtrar los datos puede llevar mucho tiempo. La parte más difícil de
cualquier proyecto del AA suele ser comprender la calidad de los datos de cada columna
y trabajar con los equipos para obtener más atributos o historial.
Slide #33
Incluso puede combinar o transformar las columnas de atributos en un proceso llamado
ingeniería de atributos. Si alguna vez creó campos calculados en SQL, ya ejecutó los
conceptos básicos de la ingeniería de atributos.

Si alguna vez creó campos calculados en SQL, ya ejecutó los conceptos básicos de la
ingeniería de atributos.
Slide #34
BigQuery ML realiza gran parte del trabajo duro por usted, por ejemplo, la codificación
one-hot automática de los valores categóricos. La codificación one-hot es un método de
conversión de datos categóricos a datos numéricos a fin de prepararlos para el
entrenamiento de modelos. A partir de ahí, BigQuery ML divide automáticamente el
conjunto de datos en datos de entrenamiento y de evaluación.
Slide #35
Por último, se encuentra la predicción de los datos futuros.

Digamos que llegan datos nuevos para los que no tiene una etiqueta, así que no sabe si
corresponden a un cliente valioso. Sin embargo, sí cuenta con un historial abundante de
ejemplos etiquetados con los que entrenar un modelo.
Slide #36
Así que, si entrenamos un modelo con los datos históricos y estamos conformes con el
rendimiento, podemos usarlo para realizar predicciones con conjuntos de datos futuros.
Slide #38
Exploremos las fases clave de un proyecto de aprendizaje automático.
En la fase 1, extrae, transforma y carga datos a BigQuery, en caso de que todavía no se
encuentren ahí.
Si ya usa otros productos de Google, por ejemplo, YouTube, busque conectores
sencillos para obtener datos en BigQuery antes de compilar su propia canalización.
Use uniones de SQL para enriquecer su almacén de datos existente con otras fuentes de
datos.

En la fase 2, selecciona y realiza el procesamiento previo a los atributos.


Puede usar SQL para crear el conjunto de datos de entrenamiento del cual el modelo
debe aprender.
Recuerde que BigQuery ML realiza parte del procesamiento previo por usted, como la
codificación one-hot de sus variables categóricas. La codificación one-hot convierte sus
datos categóricos en datos numéricos, que es lo que un modelo de entrenamiento
necesita.
Slide #39
En la fase 3, crea el modelo en BigQuery.
Esto se hace con el comando “CREATE MODEL”. Otórguele un nombre, especifique el
tipo de modelo y páselo a una consulta en SQL con su conjunto de datos de
entrenamiento.
Desde allí, puede ejecutar la consulta.
Slide #40
En la fase 4, después de que su modelo esté entrenado, puede ejecutar una consulta
ML.EVALUATE para evaluar el rendimiento del modelo entrenado con su conjunto de
datos de evaluación.
Aquí puede analizar las métricas de pérdida como la raíz cuadrada del error cuadrático
medio para los modelos de previsión y el área bajo la curva, la exactitud, la precisión y la
recuperación para los modelos de clasificación. Exploraremos estas métricas más
adelante en el curso.
Slide #41
En la fase 5, la fase final, cuando esté conforme con el rendimiento de su modelo, puede
usarlo para realizar predicciones.
Para hacerlo, invoque el comando ml.PREDICT en su modelo recién entrenado a fin de
que muestre predicciones y la confianza del modelo en ellas.
Con los resultados, el campo de su etiqueta tendrá “con predicción” agregado al nombre
del campo. Esa es la predicción de su modelo para esa etiqueta.
Slide #42
Ahora que está familiarizado con las fases clave de un proyecto de AA, veamos algunos
comandos claves de BigQuery ML.
Slide #43
Recuerde que puede compilar un modelo con el comando CREATE MODEL.

Si desea reemplazar un modelo actual, use el comando CREATE OR REPLACE MODEL.

Los modelos tienen OPTIONS que puede especificar. La opción más importante, y la
única obligatoria, es el tipo de modelo.
Slide #44
Puede inspeccionar lo que un modelo aprendió con el comando ML.WEIGHTS si filtra
una columna de entrada.

La salida de ML.WEIGHTS es un valor numérico y cada atributo tiene un peso entre -1


y 1. Ese valor indica lo importante que es el atributo para predecir el resultado o la
etiqueta. Si el número está más cerca de 0, el atributo no es importante para la
predicción. Sin embargo, si el número está más cerca de -1 o 1, el atributo es más
importante para predecir el resultado.
Slide #45
Para evaluar el rendimiento del modelo, puede ejecutar un comando ML.EVALUATE
frente a un modelo entrenado. Obtendrá distintas métricas de rendimiento según el tipo
de modelo que elija.
Slide #46
Y si desea realizar predicciones por lotes, puede usar el comando ML.PREDICT en un
modelo entrenado y pasar el conjunto de datos sobre el que desea realizar predicciones.
Slide #47
Ahora, exploremos una lista consolidada de comandos de BigQuery ML para modelos
supervisados.
Primero, en BigQuery ML, necesita un campo en su conjunto de datos de entrenamiento
con el título LABEL o debe especificar qué campo o campos están usando sus etiquetas
como las columnas de etiqueta de entrada en las OPTIONS de su modelo.
Segundo, los atributos de su modelo son las columnas de datos que son parte de su
instrucción SELECT luego de su instrucción CREATE MODEL.
Después de que un modelo se entrena, puede usar el comando ML.FEATURE_INFO a fin
de obtener estadísticas y métricas sobre esa columna para un análisis adicional.
A continuación, se encuentra el objeto del modelo en sí. Este es un objeto creado en
BigQuery que reside en su conjunto de datos de BigQuery.
Usted entrena muchos modelos diferentes, que serán todos objetos almacenados en su
conjunto de datos de BigQuery, al igual que sus tablas y vistas. Los objetos de modelo
pueden mostrar información sobre cuándo fue la actualización más reciente o cuántos
ciclos de entrenamiento completó.
Para crear un modelo nuevo basta con escribir CREATE MODEL, elegir un tipo y pasar
un conjunto de datos de entrenamiento. Nuevamente, si realiza predicciones sobre un
campo numérico, por ejemplo, las ventas del próximo año, le recomendamos la
regresión lineal para las previsiones.
Si es una clase discreta como alto, medio y bajo, o spam y no spam, le recomendamos
usar la regresión logística para la clasificación.
Mientras el modelo está en ejecución y hasta después de que se complete, puede ver el
progreso del entrenamiento con ML.TRAINING_INFO.
Como mencionamos antes, puede inspeccionar los pesos para ver qué aprendió el
modelo respecto a la importancia de cada atributo, ya que se relaciona con la etiqueta
que está prediciendo. El peso de cada atributo indica la importancia.
Puede ver el rendimiento del modelo en función del conjunto de datos de la evaluación
con ML.EVALUATE.
Y, por último, para obtener predicciones basta con escribir ML.PREDICT y hacer
referencia al nombre de modelo y conjunto de datos de predicción.
Slide #49
Ahora es momento de adquirir práctica en la compilación de un modelo de aprendizaje
automático en BigQuery.

En el siguiente lab, usará datos de comercio electrónico del sitio web de


Google Merchandise Store https://shop.googlemerchandisestore.com/

Los datos de visitantes y pedidos del sitio se cargaron a BigQuery y usted puede
compilar un modelo de aprendizaje automático para predecir si un visitante volverá a
realizar más compras en el futuro.
Slide #50
Practicará las siguientes acciones:

Cargar datos a BigQuery desde un conjunto de datos públicos.


Consultar y explorar el conjunto de datos de comercio electrónico.
Crear un conjunto de datos de entrenamiento y evaluación para usar en la predicción por
lotes.
Compilar un modelo de clasificación (regresión logística) en BigQuery ML.
Evaluar el rendimiento de su modelo de aprendizaje automático.
Predecir y clasificar la probabilidad de que un visitante realice una compra.
Slide #51
Felicitaciones por completar otro lab. Esperamos que se sienta más cómodo para
compilar modelos personalizados de aprendizaje automático con BigQuery ML.

Repasemos lo que exploramos en este módulo del curso.


Slide #52
Nuestro enfoque estuvo en BigQuery, el almacén de datos que proporciona dos servicios
en uno. Es una instalación de almacenamiento completamente administrado para los
conjuntos de datos, además de ser un motor analítico rápido basado en SQL.
Slide #53
BigQuery se encuentra entre los procesos y los usos de datos, como una zona de etapa
de pruebas común. Obtiene datos a partir de transferencias y procesamientos, y genera
datos para herramientas de IE, como Looker y Data Studio, y herramientas del AA, como
Vertex AI.

Cuando los datos llegan a BigQuery, a los analistas empresariales, desarrolladores de IE,
científicos de datos y a los ingenieros de aprendizaje automático se les puede otorgar
acceso a los datos para realizar sus propias estadísticas.
Slide #54
Además de los almacenes de datos tradicionales, BigQuery cuenta con funciones de
aprendizaje automático. Esto significa que puede usar BigQuery para compilar
directamente modelos del AA en cinco fases clave.

En la fase 1, extrae, transforma y carga datos a BigQuery, en caso de que todavía no se


encuentren ahí.

En la fase 2, selecciona y realiza el procesamiento previo a los atributos. Puede usar SQL
para crear el conjunto de datos de entrenamiento del cual el modelo debe aprender.

En la fase 3, crea el modelo de AA en BigQuery.

En la fase 4, después de que su modelo esté entrenado, puede ejecutar una consulta
ML.EVALUATE para evaluar el rendimiento del modelo entrenado con su conjunto de
datos de evaluación.

Y en la fase 5, la fase final, cuando esté conforme con el rendimiento de su modelo,


puede usarlo para realizar predicciones.

También podría gustarte