T-GCPBDML-B M3-Big Data With BigQuery ILT Slides ESLA
T-GCPBDML-B M3-Big Data With BigQuery ILT Slides ESLA
T-GCPBDML-B M3-Big Data With BigQuery ILT Slides ESLA
En el módulo anterior del curso, aprendió a crear un flujo de datos de transmisión con
Pub/Sub, Dataflow y Looker en comparación con Data Studio. Ahora, enfoquémonos en
BigQuery, un producto de almacén de datos popular en Google.
Slide #4
Comenzará explorando los dos servicios principales de BigQuery, el almacenamiento y
el análisis y, luego, verá una demostración del uso de BigQuery.
Comencemos.
Slide #5
BigQuery es un almacén de datos completamente administrado.
BigQuery cuenta con un modelo de precios prepago flexible, lo que significa que usted
solo paga la cantidad de bytes de datos que procesa su consulta y cualquier
almacenamiento permanente de la tabla.
Si prefiere tener una factura fija todos los meses, también puede suscribirse a un
precio de tarifa plana que cuenta con una cantidad reservada de recursos para usar.
Los datos en BigQuery están encriptados en reposo de forma predeterminada sin que el
cliente deba realizar alguna acción.
Esta encriptación en reposo hace referencia a la encriptación que se usa para proteger
los datos que están almacenados en un disco (incluidas las unidades de estado sólido) o
en medios de copias de seguridad.
BigQuery cuenta con funciones de aprendizaje automático incorporadas para que pueda
escribir modelos de AA directamente en BigQuery con SQL.
Además, si decide usar otras herramientas profesionales para entrenar sus modelos de
AA (como Vertex AI de Google Cloud), puede exportar conjuntos de datos de BigQuery
directamente a Vertex AI a fin de lograr una integración continua en todo el ciclo de vida
de datos a IA.
Slide #7
¿Cómo luce una arquitectura típica de una solución de almacén de datos?
Los datos de entrada pueden ser en tiempo real o por lotes. Si piensa en el último
módulo del curso, recordará que hay cuatro desafíos que presentan los macrodatos para
las organizaciones modernas. Los datos pueden tener cualquier formato (variedad),
tamaño (volumen), rapidez (velocidad) y exactitud (veracidad).
Si son datos de transmisión, que pueden ser estructurados o no estructurados, tener alta
velocidad y gran volumen, se necesita Pub/Sub para transferir los datos. Si son datos
por lotes, se pueden subir directamente a Cloud Storage.
Después de eso, ambas canalizaciones llegan a Dataflow para procesar los datos.
Dataflow es el lugar para realizar ETL, es decir, extraer, transformar y cargar los datos si
es necesario.
Si prefiere trabajar con hojas de cálculo, puede buscar conjuntos de datos de BigQuery
pequeños o grandes directamente en las Hojas de cálculo de Google y hasta realizar
operaciones comunes como dinamizar tablas.
BigQuery es como una zona común de etapa de pruebas para las cargas de trabajo de
análisis de datos. Cuando sus datos se encuentran ahí, a los analistas empresariales,
desarrolladores de IE, ingenieros de aprendizaje automático y científicos de datos se les
puede otorgar acceso a sus datos para que ellos realicen sus propias estadísticas.
Slide #9
BigQuery proporciona dos servicios en uno. Es una instalación de almacenamiento
completamente administrada para cargar y almacenar conjuntos de datos y también un
motor analítico rápido basado en SQL.
Ambos servicios están conectados por la red interna de alta velocidad de Google. Es
esta red de alta velocidad la que permite que BigQuery escale tanto el almacenamiento
como el procesamiento de forma independiente, según la demanda.
El primero es la carga por lotes, en la que los datos de origen se cargan a una tabla de
BigQuery en una sola operación por lotes. Puede ser una operación de una vez o se
puede automatizar para programar su ejecución. Una operación de carga por lotes puede
crear una tabla nueva o agregar datos a una tabla existente.
El segundo es la transmisión, en la que se transmiten lotes más pequeños de datos de
forma continua a fin de que los datos estén disponibles para realizar consultas casi en
tiempo real.
Y el tercero son los datos generados, en los que las instrucciones de SQL se usan para
insertar filas en una tabla existente o escribir los resultados de una consulta en una
tabla.
Slide #12
Sin embargo, el objetivo de BigQuery no es solo guardar datos, sino analizarlos y ayudar
a tomar decisiones empresariales.
BigQuery también cuenta con consultas por lotes, que se ponen en cola de forma
automática y la consulta comienza cuando los recursos inactivos están disponibles, por
lo general, en unos minutos.
Slide #16
Como cualquier analista de datos le dirá, explorar un conjunto de datos con SQL es, a
menudo, uno de los primeros pasos para descubrir estadísticas ocultas.
El objetivo de este código es encontrar las diez estaciones más populares según la
cantidad de viajes que comienzan en ellas.
Primero, debe exportar datos del almacén de datos a un IDE (entorno de desarrollo
integrado), como un notebook de Jupyter o Google Colab, y luego transformar los datos
y realizar los pasos de ingeniería de atributos antes de poder enviarlos a un modelo de
entrenamiento.
Por último, debe compilar el modelo en TensorFlow o en una biblioteca similar y
entrenarlo de manera local en una computadora o una máquina virtual.
Para mejorar el rendimiento del modelo, también debe avanzar y retroceder a fin de
obtener más datos y crear funciones nuevas. Este proceso se deberá repetir, pero
consume tanto tiempo que usted probablemente se detenga después de algunas
iteraciones. También mencioné TensorFlow y la ingeniería de atributos. Antes, si no
conocía estas tecnologías, el AA se les designaba a los científicos de datos en su equipo
y usted no tenía acceso.
Slide #21
Existen dos pasos necesarios para comenzar:
Paso 1: Cree un modelo con una instrucción de SQL. Aquí podemos usar el conjunto de
datos de las bicicletas compartidas como ejemplo.
Slide #22
Paso 2: Escriba una consulta de predicción en SQL y, luego, invoque ml.Predict.
Los pasos adicionales podrían incluir actividades como evaluar el modelo, pero si
conoce los conceptos básicos de SQL, ahora puede implementar el AA. ¡Excelente!
Slide #23
BigQuery ML se diseñó para ser sencillo, como compilar un modelo en dos pasos. Esa
sencillez se extiende a la definición de los hiperparámetros de aprendizaje automático,
que le permiten ajustar el modelo para lograr el mejor entrenamiento.
Con BigQuery ML, puede controlar de forma manual los hiperparámetros o derivarlos a
BigQuery, al principio con una configuración predeterminada y, luego, con ajuste
automático.
Slide #24
Cuando usa un conjunto de datos estructurado en BigQuery ML, debe elegir el tipo de
modelo adecuado. Decidir el tipo de modelo de AA depende de su objetivo comercial y
los conjuntos de datos.
BigQuery admite modelos supervisados y no supervisados.
En este caso, vamos a predecir el valor del ciclo de vida del cliente con un modelo.
El valor del ciclo de vida del cliente (LTV) es una métrica común en el marketing que se
usa para estimar cuántos ingresos o ganancias puede esperar de un cliente según el
historial y los patrones similares con otros clientes.
Slide #29
Usaremos un conjunto de datos de comercio electrónico de Google Analytics de la
propia tienda de artículos promocionales de Google, en la que venden artículos de
marca, como camisetas y chaquetas.
Antes de enviar los datos al modelo, primero debemos definir nuestros datos y columnas
en el lenguaje que usan los científicos de datos y otros profesionales del AA.
Esto significa predecir un número, así que podemos usar una regresión lineal como
punto de partida para el modelo.
Las etiquetas también pueden ser variables categóricas como valores binarios, por
ejemplo, si es un cliente valioso o no. Para predecir una variable categórica, si recuerda
la sección anterior, debe usar un modelo de regresión logística.
Saber lo que está intentando predecir, como una clase o un número, influirá de gran
manera en el tipo de modelo que usará.
Slide #32
Pero ¿cómo llamamos a las otras columnas de datos en la tabla de datos?
El proceso de filtrar los datos puede llevar mucho tiempo. La parte más difícil de
cualquier proyecto del AA suele ser comprender la calidad de los datos de cada columna
y trabajar con los equipos para obtener más atributos o historial.
Slide #33
Incluso puede combinar o transformar las columnas de atributos en un proceso llamado
ingeniería de atributos. Si alguna vez creó campos calculados en SQL, ya ejecutó los
conceptos básicos de la ingeniería de atributos.
Si alguna vez creó campos calculados en SQL, ya ejecutó los conceptos básicos de la
ingeniería de atributos.
Slide #34
BigQuery ML realiza gran parte del trabajo duro por usted, por ejemplo, la codificación
one-hot automática de los valores categóricos. La codificación one-hot es un método de
conversión de datos categóricos a datos numéricos a fin de prepararlos para el
entrenamiento de modelos. A partir de ahí, BigQuery ML divide automáticamente el
conjunto de datos en datos de entrenamiento y de evaluación.
Slide #35
Por último, se encuentra la predicción de los datos futuros.
Digamos que llegan datos nuevos para los que no tiene una etiqueta, así que no sabe si
corresponden a un cliente valioso. Sin embargo, sí cuenta con un historial abundante de
ejemplos etiquetados con los que entrenar un modelo.
Slide #36
Así que, si entrenamos un modelo con los datos históricos y estamos conformes con el
rendimiento, podemos usarlo para realizar predicciones con conjuntos de datos futuros.
Slide #38
Exploremos las fases clave de un proyecto de aprendizaje automático.
En la fase 1, extrae, transforma y carga datos a BigQuery, en caso de que todavía no se
encuentren ahí.
Si ya usa otros productos de Google, por ejemplo, YouTube, busque conectores
sencillos para obtener datos en BigQuery antes de compilar su propia canalización.
Use uniones de SQL para enriquecer su almacén de datos existente con otras fuentes de
datos.
Los modelos tienen OPTIONS que puede especificar. La opción más importante, y la
única obligatoria, es el tipo de modelo.
Slide #44
Puede inspeccionar lo que un modelo aprendió con el comando ML.WEIGHTS si filtra
una columna de entrada.
Los datos de visitantes y pedidos del sitio se cargaron a BigQuery y usted puede
compilar un modelo de aprendizaje automático para predecir si un visitante volverá a
realizar más compras en el futuro.
Slide #50
Practicará las siguientes acciones:
Cuando los datos llegan a BigQuery, a los analistas empresariales, desarrolladores de IE,
científicos de datos y a los ingenieros de aprendizaje automático se les puede otorgar
acceso a los datos para realizar sus propias estadísticas.
Slide #54
Además de los almacenes de datos tradicionales, BigQuery cuenta con funciones de
aprendizaje automático. Esto significa que puede usar BigQuery para compilar
directamente modelos del AA en cinco fases clave.
En la fase 2, selecciona y realiza el procesamiento previo a los atributos. Puede usar SQL
para crear el conjunto de datos de entrenamiento del cual el modelo debe aprender.
En la fase 4, después de que su modelo esté entrenado, puede ejecutar una consulta
ML.EVALUATE para evaluar el rendimiento del modelo entrenado con su conjunto de
datos de evaluación.