はじめに 本連載の第2回では様々なデータソースからの収集について、第3回では収集されたデータの管理についてそれぞれ解説してきました。今回は、それぞれのデータの収集から分析するまでの処理の流れを管理するデータパイプライン管理に着目し、求められる要素や関連するサービスとその使い分けについて解説します。 データパイプラインとETL 分析するためのデータを様々なデータソースから収集してデータレイクのような基盤で実際に分析できる状態にするまでには、一般的にいくつかのサービスや機能、処理を組み合わせて実現します。このようにデータの抽出(Extract)、変換(Transform)、ロード(Load)の一連のフロー(流れ)をETLと呼び、データソースやデータの種類ごとに異なるフロー(パイプライン)を構成する必要があります。 さらにこの処理は当然ながら自動化することが一般的です。なお、データウェア