タグ

aws-glueとgihyoに関するnabinnoのブックマーク (1)

  • データパイプラインの管理 ~ワークフロー管理に利用できる、さまざまなAWSサービス | gihyo.jp

    はじめに 連載の第2回では様々なデータソースからの収集について、第3回では収集されたデータの管理についてそれぞれ解説してきました。今回は、それぞれのデータの収集から分析するまでの処理の流れを管理するデータパイプライン管理に着目し、求められる要素や関連するサービスとその使い分けについて解説します。 データパイプラインとETL 分析するためのデータを様々なデータソースから収集してデータレイクのような基盤で実際に分析できる状態にするまでには、一般的にいくつかのサービスや機能、処理を組み合わせて実現します。このようにデータの抽出(Extract⁠)⁠、変換(Transform⁠)⁠、ロード(Load)の一連のフロー(流れ)をETLと呼び、データソースやデータの種類ごとに異なるフロー(パイプライン)を構成する必要があります。 さらにこの処理は当然ながら自動化することが一般的です。なお、データウェア

    データパイプラインの管理 ~ワークフロー管理に利用できる、さまざまなAWSサービス | gihyo.jp
  • 1