AWSの薄い本Ⅲ データ分析基盤を作ってみよう 〜設計編〜
- 【物理本+ダウンロード版】¥ 1,000
- 【ダウンロード版】¥ 1,000
- 【ダウンロードカード版】¥ 0
技書博5で頒布したAWS本です。AWSの薄い本のシリーズですが、この本は内容的には心機一転データ分析基盤を扱っています。データレイクやDWHをどうつなげるかといった本をメインのテーマとしています。 ■ 本書の目的 「AWSの薄い本Ⅲ データ分析基盤を作ってみよう 〜設計編〜」を手にとっていただき、ありがとうございます。本書は「AWSの薄い本」のシリーズではありますが、前二作(IAMのマニアックな話、アカウントセキュリティのベーシックセオリー)と異なるテーマとなっています。また、AWSの薄い本と銘打っていますが、AWS成分は薄めです。データ分析基盤を作る上での設計の考え方を中心です。 ビッグデータ活用の掛け声の元でデータ分析に注目が集まり、今ではDX推進という看板にかけ替えられつつあります。どのようなお題目で呼ばれるかはさておき、いろいろな現場でデータ分析に取り組む人が増えているように思えます。筆者の本業であるSIerでの仕事でも、データ分析に関連するシステムの導入コンサルティングや構築案件が増えています。 AWSを始めとするクラウドを利用することにより、10年ほど前に比べて驚くほど短期間でデータ分析基盤を構築できるようになってきています。また、その流れは今後もますます加速化していき、より簡単に短時間で構築できるようになってくるでしょう。一方で、データ分析基盤の枠組みだけ作れても、それでお終いという訳ではありません。やはりデータ分析基盤としての、設計の勘所はあります。設計方法については、筆者自身もまだまだ試行錯誤の段階ではあります。しかし、ある程度のパターンができてきたので、ここに設計編としてまとめて見ることにします。 想定の読者のレベルとしては、業務システムを構築あるいは利用する側の人を想定しております。AWSの薄い本と書いておりますが、AWSに関しての知識は不要です。AWSに関わらず汎用的な設計の考え方に通じるように執筆します。アーキテクチャの具体例についてはAWSのサービスを使って解説し、各サービスの説明は随時おこないます。 ■ 対象読者 - ITエンジニア全般など、システム構築に携わる人 - データサイエンティストやデータアナリスト、マーケッターなどデータに関わる業務を行う人 - 事業会社でデータ分析基盤構築プロジェクトにアサインした人 - なんとなく今の仕事が嫌になって、新しい世界を垣間見てみたい人 ■ 本書で得られること - データ分析基盤の全体像が何となく解る - AWSのデータ分析関連サービスの役割が理解できる - S3大好きっ子の称号 ■ 本書で得られないこと - データ分析基盤の具体的な構築手法(これは次巻で) - AWS以外のデータ分析サービスに関する知識 - IAMマニアの称号
目次
はじめに 本書の目的 対象読者 本書で得られること 本書で得られないこと お問い合わせ先 免責事項 第1章 データ分析基盤が必要とされる理由 1.1 加速するデータ活用 1.2 ビッグデータとデータ活用 1.3 データ分析とクラウド 1.4 データ分析の⺠主化 第2章 データ分析基盤の全体像と構成要素 2.1 データ分析基盤の定義と全体像 2.1.1 データレイク 2.1.2 ETL 2.1.3 DWH 2.2 データの内部構造による分類 2.2.1 構造化データ/半構造化データ/非構造化データ 2.2.2 構造化に伴う情報の切り捨て 2.3 データレイク 2.3.1 データレイクとは? 2.3.2 AWSにおけるデータレイクサービス 2.4 DWH 2.4.1 DWH とは? 2.4.2 AWSにおけるDWHサービス 2.5 ETL(Extract/Transform/Load) 2.5.1 ETLとは? 2.5.2 AWSにおけるETL 第3章 データレイクと DWH のアーキテクチャ 3.1 よくあるデータ分析基盤の課題 3.1.1 DWHだけで運用していて自由度が低い 3.1.2 必要最低限のデータのみ蓄積され、他の分析ができない 3.1.3 個人情報の取り扱い方針の問題で使いにくい 3.1.4 分析を変更するたびに、外部ベンダーに依頼する必要がある 3.2 データレイクとDWHを分離する 3.3 データレイクの3層構造 3.3.1 RAWデータレイク 3.3.2 中間データレイク 3.3.3 構造化データレイク 3.4 データレイクを3層構造にすることのメリット 3.4.1 RAW データが残っているので、観点が変わっても分析し直せる 3.4.2 中間データレイクがあると、様々な結合が容易にできる 3.4.3 構造化データレイクに対して、直接クエリーで検索できる 第4章 個人情報と加工方法と保持戦略について 4.1 個人情報とパーソナルデータの定義について 4.1.1 個人情報 4.1.2 パーソナルデータ 4.2 個人情報の加工について 4.2.1 匿名加工情報 4.2.2 匿名加工の方法 4.2.3 仮名加工情報 4.3 データ分析基盤における個人情報の扱い 4.3.1 個人情報の取り扱い戦略 4.3.2 ノーガード戦略 4.3.3 全部入り戦略 4.3.4 全部なし戦略 4.3.5 分離パターン戦略 4.4 項目加工のパターンについて 4.5 まとめ 第5章 データ加工について 5.1 ETL処理のパターン 5.1.1 ETL 5.1.2 ELT 5.1.3 データプレパレーションツール 5.2 ELTの実装 5.2.1 UPSERTとは? 5.2.2 Athena における Upsert 的な機能の実装方法 5.3 GUIによるデータ加工について 5.3.1 データプレパレーションツール 5.3.2 加工とデータの所在について 5.3.3 データ加工の場所 5.3.4 データの連携方法 5.3.5 どのパターンが良いか? 5.3.6 クラウド事業者が提供するデータプレパレーションツール 5.4 データ加工のまとめ 第6章 アクセス制御 6.1 アクセス制御の種類 6.2 権限ベースのアクセス制御 6.2.1 原則的に人に対して S3 へのアクセス権限を与えない 6.2.2 バケットレベルのアクセス制限を IAM で制御すべきか? 6.2.3 サービスやプログラムへの権限付与 6.3 リソースベースのアクセス制御 6.3.1 経路の限定 6.3.2 サービスの限定 6.3.3 SSEKMSによる暗号化を検討する 6.4 テーブルで分離or列レベル 第7章 まとめ あとがき 著者紹介 既刊一覧