Google BigQuery

[cover photo]
TOPICS
Data Science , Database
発行年月日
PRINT LENGTH
524
ISBN
978-4-87311-716-4
原書
Google BigQuery Analytics
FORMAT
PDF EPUB

本書は、クラウド上でSQLを使ってビッグデータを解析するGoogle BigQueryについて包括的に解説する書籍です。Google BigQueryの使い方から内部動作、そしてBigQueryならではのSQLの活用法、サードパーティのツールとの連携までを詳しく解説します。また、BigQueryを支えるGoogleのインフラストラクチャについても総覧しており、現代最高の超巨大インフラストラクチャの姿を知ることができます。BigQueryの全体像をマスターできる本書は、ビッグデータをSQLで活用したいデータサイエンティスト、ソフトウェア開発者必携の一冊です。

目次

訳者まえがき
はじめに

I部 BigQueryの基礎知識

1章 Googleにおけるビッグデータの物語
    1.1 ビッグデータスタック 1.0
    1.2 ビッグデータスタック 2.0(そしてその先にあるもの)
    1.3 オープンソースのスタック
    1.4 Google Cloud Platform
        1.4.1 クラウドプロセッシング
        1.4.2 クラウドストレージ
        1.4.3 クラウドアナリティクス
    1.5 課題の定義
        1.5.1 ビッグデータとは何か?
        1.5.2 なぜビッグデータか?
        1.5.3 ビッグデータの処理に新しい方法が必要な理由
        1.5.4 1TBのデータを 1秒で読む方法
        1.5.5 MapReduceについて
        1.5.6 ビッグデータへの問いかけに対してすぐに答を得る方法
    1.6 まとめ

2章 BigQueryの基礎
    2.1 BigQueryとは何か
        2.1.1 ビッグデータに対する SQLクエリ
        2.1.2 Cloud Storageシステム
        2.1.3 分散クラウドコンピューティング
        2.1.4 Anatytics as a Service(AaaS?)
        2.1.5 BigQueryは何でないか
        2.1.6 BigQueryのテクノロジースタック
        2.1.7 Google Cloud Platform
        2.1.8 BigQueryのサービスの歴史
    2.2 BigQuery Sensors Application
        2.2.1 SensorクライアントAndroidアプリケーション
        2.2.2 BigQuery Sensors AppEngineアプリケーション
        2.2.3 アドホックなクエリの実行
    2.3 まとめ

3章 BigQueryを使い始める
    3.1 プロジェクトの作成
        3.1.1 Google APIのコンソール
        3.1.2 無料枠の制限と課金
    3.2 初めてのクエリの実行
        3.2.1 データのロード
    3.3 コマンドラインクライアントの利用
        3.3.1 インストールとセットアップ
        3.3.2 クライアントの利用
        3.3.3 サービスアカウントへのアクセス
    3.4 Google Cloud Storageのセットアップ
    3.5 開発環境
        3.5.1 Pythonのライブラリ群
        3.5.2 Javaのライブラリ群
        3.5.3 その他のツール群
    3.6 まとめ

4章 BigQueryのオブジェクトモデル
    4.1 プロジェクト
        4.1.1 プロジェクト名
        4.1.2 プロジェクトの課金
        4.1.3 プロジェクトのアクセス制御
        4.1.4 プロジェクトと App Engine
    4.2 BigQueryのデータ
        4.2.1 BigQueryにおける命名
        4.2.2 スキーマ
        4.2.3 テーブル
        4.2.4 データセット
    4.3 ジョブ
        4.3.1 ジョブの構成要素
    4.4 BigQueryの課金とクオータ
        4.4.1 ストレージのコスト
        4.4.2 処理のコスト
        4.4.3 クエリの RPC
        4.4.4 TableData.insertAll() RPC
    4.5 サンプルアプリケーションのためのデータモデル
        4.5.1 プロジェクト
        4.5.2 データセット
        4.5.3 テーブル
    4.6 まとめ

II部 BigQueryの基本

5章 BigQuery APIの利用
    5.1 Google API群の紹介
        5.1.1 APIアクセスの認証
        5.1.2 SOAPを使わない一般大衆のための RESTful Web Services
        5.1.3 Google APIの見つけ方
        5.1.4 一般的な操作
    5.2 BigQueryの RESTコレクション群
        5.2.1 Projects
        5.2.2 Datasets
        5.2.3 Tables
        5.2.4 TableData
        5.2.5 Jobs
        5.2.6 BigQuery APIのツアー
        5.2.7 BigQueryにおけるエラー処理
    5.3 まとめ

6章 データのロード
    6.1 バルクロード
        6.1.1 データの移動
        6.1.2 保存先のテーブル
        6.1.3 データのフォーマット
        6.1.4 エラー
        6.1.5 制限とクオータ
    6.2 ストリーミングインサート
    6.3 まとめ

7章 クエリの実行
    7.1 BigQuery Query API
        7.1.1 Query APIのメソッド
        7.1.2 クエリ APIの機能
        7.1.3 クエリの課金とクオータ
    7.2 BigQueryのクエリ言語
        7.2.1 5つのクエリで説明する BigQuery SQL
        7.2.2 標準 SQLとの違い
    7.3 まとめ

8章 全体の結合
    8.1 クイックツアー
    8.2 モバイルクライアント
        8.2.1 モニタリングサービス
    8.3 ログ収集サービス
        8.3.1 ログのトランポリン
    8.4 ダッシュボード
        8.4.1 データのキャッシング
        8.4.2 データの変換
        8.4.3 Webクライアント
    8.5 まとめ

III部 BigQueryの応用

9章 クエリの内幕
    9.1 背景
    9.2 ストレージのアーキテクチャ
        9.2.1 Colossus File System(CFS)
        9.2.2 ColumnIIO
        9.2.3 耐久性と可用性
    9.3 クエリの処理
        9.3.1 Dremel Ser vingツリー
    9.4 アーキテクチャの比較
        9.4.1 リレーショナルデータベース
        9.4.2 MapReduce
    9.5 まとめ

10章 高度なクエリ
    10.1 高度な SQL
        10.1.1 サブクエリ
        10.1.2 テーブルの統合:暗黙のUNIONとJOIN
        10.1.3 分析及びウィンドウ関数
    10.2 BigQueryの SQL拡張
        10.2.1 EACHキーワード
        10.2.2 データのサンプリング
        10.2.3 リピートフィールド
    10.3 クエリのエラー
        10.3.1 Result Too Large
        10.3.2 Resources Exceeded
    10.4 様々なレシピ
        10.4.1 ピボット
        10.4.2 コホート分析
        10.4.3 並列リスト
        10.4.4 正確な Count Distinct
        10.4.5 直近の平均
        10.4.6 並列度を求める
    10.5 まとめ

11章 BigQueryに保存されたデータの管理
    11.1 クエリキャッシング
    11.2 結果のキャッシング
        11.2.1 中間結果
    11.3 テーブルスナップショット
    11.4 App Engine Datastoreとの結合
        11.4.1 単純な kind
        11.4.2 型の混在
        11.4.3 最後に
    11.5 メタテーブル群とテーブルのシャーディング
        11.5.1 時間旅行
        11.5.2 テーブルの選択
    11.6 まとめ
Ⅳ部 BigQueryの様々な活用

12章 外部でのデータ処理
    12.1 BigQueryからのデータの取り出し
        12.1.1 Extractジョブ
        12.1.2 TableData.list()
    12.2 App Engine MapReduce
        12.2.1 シーケンシャルなソリューション
        12.2.2 基本的な App Engine MapReduce
        12.2.3 BigQueryとの結合
        12.2.4 Hadoopとの BigQueryの使用
    12.3 スプレッドシートからの BigQueryに対するクエリの発行
        12.3.1 Google Spreadsheets(Apps Script)における BigQueryのクエリ
        12.3.2 Microsoft Excelでの BigQueryのクエリ
    12.4 まとめ

13章 サードパーティのツールからの BigQueryの利用
    13.1 BigQueryのアダプタ群
        13.1.1 Simba ODBC Connector
        13.1.2 JDBC接続の利用
        13.1.3 Encr ypted BigQueryでのクライアントサイドの暗号化
    13.2 BigQueryの科学データ処理のツール
        13.2.1 Rから使用する BigQuery
        13.2.2 Python Pandasと BigQuery
    13.3 BigQueryでのデータのビジュアライゼーション
        13.3.1 Tableauによる BigQueryのデータのビジュアライズ
        13.3.2 BIMEによる BigQueryのデータのビジュアライズ
        13.3.3 他のデータビジュアライゼーションの選択肢
    13.4 まとめ

14章 Googleのデータソースに対するクエリ
    14.1 Google Analytics
        14.1.1 BigQueryでのアクセスのセットアップ
        14.1.2 テーブルのスキーマ
        14.1.3 テーブルに対するクエリ
    14.2 Google AdSense
        14.2.1 テーブルの構造
        14.2.2 BigQueryの活用
    14.3 Google Cloud Storage
    14.4 まとめ

索引