本書は、クラウド上でSQLを使ってビッグデータを解析するGoogle BigQueryについて包括的に解説する書籍です。Google BigQueryの使い方から内部動作、そしてBigQueryならではのSQLの活用法、サードパーティのツールとの連携までを詳しく解説します。また、BigQueryを支えるGoogleのインフラストラクチャについても総覧しており、現代最高の超巨大インフラストラクチャの姿を知ることができます。BigQueryの全体像をマスターできる本書は、ビッグデータをSQLで活用したいデータサイエンティスト、ソフトウェア開発者必携の一冊です。
Google BigQuery
Jordan Tigani、Siddartha Naidu 著、Sky株式会社 玉川 竜司 訳
- TOPICS
- Data Science , Database
- 発行年月日
- 2015年03月
- PRINT LENGTH
- 524
- ISBN
- 978-4-87311-716-4
- 原書
- Google BigQuery Analytics
- FORMAT
- PDF EPUB
目次
訳者まえがき はじめに I部 BigQueryの基礎知識 1章 Googleにおけるビッグデータの物語 1.1 ビッグデータスタック 1.0 1.2 ビッグデータスタック 2.0(そしてその先にあるもの) 1.3 オープンソースのスタック 1.4 Google Cloud Platform 1.4.1 クラウドプロセッシング 1.4.2 クラウドストレージ 1.4.3 クラウドアナリティクス 1.5 課題の定義 1.5.1 ビッグデータとは何か? 1.5.2 なぜビッグデータか? 1.5.3 ビッグデータの処理に新しい方法が必要な理由 1.5.4 1TBのデータを 1秒で読む方法 1.5.5 MapReduceについて 1.5.6 ビッグデータへの問いかけに対してすぐに答を得る方法 1.6 まとめ 2章 BigQueryの基礎 2.1 BigQueryとは何か 2.1.1 ビッグデータに対する SQLクエリ 2.1.2 Cloud Storageシステム 2.1.3 分散クラウドコンピューティング 2.1.4 Anatytics as a Service(AaaS?) 2.1.5 BigQueryは何でないか 2.1.6 BigQueryのテクノロジースタック 2.1.7 Google Cloud Platform 2.1.8 BigQueryのサービスの歴史 2.2 BigQuery Sensors Application 2.2.1 SensorクライアントAndroidアプリケーション 2.2.2 BigQuery Sensors AppEngineアプリケーション 2.2.3 アドホックなクエリの実行 2.3 まとめ 3章 BigQueryを使い始める 3.1 プロジェクトの作成 3.1.1 Google APIのコンソール 3.1.2 無料枠の制限と課金 3.2 初めてのクエリの実行 3.2.1 データのロード 3.3 コマンドラインクライアントの利用 3.3.1 インストールとセットアップ 3.3.2 クライアントの利用 3.3.3 サービスアカウントへのアクセス 3.4 Google Cloud Storageのセットアップ 3.5 開発環境 3.5.1 Pythonのライブラリ群 3.5.2 Javaのライブラリ群 3.5.3 その他のツール群 3.6 まとめ 4章 BigQueryのオブジェクトモデル 4.1 プロジェクト 4.1.1 プロジェクト名 4.1.2 プロジェクトの課金 4.1.3 プロジェクトのアクセス制御 4.1.4 プロジェクトと App Engine 4.2 BigQueryのデータ 4.2.1 BigQueryにおける命名 4.2.2 スキーマ 4.2.3 テーブル 4.2.4 データセット 4.3 ジョブ 4.3.1 ジョブの構成要素 4.4 BigQueryの課金とクオータ 4.4.1 ストレージのコスト 4.4.2 処理のコスト 4.4.3 クエリの RPC 4.4.4 TableData.insertAll() RPC 4.5 サンプルアプリケーションのためのデータモデル 4.5.1 プロジェクト 4.5.2 データセット 4.5.3 テーブル 4.6 まとめ II部 BigQueryの基本 5章 BigQuery APIの利用 5.1 Google API群の紹介 5.1.1 APIアクセスの認証 5.1.2 SOAPを使わない一般大衆のための RESTful Web Services 5.1.3 Google APIの見つけ方 5.1.4 一般的な操作 5.2 BigQueryの RESTコレクション群 5.2.1 Projects 5.2.2 Datasets 5.2.3 Tables 5.2.4 TableData 5.2.5 Jobs 5.2.6 BigQuery APIのツアー 5.2.7 BigQueryにおけるエラー処理 5.3 まとめ 6章 データのロード 6.1 バルクロード 6.1.1 データの移動 6.1.2 保存先のテーブル 6.1.3 データのフォーマット 6.1.4 エラー 6.1.5 制限とクオータ 6.2 ストリーミングインサート 6.3 まとめ 7章 クエリの実行 7.1 BigQuery Query API 7.1.1 Query APIのメソッド 7.1.2 クエリ APIの機能 7.1.3 クエリの課金とクオータ 7.2 BigQueryのクエリ言語 7.2.1 5つのクエリで説明する BigQuery SQL 7.2.2 標準 SQLとの違い 7.3 まとめ 8章 全体の結合 8.1 クイックツアー 8.2 モバイルクライアント 8.2.1 モニタリングサービス 8.3 ログ収集サービス 8.3.1 ログのトランポリン 8.4 ダッシュボード 8.4.1 データのキャッシング 8.4.2 データの変換 8.4.3 Webクライアント 8.5 まとめ III部 BigQueryの応用 9章 クエリの内幕 9.1 背景 9.2 ストレージのアーキテクチャ 9.2.1 Colossus File System(CFS) 9.2.2 ColumnIIO 9.2.3 耐久性と可用性 9.3 クエリの処理 9.3.1 Dremel Ser vingツリー 9.4 アーキテクチャの比較 9.4.1 リレーショナルデータベース 9.4.2 MapReduce 9.5 まとめ 10章 高度なクエリ 10.1 高度な SQL 10.1.1 サブクエリ 10.1.2 テーブルの統合:暗黙のUNIONとJOIN 10.1.3 分析及びウィンドウ関数 10.2 BigQueryの SQL拡張 10.2.1 EACHキーワード 10.2.2 データのサンプリング 10.2.3 リピートフィールド 10.3 クエリのエラー 10.3.1 Result Too Large 10.3.2 Resources Exceeded 10.4 様々なレシピ 10.4.1 ピボット 10.4.2 コホート分析 10.4.3 並列リスト 10.4.4 正確な Count Distinct 10.4.5 直近の平均 10.4.6 並列度を求める 10.5 まとめ 11章 BigQueryに保存されたデータの管理 11.1 クエリキャッシング 11.2 結果のキャッシング 11.2.1 中間結果 11.3 テーブルスナップショット 11.4 App Engine Datastoreとの結合 11.4.1 単純な kind 11.4.2 型の混在 11.4.3 最後に 11.5 メタテーブル群とテーブルのシャーディング 11.5.1 時間旅行 11.5.2 テーブルの選択 11.6 まとめ Ⅳ部 BigQueryの様々な活用 12章 外部でのデータ処理 12.1 BigQueryからのデータの取り出し 12.1.1 Extractジョブ 12.1.2 TableData.list() 12.2 App Engine MapReduce 12.2.1 シーケンシャルなソリューション 12.2.2 基本的な App Engine MapReduce 12.2.3 BigQueryとの結合 12.2.4 Hadoopとの BigQueryの使用 12.3 スプレッドシートからの BigQueryに対するクエリの発行 12.3.1 Google Spreadsheets(Apps Script)における BigQueryのクエリ 12.3.2 Microsoft Excelでの BigQueryのクエリ 12.4 まとめ 13章 サードパーティのツールからの BigQueryの利用 13.1 BigQueryのアダプタ群 13.1.1 Simba ODBC Connector 13.1.2 JDBC接続の利用 13.1.3 Encr ypted BigQueryでのクライアントサイドの暗号化 13.2 BigQueryの科学データ処理のツール 13.2.1 Rから使用する BigQuery 13.2.2 Python Pandasと BigQuery 13.3 BigQueryでのデータのビジュアライゼーション 13.3.1 Tableauによる BigQueryのデータのビジュアライズ 13.3.2 BIMEによる BigQueryのデータのビジュアライズ 13.3.3 他のデータビジュアライゼーションの選択肢 13.4 まとめ 14章 Googleのデータソースに対するクエリ 14.1 Google Analytics 14.1.1 BigQueryでのアクセスのセットアップ 14.1.2 テーブルのスキーマ 14.1.3 テーブルに対するクエリ 14.2 Google AdSense 14.2.1 テーブルの構造 14.2.2 BigQueryの活用 14.3 Google Cloud Storage 14.4 まとめ 索引