タグ

redshiftに関するyou21979のブックマーク (14)

  • We’re changing the way you think about data

    Tableau helps people see and understand data What do you want to do with yours? Try Tableau for Free See it in action Student or teacher? Get a free 1-year license. Learn More Full-version trial. No credit card required.

  • 情弱のためのRedshiftまとめ - Qiita

    先日、Redshift童貞を卒業しました情弱です。卒業するにあたり困り事がいくつかあったので、そのあたりまとめを作りたいと思います。 そもそもこれなに? 情弱な私はここからのスタートです。データウェアハウス(DWH)でテラバイトクラスでも分析出来るらしいということはわかっていましたが、そこから先がよくわかりません。 これ、つまるところでいうと 集計がめちゃくちゃ速いPostgres です。なので、これを使えばおばあちゃんの病気が治るとかそういった素敵なものではなく、create tableしてデータ入れて、group byしてcount()やsum()するだけです。ただ、DWH用途に特化しているだけあって、通常のPostgresにはない特徴がいくつかあります。 ふつうのPostgresとの違い 私がぱっと気付いたものなので、もっとたくさんあるはずですが、多分主なヤツ。 サポートしてるデータ

    情弱のためのRedshiftまとめ - Qiita
    you21979
    you21979 2014/04/14
    「列指向なのでselect *は基本ダメ。必要なカラムだけ採る」
  • Amazon Redshiftの利点

    Amazon Redshiftについて色々と聞く機会があった。その時聞いたことメモ。 Amazon EMRとAmazon Redshiftの違い まずは、よく比較されることになるEMRとRedshiftの違いから。 Amazon EMR HadoopクラスタとHiveを簡単に使うためのサービス。自由な台数のクラスタを自由なタイミングで起動したり破棄したりできる。 Hadoopクラスタ運用(初期設定、チューニング、等)の手間が完全に不要なのはものすごいメリット。 クエリの速さは、ログの量によりますが、数分~数十分くらいかかる。(ログの行数が数百万~数千万ある時) 利用者から見た基的な用途・できることはEMRとほとんど同じ。ただ、仕組みが全く違う。 RedshiftはRDBのような(Postgresベースらしい)テーブル設計を持つ。例えば、VARCHAR(255)みたいなカラムを持つ。EMR

  • SQL commands - Amazon Redshift

    The SQL language consists of commands that you use to create and manipulate database objects, run queries, load tables, and modify the data in tables. Amazon Redshift is based on PostgreSQL. Amazon Redshift and PostgreSQL have a number of important differences that you must be aware of as you design and develop your data warehouse applications. For more information about how Amazon Redshift SQL di

  • 大規模データについて第6回 ~Redshift編~ - Qiita

    大規模データについて最後にRedshiftについて書きます。 使い始めたばかりで実践的な話は少ないですが、現場視点の使用感をまとめました。 Redshiftとは AWSが提供するデータウェアハウスです。 いわゆるフルマネージドサービス(RDS、DynamoDBと同様)ですぐに使い始められます。 操作項目はRDSに近いです。 詳しくは、コチラをご覧下さい。 特徴をまとめると 使い勝手は、他のAWSサービス同様に必要に応じて簡単に拡張できます、 データ抽出のためのSQLは、Postgreペースのカスタム版です。 抽出のための機能は揃っているので問題なく使えます。 詳しくは、コチラ をご覧ください。 運用の手間は、バッチ処理の様な比較的時間の余裕がある処理で使う分には問題ないレベルだと思われます。 1時間/週のメンテナンス時間が必要なのでDBが止まっても問題ない(リカバリできる)処理でないと難し

    大規模データについて第6回 ~Redshift編~ - Qiita
  • AWS Game Analytics - GDC 2014

    This document discusses using AWS services like S3, Redshift, DynamoDB and EMR to analyze game analytics data from mobile games. It provides examples of collecting and storing event data from games, then loading and analyzing that data in Redshift to gain insights into player behavior and retention. Cohort analysis is highlighted as a way to group players by attributes like install date and then m

    AWS Game Analytics - GDC 2014
  • Fluentdを使ってアプリ側で吐いたログをAmazonRedshift上のテーブルに登録する - へろへろもへじ

    2014年、明けましたおめでとうございます。 年末年始にfluentdに関してちょこちょこ試作しておりまして、TODOはまだあるものの、ある程度まとまったので書き留めておきます。 目的 Webサーバで吐かれたログ(複数ファイル)をRedshift上のテーブルに登録する (なるべくスマートに... 要件(希望含む) Webサーバには負荷をかけたくないので、最低限の仕事のみさせる構成としたい 取り込み対象のログファイルが増えた場合、設定ファイルを極力いじらない構成としたい ログファイルの出力形式はアプリ側で変えない 高可用性、負荷分散を容易にできる構成としたい Redshiftになるべく簡単に連携... ※1,2,4はあたり前田の(ry...ですね 解決案 1.Webサーバには負荷をかけたくないので、最低限の仕事のみさせる構成としたい Webサーバにfluentd(td-agent)を立て、生

    Fluentdを使ってアプリ側で吐いたログをAmazonRedshift上のテーブルに登録する - へろへろもへじ
  • fluent-plugin-redshiftとその他pluginを組み合わせてredshiftへデータ保存

    http://aws.amazon.com/jp/redshift/ AWSから安価で使用可能なDWH製品Redshiftが公開されてしばらく立ちます。 非常に興味深いサービスなのですが、Redshiftへのデータの登録が独特(S3に置いたCSV/TSVをcopyコマンドを用いて登録)という事もあり、ちょっと面倒くさく感じていました。 最近、掲題のようにredshiftへのデータ保存が行えるFluentdプラグインがあるのを発見したので、こちらと他プラグインを組み合わせて、Fluentdを用いたRedshiftへのデータ保存を試してみました。 ◯fluent-plugin-redshift https://github.com/hapyrus/fluent-plugin-redshift BufferedOutputプラグインの一つで、仕組みとしてはchunk単位でS3にデータを書き込んだ

  • FluentdとRedshiftの素敵な関係

    4. 第18回 AWS User Group - Japan 東京勉強会 Fluentd •OSSのlog collector •導入のし易さ、性能、信頼性、拡張性++ •豊富なplugin •fluent-plugin-s3 •fluent-plugin-redshift 4 5. 第18回 AWS User Group - Japan 東京勉強会 fluent-plugin-redshift 5 •https://github.com/hapyrus/fluent-plugin-redshift/ •Redshiftにデータを登録できるFluentd plugin •CSV/TSV/JSONなどに対応 •Redshiftへのデータ反映のタイミングを調整可能 (buffer_chunk_limit / flush_interval) •chunk単位でS3にデータ保存→copyコマンドでRedshi

    FluentdとRedshiftの素敵な関係
  • Amazon Redshift を動かしてSQLで使ってみるまでの手順 | Check!Site

    listing が約20万件ある状態です。 各レコードの内容は以下のような感じです。(サーバ上に持ってきて見てみました。) # head -3 allusers_pipe.txt 1|JSG99FHE|Rafael|Taylor|Kent|WA|Etiam.laoreet.libero@sodalesMaurisblandit.edu|(664) 602-4412|TRUE|TRUE||FALSE|TRUE|||TRUE|FALSE|TRUE 2|PGL08LJI|Vladimir|Humphrey|Murfreesboro|SK|Suspendisse.tristique@nonnisiAenean.edu|(783) 492-1886||||TRUE|TRUE|||TRUE|FALSE|TRUE 3|IFT66TXU|Lars|Ratliff|High Point|ME|amet.fa

    Amazon Redshift を動かしてSQLで使ってみるまでの手順 | Check!Site
  • 第1回 Amazon Redshiftとは[前編] | gihyo.jp

    Amazon Web Services(AWS)は次々と新しいサービスを世の中に出して、クラウド・コンピューティングの可能性を広げていっています。そのAWSから登場した最新のサービスであるAmazon Redshiftは、そのパフォーマンスや驚異的な低コストのため、発表当時から大変な反響を呼んできました。 この連載では、 Redshiftの概要からその利用方法まで、主にあまりデータウェアハウスを利用した経験がないWeb開発エンジニアなど向けに、このビッグデータ向けクラウド・データウェアハウス製品であるAmazon Redshiftの解説をして行きたいと思います。 まずは、そもそもAmazon Redshiftとは何なのか、その概要から説明します。 Amazon Redshiftはビッグデータ時代のクラウド・データウェアハウス 2012年11月、AWSにとって初めての世界的なユーザカンファレ

    第1回 Amazon Redshiftとは[前編] | gihyo.jp
  • Fluentd、Amazon RedshiftとTableauを用いたカジュアルなデータ可視化 | SmartNews開発者ブログ

    ゴクロ改め、スマートニュース株式会社の大平です。 巷間では「bigdata」の活用が叫ばれて久しいですが、弊社はまだまだ小さい規模のスタートアップのため少なくともデータサイズとしてhugeなdataの活用が行える環境ではありません。 であればデータの活用に対する要求が低いか、というとそうでも無く、サービスサイドでも自然言語処理や機械学習を中心としたデータ解析処理がサービスの生命線となっていますし、サービスの裏側でも戦略を立てる上で効果測定や諸々のデータの分析は非常に重要な位置を占めています。 記事では主にサービスの裏側で求められるデータ解析において、いかにカジュアルにデータを解析するか、の一例として、掲題のような組み合わせによるデータ可視化の事例を簡単にですがご紹介したいと思います。 データ解析基盤を作る側の視点からすると、システムとして求められる要件は以下のようなものだと理解していま

  • 「Amazon Redshift」を使ってみた ~使いどころと、つまずきがちなポイント

    はじめに Amazon Redshiftは、Amazon Web Services(AWS)が提供するデータウェアハウス(DWH)サービスで、2013年2月に正式リリースされ、同6月4日には東京リージョンでも利用可能になりました。既存のDWHと比較しても安価で、PostgreSQLベースで容易に高速なデータ分析が可能であることなどが知られており、注目も高まっています。 ところが、日国内では「使ってみた」という情報は非常に少ないです。幸運にも筆者は、限定プレビューの段階からRedshiftに触れる機会に恵まれました。そこで、今回は「こんな使い方をしてみました」「こんなところでつまずいた」といったことを中心に紹介したいと思います。 なお、記事は限定プレビュー~サービス開始当初の米国東部リージョンでの使用結果を元に執筆しており、当時のAPIバージョンは2012-12-01です。東京リージョン

    「Amazon Redshift」を使ってみた ~使いどころと、つまずきがちなポイント
  • Logをs3とredshiftに格納する仕組み

    1. LogをS3と Hive Redshi/ に 格納する仕組み 2013年5月22日 株式会社ゆめみ 森下 健 mokemokechicken@twi;er 1 2. 作るきっかけ アプリケーションログをMySQLに保存している (調査目的) MySQLだとスケールしない S3やHadoop(Hive)上に保存しよう (スケールしそう) 2 100〜200Write/sec くらいでキツイ

    Logをs3とredshiftに格納する仕組み
  • 1