タグ

bigdataに関するJxckのブックマーク (21)

  • 並列データベースシステムの概念と原理

    3. 講義内容  序論 - 並列データベースの前に  並列処理の基礎   並列処理のTerminology 並列計算機アーキテクチャ  並列データベースのアーキテクチャ  データベース処理の並列化  結合処理の高速化     並列ハッシュ結合 並列ソート パーティショニング手法 多重結合や計算機間のデータ交換で発生する問題  MapReduceによる関係演算の並列処理 3 4. データベース開発の流れ  Coddの論文: 1970年     System RやIngres: 70年代中盤 Oracle, IBM DB2, Ingres: 80年代序盤 並列データベースの隆盛: 80年代後半   A Relational Model of Data for Large Shared Data Banks, Communications of ACM 商用

    並列データベースシステムの概念と原理
    Jxck
    Jxck 2014/02/03
    濃ゆい。
  • データサイエンティストに必要な3つのスキル | quipped

    久しぶりにタイトルで釣りにいっているが、ブラウザの「戻る」ボタンを押さないでくれw ... ... ... (よし、まだ「戻る」ボタンを押してない!) ぼく自身、データサイエンティストだったことはないが、一応大学では数学を勉強していたし、金融でクオンツトレーダーもやっていたし、人生3回分(と言ったら言い過ぎか)くらいのSQLクエリは書いている。なので、これから書くことは、屋に立ち並ぶ歯の浮く様なビッグデータ談義よりは、普遍的な価値があると自負できる。 もう一つ題に移る前に、「データサイエンティスト」という呼称について感じる両価的な感情について軽く説明したい。 ぼくは幸いにも優秀な同僚や友人に恵まれていて、彼らの中には、データ分析屋さんでありながら、データを集めてきて(広義の)データウェアハウスに突っ込むという非常に面倒くさい一連の作業もちゃっちゃか出来る奴が2、3人いる。そういうマルチ

    Jxck
    Jxck 2013/11/19
  • ビッグデータ時代にプライバシーを保護する方策を考える--Suica事例は何が問題だったのか

    気がつけば、個人情報保護法の改正をテーマに取材を始めて1年近く経った。取材を始めるきっかけは、個人に関わる情報を蓄積したビッグデータが「いつか現実社会の個人と結びつく可能性は否定できない」という弁護士のひと言だった。

    ビッグデータ時代にプライバシーを保護する方策を考える--Suica事例は何が問題だったのか
    Jxck
    Jxck 2013/11/19
    もうプライバシーなんてあってないようなもんだと思って自衛するしかないと思ってる。
  • データ分析する人が、なぜデータサイエンティストと呼ばれたくないのか  - ネガティブにデータサイエンティストでもないブログ

    ※コラ画像削除しました ビッグデータ、データサイエンティスト、そろそろ過渡期ブームも終わりつつあるように見えてきたのは結構なことです。なので私はデータベース・トンガリストに鞍替えします。嘘です。行けませんでしたがマニアックなDB話を聞きたかったです。 どっちにしても普通に粛々とやるしかないんすから騒いでも絶望しても仕方ないんですよ。実務してない奴ほど騒ぐもの。(←非常に見識の狭いダメ発言) 日頃、扱っているデータ。それビッグデータでしょ、と言われるだけで、やる気がなくなる昨今。スモールデータでもいい(←それこそが重要ですよね)と思うし、何度も繰り返される、「いままで1ヶ月かかってたデータを1日にしました」とか言う話も、ビッグデータと関係ないんじゃないの、単に多段承認フローというかステークホルダー減らしただけではと思ったりしますよね。逆にそっちのほうがすごいと思うんだけども。 で、ビッグデー

    データ分析する人が、なぜデータサイエンティストと呼ばれたくないのか  - ネガティブにデータサイエンティストでもないブログ
    Jxck
    Jxck 2013/11/18
  • 2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

    5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。 これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。 そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです(笑)。 (※

    2013年秋版:データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ
  • みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?

    自由診療クリニック向けのオールインワンSaaS「medicalforce」、警備事業者向けオールインワンSaaS「警備フォース」を提供する株式会社メディカルフォース。フルスクラッチでの開発を実現させるスクラムの構築をまとめました Developer eXperience Day 2024 株式会社メディカルフォース CTO 畠中 翔一(@punk_punx)登壇スライド

    みんなビックデータビックデータって言ってるけど 名寄せとかどうしてんの?
    Jxck
    Jxck 2013/10/07
    すいません、考えたこともありませんでした。。> 男女
  • ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack

    2012年8月1日のTwitter勉強会の発表スライドです。 http://www.zusaar.com/event/331056 スライドの最後にツイッターでの質問( #twtr_hack #q)と回答、時間の都合上発表できなかった内容を追加しました。 発表の録画ビデオ http://www.youtube.com/watch?v=v94k3bjfemM ブログ(creativi.tea) http://teapipin.blog10.fc2.com/blog-entry-298.html 当日のブログ記事 「8月1日(水)のTwitter勉強会で発表してきました! by Twitter4J 番外編」 http://teapipin.blog10.fc2.com/blog-entry-316.html Read less

    ツイッター調査:約173万ツイートを調査して分かったTwitterの利用動向 #twtr_hack
  • 平面グラフと交通ネットワークのアルゴリズム - iwiwiの日記

    日,PFI セミナーにて「平面グラフと交通ネットワークのアルゴリズム」というタイトルで話をさせてもらいました.スライドは以下になります. 「平面グラフでは色々な問題が効率的に解けると聞くけど一体何故?」 「道路ネットワークを処理するにはそういうアルゴリズムが使われているの?」 というような自分が昔持っていた疑問に答える,そんなつもりで準備をしました.そんな疑問を持っている方は,是非ご覧ください. 内容は以下のような感じです. 平面グラフのアルゴリズム(理論コミュニティ) 平面グラフとは何か 平面グラフのアルゴリズムテクニックとその応用例 双対グラフ 小さいセパレータの存在 (r-division) グラフ分割 (Deletion Decomposition) 交通ネットワークのアルゴリズム(応用コミュニティ) どのような課題が取り組まれているか 道路ネットワークは平面グラフなのか? 経路

    平面グラフと交通ネットワークのアルゴリズム - iwiwiの日記
    Jxck
    Jxck 2013/09/13
  • 最新業界事情から見るデータサイエンティストの「実像」

    PDFでupし直しました。 Webマーケティング・リレーセミナー 15 http://www.cb21.co.jp/seminar_events/relayseminar/15.html でお話した内容です。ただしオフレコで質疑でぶっちゃけた話の方が面白かったかもしれません(笑)が、それは会場参加者の皆さまだけの特典ということで。Read less

    最新業界事情から見るデータサイエンティストの「実像」
  • さらば!データサイエンティスト

    2. 自己紹介  比戸将平(HIDO Shohei)  TwitterID: @sla  専門:データマイニング、機械学習  経歴:  2006-2012: IBM東京基礎研究所データ解析グループ  機械学習(特に異常検知)のアルゴリズム研究開発  お客様案件でデータ解析プロジェクトに従事  2012-: 株式会社プリファードインフラストラクチャー  大規模オンライン分散機械学習基盤Jubatusチームリーダー  2013-: Preferred Infrastructure America, Inc.  Chief Research Officer 2

    さらば!データサイエンティスト
    Jxck
    Jxck 2013/08/25
  • ビッグデータとプライバシー

    インターネットが社会に登場した頃と同様に、オンライン上のプライバシーに関する議論が再び高まっています。 書は、ビッグデータの一般化によってもたらされるプライバシーへのリスクを考えるべく、「プライバシーとはどのようなものか?」「プライバシー保護はどのように行われてきたか?」「ビッグデータによってプライバシーを侵す(侵される)のは誰か?」「我々はどのようにふるまうべきか?」といった内容を、世界の各地域における事例を多数紹介しながら概説する書籍です。 コンパクトな分量ながら豊富な実例、事例を紹介し、ビッグデータとプライバシーを考える上での良いリンク集にもなっています。なお書はEbookのみの販売となります。 まえがき 1章 パーフェクト・ストーム 鏡(Looking Glass)の国へ ビッグデータ時代へようこそ パズルのピースから全体像へ――未来とは今のことである 広告は狼男か ビッグデー

    ビッグデータとプライバシー
  • データサイエンティストが要らなくなる日が来るかもしれない | IT Leaders

    大手ITベンダーの研究所でビッグデータ活用に携わった経験を生かし、データサイエンティストに関する情報を発信する株式会社プリファードインフラストラクチャーの比戸将平氏に話を聞いた。 ―前職のIBM東京基礎研究所でデータ解析関連のプロジェクトを担当された経験を活かし、データサイエンティストに関する講演をされています。データ分析の現場を生々しく描かれていますね。 昨年ごろから、データサイエンティストという言葉を耳にする機会が増えました。興味を持って調べてみたところ、かつて私が担当していた業務そのものでした。当時、私は機械学習やデータマイニングを使って、顧客をセグメンテーションしたり、機械が壊れる前に兆候を検知したりする仕組みを構築していました。それならば、データサイエンティストと呼ばれる人材の実態や、悩みどころをシェアできるのではないかと考えたのです。 昨今、データサイエンティストには、期待が集

  • ローソン「31位の菓子パンを売り続ける理由」 −人知を超えるビッグデータの底力【6】 - ライブドアニュース

    2013年7月27日 13時15分 リンクをコピーする by ライブドアニュース編集部 ざっくり言うと が「ビッグデータ」をどう活用しているかを紹介している 「カード」の導入で、は購買傾向を知ることが出来たという 売れ筋ではないが女性の支持があるため陳列されている菓子パンも 1勝3敗1引き分け。今年4月の「第2回電王戦」でプロ棋士はソフトに負け越した。コンピュータのデータ解析能力は、将棋のような複雑な世界でも人間を上回りつつある。こうした「ビッグデータ」はビジネスではどう活かされているのか。各社の最新事例を探った──。一方、でも「POSデータ」をさらに深めたデータ分析が進んでいる。最大の要因は10年3月に導入した共通ポイントサービス「(ポンタ)」だ。ポンタの会員数は昨年末に5000万人を突破。提携企業数は13年5月現在で66社にのぼる。 ポンタの導入により、「1割のヘビーユーザーが6割の売

    ローソン「31位の菓子パンを売り続ける理由」 −人知を超えるビッグデータの底力【6】 - ライブドアニュース
    Jxck
    Jxck 2013/07/28
  • ビックデータは深刻な人材不足。日本に人材が足りない理由

    Hispanic male analyst using multiple computers a tablet and smart phone while video conferencing with a black male client.

    ビックデータは深刻な人材不足。日本に人材が足りない理由
    Jxck
    Jxck 2013/07/26
  • Suica履歴、販売していた…乗客に説明せず (読売新聞) - Yahoo!ニュース

    約4300万人が利用するICカード乗車券「Suica(スイカ)」の乗降履歴が、今月からJR東日によって市場調査用データとして販売され始めた。 JR東は「名前などは匿名化している」として、利用者に販売の事実を説明していなかった。国土交通省は個人情報保護法に抵触する可能性がないかJR東から事情を聞く一方、「事前に利用者に説明すべきだった」と注意した。企業の熱い視線がビッグデータに注がれる一方、プライバシー保護については明確なルールがない状態だ。 提供データは、私鉄を含む首都圏約1800駅の利用者の性別、年齢、乗降日時。定期券として使う客の場合も氏名や住所は除き、IDで個々のデータを識別する。日立製作所が購入し、駅ごとの集客力や客層を分析の上で販売。情報料は最低で年500万円になるが、「企業のマーケティング戦略に役立ち、需要は大きい」と説明する。

    Jxck
    Jxck 2013/07/19
     含まれてる項目のリスト位は公開されないもんかな?
  • 靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!

    やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい? 面白い話がtwitterに流れていたので紹介したい。 日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う? twitterでは皆がこのニュースに対して嘲笑を投げかけていた。 そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。 データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。 そう、データマイニングに必要なのは意外性だ! あの屋は全く馬鹿なことをしたもんだ、ゲラゲラ! OK、笑いが取れたようなので、もう一つ同じような話

    靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!
    Jxck
    Jxck 2013/04/25
    そこにあるデータから何を読み取るか。
  • Big Data Problems in Monitoring at eBay | DevOps.com

    This post is based on a talk by Bhaven Avalani and Yuri Finklestein at QConSF 2012 (slides). Bhaven and Yuri work on the Platform Services team at eBay. by @mattokeefe This is a Big Data talk with Monitoring as the context. The problem domain includes operational management (performance, errors, anomaly detection), triaging (Root Cause Analysis), and business monitoring (customer behavior, click

    Jxck
    Jxck 2012/11/23
    面白そうな記事だけどあとで。
  • オバマ勝利の裏側 データ解析チームが200万回ものバーチャル選挙を実施

    2012年に相応しい裏方チームです。 有名数学者、ネイト・シルバー(Nate Silver)氏は、ヴァーチャル選挙を何度も行ないそのデータからオバマ大統領の再選を予想していました。が、オバマ陣営だって数学者に負けず劣らず、ヴァーチャル選挙を行いそのデータ解析を行なっていました。 ネタ元のTime誌がその様子を報じています。選挙にはデータを解析し先を見通す力が不可欠。現代ではそのデータ解析計算は、もちろんコンピューターが行なっています。オバマ陣営のオフィスには、「The Cave」と名付けられた部屋があります。そこで行なわれていたのは、公開された投票データを解析し、全米の投票を予想するというプログラム。大統領選挙直前の10月には、毎日6万6000回もの解析を行なっていました。毎朝、はじき出されるデータ結果を見て、この州での勝利の確率はこうだ、このようにリソースを配分するとこうだ、と打ち合わせ

    オバマ勝利の裏側 データ解析チームが200万回ものバーチャル選挙を実施
    Jxck
    Jxck 2012/11/12
    200万回のバーチャル選挙シミュレーションか。どういう内容だったのか気になるなぁ。
  • 市のデータ全公開でビッグデータ事業のモデルケースに 佐賀県武雄市長【湯川】 | TechWave(テックウェーブ)

    [読了時間:2分] 佐賀県武雄市の樋渡啓祐市長は9月17日、同市がこれまでに蓄積してきた各種統計や生データを全公開しIT企業などの利用を可能にすることで、新しい情報産業の創出を目指す考えを示した。TechWaveとの会談の中で明らかにした。同市長によると、行政データの中には個人の特定できるデータはほとんどなく、運用に注意することでプライバシー保護の観点からも問題になることはなさそうだという。 大量のデータを統合、加工、解析することで、新たな情報や知見、サービスなどの価値を創造する事業の総称として「ビッグデータ事業」というキーワードが使われることが増えてきているが、行政はいわばビッグデータ(大量の生データ)の宝庫。これまではプライバシー保護の観点などからほとんどの自治体ではデータの公開に非常に神経質な対応を取ってきたが、同市長は逆に積極的にビッグデータを公開していく考えを示した。 ビッグデー

  • 究極のリアルタイムを追求するCEP製品

    次々と発生するデータをリアルタイムに分析、変化をいち早く察知し、瞬時に適切なアクションを起こす。データ活用におけるリアルタイム性を極限まで追求する技術としてCEP(Complex Event Processing:複合イベント処理)に注目が集まっている。レポートでは、主要ベンダーの事例を交えながら、その動向を紹介する。 メモリー上でリアルタイムにデータを処理 「クレジットカードの決済情報を監視し、遠く離れた2 つの店舗で同時に利用された場合は不正利用の疑いを警告する」「株価情報をモニタリングして、ある銘柄の株価が閾値を超えたら売却するように指示を出す」。大量のデータの中に隠された様々な兆候を拾い集め、それらを組み合わせることによって、人間では検知できない変化を察知し、リアルタイムな対応を可能にする技術がCEP(Complex Event Processing:複合イベント処理)だ。200

    究極のリアルタイムを追求するCEP製品