This domain may be for sale!
alo 789 đăng nhập Hãy tham gia những trang web hàng đầu để trải nghiệm cờ bạc trực tuyến và tăng cơ hội giành giải lớn cùng với phần thưởng hấp dẫn, giúp quyết định dễ dàng hơn. Truy cập trang web hàng đầu để tham gia slot game và tăng cơ hội chiến thắng bằng cách đặt cược sau khi nghiên cứu! Chọn trò cá cược trực tuyến phổ biến, đăng ký thành viên và bắt đầu trải nghiệm ngay hôm nay. Sàn cá cược
前回に引き続き、井上が書かせていただきます。 GREE Studio 2010 5日目の講義内容はデータマイニングエンジニア、moritaさんによる「データマイニング」。業務のログ解析において用いられるデータマイニングの内容です。前回はレポート形式でしたが、今回はもう少しエンジニアリングブログに近い形で書こうと思って頑張りました。宜しくお願いします。今回のブログの内容は、 データマイニングの基礎知識 大規模データへの挑戦 になります。後で定義しますが、ここでの「データマイニング」とはデータを取得し、集計する作業も含めてこの言葉を指すことにしています。また、解析者とはデータマイニングを行う人のことを指します。(GREEではデータマイニングエンジニアと呼ばれています。)moritaさんの講義で学んだことを自分なりに膨らましてみました。色々誤りがあると思いますが、そういった部分は(優しく)指摘し
[This article was first published on Revolutions, and kindly contributed to R-bloggers]. (You can report issue about the content on this page here) Want to share your content on R-bloggers? click here if you have a blog, or here if you don't. At the Bay Area R User Group meeting this week, Antonio Piccolboni gave an overview of the design goals and implementation of the RHadoop Project packages th
Hadoopのサンプルコードと言えばwordcountぐらいしか見かけないということで,転置インデックスのサンプルを作ってみました. 転置インデックス作成をMapReduceのモデルで表すと以下になります.google論文に習った擬似コードで表します. Map: 単語ごとに文書名を出力しています. 単語の分割をfor each wordとしていますが,日本語の場合単語の分割が問題ですが,今回は単純なN-gramで実装しました. map(String key, String value): //key: 文章名 //value: 文章の内容 for each word w in value: EmitIntermediate(w, key); Reduce: 重複を取り除くだけです.valuesでソートするとなお良いかもしれません reduce(String key, Iterato
Twitterについては先日の記事でフロントエンドのBlenderを紹介しましたが、バックエンドやデータ解析のシステムにも興味があります。ちょうどData-Intensive Text Processing with MapReduceで有名な@lintool先生の新しい論文が公開されていたので読んでみました。Full-Text Indexing for Optimizing Selection Operations in Large-Scale Data Analytics(pdf)ACMのMapReduce'11というワークショップで発表された内容のようです。この論文を読んで初めて知ったのですが、Lin先生はサバティカル休暇(大学教授が長期の休みを取れる制度)でTwitterに来ており、データ解析チームで働いているそうです。この論文もTwitterエンジニアの@squarecogさんと
2. 自己紹介 • [自分] ▶ いのうえ たかひろ( twitter: doryokujin ) ▶ 慶應大学院2年、数学科 25歳 ▶ MCMC、#P問題、近似ゕルゴリズム ▶ マラソンも好き(2時間30分位で走れてた) • [会社] ▶ 芸者東京エンターテンメント GTE ▶ ゕルバト3ヶ月目、ログ解析部隊(1人) ▶ おしごと非常に楽しいです 3. 最近の活動 • [MongoDB] ▶ MongoDB の日本語ドキュメント訳(Admin Zone) ▶ 進捗が遅くてすいません、勉強します、がんばります ▶ 勉強会とか、ユーザー会発足とか、もっと Mongo な活動 がしたい! ▶ ご意見・協力してくれる人、いつでも声をかけて下さい • [ブログ] ▶ 始めました ▶ 勉強会報告、MongoDB、GraphDBを中心に… 4. 発表の目的 • ソーシャルゕプリの裏側(ログ解析)
Department of StatisticsThe Department of Statistics is consistently recognized as one of the top statistics programs in the country. We work to advance the frontiers of statistical sciences and data science both in theory and application. New directions in statistics are often interdisciplinary and encompass bioinformatics and genomics, computational finance, data science, differential privacy, a
統計解析・データマイニングに特化した言語である R言語。 Hadoop Streaming を使った R言語でのMapReduce実装を以下に紹介。 Hadoop Streaming で標準入出力を用いデータの受け渡しを行い、files オプションで R の mapper, reducer を配布し実行。 例えば、WordCountはR言語のMapReduce実装で以下のように書ける。 mapper.r #!/usr/bin/Rscript con = file(description="stdin",open="r") while (length(line <- readLines(con, n = 1, warn = FALSE)) > 0) { line <- unlist(strsplit(line, "\t")) for(word in line){ cat(sprintf("%
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く