You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
はじめに 本稿では、はてなブックマークの10周年記念の第1弾として開発した「トピックページ」の作り方について解説します。トピックページとは、インターネット上で話題となったトピックを閲覧できるページです。 トピックページは、トピックに関連する記事の集合とトピックを表すタイトルから構成されます。 トピックページ生成の流れは以下の通りです。 トピック生成 トピック表すキーワード集合を獲得し、そのキーワードに関連する記事を収集する。 トピックタイトル生成 トピックに関連する記事の情報を利用してトピックを表すタイトルを生成する。 本稿では、Elasticsearchなどの検索技術を活用したトピック生成方法、および、CaboChaなどの自然言語処理技術を活用したトピックタイトル生成方法について説明します。 対象読者 Elasticsearchを利用している/したい方 検索技術、自然言語処理技術に関心の
この記事の目的 ずいぶん昔、このトピック分析を用いたサービスの開発を行なっていました。 最近は全く関係のないことばかりやっていたので、最新のライブラリの使い方を学び直す際のアウトプットをすることが一つの目的。 もう一つは実際にトピック分析をサービスに導入するという観点で記事を書くことです。 なのでこの記事は簡単にトピック分析の手順についての解説と、要所要所で実際の導入において留意せねばならない点を解説できればと思います。 対象者 テキストマイニング初心者 トピック分析をサービスに導入することを検討する人 トピック分析をはじめる 手順の概要 トピック分析を始める前にいくつかの事前準備が必要となります。 環境設定 文章準備 文章分割 辞書データ作成 コーパス作成 LDAトピックモデル作成 LDAトピックを用いて文章のトピックを分析 基本的にはその他機械学習の手順と同じく、学習データを作成してモ
学歴 博士(情報科学),2014年6月 北海道大学大学院情報科学研究科メディアネットワーク専攻 (短縮修了) 修士(情報科学),2012年3月 北海道大学大学院情報科学研究科メディアネットワーク専攻 学士(工学),2010年3月 北海道大学工学部情報エレクトロニクス学科メディアネットワークコース 北海道札幌南高等学校卒業,2006年3月 職歴 同志社大学理工学部インテリジェント情報工学科 准教授, 2021年4月〜現在 同志社大学理工学部インテリジェント情報工学科 助教, 2018年4月〜2021年3月 知的機構研究室 数理統計学(2018年度〜,春学期) 応用数理統計学(2019年度〜,秋学期) 機械学習(2020年度〜,春学期) JavaプログラミングII(2018年度〜,秋学期) 情報工学概論I(2018年度〜,春学期) 情報工学概論II(2018年度〜,秋学期) 情報工学実験II(
✔ Train large-scale semantic NLP models ✔ Represent text as semantic vectors ✔ Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t
The goal of lda2vec is to make volumes of text useful to humans (not machines!) while still keeping the model simple to modify. It learns the powerful word representations in word2vec while jointly constructing human-interpretable LDA document representations. We fed our hybrid lda2vec algorithm (docs, code and paper ) every Hacker News comment through 2015. The results reveal what topics and tren
NTTコミュニケーション科学基礎研究所 上席特別研究員 mail: tomoharu.iwata.gy at hco.ntt.co.jp 略歴 2001年 慶應義塾大学環境情報学部卒業 2003年 東京大学大学院総合文化研究科修士課程修了 2003年 日本電信電話株式会社入社 2008年 京都大学大学院情報学研究科博士課程修了 博士(情報学) 2012-2013年 ケンブリッジ大学客員研究員 表彰 ICWSM, Outstanding User Modeling Paper Award, 2023 電気通信普及財団 テレコム学際研究賞 奨励賞,2022 Workshop on Multilingual Representation Learning, Best Paper Award, Nov 2021 DICOMO2021シンポジウム, 優秀論文賞, 2021 自然言語処理研究会, 優秀
✔ Train large-scale semantic NLP models ✔ Represent text as semantic vectors ✔ Find semantically related documents from gensim import corpora, models, similarities, downloader # Stream a training corpus directly from S3. corpus = corpora.MmCorpus("s3://path/to/corpus") # Train Latent Semantic Indexing with 200D vectors. lsi = models.LsiModel(corpus, num_topics=200) # Convert another corpus t
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く