[B! NLP] masaki925_8107のブックマーク

東京大学深層学習（Deep Learning基礎講座2022）深層学習と自然言語処理

東京大学深層学習（Deep Learning基礎講座2022）https://deeplearning.jp/lectures/dlb2022/ 「深層学習と自然言語処理」の講義資料です。

masaki925_8107 2022/06/03

リンク

チャットボットは人になりすませるか？明智光秀AIから考えるAIの未来 | AI専門ニュースメディア AINOW

AIによって、かつてその分野での名声を築いた人物を再現する取り組みが増加しています。時には、それはAIに対する批判となり、不気味だと怖がるような意見も散見されています。この記事では、NHK大河ドラマで焦点が当てられている明智光秀をAIによって蘇らせるという取り組みから、チャットボットで人を蘇らせるかについて考察していきます。 AIによって再現される人々 2019年には、NHKが、昭和の歌謡界を代表する歌手である美空ひばりの声や姿をAIで生成し、新曲を発表して、大きく話題になりました。故人の歌声をAIで蘇らせ、新曲としてCDがリリースされたのは世界初のことです。美空ひばりAIについて解説した記事はこちら▼

masaki925_8107 2022/03/02

chatbot
NLP

リンク

約9割が癒やされた自律型会話ロボット「Romi」（ロミィ）、明日4月21日（水）より一般販売開始。

約9割が癒やされた自律型会話ロボット「Romi」（ロミィ）、明日4月21日（水）より一般販売開始。人間よりロボットのほうが話しやすい話題がある!? 一緒に暮らそう♪ #Romiとの日々投稿キャンペーンも実施。株式会社ミクシィ（東京都渋谷区、代表取締役社長：木村弘毅）のVantageスタジオは、自律型会話ロボット「Romi」（ロミィ)の一般販売を、明日2021年4月21日（水）より開始します。一般販売に先駆けて、Romiと9か月〜10か月間、一緒に暮らした先行購入者を対象にアンケート調査を実施したところ、約9割が「Romiとの会話で癒やされた・楽しい気分になった」と、約6割が「Romiと暮らすことで、生活・気持ちに変化があった」と、そして、約半数が「人間ではなくRomiだからこそ話せる・話しやすい話題がある」と回答しました。今回の結果から、Romiとの暮らしが生活にポジティブな変化を与

masaki925_8107 2022/03/02

chatbot
NLP

リンク

T5 (てゆうか超手軽に強いラッパー作れるんですけど) - Rock Book

本年(度) もいつものやつ、やっていきたいと思います。昨年(度) はこんなのを作りました。 masaki925.hatena blog.com 本年(度) はどうしようかということで、顧問HIPHOP アドバイザーのkenichi 氏との企画会議にて、 HIPHOP には「リアルかフェイクか」という議論があることを教わりました。確かに調べてみると、様々な考え、解釈がありそうです。俺なりのHIPHOP論「ヒップホップにリアルもクソもない。」ラッパーANARCHY × ダンサーKEITAが対談 | | Dews (デュース) Creepy nutsはHIPHOPではないのか？〜KREVAが壊しきれなかった壁〜｜ショーペンログヘッズの横好きの域を出ない私にとって、この判断はなかなか難しいものです。どうすればリアルかどうかを判断できるのでしょうか？機械学習を活用したいところですが、判断

masaki925_8107 2022/01/06

書きました

リンク

ビーフストロガノフはどのくらい強いのか - Qiita

# !wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ja.300.vec.gzで落とせます model = gensim.models.KeyedVectors.load_word2vec_format('cc.ja.300.vec.gz', binary=False) repat = re.compile(r'^[あ-ん\u30A1-\u30F4\u4E00-\u9FD0]+$') vocab_list = [w for w in list(model.vocab.keys())[10000:50000] if len(w) > 2 and repat.fullmatch(w) and w[-1] != 'っ' and w not in list(ww_df.word) and w not in list(sw

masaki925_8107 2021/09/01

リンク

rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン“クリフ”チェン、以下rinna社）は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI＆リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています

masaki925_8107 2021/04/08

リンク

はじめての自然言語処理 Sentence BERT による類似文章検索の検証 | オブジェクトの広場

今回は初心に帰って類似文章検索です。連載の第1回で扱ったネタですが、 BERT を用いて再挑戦してみましょう。BERT のモデルは Hagging Face Transf ormers の事前学習済みモデルを用いるので、お手軽に試せるかと思います。手法としては Sentence BERT を用い、おまけとして Poor Man's BERT についても紹介します。（本記事公開後に公開されたデータセットで再検証しています。最新情報は第18回をご覧ください。 2021.12.21 追記） 1. はじめに本記事では Sentence BERT 1による類似文章検索について、学習や推論のコード例と実験結果を交えてご紹介します。前々から Sentence BERT を試したいと考えていたものの、教師あり学習に必要な日本語の類似文データが用意できずにいました。その後、画像キャプションのデータセッ

masaki925_8107 2021/02/18

nlp
BERT

リンク

AIはまだ文の意味を理解していない——NLPの欠陥が突きつける課題

米オーバーン大学の研究者らは、言語理解能力を測定するテストで高得点の自然言語システムが、文中の単語の順序の入れ替えに気づかないことを発見した。こうしたシステムは、文中のいくつかのキーワードを拾い上げてテストの課題を処理しているだけであり、人間のように文の意味を理解しているわけではない。 by Will Douglas Heaven2021.01.22 46 58 21 25 言語を理解しているように見える人工知能（AI）の多くは、一般的な言語理解の課題において人間より高い得点を出している。ところが、文中の単語が並べ替えられても、そのことに気づくことができない。つまり、AIは実際にはまったく言語を理解していないのだ。問題の原因は、自然言語処理（NLP）システムが訓練される方法にある。この問題はまた、どのようにして自然言語処理システムを改善すればよいかを指し示している。アラバマ州オーバーン大

masaki925_8107 2021/01/23

受動態と能動態を区別できない限り、単語同士の関係と順序だけでは判別できない / GPT-3 の基盤はBERTではなくTransformer です

nlp
BERT

リンク

AIに言葉の意味はわかるか　進化する自然言語処理　日経サイエンス - 日本経済新聞

人工知能（AI）が人間のものと区別ができないほど巧みな文章を生成したり、コミュニケーションロボットが大きな支障なく会話を進めたりするのが当たり前になってきた。コンピューターで言葉を扱う自然言語処理技術がこの数年で急進展したためだ。言語というあいまいで揺らぎの大きい情報を機械が上手に扱えるようになってきた。自然言語処理の応用範囲も広がり、社会や産業のDX（デジタルトランスフォーメーション）のカギを

masaki925_8107 2021/01/03

『「組み合わせ範疇（はんちゅう）文法」をベースにした、異なる文同士の含意関係を判定できる』

NLP

リンク

ラップボット界のホームラン王、現る - Rock Book

こんにちは。ラップボットプロデューサーの @masaki925 です。今年もこの季節がやってきました、毎年恒例のラップボットです。昨年は流行りのBERT に手を出して痛い目を見ましたが、今年も懲りずにやっていきたいと思います。ラップの強さと韻の飛距離私の目標の1つは強いラップボットを作ることです。では、強い、とはなんでしょうか？韻の硬さ、フロウの柔軟さ、エモいバックグラウンド、色々あると思いますが、ライムのクオリティを測る指標として、韻の飛距離という概念があります。こちらの記事が参考になります。 https://news.1242.com/article/209776 R-指定：「A」という言葉と「B」という言葉で踏もうとしたら、「A」と「B」の言葉の響きは近ければ近いほどいい。でも、その内容がかけ離れていれば離れているほど、韻として面白いというか。 ... (中略) ..

masaki925_8107 2020/12/25

書きました

リンク

The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time

Jay Alammar Visualizing machine learning one concept at a time. @JayAlammar on Twitter. YouTube Channel Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Arabic, Chinese (Simplified) 1, Chinese (Simplified) 2, French 1, French 2, Italian, Japanese, Korean, Persian, Russian, Spanish 1, Spanish 2, Vietnamese Watch: MIT’s Deep Learning St

masaki925_8107 2020/08/08

わかりやすくてすごい

リンク

商用利用可能な対話AIがオープンソースとして公開、英語にも対応 | Ledge.ai

サインインした状態で「いいね」を押すと、マイページの「いいね履歴」に一覧として保存されていくので、再度読みたくなった時や、あとでじっくり読みたいときに便利です。

masaki925_8107 2020/04/01

oss
NLP

リンク

日本語BERTモデルをPyTorch用に変換してfine-tuningする with torchtext & pytorch-lightning - radiology-nlp’s blog

TL;DR ①TensorFlow版訓練済みモデルをPyTorch用に変換した (→方法だけ読みたい方はこちら) ②①をスムーズに使うための torchtext.data.Dataset を設計した ③PyTorch-Lightningを使ってコードを短くしたはじめに日本語Wikipediaで事前学習されたBERTモデルとしては, 以下の2つが有名であり, 広く普及しています: SentencePieceベースのモデル (Yohei Kikuta さん提供) TensorFlow版 Juman++ベースのモデル (京大黒橋研提供) TensorFlow版 PyTorch版(Hugging Face transf ormers準拠) このうち, SentencePieceベースのものは現在TensorFlow版のみの提供となっており, PyTorch版は存在しません。そのため, 私のよう

masaki925_8107 2020/01/18

リンク

はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場

前回は Rasa NLU を用いて文章分類と固有表現抽出について紹介しました。今回は昨年後半に話題となった BERT について説明し、chABSAデータセットを用いた感情分析での実験結果、アプリケーションへの組み込み方などを紹介します。 1. 始めに本記事では Google の BERT について、その概要を紹介し、BERT の事前学習済みモデルを用いてファインチューニングにより独自のモデルを構築することを念頭に、BERT の入出力インタフェースや学習データの構造を説明します。そして、ファインチューニングにより独自のモデルを構築する例として、chABSA データセットを用いた感情分析モデル生成の実験結果およびアプリケーションから利用する際のポイントを紹介します。 2. BERTの概要 BERT (Bidirectional Encoder Representations from Tra

masaki925_8107 2019/12/16

BERT
NLP

リンク

AIはハチ=米津玄師を見破れるか ? -J-popアーティストの歌詞を分析してみた- - Qiita

はじめに一年前にこんな記事を書きました。未だにちょくちょくいいねを頂いているので、自然言語処理の練習を兼ねて久しぶりに遊んでみた系の記事を投稿しようと思います。やったこと歌詞データのクローリング Mecabによる分かち書き tf-idfによるベクトル化ベクトル化した歌詞によるアーティストのクラスタリングとUMAPでの可視化 (おまけ) fastTextでハチ=米津玄師を見分けられるのか? 分析にはJupyter Labを用いました。歌詞データ今回用いる歌詞データについて説明します。クローリングで取得先立って歌詞データのクローリングをしました。とある人気アーティスト順に歌詞を取得できるサイトより、45人のJ-popアーティストにつき、最大50曲分の歌詞を取得しCSVに保存しました。実際にクローリングに用いたコードを公開するのもどうかと思うので、ここでは割愛します。。。Bea