タグ

深層学習に関するR2Mのブックマーク (31)

  • 注意機構・自由エネルギー原理・ニューラルネットの概念の獲得

    モダン・ホップフィールドネットと正準ニューラルネットには,どちらも生物学的妥当性をもつ再帰型ニューラルネットとして提案された,という共通点がある.この投稿では,モダン・ホップフィールドネットと正準ニューラルネットにまたがる共通点を掘り下げていくことによって,注意機構,自由エネルギー原理,そしてニューラルネットにおける概念の獲得という一見異なる容貌をした3つの概念が,隠れた水路を通じてお互いにつながり合うことを明らかにしたい. 1. ホップフィールドネット 1−1. モダン・ホップフィールドネットと注意機構 モダン・ホップフィールドネットは,離散的な状態しか持たない古典的なホップフィールドネットを拡張したモデルで,連続的な状態とそれに対応した状態の更新式を備えている[1].この新しいホップフィールドネットには,①多くのパターンを連想空間に保存する指数関数的な記憶容量を持ち,②1回の更新でパタ

    注意機構・自由エネルギー原理・ニューラルネットの概念の獲得
  • トランスフォーマーは RNN である - ジョイジョイジョイ

    拙著『深層ニューラルネットワークの高速化』が重版して第 2 刷となりました。皆さまありがとうございます! 深層ニューラルネットワークの高速化 (ML Systems) 作者:佐藤 竜馬技術評論社Amazon もはや恒例、重版に感謝して書き下ろし専門記事をお届けします。 稿では、SNS などでもたびたび話題になるトランスフォーマーは RNN であるという話をします。稿では単に形式的に包含性を指摘するだけでなく、トランスフォーマーと RNN はどの程度似ているのかや、そこから導かれる応用上の意味についても詳しくご紹介します。 稿は『深層ニューラルネットワークの高速化』の第 6.3 節と第 7.2 節に基づいています。 過去回 拡散モデルと最適輸送(最適輸送第 5 刷) GNN の最新動向(グラフニューラルネットワーク第 3 刷) 深層学習で部分空間を扱うときは射影行列を考えるとよい(グラ

    トランスフォーマーは RNN である - ジョイジョイジョイ
  • これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z

    Transformerという手法は必ずしも万能でも効率的でもない。 むしろTransformerは非効率的だというのが一般的な見解だ。しかし、Transformerには実績があり、実績という壁の前には多少(かどうかわからないが)の非効率は無視される。 他にもHyenaなどもっと効率的と思われる手法が提案されているが、そうした提案の一つがRWKVである。 そもそもなぜTransformerが必要になったかというと、それまで言語モデルに用いられていたRNN(Recurrent Neural Network)は並列処理が難しかったからだ。並列処理が難しい理由は簡単で、言葉というのは過去から未来へ向かって一方向に進むからである。 言語モデルは全て「この文章に続く単語は何か」を予測し、それを連鎖的に繰り返していくが、RNNは単語をひとつひとつ選んでいかないと次の単語を原理的に予測できない。 これを並

    これは衝撃!1.5Bで超高性能LLM!RWKV-5-World-v2|shi3z
  • ChatGPT公開1年 はや7兆円市場、生成AI競争激しく - 日本経済新聞

    米主要テクノロジー企業で生成AI人工知能)を巡る競争が格化してきた。火付け役となった米新興オープンAIは6日、従来の16倍の長さの文書に対応する機能や価格を引き下げる戦略を打ち出した。同社が「Chat(チャット)GPT」を公開してから1年で生成AIの関連市場は7兆円近くに拡大した。各社は次世代の覇権をかけて技術力や安全性を競う。オープンAI 企業価値13兆円「オープンAIは今や世界で最も

    ChatGPT公開1年 はや7兆円市場、生成AI競争激しく - 日本経済新聞
    R2M
    R2M 2023/11/08
    アメリカの強さだよなぁ
  • LLMの「創発」は幻影か

    3つの要点 ✔️ 大規模言語モデルで観察される創発を検証 ✔️ LLMの創発は評価指標が見せる幻影である可能性を示唆 ✔️ LLM以外のモデルにおいて特定の評価指標を用いることで意図的に実際には発生していない創発を再現することに成功 Are Emergent Abilities of Large Language Models a Mirage? written by Rylan Schaeffer, Brando Miranda, Sanmi Koyejo (Submitted on 28 Apr 2023 (v1), last revised 22 May 2023 (this version, v2)) Comments: Published on arxiv. Subjects: Artificial Intelligence (cs.AI); Machine Learning (

    LLMの「創発」は幻影か
  • 論文紹介: LLaVA-1.5 (Improved Baselines with Visual Instruction Tuning)|Sakusakumura

    🚀 LLaVA-1.5 is out! Achieving SoTA on 11 benchmarks, with simple mods to original LLaVA! Utilizes merely 1.2M public data, trains in ~1 day on a single 8-A100 node, and surpasses methods that use billion-scale data. 🔗https://t.co/y0kG0WZBVa 🧵1/5 pic.twitter.com/kMz0LTk63R — Haotian Liu (@imhaotian) October 6, 2023 LLaVA-1.5は、今まで公開されているV&Lモデルの中で、初めて以下のスクリーンショットからそれぞれのキャラの順位を正しく答えることができました。 「ウマ娘

    論文紹介: LLaVA-1.5 (Improved Baselines with Visual Instruction Tuning)|Sakusakumura
  • 作って遊ぼう!LLMを搭載した君だけのV&Lモデル!

    はじめに TuringのBrain Research teamで頑張ってる井ノ上です。(Twitter: いのいち) Turingは完全自動運転の開発を目指しており、その実現のためには賢い頭が必要だと考えています。その方法の一つとして、近年の大規模言語モデル(LLM)に見られるような文脈理解力をうまく取り入れられないかと考えており、LLMとVisionの情報をかけ合わせたモデルに注目して研究を行っています。自動運転とVision and languageモデルについては、ぜひこちらの記事を読んでみてください。 今回の記事は2023年7月に開催されたABCI LLMハッカソンで取り組んだときに開発していたGIT-LLMというモデルの開発について解説する記事となっています。途中のコードの解説部分などは少し退屈に感じるかもしれませんので、その場合はぜひ結果のパートだけでも見てみてください。いろい

    作って遊ぼう!LLMを搭載した君だけのV&Lモデル!
  • 例示で精度を高める「Few-shot Learning」、思考の連鎖「Chain of Thought」… 新しいパラダイム「プロンプトエンジニアリング」に対するアイデア | ログミーBusiness

    ユーザーの立場ではAIネイティブな働き方が身近に迫っており、データサイエンティストやMLエンジニアにとってはGPTを活用した開発を意識する必要が出てくる中、マイクロソフトの取り組みやML開発のパラダイムシフトをご紹介する「ChatGPTによって描かれる未来とAI開発の変遷」。ここで日マイクロソフト株式会社の蒲生氏が登壇。続いて、ML開発において、“学習させたかのように振る舞わせる”ためのアイデアを紹介します。前回はこちらから。 これまでのML開発は「学習」部分の工夫が肝だった蒲生弘郷氏:残り20分になりましたが、ちょっとここからは重い、GPT開発についてです。「ML開発の今まで」。「GPTはすごいしAzureの説明はわかったよ」という話になるんですが、実際にどう作ればいいのか知っていかないとなかなか厳しいところもあるので、ここの説明をしたいと思います。 ここから先はけっこう専門的な内容も

    例示で精度を高める「Few-shot Learning」、思考の連鎖「Chain of Thought」… 新しいパラダイム「プロンプトエンジニアリング」に対するアイデア | ログミーBusiness
  • 日本語に特化した大規模言語モデル(生成AI)を試作|2023年|NICT-情報通信研究機構

    国立研究開発法人情報通信研究機構(NICT(エヌアイシーティー)、理事長: 徳田 英幸)は、ユニバーサルコミュニケーション研究所データ駆動知能システム研究センターにおいて、独自に収集した350 GBの日語Webテキストのみを用いて400億パラメータの生成系の大規模言語モデルを開発しました。今回の開発を通し、事前学習用テキストの整形、フィルタリング、大規模計算基盤を用いた事前学習等、生成系の大規模言語モデル開発における多くの知見を得ました。現在は、更に大規模な1,790億パラメータの生成系大規模言語モデル(OpenAI社のGPT-3と同等規模)の学習を実施中で、また、学習用テキストの大規模化にも取り組んでいます。今後、共同研究等を通して民間企業、国研、大学等と協力して、日語の大規模言語モデルの研究開発や利活用に取り組む予定です。 NICTでは、これまでWebページを収集し、インターネット

    日本語に特化した大規模言語モデル(生成AI)を試作|2023年|NICT-情報通信研究機構
  • AIで動画&音楽生成はここまで来た!|shi3z

    AI動画生成が結構いいところまできた。 Runway-MLのGen2も素晴らしいのだが、オープンソースのZeroscope-v2-xlがすごい 音楽musicgenで大体作れる これまで音楽生成には否定的だったが、ここまで作れるなら、DJ機材用のループ素材として十分使える気がする。というか30秒も作れるのでループでは勿体無いというか。「久石譲っぽく」とか「ジョン・ウィリアムズ風」とかでそれっぽいものが出てくる。

    AIで動画&音楽生成はここまで来た!|shi3z
  • 大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

    はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。 分散並列学習がどのよう

    大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1
  • 初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね

    流行のLLMを勉強したくて沢山を読みました。 この後もしばらくLLM(GPT)関係の出版が続きそうなので、現状のでまとめてみました。 参考: nowokay.hatenablog.com まとめ。 Transformerの仕組みを知りたい人で、画像のDeep Learningなら分かるって人はVision Transformer入門 言語モデルをデータセットを作る所からやってみたい人には、作ってわかる! 自然言語処理AI とにかくすぐに動かしたい人には、機械学習エンジニアのためのTransformers ビジネス的に何ができるのかを知りたい人はBERT入門 Vision Transformer入門 Vison Transformerになっていますが、Transformerの説明がとても詳しくお勧めです。実際に写経してパーツパーツで動かせるのはこのだけ。Transformer一点突破な

    初心者が言語モデルを勉強するための本(2023年6月版) - ぱたへね
  • 「視覴」の謎

    ChatGPTが「視覴」という新語を発明したらしいことをフガクラさんのツイート(2023-06-08 08:51:02 JST)で知る。 すでに「視覴」は、いくつかの最近書かれたWebページで使われていた。ChatGPTで生成されたページらしい。ざっと検索して見つけたページを列挙しておく。いずれも最近作られたか修正されたページである(1件だけ2020年のページがあるが、最近修正されたものかどうか不明)。 映像・音声編集におけるノーマライズの重要性!(2023-05-11)「視覴的・聴覚的な一貫性」「視覴的な効果を最大化」「視覴的な混乱を避け」(2回)なお、このページは現在消えて視覴とは?AIChatGPT)が出力した新しい言葉なのか?(2023-06-08)にリダイレクトされ、「弊社では、2023年3月より用語集作成に際しAIライティングの試験運用を行っておりますが、この度、「視覚」の誤

    R2M
    R2M 2023/06/12
    日本語はトークンの単位が英語と比べて文字単位?なのでトークン数に注意しなければならないという記事を見たな。しかし、こうつながるのか、面白い
  • ChatGPTに共通テスト(旧センター試験)を解かせてみた|usutaku@AI情報解説

    最近流行りのChatGPT。 「色々な作業を自動化した」 「国家試験に合格した」 ニュースで目にする機会も最近は多いと思います。 では、ChatGPTは現段階でどのくらい賢いのでしょうか? 「海外の司法試験で人間を超えた」などの情報をよく耳にしますが、実感が湧きませんよね。 今回は日人に馴染みの深い大学入学共通テスト(旧センター試験)を題材に、その実力を検証してみました。 実験方法今回は、令和4年度の国語・英語(リーディング)・公民(倫理 / 政治・経済)の3科目について実験を行いました。 ※ 数学・理科等の科目については図表を読み取る問題が多く、正確に試験できないため今回は除外しました。 ポイント①: テキストになおす大学入試センターで公表されている試験問題がPDFのため、ChatGPTに読めるテキスト形式にする必要があります。 今回はGoogle Docsの機能を活用して文字起こし

    ChatGPTに共通テスト(旧センター試験)を解かせてみた|usutaku@AI情報解説
  • LLMを理解する一歩として「ゼロから作るDeep Learning」をやった - $shibayu36->blog;

    LLM、GPT界隈を追いかけていて、GPTの仕組みと限界についての考察(2.1) - conceptualizationという記事を見かけた。これを見たとき、「どういうことか全然理解できない」という気持ちになった。また、その他LLMの解説記事を理解できないことが多く、自分の機械学習知識不足が明確になった。 理解できなかったことは悔しいし、LLMやChatGPTをうまく使いこなすには最低限どのような原理で動いているか理解したいと感じた。そこで一歩目として「ゼロから作るDeep Learning」を完走した。 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 作者:斎藤 康毅オライリージャパンAmazon 知識なしからはじめたので時間はかかったが、次のように進めていった。 自分もコードを写経しながら読む レポジトリは https://github.co

    LLMを理解する一歩として「ゼロから作るDeep Learning」をやった - $shibayu36->blog;
  • Anthropicのテキスト生成AI「Claude」がOpenAIのGPT-4の約3万2000トークンの3倍近い10万トークンに対応して長文の入力も可能に

    ChatGPTなどの対話型AIは、高精度なテキストを生成できる一方、入力が可能な言語の最小単位である「トークン」には限度があります。OpenAIのGPT-4は約3万2000トークンまでの入力が可能ですが、AI研究スタートアップのAnthropicがテキスト生成AI「Claude」のトークンを9000から10万へ拡張したことを発表しました。 Anthropic | Introducing 100K Context Windows https://www.anthropic.com/index/100k-context-windows Anthropic’s latest model can take ‘The Great Gatsby’ as input | TechCrunch https://techcrunch.com/2023/05/11/anthropics-latest-mode

    Anthropicのテキスト生成AI「Claude」がOpenAIのGPT-4の約3万2000トークンの3倍近い10万トークンに対応して長文の入力も可能に
  • 大学の授業でチャットGPTをどう扱うかについての覚え書き

    1 はじめに 前回このブログを使ったのは3年前のちょうどこの時期のようです。コロナ禍で少し遅れてオンラインで授業が始まって、授業準備をしているときにコロナ関連の情報をまとめておこうと思って書いた記事でした。で、その後3年がたち、コロナ禍は一応区切りを迎えているわけですが、新学期の授業を始めるにあたっていろいろ考えなければならないという意味ではそのときと同じような状況が(もちろんいろんな意味で位置づけは違うのですが)再び…。 ということで、チャットGPTの話です。すでによく知られているようにこのアプリが登場したのは昨年11月、時期的には2022年度後期にすでに広まっていた可能性はあったし、実際アメリカの大学では一足早くレポートでの利用なんかが問題になったりしましたが、実質的にはこの4月から始まる2023年度が、日の大学にとってチャットGPT元年ということになるのだと思います。 具体的な話に

  • 農水省が4月中にも中央省庁初のChatGPT利用、先陣切って実際の業務で使うワケ

    農林水産省が米OpenAI(オープンAI)の対話型AIChatGPT」を一部業務で利用する方針を固めたことが、日経クロステックの取材で明らかになった。まず同省が運用する電子申請システムの利用マニュアル改定などに活用する計画だ。早ければ2023年4月中にも始める。中央省庁でChatGPTを業務で利用するのは初とみられる。農水省ではChatGPTの有効活用に向け、ほかにもユースケース作りや適切な利用方法の検討を進める。 Azure OpenAI Serviceを利用する見込み 農水省が最初にChatGPT利用を進めるのは、「農林水産省共通申請サービス(eMAFF)」の利用者向けのマニュアル改定作業である。eMAFFは、同省のほぼ全ての行政手続き約5000件をオンラインで受け付けたり処理したりする。利用マニュアルの改定などに際し、文章作成や適切に修正するといった作業にChatGPTを使う。 政

    農水省が4月中にも中央省庁初のChatGPT利用、先陣切って実際の業務で使うワケ
    R2M
    R2M 2023/04/14
    こっちもAzureか
  • 上原亜衣、AI化 画像生成AIに元セクシー女優を学習させたデータを無料配布

    元セクシー女優の上原亜衣さんが、AIを活用したプロジェクトAI uehara project」を3月19日に発表しました。 「AI uehara project」は、上原亜衣さんの名前(=亜衣)とAIを掛け、「上原亜衣、AI化」を掲げて始動したプロジェクト。 上原亜衣さんの写真を画像生成AI「Stable Diffusion」に追加学習させるLoRAファイルが公開され、「上原亜衣AI画像コンテスト」と題したTwitter上でのコンテスト企画が行われています。 誰でも上原亜衣の顔を生成できるように 今回無料配布されているのは、NFTAi Uehara GM Collection」(外部リンク)として販売されている写真群を「Stable Diffusion」に追加学習させるLoRAファイル(外部リンク)。 このLoRaファイルを手元の「Stable Diffusion」に導入することで、誰

    上原亜衣、AI化 画像生成AIに元セクシー女優を学習させたデータを無料配布
  • GPTの仕組みと限界についての考察(2.1) - conceptualization

    全3回のシリーズパート2の記事では、GPTの能力と可能性をAttention/Transformerの仕組みをふまえて考察します。 というつもりでしたが、凄く長くなってしまったのでパート2は以下の3回に分けようと思います。 (2.1)各技術の定性的な説明(記事) (2.2)Transformerのアルゴリズム詳細 (2.3)GPTの能力と可能性について 2.1 各技術の定性的な説明 自然言語の構造を考えてみる まず我々が使う言語についてちょっと振り返るところから話を始めましょう。 文や文章は、おおもとのデータである文字から始まって、単語、文節、句、節、文、文章、さらにその上の意味、という風に階層的な構造を持っていると我々は概念的に認識してますよね。 構文の階層 そして、各階層や階層間には、文法や語法といった言葉のルールがあります。 深層学習はその名の通り、層を深くしたニューラルネットワ

    GPTの仕組みと限界についての考察(2.1) - conceptualization