🔷
2024年生成AIの進歩まとめ

2024/12/22に公開
こんにちは！逆瀬川 ( https://x.com/gyakuse ) です！

生成AI Advent Calendar 2024の記事を書くの忘れていたので、現時点での生成等AIの進歩をまとめてみました！今日はAIがいまなにできんの？ってこと聞かれたときにこれできるよ！って教えるためのメモとして活用してください！また、生成AIプロダクト Advent Calendar 2024というのもソロでやっています。このカレンダーではLLMの基礎理論からModelのFine-Tuning、プロダクト開発等をまとめています。ぜひこちらも見てください！

 未来を感じる技術の進歩動画生成では、Veo2 や Sora が登場しました。
https://x.com/gyakuse/status/1866216722539442227
インタラクティブな動画生成では、Genie2 (WASDと方向キーで操作可能な世界モデル)が非常に革新的な進歩を遂げています (振り返っても一貫性を保つ長期性が本当にすごい)。
物理シミュレーションではGenesisが登場しました。
創薬分野ではノーベル賞も受賞したタンパク質構造予測システムであるAlphaFoldの新しいバージョン: AlphaFold3が登場しました。従来のMSA+Evoformerモジュールからの構造予測ではなく、Pairformerから拡散モデルを使った構造予測をするようになっています
ロボティクス分野では自然言語での指示・対話・柔軟なアクションの設計・実行ができるロボットが増えています。まだ発展途中ですが、OpenAIも投資する1xでは家庭向けロボットNeoを開発しています。
https://www.youtube.com/watch?v=bUrLuUxv9gE

 普段の仕事に直結しそうな技術の進歩
 1. 仕事の効率向上1.1 マルチモーダルモデルの一般化
2024年はマルチモーダルモデルが一般化し、かつより賢くなり、返答速度が非常に速くなったことが大きな変化として最初に挙げられます。これによって、画像や音声をもとに質問応答を気軽に行うことができるようになりました。
主なモデル:
ChatGPT: 4o
Gemini: gemini-1.5-pro
Claude: Claude-3.5-Sonnet
どんなことができるようになったか:
Excelでわからないことがあったら、スクショして聞けば済むようになった
PDFをぶんなげて質問応答が気軽にできるようになった
使用例:
1.2 熟慮するモデルの登場
ChatGPTのo1をはじめとする熟慮をするモデルが登場したことによって、いままで短絡的な解答により誤りが発生していたケースを防ぐことができ、またいままでなら複数の会話の応答でやっと到達していた深い結論にゼロショットで到達できるようになりました。
o1は推論時間が長いため (30秒〜1分程度)、使い分けとしては、基礎モデルで解答困難な場合はo1に投げると良いでしょう。
主なモデル:
ChatGPT: o1, o1 Pro
Gemini: Gemini 2.0 Flash Thinking Experimental
どんなことができるようになったか:
複雑な問題に対してのより深い検討
使用例:
小説のアイデア比較:
4o: https://chatgpt.com/share/676733af-7bd0-800d-9aa3-9e2e10da7c05
o1: https://chatgpt.com/share/676733a4-3b24-800d-b2c2-f61303bb22c3

 2. プログラミングの効率化2.1 開発効率化アプリの浸透
CursorやGitHub Copilotを用いると、非常に効率的にプログラミングを行うことができます。現状、プロジェクトの規模が非常に大きくなるとCursorのようなものは恩恵が小さくなりますが、そのうちいい感じになるはず！とりあえずの人はGitHub Copilotがおすすめです (無料で神です)。
主なツール:
Cursor
GitHub Copilot
Vercel v0
2.2 プログラミング能力の高いモデルの登場
o1 の登場によって、プログラミング能力も向上しました。体感としてはミスの少ない実装ができるようになったと感じます。思考をするべき部分がより抽象的な部分になっていき、その抽象的な部分 (アイデア等) も担保してくれるようにいずれはなるでしょう。
主なモデル:
ChatGPT: o1, o1 Pro
使用例:
https://qiita.com/sakasegawa/items/ecaba2286bd292e22eaf

 3. 調査の効率化検索とLLM(あるいはマルチモーダルモデルともいう)を組み合わせると調査タスクが効率化し、従来リサーチ業務として行っていた活動について部分的または全体を置き換えることが可能となります。この分野はまだまだ発展途中ですが、特にNotebookLMは実務でも使えるレベルに達してきました。
主なツール:
Gemini DeepResearch
Google NotebookLM
使用例:
DeepResearchを使うとこちらのようなレポートがすぐ作成できます: レポート例
詳細はAppendix参照のこと

 2025年以降はどのような革新がありうるか来年すでに予定されている主要なもののひとつにGoogleのProject Astraのメガネ型デバイスがあります。
https://deepmind.google/technologies/project-astra/
主に期待される製品としては以下のようなものがあるでしょう:
AIベースのデバイス・AIアシスタント (スマートフォン、メガネ型デバイス)
汎用 / 特定領域向けのエージェント (みんなだいすきだけど, ちゃんと社会にフィットするものはめちゃくちゃ難しい. UIUXはもちろん、全部自動化できない場合は、ワークフローのデザインも大事)
また、o3の登場により、人間程度、あるいは超知能が実現され、大きな社会変革が期待されますが、以下の課題が残っています。
長いコンテキスト (テキスト形状だけでなく、動画等含めて) の理解、あるいはRAG的な手法の改善
推論コストの低減
ロボティクスとの連動

 開発者にとっての進歩2024年はエンジニアにとっても進歩のあった年でした。個人的にはgemma-2-2b-jpn-itの恩恵をめちゃくちゃ感じていますが、それ以外にもいくつかインパクトのあるAPI・ライブラリ・モデルが発表されています。

 1.公開されたAPI群公開されたAPIとしては主に以下のようなものがインパクトの大きいものとしてありました。
主なモデル:
OpenAI
gpt-4o: マルチモーダルAPI
o1: 熟慮推論API
Realtime API: 音声対話用API

Google
gemini-1.5-flash: 軽量のマルチモーダルAPI
gemini-1.5-flash-8b: 最軽量のマルチモーダルAPI
gemini-1.5-pro: マルチモーダルAPI
gemini-2.0-flash-experimental: 推論能力が向上した最新のマルチモーダルAPI
gemini-2.0-flash-exp: 命名が分かりづらいですが、マルチモーダルライブ用のAPIです
gemini-2.0-flash-thinking-exp: 熟慮推論API

Anthropic
Claude 3.5 Sonnet: マルチモーダルAPI

何ができるようになったか:
書き起こしが非常に安価に
gemini-1.5-flashを使うと書き起こしが非常に安価にできるようになりました。コンテキストに用語集を入れることによって、書き起こしのミスを減らすこともできます。なお、timestampを出力させることもできますが、ハルシネーションが起きやすいので(誤ったtimestampをつけがち)、WER低減の恩恵を受けつつtimestampベースの出力を得たい場合は別途Whisper等で書き起こしをしたあとにlevenshtein距離等で突合する必要があります。

OCRが容易に
これもgemini-1.5-flash等を使い、structured outputをさせれば、容易に構造的にデータを取り出すことができます (正確にはOCRというよりも画像文書理解タスクですが)
また、古典的なOCRと組み合わせることでより精度を上げることも可能です: 確信度を出してくれるOCRを作ってみる！

音声対話・映像対話が可能に
Realtime APIを使うと音声対話システムが容易に構築できます。
また、gemini-2.0-flash-expを使うと映像対話(画面共有・カメラ共有、なおこちら側のみであるため、AI側の映像は別途作らなければならない)ができます
ただし、APIコストが高く、リクエストできる回数も小さいため、古典的なASR+LLM+TTSが良い場面も多いです
参考: 自分のPCオンリーでキャラクターと音声対話がしたい！ローカルで動くspeech-to-speechサーバーを作る方法


 2.公開されたライブラリ群ライブラリは大量にあるため、以下は個人的によく使うものを挙げていきます。
LLMの推論高速化

vLLM
言語モデルの高速推論+推論サーバーライブラリです
2023年に公開されたものですが、最近は皆これを使うようになってきました。
基本的なアイデアとしてはKV Cachingの効率化とバッチ処理の高速化が中心となっています。
ほかにはTensorRT-LLMなどが有名です。


LLMのfine-tuning

LLaMA Factory
とりあえずこれを使えば容易です。他にはtrl, nemoフレームワーク, LLamaTuner, LLMBoxなどがあります (自分はよくtrlを使います)



 3.公開されたモデル群以下では注目しているモデル群をみていきます。個人的な興味に基づいているため、偏りがあります。また、基本的に事前学習済みモデルが提供されているものとなります。
生成モデル
テキスト
https://huggingface.co/CohereForAI/c4ai-command-r7b-12-2024
https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

音声
https://github.com/hkchengrex/MMAudio

3D (3Dモデル, シーン)
https://github.com/yanghb22-fdu/Hi3D-Official
https://github.com/facebookresearch/vfusion3d
https://github.com/pkunliu/Isotropic3D
https://github.com/thu-ml/CRM
https://github.com/VAST-AI-Research/TripoSR
https://github.com/heheyas/V3D
https://huggingface.co/stabilityai/sv3d
https://github.com/3DTopia/3DTopia-XL
https://github.com/3DTopia/LGM
https://github.com/SOTAMak1r/GVGEN
https://github.com/NIRVANALAN/GaussianAnything
https://github.com/wenqsun/DimensionX

動画
https://huggingface.co/THUDM/CogVideoX-5b
https://github.com/AILab-CVC/VideoCrafter

https://github.com/ali-vilab/VGen
InstructVideo
DreamVideo
TF-T2V
VideoLCM

https://github.com/Vchitect/Vlogger

https://github.com/HumanAIGC/AnimateAnyone (2024ではないが)


LLM
Embeddings
https://huggingface.co/google/Gemma-Embeddings-v1.0


MLM
speech-to-speech
https://huggingface.co/gpt-omni/mini-omni2


Audio
ASR
whisper-large-v3-turbo


Vision
深度推定
https://github.com/LiheYoung/Depth-Anything

物体検出
https://github.com/WongKinYiu/yolov9
https://github.com/THU-MIG/yolov10

https://github.com/ultralytics/ultralytics (yolov11)
https://github.com/AILab-CVC/YOLO-World
https://github.com/HZAI-ZJNU/Mamba-YOLO
https://github.com/IDEA-Research/Grounded-SAM-2

画像復元
https://github.com/csguoh/MambaIR

動画理解

時系列予測
サーベイ
https://github.com/ddz16/TSFpaper
https://arxiv.org/abs/2405.02358

https://huggingface.co/thuml/timer-base-84m

https://huggingface.co/amazon/chronos-bolt-base
Chronos-Boltモデルは、Chronosモデルよりも5%精度向上、最大250倍高速化、20倍メモリ効率化を実現した時系列予測モデル

https://huggingface.co/amazon/chronos-t5-large
https://huggingface.co/google/timesfm-1.0-200m
https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2
https://github.com/kwuking/TimeMixer
MoE
https://github.com/Time-MoE/Time-MoE
https://github.com/Keytoyze/VisionTS
https://github.com/IkeYang/ViTime
https://github.com/mims-harvard/UniTS
https://github.com/SalesforceAIResearch/uni2ts
https://github.com/thuml/Large-Time-Series-Model

データセット
https://huggingface.co/datasets/Maple728/Time-300B

推奨記事
https://note.com/hatti8/n/n734aca9d4afb


Mamba
https://github.com/state-spaces/mamba
https://github.com/csguoh/MambaIR
https://github.com/hustvl/Vim

https://github.com/MzeroMiko/VMamba
https://x.com/inoichan/status/1748190648275227108

https://github.com/OpenGVLab/VideoMamba
チュートリアル
https://speakerdeck.com/hf149/tiyutoriaru-mamba-vision-mamba-vim



 主な会社の発表
 OpenAInpakaさんのまとめを参考に時系列で見ていきましょう。
5/13 GPT-4o: マルチモーダルかつGPT-4より高速なモデル
9/12 o1-preview: 熟慮をすることで推論能力が格段に向上したモデル
9/25 Advanced Voice: 滑らかな音声対話をすることができる高度な音声モード、Realtime APIとしても提供され、誰でも高度な音声対話型のチャットボットが作れるように
12/5 ChatGPT Pro: 月200ドルでo1を無制限に、またo1 Proを使うことができるより高額な課金体系
12/9 Sora: 動画生成サービス。最大20秒まで (1080pの場合10秒まで) 作ることができる
この中では個人的にはo1-previewおよびo1 Proが非常にインパクトの強いものとしてありました。

 Googleこちらもnpakaさんのまとめを参考に時系列で見ていきましょう。
2/16 Gemini 1.5: GPT-4oのような非常に優秀なモデル
2/21 Gemmaシリーズ:
5/8 AlphaFold 3
5/14 Project Astra: スマートフォンとAIグラスに対応したAIアシスタント (開発中)
6/27 Gemma 1.5 Proの最大コンテキスト長が200万トークンに拡張
12/4 Genie2
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

12/11 Deep Research
12/13 NotebookLM Plus: Notebook LMの
12/14 Agentspace
12/16 Veo2, Imagen3
12/17 Gemini 2.0 Experimental Advanced

 その他10/23 Computer Use
https://www.anthropic.com/news/developing-computer-use


 Appendix
 Deep ResearchGemini 1.5 Proを用いて自動的にレポートを作成してくれる機能。
PerprexityやSearchGPTのような浅い探索ではなく、調査計画を元に非常に多くの記事を収集し、一つのレポートとしてまとめてくれます (Perprexityは計画部分はちゃんとしているが、収集規模が小さく、浅い探索になりがち)。

 処理の流れ:(1) 計画立案
(2) 検索
(3) レポート出力
出力されたものはGoogle Docファイルとして保存可能: サンプル

 課題ヒットした記事の内容 (特に上位にヒットしたもの) に引っ張られやすすぎる
一見、80点程度ありそうに見えるが、実務上はあまり使えない (実務の性質にもよるが、個人的にはレポート依頼プロンプトを調整したり、探索範囲を絞るような依頼でもかなり厳しい場合が多い → 特定のドメイン以下の特定分野に絞る等)
日本語だからそうというわけでもない (元は英語のみ対応だったので、英語中心で使ってみていた)
キュレーション戦略をプロンプトでしっかり定義してあげると良いかも (つまり、調査依頼者が対象領域に対して十分理解しているとうまく働く

ただ、これはそもそも工夫次第でなんとかなるので、改善は早いとみています。個人的に特定領域用のDeep Searchみたいなものを作ったことがあるが、それはうまく動きました。結局多言語かつ汎用的に作るのは難しいという話でもあります。

 NotebookLM (Plus)
Deep Researchが直接調査を行ってくれるものだとしたら、NotebookLMは調査をサポートしてくれるサービスといえます。任意のソース (URL, PDF, .txt, .mp3等の各種ファイル, Googleスライド, Google ドキュメント等) をもとにチャットや学習ガイド生成等を行ってくれます。まだ英語のみだが、ポッドキャスト生成も行ってくれます。主に学習や研究の補助といった意図が強い。類似サービスとしては、ChatGPTのやClaudeのProjectが挙げられます。
また、大量のソース (Plusでは最大300) を登録できるため、簡易RAGチャットシステムとしても使える。企業向けのチャットはほとんどこれで賄える気がします。