このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。
X: @shiropen2
【更新履歴:2024年5月24日 午後1時50分更新 同時刻時点で論文は取り下げられ、GitHubのリポジトリ非公開となったことを確認しました。
カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文「Sakuga-42M Dataset: Scaling Up Cartoon Research」は、AIモデルのトレーニング用に作成したアニメ動画データセットを提案した研究報告である。
Sakuga-42Mは、GitHubにおいてリポジトリが公開されており、学術研究の目的でのみ使用可能。また、データセット内の画像やビデオの著作権は、それぞれのクリエイターに帰属する。
近年のCLIP、Stable Video Diffusion(SVD)、Soraなどの大規模モデルは実写の理解や生成で優れた性能を示しているが、手描きアニメーションに対しては同様の効果が得られていない。その理由として、大規模なアニメーションデータセットがこれまで存在しなかったことが挙げられる。
そこで、この研究ではSakuga-42Mという大規模アニメーションデータセットを提案。Sakuga-42Mは、さまざまなスタイルや年代などをカバーする4200万枚のキーフレームで構成しており、ビデオとテキストの記述ペア、アニメタグ、コンテンツ分類などのアノテーションを付与している。このデータセットは自動化されたパイプラインを使用して作成され、データ収集、ビデオ分割、キーフレーム検出、キャプション生成などの複数のステップを経ている。
Sakuga-42Mの構成は多岐にわたる。日本やアメリカ、中国、EUからの主に手描き2Dアニメーションで構成され、1950年代から2020年代までの幅広いタイムラインをカバーしている。
4200万のキーフレームを含む100万のアニメーションクリップから成り、大部分のビデオは480Pの解像度で構成。また、99.5%以上のクリップが一般的に安全であると評価されており、時間、場所、メディア、構図、キャラクターなどでアニメーションビデオを分類している。
実験では、Sakuga-42Mを用いてVideo CLIP、Video Mamba、SVDなどの最新の基盤モデルをファインチューニング(微調整)し、アニメーションの理解と生成のタスクで評価を行った。実験の結果、アニメーションの理解と生成の両タスクで著しい性能向上が見られた。また、実写ビデオとアニメーションの間のドメインギャップについても検証し、手描きアニメーションが実写ビデオとは異なるデータ分布を示すことを明らかにした。
さらに、Sakuga-42Mが幅広いアニメーション研究を支援できることを議論している。アニメーション生成、アニメーション理解、ビデオ検索システム、自動色付け、自動中割り、自動編集など、関連分野の将来の探求にも活用できる可能性がある。
Source and Image Credits: Pan, Zhenglin, Yu Zhu, and Yuxuan Mu. “Sakuga-42M Dataset: Scaling Up Cartoon Research.” arXiv preprint arXiv:2405.07425(2024).
Copyright © ITmedia, Inc. All Rights Reserved.