ソフトウェア

テキストや画像から多用途かつ高品質な3Dアセットを自動生成できる3D生成AIモデル「TRELLIS」


テキスト入力から多用途かつ高品質な3Dアセットを自動生成できる新しい3D生成AIモデル「TRELLIS」を、清華大学・中国科学技術大学・Microsoft Researchの共同研究チームが発表しました。このTRELLISには、「SLAT(Structured LATents)」と呼ばれる新しい手法が用いられています。

TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation
https://trellis3d.github.io/

[2412.01506] Structured 3D Latents for Scalable and Versatile 3D Generation
https://arxiv.org/abs/2412.01506

SLATの革新的な点は「3Dオブジェクトの表面のみに注目することで効率的なデータ処理を実現し、かつ1つの表現から複数の形式の3Dアセットを生成できること」です。これによって、高品質な3Dアセットの生成がより簡単になります。


SLATは、基本構造として643=約26万ボクセルのまばらな3Dグリッドを使用します。ただし、この中で実際に使用するのは3Dオブジェクトの表面に位置する約2万個のボクセルだけです。

各ボクセルからは、ボクセルが3D空間のどこにあるかを示す「位置情報」と、その場所の形状・色・質感などを表す「特徴情報」の2つが得られます。SLATは、3Dオブジェクトを様々な角度から観察して得られる画像からDINOv2という画像認識モデルを使って特徴を抽出し、各ボクセルの位置に対応する特徴を集めて平均化して取得します。そして、得られたデータから異なる種類の3Dモデルを生成し、さらに用途に応じて最適な形式を選択できます。また、特定の部分だけを変更する編集も容易です。

このSLATによる表現を使用して3Dアセットを生成するために開発されたモデルがTRELLISです。TRELLISはBasic(3.42億パラメータ)、Large(11億パラメータ)、X-Large(20億パラメータ)の3つのモデルサイズが開発され、64台のA100 GPUを使用して40万ステップ・バッチサイズ256で訓練されています。研究チームによれば、モデルサイズが大きくなるほど生成品質は向上するとのこと。

テキストはCLIPを通して特徴量に変換され、独自に開発されたRectified Flow Transformerによって3Dグリッドを生成します。研究チームは、このアプローチは一般的な拡散モデルと比べて効率的な学習が可能で、テキストや画像の条件付け生成に適していると述べています。


実際にGPT-4で生成したテキストから生成した3Dモデルが以下の通り。


TRELLISで作成したTRELLISのロゴはこんな感じ。


また、Hugging Faceで公開されているデモでは、画像から3Dアセットを生成することが可能です。

TRELLIS - a Hugging Face Space by JeffreyXiang
https://huggingface.co/spaces/JeffreyXiang/TRELLIS

デモのページ下部にある「Examples」には、入力する画像の例が並んでいます。今回は家の画像を選んでみました。


すると、家の画像がTRELLISのデモに入力されるので、「Generate」をクリック。


すると、右側に3Dアセットの動画が生成されました。さらに左下の「Extract GLB」をクリック。


動画の下に、3Dアセットが表示されました。生成された3DアセットはGLBファイルで保存することが可能です。

この記事のタイトルとURLをコピーする

・関連記事
「画像からゲームのように視点操作可能な3Dシーンを生成するAI」をWorld Labsが発表、実際に3Dシーンを探索できるデモページも公開中 - GIGAZINE

3Dモデルを0.5秒で作れるAI「Stable Fast 3D」が登場したので使ってみた - GIGAZINE

3Dモデル用のメッシュを人間のアーティストが作成したように構築できる「MeshAnything」 - GIGAZINE

Metaがテキストから3Dモデルを1分で生成するツール「3D Gen」を発表 - GIGAZINE

Stability AIが画像から3Dモデルを生成できるAI「TripoSR」を発表、簡単に使えるデモも公開されてたので試してみた - GIGAZINE

in レビュー,   ソフトウェア,   動画, Posted by log1i_yk

You can read the machine translated English article here.