TRELLIS.2: state-of-the-art large 3D generative model (4B)

2025/12/17 7:09

TRELLIS.2: state-of-the-art large 3D generative model (4B)

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

**概要
TRELLIS.2は、4 Bパラメータを備えた最先端のフィールドフリー・ボクセルモデルで、通常の画像を数秒で高解像度かつ完全にテクスチャリングされた3‑Dアセットへと変換します。O‑Voxelデータ構造と疎な畳み込みを使用し、512³から1536³までのボクセルメッシュを生成し、Base Color、Roughness、Metallic、Opacityなどの完全な物理ベースレンダリング(PBR)属性を備えます。変換パイプライン全体はCPU上で10秒未満、CUDA上では100ミリ秒以下で実行され、NVIDIA H100 GPUでの推論は解像度に応じて3〜60秒です。モデルは完全ロスレスで、任意のトポロジー(オープンサーフェス、非多面体幾何学、内部構造を含む)をサポートし、O‑Voxel、FlexGEMM、CuMesh、およびフラッシュアテンションバックエンドなどの軽量ライブラリに依存します。MIT ライセンスで公開されており、Linux、CUDA 12.4搭載の24 GB以上のNVIDIA GPU、Conda、Python 3.8+ が必要です。事前学習済み重み(TRELLIS.2‑4B)は Hugging Face で入手可能です。計画されているリリースには研究論文、推論コード、事前学習チェックポイント、Hugging Face Spaces 上のデモ、2025年12月までに実装予定の形状条件付きテクスチャ生成、および年末までに完成する完全なトレーニングコードが含まれます。この技術は、ゲーム開発・設計・AR/VR・シミュレーションワークフローへ統合可能なフォトリアリスティック3‑Dコンテンツ生成の高速パイプラインを提供します。

本文

ネイティブでコンパクトな構造化潜在表現による3D生成


TRELLIS.2

4 Bパラメータを持つ最先端の大規模3D生成モデル。高忠実度の画像→3D生成を目的としています。

  • O‑Voxel と呼ばれる新しい「フィールドフリー」疎ボクセル構造を活用し、複雑なトポロジー、鋭い特徴、完全なPBRマテリアルを持つ任意の3Dアセットを再構築・生成します。

✨ 主な機能

  1. 高品質・高解像度・効率性

    • ベンチマーク版DiTを用いて、高解像度で完全にテクスチャ化されたアセットを卓越した忠実度で生成。
    • 16×の空間ダウンサンプリングを行うSparse 3D VAEで、アセットをコンパクトな潜在空間へエンコードします。
    解像度総時間*分解 (形状 + マテリアル)
    512³約 3 s2 s + 1 s
    1024³約 17 s10 s + 7 s
    1536³約 60 s35 s + 25 s

    NVIDIA H100 GPUでテスト済み。

  2. 任意トポロジー対応

    • O‑Voxelはイソサーフェスフィールドの限界を突破し、損失のない変換なしに複雑構造を堅牢に扱います:
      • 開放表面(例:衣類、葉)
      • 非流形ジオメトリ
      • 内部閉じた構造
  3. 豊富なテクスチャモデリング

    • Base Color, Roughness, Metallic, Opacity など任意の表面属性をモデル化。フォトリアルレンダリングと透明度サポートが可能です。
  4. ミニマリスト処理

    • 即時、レンダリング不要、最適化不要の変換:
      • < 10 s (単一CPU):テクスチャ付きメッシュ → O‑Voxel
      • < 100 ms (CUDA):O‑Voxel → テクスチャ付きメッシュ

🗺️ ロードマップ

マイルストーン目標日付
論文公開
画像→3D推論コード公開
事前学習チェックポイント (4B) 公開
Hugging Face Spaces デモ
形状条件付きテクスチャ生成推論コード公開12/24/2025 前
学習コード公開12/31/2025 前

🛠️ インストール

必要条件

  • OS:Linux(テスト済み)
  • ハードウェア:NVIDIA GPU、≥ 24 GB メモリ(A100/H100 が検証済み)
  • ソフトウェア
    • CUDA Toolkit 12.4+(推奨)
    • Conda(依存関係管理用)
    • Python 3.8+

手順

# リポジトリをクローン
git clone -b main https://github.com/microsoft/TRELLIS.2.git --recursive
cd TRELLIS.2

# 新しい Conda 環境を作成し、依存関係をインストール
./setup.sh --new-env --basic --flash-attn --cumesh --o-voxel --flexgemm --nvdiffrast --nvdiffrec

備考

  • --new-env
    trellis2
    という名前の新規 Conda 環境を作成します。既存環境を使用する場合は削除してください。
  • デフォルトでは PyTorch 2.6.0 と CUDA 12.4 が利用されます。複数バージョンがある場合は
    CUDA_HOME
    を変更してください。
  • flash‑attn をサポートしない GPU(例:V100)の場合は xformers を手動でインストールし、
    ATTN_BACKEND=xformers
    に設定します。

📦 事前学習済み重み

事前学習済みモデル TRELLIS.2‑4B は Hugging Face で公開されています。

モデルパラメータ数解像度リンク
TRELLIS.2‑4B4 B512³ – 1536³Hugging Face

🚀 利用方法

1. 画像 → 3D生成(最小例)

import os, cv2, imageio, torch
from PIL import Image
from trellis2.pipelines import Trellis2ImageTo3DPipeline
from trellis2.renderers import EnvMap
from trellis2.utils import render_utils
import o_voxel

os.environ['OPENCV_IO_ENABLE_OPENEXR'] = '1'
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

# 1. 環境マップ
envmap = EnvMap(torch.tensor(
    cv2.cvtColor(cv2.imread('assets/hdri/forest.exr', cv2.IMREAD_UNCHANGED),
                 cv2.COLOR_BGR2RGB),
    dtype=torch.float32, device='cuda'))

# 2. パイプラインをロード
pipeline = Trellis2ImageTo3DPipeline.from_pretrained("microsoft/TRELLIS.2-4B")
pipeline.cuda()

# 3. 推論実行
image = Image.open("assets/example_image/T.png")
mesh = pipeline.run(image)[0]
mesh.simplify(16777216)   # nvdiffrast の上限

# 4. 動画レンダリング
video = render_utils.make_pbr_vis_frames(
    render_utils.render_video(mesh, envmap=envmap))
imageio.mimsave("sample.mp4", video, fps=15)

# 5. GLB にエクスポート
glb = o_voxel.postprocess.to_glb(
    vertices        = mesh.vertices,
    faces           = mesh.faces,
    attr_volume     = mesh.attrs,
    coords          = mesh.coords,
    attr_layout     = mesh.layout,
    voxel_size      = mesh.voxel_size,
    aabb            = [[-0.5, -0.5, -0.5], [0.5, 0.5, 0.5]],
    decimation_target=1_000_000,
    texture_size    = 4096,
    remesh          = True,
    remesh_band     = 1,
    remesh_project  = 0,
    verbose         = True
)
glb.export("sample.glb", extension_webp=True)

出力結果:

  • sample.mp4
    :生成アセットの動画。
  • sample.glb
    :PBR対応GLB(デフォルトは不透明)。3Dソフトで透明度を有効にしてください。

2. Web デモ

app.py
を実行して簡易ウェブデモを起動します。ターミナルに表示される URL にアクセスしてください。


🧩 関連パッケージ

パッケージ説明
O‑Voxelテクスチャ付きメッシュと O‑Voxel 表現の相互変換を行うコアライブラリ。
FlexGEMMTriton ベースの高速疎畳み込みでボクセル処理を加速。
CuMeshCUDA で最適化された後処理、再メッシュ、減衰、UV 展開ユーティリティ。

⚖️ ライセンス

モデルとコードは MIT License。
依存ライブラリには別途ライセンスが存在します。

  • nvdiffrast
    – 自前のライセンス。
  • nvdiffrec
    – 自前のライセンス。

📚 参考文献

@article{xiang2025trellis2,
  title={Native and Compact Structured Latents for 3D Generation},
  author={Xiang, Jianfeng and Chen, Xiaoxue and Xu, Sicheng and Wang, Ruicheng and Lv, Zelong and Deng, Yu and Zhu, Hongyuan and Dong, Yue and Zhao, Hao and Yuan, Nicholas Jing and Yang, Jiaolong},
  journal={Tech report},
  year={2025}
}

同じ日のほかのニュース

一覧に戻る →

2025/12/19 4:08

We pwned X, Vercel, Cursor, and Discord through a supply-chain attack

## Japanese Translation: Discordの新しいドキュメントプラットフォーム、Mintlifyにおいて、`/_mintlify/_static/[subdomain]/[…route]` エンドポイントを介して配信される任意の静的ファイルに悪意あるJavaScriptを注入できるクロスサイトスクリプティング(XSS)脆弱性が判明しました。16歳の高校生研究者は、Discord のドメインを指すSVG内にコードを埋め込み、そのリンクを開いた際にスクリプトが実行されることで、このサプライチェーン脆弱性を検証し、Mintlify の全顧客に影響する可能性があることを示しました。この欠陥は「xyzeva」という友人によって独立して確認され、両者は協力してテストと開示を行いました。報告後、Discord はドキュメントの公開を2時間停止し、以前のプラットフォームに戻し、すべての Mintlify ルートを削除(インシデントリンク: https://discordstatus.com/incidents/by04x5gnnng3)し、Mintlify は Slack を通じて問題を修正しました。研究者たちは合計で約11,000ドルの報奨金(Discordから4,000ドル、残りは Mintlify から)を受け取りました。この事例は、Twitter (X)、Vercel、Cursor、Discord 自体など多くのハイプロファイルユーザーに脅威を与える可能性がある単一のサードパーティコンポーネントのリスクを浮き彫りにし、外部サービスへのより厳格な検証と広範なセキュリティ監査の必要性を強調しています。

2025/12/17 6:04

Texas is suing all of the big TV makers for spying on what you watch

## Japanese Translation: > **概要:** > テキサス州司法長官ケン・パクストンは火曜日にソニー、サムスン、LG、ヒセン、TCL を対象に訴訟を提起し、同社のテレビが自動コンテンツ認識(ACR)を使用して視聴者の視聴内容を秘密裏に記録していると主張した。ACR はテレビ番組、ストリーミングサービス、YouTube、セキュリティカメラ、Apple AirPlay/Google Cast、および HDMI 接続デバイスなど、多岐にわたるソースから視聴覚データを取得し、訴訟ではメーカーがユーザーに対して隠れたまたは曖昧な開示で ACR の起動を促すと主張されている。サムスンとヒセンは 500 ミリ秒ごとにスクリーンショットを取得し、パクストンはデータがユーザーの知識なしに各社へ送信され、ターゲティング広告のために販売されると述べている。訴訟はテキサス州詐欺取引慣行法(Deceptive Trade Practices Act)を引用し、民事罰金およびテキサス州居住者からの ACR データ収集・共有・販売の停止を求めている。パクストンはまた TCL とヒセンの中国との関係に懸念を示し、同社のテレビを「中国支援監視デバイス」と呼んでいる。訴訟は Vizio が 2017 年に FTC およびニュージャージー州と合意した 220 万ドルの和解金を参照しており、類似の主張があったことを示している。サムスン、ソニー、LG、ヒセン、および TCL はまだコメント要請に応じていない。パクストンは「テレビを所有することは、ビッグテックや外国対立勢力に個人情報を渡すことを意味しない」と述べ、プライバシー保護への重点を強調した。

2025/12/19 3:55

How China built its ‘Manhattan Project’ to rival the West in AI chips

## Japanese Translation: **改善された要約** 深圳の研究所が、極紫外線(EUV)リソグラフィを使用して高度な半導体チップを製造できるプロトタイプを完成させました。EUVリソグラフィは、人間の髪の数千倍薄い回路をシリコンウェーハに刻むプロセスです。この機械は工場全床面積のほぼすべてを占める規模で、2025年初頭に完成し、現在テスト中です。元ASMLエンジニアがオランダ企業のEUV装置を逆解析して構築したもので、西側企業が長らく独占してきた技術です。プロトタイプが意図通りに機能すれば、中国はより細密な回路を持つチップを製造できるようになり、AIシステムやスマートフォン、高度兵器の性能向上につながります。この進展は、西側の独占的半導体製造能力から重要な技術が移転する可能性があり、世界のサプライチェーンと競争構造を変えることになるでしょう。