TRELLIS.2 — 3D 生成模型

微软开源 | 单张图片生成生产级 3D 资产 | 40 亿参数

Microsoft Research 4B 参数 需 24GB+ GPU MIT 开源

生成流程

🖼
输入图片
单张 RGB 照片
🧠
Flow Transformer
40亿参数推理
🧊
O-Voxel
稀疏体素生成
💎
3D 模型
GLB + PBR 材质

核心创新:O-Voxel

传统 3D 生成依赖 SDF(符号距离场)或 Flexicubes,只能处理封闭的流形网格。TRELLIS.2 发明了 O-Voxel(无场稀疏体素),突破性地支持:

  • 任意拓扑结构(开放曲面、非流形几何)
  • 锐利几何特征保留
  • 完整 PBR 材质(含透明度和金属度)
  • 1536³ 体素 → 仅 9.6K 隐空间 token(16× 压缩)

推理性能(H100 GPU)

分辨率耗时适用场景
512³~3 秒快速预览
1024³~17 秒标准生产
1536³~60 秒高精度
指标数值
模型参数40 亿
输出格式GLB(含 WebP 纹理)
纹理分辨率最高 4096 × 4096

vs 传统方法

维度传统方法TRELLIS.2
几何表示仅封闭网格任意拓扑
材质单一颜色完整 PBR
透明度不支持原生支持
生成方式迭代优化(分钟级)直接生成(秒级)
拓扑错误常见极少

硬件要求

项目最低要求
GPU24GB+ 显存(A100 / H100)
系统Linux(仅验证平台)
CUDA12.4+
Python3.8+

⚠ MacBook M2 Max 无法原生运行(无 CUDA),需要 GPU 云服务器或在线 Demo

已知局限

  • 生成网格可能有小孔洞,需后处理修补
  • 未经 RLHF 对齐,输出风格随训练数据分布变化
  • 仅在 Linux + NVIDIA GPU 上测试
  • 复杂场景(多物体)效果不如单物体

使用代码

# 安装 pip install trellis2 # 推理 import torch from trellis2.pipelines import Trellis2ImageTo3DPipeline from PIL import Image pipeline = Trellis2ImageTo3DPipeline.from_pretrained( "microsoft/TRELLIS.2-4B" ) pipeline.cuda() image = Image.open("photo.png") mesh = pipeline.run(image)[0] # 导出 GLB import o_voxel glb = o_voxel.postprocess.to_glb( vertices=mesh.vertices, faces=mesh.faces, attr_volume=mesh.attrs, voxel_size=mesh.voxel_size, texture_size=4096 ) glb.export("output.glb")

评价:真正的技术突破

O-Voxel 是 3D 生成领域的根本性创新,解决了困扰行业多年的拓扑限制问题。MIT 开源 + 完整论文 + 可复现代码,不是噱头。当前主要限制是硬件门槛(需 NVIDIA GPU),MacBook 暂时无法本地运行。