MIT License · Microsoft Research

TRELLIS.2

一张图片,生成高保真 3D 模型。
4B 参数,支持 PBR 材质、任意拓扑,开源可商用。

4B 模型参数
1536³ 最高分辨率
~3s 512³ 生成速度
MIT 开源协议

源码已拉取,等待 GPU 到位后部署。当前状态:待部署

这是什么

微软研究院开源的 Image-to-3D 生成模型,一张照片即可生成带 PBR 材质的生产级 3D 资产

📷

图片转 3D 模型

上传 1~4 张产品照片(正面必须,左/右/背面可选),AI 自动生成完整的 3D 模型。支持任意物体:产品、角色、建筑、家具、食物等。

🎨

PBR 物理材质

生成的模型自带基础色、金属度、粗糙度、透明度四种 PBR 属性,可直接在任何 3D 引擎中使用,支持环境光照下的真实感重光照。

🧩

任意拓扑结构

不同于传统方法只能处理封闭表面,TRELLIS.2 可以处理开放表面、非流形几何、内部封闭结构等复杂拓扑,保留锐利边缘和精细细节。

极速生成

基于 O-Voxel 稀疏体素表示和 Flow Matching Transformer,512³ 分辨率仅需 3 秒,1024³ 仅需 17 秒(H100 GPU)。

生成流程

三阶段流水线:从图片到可用的 3D 资产

🖼️

输入图片

1~4 个视角的产品照片

🧊

稀疏结构

生成 O-Voxel 稀疏体素

📐

形状生成

重建几何细节与拓扑

材质贴图

PBR 纹理 + 颜色映射

📦

导出

GLB / OBJ / FBX / STL

生成速度

在 NVIDIA H100 GPU 上的基准测试

512³
~3s
1024³
~17s (10s 形状 + 7s 材质)
1536³
~60s (35s 形状 + 25s 材质)

* O-Voxel 到 Mesh 的转换额外耗时 <100ms(CUDA)或 <10s(CPU)

PBR 材质属性

生成的每个 3D 模型都包含完整的物理材质信息,支持真实感渲染与重光照

Base Color
基础色
Metallic
金属度
Roughness
粗糙度
Opacity
透明度

导出格式

生成的 3D 资产可导出为多种业界标准格式,直接用于游戏引擎、3D 软件、电商平台

GLB / glTF OBJ FBX STL MP4 预览视频

GLB / glTF

Web 3D 首选格式,内嵌 PBR 纹理,可直接用于网页 3D 查看器、AR 预览、电商平台商品展示。

OBJ / FBX

传统 3D 工作流格式,兼容 Blender、Maya、3ds Max、Cinema 4D 等所有主流 3D 软件。

STL

3D 打印专用格式,生成的模型可直接送去打印实体原型。

应用场景

从电商到游戏,覆盖多种 3D 内容需求

01

电商产品 3D 展示

上传产品照片,生成可 360° 旋转的 3D 模型,嵌入商品详情页。告别传统多角度拍摄,一张图搞定全部角度。

02

品牌视觉 & 广告

生成带真实材质的 3D 产品模型,放入任意虚拟场景中,自由调整光照和角度,快速产出品牌视觉素材。

03

游戏 & 虚拟场景

从概念图或参考照片快速生成游戏道具、场景物件。PBR 材质可直接导入 Unity / Unreal Engine 使用。

04

3D 打印原型

产品设计初期,用照片快速生成 3D 模型并导出 STL,直接送去 3D 打印验证外观和尺寸。

05

AR / VR 内容

生成的 GLB 模型可直接用于 Web AR 体验,让消费者在购买前「把产品放在家里看看」。

06

已有模型重新贴图

Shape-conditioned Texture Generation 功能:给已有的 3D 网格 + 参考图,重新生成纹理贴图。

硬件要求

本地部署所需的最低配置

组件要求说明
操作系统 Linux 不支持 macOS / Windows(CUDA 依赖)
GPU NVIDIA ≥ 24GB VRAM 官方验证 A100 / H100,RTX 4090 (24GB) 理论可用
CUDA 12.4 需配合 PyTorch 2.6.0
Python 3.8+ 推荐用 Conda 管理环境
内存 ≥ 32GB RAM 处理高分辨率时需要充足内存
磁盘 ≥ 30GB 模型权重 + 依赖库

部署方案

根据使用频率和预算选择最合适的方案

💻

方案 A:本地 GPU 服务器

自有 NVIDIA GPU 机器,一次安装长期使用。适合高频批量生成。

一次性投入,无后续费用
☁️

方案 B:云 GPU 按需租用

RunPod / Vast.ai / Lambda Labs 租 A100 或 H100,用完即停。适合偶尔使用或测试阶段。

A100: ~$1.5/h | H100: ~$3/h
🐳

方案 C:Docker 一键部署

社区提供的 Docker 镜像,免去环境配置烦恼。需要宿主机有 NVIDIA GPU + nvidia-docker。

docker run --gpus all -p 3000:3000 camenduru/tostui-trellis2

安装命令

GPU 到位后,按以下步骤部署

# 1. 进入源码目录
cd source/

# 2. 创建环境并安装全部依赖
. ./setup.sh --new-env --basic --flash-attn --nvdiffrast --nvdiffrec --cumesh --o-voxel --flexgemm

# 3. 启动 Web UI
python app.py

# 浏览器打开 http://localhost:7860 即可使用

技术架构

核心创新点

O-Voxel 表示

全新的「无场」稀疏体素结构,使用 Flexible Dual Grid 同时编码几何和外观,绕开了传统 SDF / Flexicubes 的拓扑限制。

SC-VAE 压缩

稀疏 3D VAE 实现 16 倍空间下采样。1024³ 分辨率仅需约 9,600 个 latent token,大幅降低计算量。

Flow Matching DiT

基于 Vanilla Diffusion Transformer 的生成器,4B 参数规模,在保持高质量的同时实现极快的推理速度。