TRELLIS.2 - 微软开源 Image-to-3D 生成模型

这是什么

微软研究院开源的 Image-to-3D 生成模型，一张照片即可生成带 PBR 材质的生产级 3D 资产

📷

图片转 3D 模型

上传 1~4 张产品照片（正面必须，左/右/背面可选），AI 自动生成完整的 3D 模型。支持任意物体：产品、角色、建筑、家具、食物等。

🎨

PBR 物理材质

生成的模型自带基础色、金属度、粗糙度、透明度四种 PBR 属性，可直接在任何 3D 引擎中使用，支持环境光照下的真实感重光照。

🧩

任意拓扑结构

不同于传统方法只能处理封闭表面，TRELLIS.2 可以处理开放表面、非流形几何、内部封闭结构等复杂拓扑，保留锐利边缘和精细细节。

⚡

极速生成

基于 O-Voxel 稀疏体素表示和 Flow Matching Transformer，512³ 分辨率仅需 3 秒，1024³ 仅需 17 秒（H100 GPU）。

生成流程

三阶段流水线：从图片到可用的 3D 资产

🖼️

输入图片

1~4 个视角的产品照片

→

🧊

稀疏结构

生成 O-Voxel 稀疏体素

→

📐

形状生成

重建几何细节与拓扑

→

✨

材质贴图

PBR 纹理 + 颜色映射

→

📦

导出

GLB / OBJ / FBX / STL

生成速度

在 NVIDIA H100 GPU 上的基准测试

512³

~3s

1024³

~17s (10s 形状 + 7s 材质)

1536³

~60s (35s 形状 + 25s 材质)

* O-Voxel 到 Mesh 的转换额外耗时 <100ms（CUDA）或 <10s（CPU）

PBR 材质属性

生成的每个 3D 模型都包含完整的物理材质信息，支持真实感渲染与重光照

Base Color
基础色

Metallic
金属度

Roughness
粗糙度

Opacity
透明度

导出格式

生成的 3D 资产可导出为多种业界标准格式，直接用于游戏引擎、3D 软件、电商平台

GLB / glTF OBJ FBX STL MP4 预览视频

GLB / glTF

Web 3D 首选格式，内嵌 PBR 纹理，可直接用于网页 3D 查看器、AR 预览、电商平台商品展示。

OBJ / FBX

传统 3D 工作流格式，兼容 Blender、Maya、3ds Max、Cinema 4D 等所有主流 3D 软件。

STL

3D 打印专用格式，生成的模型可直接送去打印实体原型。

应用场景

从电商到游戏，覆盖多种 3D 内容需求

01

电商产品 3D 展示

上传产品照片，生成可 360° 旋转的 3D 模型，嵌入商品详情页。告别传统多角度拍摄，一张图搞定全部角度。

02

品牌视觉 & 广告

生成带真实材质的 3D 产品模型，放入任意虚拟场景中，自由调整光照和角度，快速产出品牌视觉素材。

03

游戏 & 虚拟场景

从概念图或参考照片快速生成游戏道具、场景物件。PBR 材质可直接导入 Unity / Unreal Engine 使用。

04

3D 打印原型

产品设计初期，用照片快速生成 3D 模型并导出 STL，直接送去 3D 打印验证外观和尺寸。

05

AR / VR 内容

生成的 GLB 模型可直接用于 Web AR 体验，让消费者在购买前「把产品放在家里看看」。

06

已有模型重新贴图

Shape-conditioned Texture Generation 功能：给已有的 3D 网格 + 参考图，重新生成纹理贴图。

硬件要求

本地部署所需的最低配置

组件	要求	说明
操作系统	Linux	不支持 macOS / Windows（CUDA 依赖）
GPU	NVIDIA ≥ 24GB VRAM	官方验证 A100 / H100，RTX 4090 (24GB) 理论可用
CUDA	12.4	需配合 PyTorch 2.6.0
Python	3.8+	推荐用 Conda 管理环境
内存	≥ 32GB RAM	处理高分辨率时需要充足内存
磁盘	≥ 30GB	模型权重 + 依赖库

部署方案

根据使用频率和预算选择最合适的方案

💻

方案 A：本地 GPU 服务器

自有 NVIDIA GPU 机器，一次安装长期使用。适合高频批量生成。

一次性投入，无后续费用

☁️

方案 B：云 GPU 按需租用

RunPod / Vast.ai / Lambda Labs 租 A100 或 H100，用完即停。适合偶尔使用或测试阶段。

A100: ~$1.5/h | H100: ~$3/h

🐳

方案 C：Docker 一键部署

社区提供的 Docker 镜像，免去环境配置烦恼。需要宿主机有 NVIDIA GPU + nvidia-docker。

docker run --gpus all -p 3000:3000 camenduru/tostui-trellis2

安装命令

GPU 到位后，按以下步骤部署

        # 1. 进入源码目录

        cd source/

        # 2. 创建环境并安装全部依赖

        . ./setup.sh --new-env --basic --flash-attn --nvdiffrast --nvdiffrec --cumesh --o-voxel --flexgemm

        # 3. 启动 Web UI

        python app.py

        # 浏览器打开 http://localhost:7860 即可使用

技术架构

核心创新点

O-Voxel 表示

全新的「无场」稀疏体素结构，使用 Flexible Dual Grid 同时编码几何和外观，绕开了传统 SDF / Flexicubes 的拓扑限制。

SC-VAE 压缩

稀疏 3D VAE 实现 16 倍空间下采样。1024³ 分辨率仅需约 9,600 个 latent token，大幅降低计算量。

Flow Matching DiT

基于 Vanilla Diffusion Transformer 的生成器，4B 参数规模，在保持高质量的同时实现极快的推理速度。