一张图片,生成高保真 3D 模型。
4B 参数,支持 PBR 材质、任意拓扑,开源可商用。
微软研究院开源的 Image-to-3D 生成模型,一张照片即可生成带 PBR 材质的生产级 3D 资产
上传 1~4 张产品照片(正面必须,左/右/背面可选),AI 自动生成完整的 3D 模型。支持任意物体:产品、角色、建筑、家具、食物等。
生成的模型自带基础色、金属度、粗糙度、透明度四种 PBR 属性,可直接在任何 3D 引擎中使用,支持环境光照下的真实感重光照。
不同于传统方法只能处理封闭表面,TRELLIS.2 可以处理开放表面、非流形几何、内部封闭结构等复杂拓扑,保留锐利边缘和精细细节。
基于 O-Voxel 稀疏体素表示和 Flow Matching Transformer,512³ 分辨率仅需 3 秒,1024³ 仅需 17 秒(H100 GPU)。
三阶段流水线:从图片到可用的 3D 资产
1~4 个视角的产品照片
生成 O-Voxel 稀疏体素
重建几何细节与拓扑
PBR 纹理 + 颜色映射
GLB / OBJ / FBX / STL
在 NVIDIA H100 GPU 上的基准测试
* O-Voxel 到 Mesh 的转换额外耗时 <100ms(CUDA)或 <10s(CPU)
生成的每个 3D 模型都包含完整的物理材质信息,支持真实感渲染与重光照
生成的 3D 资产可导出为多种业界标准格式,直接用于游戏引擎、3D 软件、电商平台
Web 3D 首选格式,内嵌 PBR 纹理,可直接用于网页 3D 查看器、AR 预览、电商平台商品展示。
传统 3D 工作流格式,兼容 Blender、Maya、3ds Max、Cinema 4D 等所有主流 3D 软件。
3D 打印专用格式,生成的模型可直接送去打印实体原型。
从电商到游戏,覆盖多种 3D 内容需求
上传产品照片,生成可 360° 旋转的 3D 模型,嵌入商品详情页。告别传统多角度拍摄,一张图搞定全部角度。
生成带真实材质的 3D 产品模型,放入任意虚拟场景中,自由调整光照和角度,快速产出品牌视觉素材。
从概念图或参考照片快速生成游戏道具、场景物件。PBR 材质可直接导入 Unity / Unreal Engine 使用。
产品设计初期,用照片快速生成 3D 模型并导出 STL,直接送去 3D 打印验证外观和尺寸。
生成的 GLB 模型可直接用于 Web AR 体验,让消费者在购买前「把产品放在家里看看」。
Shape-conditioned Texture Generation 功能:给已有的 3D 网格 + 参考图,重新生成纹理贴图。
本地部署所需的最低配置
| 组件 | 要求 | 说明 |
|---|---|---|
| 操作系统 | Linux | 不支持 macOS / Windows(CUDA 依赖) |
| GPU | NVIDIA ≥ 24GB VRAM | 官方验证 A100 / H100,RTX 4090 (24GB) 理论可用 |
| CUDA | 12.4 | 需配合 PyTorch 2.6.0 |
| Python | 3.8+ | 推荐用 Conda 管理环境 |
| 内存 | ≥ 32GB RAM | 处理高分辨率时需要充足内存 |
| 磁盘 | ≥ 30GB | 模型权重 + 依赖库 |
根据使用频率和预算选择最合适的方案
自有 NVIDIA GPU 机器,一次安装长期使用。适合高频批量生成。
一次性投入,无后续费用RunPod / Vast.ai / Lambda Labs 租 A100 或 H100,用完即停。适合偶尔使用或测试阶段。
A100: ~$1.5/h | H100: ~$3/h社区提供的 Docker 镜像,免去环境配置烦恼。需要宿主机有 NVIDIA GPU + nvidia-docker。
GPU 到位后,按以下步骤部署
核心创新点
全新的「无场」稀疏体素结构,使用 Flexible Dual Grid 同时编码几何和外观,绕开了传统 SDF / Flexicubes 的拓扑限制。
稀疏 3D VAE 实现 16 倍空间下采样。1024³ 分辨率仅需约 9,600 个 latent token,大幅降低计算量。
基于 Vanilla Diffusion Transformer 的生成器,4B 参数规模,在保持高质量的同时实现极快的推理速度。