Video-Conditioned 4D World Model — 深度核查报告
不是骗局,但营销话术明显夸大。
真实水平:一个有实力的创业团队发布了早期开源原型,
但宣传文案按"已验证突破"级别在写。4D 模型无技术论文,零独立评测。
浙江大学 CAD&CG 国家重点实验室教授 · 前商汤首席科学家 · 20+ 年 3D 视觉研究 · ISMAR 最佳论文 · Google Scholar 高引用
前商汤研发总监 · 浙大博士 · 商用移动端 SLAM 方案开创者(早于 ARKit/ARCore)· 主导商汤 StarGen 基础模型
浙大 CAD&CG 实验室 前商汤 3D 视觉核心团队 18 人研发团队 2025 年成立
团队学术背景过硬,在 SLAM、3D 重建领域有真实且可验证的积累。
以视频为条件锚定"局部世界状态",生成可交互的 4D 场景:
1.3B 参数 Self-Forcing (NeurIPS 2025 Spotlight) Wan2.1 (阿里视频扩散) Depth-Anything-3 Florence-2 Apache-2.0
底层技术栈均为已发表、可验证的成熟方案。架构组合本身是合理的。
| 维度 | 评分 | 分数 |
|---|---|---|
| 团队学术背景 | 9/10 | |
| 技术方案合理性 | 7.5/10 | |
| 宣传与实际匹配度 | 3.5/10 | |
| 论文/同行评审 | 2/10 | |
| 独立第三方验证 | 0.5/10 | |
| 代码开源程度 | 8/10 |
| 项目 | 来源 | 方法 | 论文 | 速度 |
|---|---|---|---|---|
| InSpatio-World | InSpatio 创业公司 | 视频条件 + 扩散世界模型 | 无 | 10 FPS (4090) / 24 FPS (A100) |
| NeoVerse | CreateAI · CVPR 2026 | 前馈 4D Gaussian Splatting | CVPR 2026 | <30s 推理 |
| D4RT | Google DeepMind | 4D 重建 + 跟踪 | 有 | 1 分钟视频 ~5s (TPU) |
| DeepVerse | arxiv 2506.01103 | 4D 自回归视频世界模型 | arxiv | — |
| Kinema4D | arxiv 2603.16669 | 运动学 4D 世界建模 | arxiv | — |
InSpatio-World 的独特之处在于"视频→持久世界状态"的概念,但缺乏论文和对比数据,难以客观判断其相对优劣。
以下来自团队自己的 WorldFM 论文,InSpatio-World 基于同一架构:
不是骗局,但噱头成分很重。
真实水平:有实力的创业团队发布早期开源原型。
宣传水平:按"已验证突破"级别在写文案。
建议:可以关注这个方向,但别把项目主页的数字当论文结论看。
等到 技术论文发表 + 独立复现 之后再下判断不迟。
InSpatio-World 深度核查报告 · 2026-03-22 · 端口 4150