InSpatio-World

Video-Conditioned 4D World Model — 深度核查报告

InSpatio (2026.03.18)  |  1.3B 参数 · Apache-2.0 开源  |  Project Page  |  GitHub  |  WorldFM Paper   噱头成分较重

核查结论:团队靠谱,宣传跑在技术前面

不是骗局,但营销话术明显夸大。
真实水平:一个有实力的创业团队发布了早期开源原型
但宣传文案按"已验证突破"级别在写。4D 模型无技术论文,零独立评测。

团队背景 — 这部分是真的

章国锋 — 创始人 & CEO

浙江大学 CAD&CG 国家重点实验室教授 · 前商汤首席科学家 · 20+ 年 3D 视觉研究 · ISMAR 最佳论文 · Google Scholar 高引用

刘浩敏 — 联合创始人 & CTO

前商汤研发总监 · 浙大博士 · 商用移动端 SLAM 方案开创者(早于 ARKit/ARCore)· 主导商汤 StarGen 基础模型

浙大 CAD&CG 实验室 前商汤 3D 视觉核心团队 18 人研发团队 2025 年成立

团队学术背景过硬,在 SLAM、3D 重建领域有真实且可验证的积累。

技术架构

以视频为条件锚定"局部世界状态",生成可交互的 4D 场景:

输入视频
任意视频片段
Depth-Anything-3
深度估计
Florence-2
视频描述生成
Wan2.1 + Self-Forcing
4D 世界状态生成
4D 漫游
多视角 + 时间轴

1.3B 参数 Self-Forcing (NeurIPS 2025 Spotlight) Wan2.1 (阿里视频扩散) Depth-Anything-3 Florence-2 Apache-2.0

底层技术栈均为已发表、可验证的成熟方案。架构组合本身是合理的。

宣传声明 vs 实际验证

"首个视频条件 4D 世界模型"
窄化定义下的"首个"。NeoVerse (CVPR 2026)、D4RT (DeepMind)、DeepVerse、Kinema4D 等都在做类似方向。"首个"取决于如何定义类别边界。
窄化定义
"单卡 24 FPS 实时漫游"
24 FPS 需要数据中心级 GPU(A100/H100)。消费级 RTX 4090 实测 7-10 FPS。官方 README 注明代码"尚未做速度优化"。
误导
"消除物体消失幻觉"
理论构想。团队自己的 WorldFM 论文承认:动态场景处理不好、存在"明显帧间抖动"、在线推理时出现运动边界伪影。
自相矛盾
"WorldScore-Dynamic 排行榜第一"
限定条件:"实时推理速度的模型中"排第一。这是子集排名,非总榜第一。且无法从独立来源验证该排名。
选择性披露
"不超过 100 块 GPU 训练"
1.3B 参数量 + 基于 Wan2.1 微调,100 GPU 规模合理。但未独立验证。
合理可信

可信度评分

维度 评分 分数
团队学术背景
9/10
技术方案合理性
7.5/10
宣传与实际匹配度
3.5/10
论文/同行评审
2/10
独立第三方验证
0.5/10
代码开源程度
8/10

最关键的缺陷

  • InSpatio-World(4D 模型)没有技术论文 — arxiv 上的 2603.11911 是 WorldFM(3D 帧模型),是另一个系统
  • 无标准量化指标 — LPIPS / PSNR / FID 均未报告
  • 无对比实验表 — 没有和 NeoVerse / D4RT 等竞品的 head-to-head 对比
  • 零社区讨论 — Reddit / HN / Twitter 上找不到独立技术讨论
  • 自承矛盾 — WorldFM 论文承认动态场景差、帧抖动,但 World 项目页宣称"消除幻觉"

真实的优势

  • 团队扎实 — 章国锋是 3D 视觉领域顶级学者,非"PPT 创业"
  • 完整开源 — Apache-2.0 协议,代码可检查复现
  • 底层可靠 — Self-Forcing (NeurIPS 2025)、Wan2.1、Depth-Anything-3 均为成熟方案
  • 架构创新 — "视频作为持久世界状态锚点"的思路是真实的技术贡献
  • 训练成本 — ≤100 GPU 微调已有模型,路径合理

同期竞品对比

项目 来源 方法 论文 速度
InSpatio-World InSpatio 创业公司 视频条件 + 扩散世界模型 10 FPS (4090) / 24 FPS (A100)
NeoVerse CreateAI · CVPR 2026 前馈 4D Gaussian Splatting CVPR 2026 <30s 推理
D4RT Google DeepMind 4D 重建 + 跟踪 1 分钟视频 ~5s (TPU)
DeepVerse arxiv 2506.01103 4D 自回归视频世界模型 arxiv
Kinema4D arxiv 2603.16669 运动学 4D 世界建模 arxiv

InSpatio-World 的独特之处在于"视频→持久世界状态"的概念,但缺乏论文和对比数据,难以客观判断其相对优劣。

WorldFM 论文自述局限(2603.11911)

以下来自团队自己的 WorldFM 论文,InSpatio-World 基于同一架构:

一句话总结

不是骗局,但噱头成分很重
真实水平:有实力的创业团队发布早期开源原型。
宣传水平:按"已验证突破"级别在写文案。
建议:可以关注这个方向,但别把项目主页的数字当论文结论看。
等到 技术论文发表 + 独立复现 之后再下判断不迟。

InSpatio-World 深度核查报告 · 2026-03-22 · 端口 4150