InSpatio-World

Video-Conditioned 4D World Model — 深度核查报告

InSpatio (2026.03.18) | 1.3B 参数 · Apache-2.0 开源 | Project Page | GitHub | WorldFM Paper 噱头成分较重

核查结论：团队靠谱，宣传跑在技术前面

不是骗局，但营销话术明显夸大。
真实水平：一个有实力的创业团队发布了早期开源原型，
但宣传文案按"已验证突破"级别在写。4D 模型无技术论文，零独立评测。

团队背景 — 这部分是真的

章

章国锋 — 创始人 & CEO

浙江大学 CAD&CG 国家重点实验室教授 · 前商汤首席科学家 · 20+ 年 3D 视觉研究 · ISMAR 最佳论文 · Google Scholar 高引用

刘

刘浩敏 — 联合创始人 & CTO

前商汤研发总监 · 浙大博士 · 商用移动端 SLAM 方案开创者（早于 ARKit/ARCore）· 主导商汤 StarGen 基础模型

浙大 CAD&CG 实验室前商汤 3D 视觉核心团队 18 人研发团队 2025 年成立

团队学术背景过硬，在 SLAM、3D 重建领域有真实且可验证的积累。

技术架构

以视频为条件锚定"局部世界状态"，生成可交互的 4D 场景：

输入视频
任意视频片段

→

Depth-Anything-3
深度估计

→

Florence-2
视频描述生成

→

Wan2.1 + Self-Forcing
4D 世界状态生成

→

4D 漫游
多视角 + 时间轴

1.3B 参数 Self-Forcing (NeurIPS 2025 Spotlight) Wan2.1 (阿里视频扩散) Depth-Anything-3 Florence-2 Apache-2.0

底层技术栈均为已发表、可验证的成熟方案。架构组合本身是合理的。

宣传声明 vs 实际验证

"首个视频条件 4D 世界模型"

窄化定义下的"首个"。NeoVerse (CVPR 2026)、D4RT (DeepMind)、DeepVerse、Kinema4D 等都在做类似方向。"首个"取决于如何定义类别边界。

窄化定义

"单卡 24 FPS 实时漫游"

24 FPS 需要数据中心级 GPU（A100/H100）。消费级 RTX 4090 实测 7-10 FPS。官方 README 注明代码"尚未做速度优化"。

误导

"消除物体消失幻觉"

理论构想。团队自己的 WorldFM 论文承认：动态场景处理不好、存在"明显帧间抖动"、在线推理时出现运动边界伪影。

自相矛盾

"WorldScore-Dynamic 排行榜第一"

限定条件："实时推理速度的模型中"排第一。这是子集排名，非总榜第一。且无法从独立来源验证该排名。

选择性披露

"不超过 100 块 GPU 训练"

1.3B 参数量 + 基于 Wan2.1 微调，100 GPU 规模合理。但未独立验证。

合理可信

可信度评分

维度	评分	分数
团队学术背景		9/10
技术方案合理性		7.5/10
宣传与实际匹配度		3.5/10
论文/同行评审		2/10
独立第三方验证		0.5/10
代码开源程度		8/10

最关键的缺陷

InSpatio-World（4D 模型）没有技术论文 — arxiv 上的 2603.11911 是 WorldFM（3D 帧模型），是另一个系统
无标准量化指标 — LPIPS / PSNR / FID 均未报告
无对比实验表 — 没有和 NeoVerse / D4RT 等竞品的 head-to-head 对比
零社区讨论 — Reddit / HN / Twitter 上找不到独立技术讨论
自承矛盾 — WorldFM 论文承认动态场景差、帧抖动，但 World 项目页宣称"消除幻觉"

真实的优势

团队扎实 — 章国锋是 3D 视觉领域顶级学者，非"PPT 创业"
完整开源 — Apache-2.0 协议，代码可检查复现
底层可靠 — Self-Forcing (NeurIPS 2025)、Wan2.1、Depth-Anything-3 均为成熟方案
架构创新 — "视频作为持久世界状态锚点"的思路是真实的技术贡献
训练成本 — ≤100 GPU 微调已有模型，路径合理

同期竞品对比

项目	来源	方法	论文	速度
InSpatio-World	InSpatio 创业公司	视频条件 + 扩散世界模型	无	10 FPS (4090) / 24 FPS (A100)
NeoVerse	CreateAI · CVPR 2026	前馈 4D Gaussian Splatting	CVPR 2026	<30s 推理
D4RT	Google DeepMind	4D 重建 + 跟踪	有	1 分钟视频 ~5s (TPU)
DeepVerse	arxiv 2506.01103	4D 自回归视频世界模型	arxiv	—
Kinema4D	arxiv 2603.16669	运动学 4D 世界建模	arxiv	—

InSpatio-World 的独特之处在于"视频→持久世界状态"的概念，但缺乏论文和对比数据，难以客观判断其相对优劣。

WorldFM 论文自述局限（2603.11911）

以下来自团队自己的 WorldFM 论文，InSpatio-World 基于同一架构：

动态场景处理差 — 训练数据"以静态场景为主"，对运动物体的泛化能力不足
帧间抖动 — 在线推理时帧与帧之间存在"明显抖动"，缺乏时间一致性约束
运动边界伪影 — 视角变化较大时出现边界伪影
无标准指标 — 论文中未报告 LPIPS / PSNR / FID / SSIM 等常用量化指标

一句话总结

不是骗局，但噱头成分很重。
真实水平：有实力的创业团队发布早期开源原型。
宣传水平：按"已验证突破"级别在写文案。
建议：可以关注这个方向，但别把项目主页的数字当论文结论看。
等到技术论文发表 + 独立复现之后再下判断不迟。

InSpatio-World 深度核查报告 · 2026-03-22 · 端口 4150