Real-World Point Tracking with Verifier-Guided Pseudo-Labeling
在视频的第一帧选中任意一个像素点,算法能在后续每一帧精确定位这个点的位置,即使目标被遮挡、光照变化、物体变形。这是计算机视觉中的基础能力,支撑视频编辑、机器人视觉、自动驾驶、AR/VR 等应用。
| 模型 | 发表 | 核心创新 |
|---|---|---|
| Track-On | ICLR 2025 | 首次提出在线逐帧点跟踪 + Transformer 紧凑记忆机制 |
| Track-On2 | TPAMI 2026 | 改进架构,更强性能和效率 |
| Track-On-R | CVPR 2026 | Verifier-guided 伪标签,在真实视频上微调,SOTA |
三阶段训练流水线:
| 数据集 | Track-On2 | Track-On-R |
|---|---|---|
| DAVIS | 79.9 | 80.3 |
| Kinetics | 69.3 | 71.0 |
| RoboTAP | 80.5 | 82.6 |
| EgoPoints | 61.7 | 67.3 |
| Dynamic Replica | 74.5 | 75.1 |
| PointOdyssey | 45.1 | 53.4 |
真实世界微调后,EgoPoints 提升 +5.6,PointOdyssey 提升 +8.3
Verifier 对每个 teacher 的预测打分,选最优结果作为伪标签训练 Track-On-R
| 模型 | 训练数据 | 下载 |
|---|---|---|
| Track-On-R | Kubric + 真实视频 | HuggingFace |
| Track-On2 | Kubric | HuggingFace |
| Verifier | K-Epic | HuggingFace |
⚠ 需额外申请 DINOv3 骨干权重(Meta 许可限制),首次运行自动下载
mamba 或 conda
source/ — Track-On 源码(GitHub clone)
source/demo.py — 可直接运行的 demo 脚本
source/model/ — 模型定义(Predictor 类)
source/config/ — 训练/推理配置 YAML
source/evaluation/ — 6 个 benchmark 评估脚本
source/ensemble/ — Teacher 模型集成
source/verifier/ — Verifier 模型
TrackOnR 研究页 · 端口 4130 · 待 NVIDIA GPU 到位后本地运行