Track-On-R

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling

CVPR 2026  |  Gorkay Aydemir, Fatma Guney, Weidi Xie  |  Project Page  |  Paper  |  GitHub   源码已 clone

什么是点跟踪(Point Tracking)

在视频的第一帧选中任意一个像素点,算法能在后续每一帧精确定位这个点的位置,即使目标被遮挡、光照变化、物体变形。这是计算机视觉中的基础能力,支撑视频编辑、机器人视觉、自动驾驶、AR/VR 等应用。

Track-On 模型家族

模型发表核心创新
Track-On ICLR 2025 首次提出在线逐帧点跟踪 + Transformer 紧凑记忆机制
Track-On2 TPAMI 2026 改进架构,更强性能和效率
Track-On-R CVPR 2026 Verifier-guided 伪标签,在真实视频上微调,SOTA

Track-On-R 技术架构

三阶段训练流水线:

Stage 1
Track-On2
合成数据预训练
(Kubric Movi-F)
Stage 2
Verifier 训练
K-Epic 数据集
学习判断跟踪质量
Stage 3
Track-On-R
真实视频微调
Verifier 筛选伪标签

性能指标(δ_avg)

数据集Track-On2Track-On-R
DAVIS79.980.3
Kinetics69.371.0
RoboTAP80.582.6
EgoPoints61.767.3
Dynamic Replica74.575.1
PointOdyssey45.153.4

真实世界微调后,EgoPoints 提升 +5.6,PointOdyssey 提升 +8.3

Teacher 模型集成(6 个)

  • Track-On2(自身)
  • BootsTAPNext(Google DeepMind)
  • BootsTAPIR(Google DeepMind)
  • CoTracker3 window(Meta)
  • Anthro-LocoTrack(KAIST)
  • AllTracker

Verifier 对每个 teacher 的预测打分,选最优结果作为伪标签训练 Track-On-R

预训练权重

模型训练数据下载
Track-On-R Kubric + 真实视频 HuggingFace
Track-On2 Kubric HuggingFace
Verifier K-Epic HuggingFace

⚠ 需额外申请 DINOv3 骨干权重(Meta 许可限制),首次运行自动下载

运行环境要求

Python 3.12 PyTorch 2.4.1 CUDA 12.1 mmcv 2.2.0 DINOv3

应用场景

  • 视频编辑 — 跟踪物体做特效、抠像、替换
  • 机器人视觉 — 跟踪抓取目标关键点
  • 自动驾驶 — 跟踪行人/车辆关键点
  • 运动分析 — 跟踪运动员关节运动轨迹
  • AR/VR — 空间锚点实时追踪
  • 手语识别 — 跟踪手指/手势关键点

本地项目结构

source/ — Track-On 源码(GitHub clone)
source/demo.py — 可直接运行的 demo 脚本
source/model/ — 模型定义(Predictor 类)
source/config/ — 训练/推理配置 YAML
source/evaluation/ — 6 个 benchmark 评估脚本
source/ensemble/ — Teacher 模型集成
source/verifier/ — Verifier 模型

TrackOnR 研究页 · 端口 4130 · 待 NVIDIA GPU 到位后本地运行