From e999a55b4e14082e3a14b05914fbab1dff8e4bf6 Mon Sep 17 00:00:00 2001 From: kang Date: Sat, 25 Apr 2026 19:23:17 +0800 Subject: [PATCH] init repo --- .gitignore | 24 + .memory/cvpr2026-3d-vision.md | 33 + .memory/worklog.json | 3 + .project.json | 30 + AGENTS.md | 21 + CLAUDE.md | 21 + RULES.md | 37 ++ index.html | 1151 +++++++++++++++++++++++++++++++++ 8 files changed, 1320 insertions(+) create mode 100644 .gitignore create mode 100644 .memory/cvpr2026-3d-vision.md create mode 100644 .memory/worklog.json create mode 100644 .project.json create mode 100644 AGENTS.md create mode 100644 CLAUDE.md create mode 100644 RULES.md create mode 100644 index.html diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..1bdd6ff --- /dev/null +++ b/.gitignore @@ -0,0 +1,24 @@ +# OS +.DS_Store + +# Env +.env +.env.* + +# Python +__pycache__/ +.pytest_cache/ +.mypy_cache/ +.venv/ +venv/ + +# Node +node_modules/ +.next/ +dist/ +build/ +.nuxt/ +.output/ + +# Misc +*.log diff --git a/.memory/cvpr2026-3d-vision.md b/.memory/cvpr2026-3d-vision.md new file mode 100644 index 0000000..de5c633 --- /dev/null +++ b/.memory/cvpr2026-3d-vision.md @@ -0,0 +1,33 @@ +--- +name: CVPR 2026 3D Vision Foundation Models 研究 +description: CVPR 2026 基础视觉大模型在三维视觉领域的热门开源项目调研,含 G2VLM/VLM-3R/TALO/Flow3r,待 eGPU+NVIDIA 卡到位后本地运行 +type: project +--- + +## 项目信息 + +- **路径**:`~/Projects/research/20260319-cvpr2026-3d-vision/` +- **端口**:4070(`python3 -m http.server 4070`) +- **内容**:单文件 HTML 研究展示页 + +## 调研项目列表 + +| 项目 | Stars | 机构 | 最低 VRAM | GitHub | +|------|-------|------|-----------|--------| +| G2VLM (2B) | 291 | 上海AI Lab/UCLA/浙大 | ~8GB | InternRobotics/G2VLM | +| VLM-3R (7B) | 363 | UT Austin/Meta/UCLA | ~16GB | VITA-Group/VLM-3R | +| TALO | 56 | — | ~12GB | Xian-Bei/TALO | +| Flow3r | 60 | — | ~8GB | Kidrauh/flow3r | + +## 硬件需求 + +- 全部依赖 CUDA 12.1+、flash-attention、triton(NVIDIA 专属) +- macOS 不支持 NVIDIA eGPU 驱动,Apple Silicon 也不支持外置 Linux+eGPU +- **推荐**:RTX 4090(24GB VRAM)覆盖全部项目 +- **待定**:用户 Mac 型号(Intel vs Apple Silicon),决定 eGPU 方案或独立 Linux 小主机方案 + +## 可行方案 + +1. **eGPU + Linux**(仅 Intel Mac):eGPU 盒子 + RTX 4090 + Ubuntu +2. **独立 Linux 小主机**(最稳,不限 Mac 型号):mini-ITX + RTX 4090 + Ubuntu + SSH +3. **云 GPU**(零投入):Colab Pro+ / RunPod / Vast.ai diff --git a/.memory/worklog.json b/.memory/worklog.json new file mode 100644 index 0000000..046955d --- /dev/null +++ b/.memory/worklog.json @@ -0,0 +1,3 @@ +{ + "entries": [] +} diff --git a/.project.json b/.project.json new file mode 100644 index 0000000..7738ca9 --- /dev/null +++ b/.project.json @@ -0,0 +1,30 @@ +{ + "name": "CVPR 2026 3D Vision Foundation Models", + "description": "CVPR 2026 基础视觉大模型×三维视觉 热门开源项目研究页", + "status": "active", + "kind": "research", + "created": "2026-03-19", + "ports": [ + { + "port": 4070, + "label": "dev", + "fixed": true + } + ], + "stack": [ + "HTML", + "CSS", + "JavaScript" + ], + "urls": [ + { + "url": "http://localhost:4070", + "type": "docs", + "label": "local docs" + } + ], + "worklog": { + "path": ".memory/worklog.json", + "auto": true + } +} diff --git a/AGENTS.md b/AGENTS.md new file mode 100644 index 0000000..8704f5a --- /dev/null +++ b/AGENTS.md @@ -0,0 +1,21 @@ +# CVPR 2026 3D Vision Foundation Models Agent Rules + +## Must Read First + +- `.project.json` 是机器真源:公网链接、快捷登录、凭证引用都以它为准 +- `RULES.md` 是人工规则和部署事实:启动命令、平台、域名、注意事项都写这里 +- 不允许编造不存在的域名、账号、密码;未知就保持空白并明确标记待补充 + +## Deployment Metadata Contract + +- 任何任务只要新增、删除或修改公网地址,必须在同一次任务里更新 `.project.json` +- `urls[]` 推荐显式写 `type`:`app`、`backend`、`docs`、`admin`、`repo` +- 项目专属的网页登录信息,如果允许放进仓库,就写 `.project.json.quick_login` +- 不能直接入库的敏感登录,不要伪造 `quick_login`,改为写 `.project.json.credentials` 引用 +- 数据库密码、API Key、服务器 root 密码,不属于 `quick_login` + +## Completion Gate + +- 部署完成后,不允许在 `.project.json` 缺少最新公网链接的状态下结束任务 +- 部署完成后,必须同步更新 `RULES.md` 的部署事实 +- 如果只更新了代码但没回写部署元数据,这个任务不算完成 diff --git a/CLAUDE.md b/CLAUDE.md new file mode 100644 index 0000000..8704f5a --- /dev/null +++ b/CLAUDE.md @@ -0,0 +1,21 @@ +# CVPR 2026 3D Vision Foundation Models Agent Rules + +## Must Read First + +- `.project.json` 是机器真源:公网链接、快捷登录、凭证引用都以它为准 +- `RULES.md` 是人工规则和部署事实:启动命令、平台、域名、注意事项都写这里 +- 不允许编造不存在的域名、账号、密码;未知就保持空白并明确标记待补充 + +## Deployment Metadata Contract + +- 任何任务只要新增、删除或修改公网地址,必须在同一次任务里更新 `.project.json` +- `urls[]` 推荐显式写 `type`:`app`、`backend`、`docs`、`admin`、`repo` +- 项目专属的网页登录信息,如果允许放进仓库,就写 `.project.json.quick_login` +- 不能直接入库的敏感登录,不要伪造 `quick_login`,改为写 `.project.json.credentials` 引用 +- 数据库密码、API Key、服务器 root 密码,不属于 `quick_login` + +## Completion Gate + +- 部署完成后,不允许在 `.project.json` 缺少最新公网链接的状态下结束任务 +- 部署完成后,必须同步更新 `RULES.md` 的部署事实 +- 如果只更新了代码但没回写部署元数据,这个任务不算完成 diff --git a/RULES.md b/RULES.md new file mode 100644 index 0000000..1d4c60e --- /dev/null +++ b/RULES.md @@ -0,0 +1,37 @@ +# CVPR 2026 3D Vision Foundation Models + +## 启动 +- `dev` — 端口 4070 + +## 部署事实 +- 平台:待定 +- 发布状态:已部署 +- 主站 / 前端:待定 +- API / 后端:待定 +- 文档 / 解析:http://localhost:4070 +- 管理后台:待定 +- 代码仓:待定 + +## 快捷登录 +- 登录地址:待补充 +- 用户名:待补充 +- 密码:待补充 +- 说明:这里只写项目专属网页登录;数据库密码、API Key、服务器 root 密码不要写这里 + +## 元数据回写清单 +- 新增或变更公网地址后,必须同步更新 `.project.json.urls` +- 如果有网页后台登录: + - 可直接入库:写 `.project.json.quick_login` + - 不应入库:写 `.project.json.credentials` 引用 +- 部署完成后,`RULES.md` 和 `.project.json` 必须同一次任务一起更新 + +## 环境变量 +- 待补充 + +## 规则 +- 不允许编造不存在的部署域名、账号、密码 +- 没有公网地址时,`.project.json.urls` 保持空数组 +- 任何部署或域名变化,都要先改元数据,再视为任务完成 + +## 注意事项 +- 待补充 diff --git a/index.html b/index.html new file mode 100644 index 0000000..f892a7a --- /dev/null +++ b/index.html @@ -0,0 +1,1151 @@ + + + + + +CVPR 2026 - 基础视觉大模型 x 三维视觉 + + + + + +
+ + +
+
+
CVPR 2026 - Denver, CO - June 3-7
+

Foundation Vision Models
x 3D Vision

+

基础视觉大模型在三维视觉领域展现出惊人潜力。精选 CVPR 2026 热门开源项目,从统一 3D 重建到空间推理,涵盖前沿方向。

+
+
+
16,092
+
Total Submissions
+
+
+
4,090
+
Accepted Papers
+
+
+
25.4%
+
Acceptance Rate
+
+
+
4
+
Projects Tracked
+
+
+
+ + +
+
+ +

3D Vision Foundation Models

+

精选 4 个 CVPR 2026 开源项目,聚焦基础视觉大模型在三维重建、空间推理和几何学习上的突破。

+ +
+ + +
+
+
3D
+
★ 291
+
+
G2VLM
+
Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
+
统一几何感知专家(3D 重建)和语义感知专家(多模态理解)。输入图片即可生成 3D 点云,并支持交错推理的空间问答。2B 参数 MoT 架构。
+
+ 3D Reconstruction + Spatial Reasoning + VLM + Point Cloud + MoT +
+
+
+
Parameters
+
2B
+
+
+
Min VRAM
+
~8 GB
+
+
+
Institution
+
Shanghai AI Lab / UCLA / ZJU
+
+
+
License
+
Apache 2.0
+
+
+ GitHub ↗ +
+ + +
+
+
VR
+
★ 363
+
+
VLM-3R
+
Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction
+
统一 VLM 框架,整合 3D 重建指令微调,实现单目视频的深度空间理解。无需外部深度传感器或预构建 3D 地图,基于 LLaVA-NeXT-Video-7B。
+
+ Monocular Video + Instruction Tuning + VLM + Depth-Free + LLaVA +
+
+
+
Parameters
+
7B
+
+
+
Min VRAM
+
~16 GB
+
+
+
Institution
+
UT Austin / Meta / UCLA
+
+
+
Backbone
+
LLaVA-NeXT + CUT3R
+
+
+ GitHub ↗ +
+ + +
+
+
TA
+
★ 56
+
+
TALO
+
Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction
+
即插即用框架,修正 3D 视觉基础模型中的空间几何不一致性,实现全局一致的在线 3D 重建。兼容 VGGT、Pi3、MapAnything 等主流骨干网络。
+
+ Plug-and-Play + Global Consistency + Online Recon + VGGT + SLAM +
+
+
+
Type
+
Framework
+
+
+
Min VRAM
+
~12 GB
+
+
+
Compatible
+
VGGT / Pi3 / MapAnything
+
+
+
Platform
+
Linux + CUDA
+
+
+ GitHub ↗ +
+ + +
+
+
F3
+
★ 60
+
+
Flow3r
+
Factored Flow Prediction for Scalable Visual Geometry Learning
+
通过分解化光流预测增强视觉几何学习,利用无标注单目视频的密集 2D 对应关系作为监督信号。在 8 个 benchmark 上达到 SOTA。
+
+ Optical Flow + 8x SOTA + Geometry Learning + Self-Supervised + Scalable +
+
+
+
Type
+
Model
+
+
+
Min VRAM
+
~8 GB
+
+
+
Supervision
+
Unlabeled Video
+
+
+
Benchmarks
+
8 SOTA
+
+
+ GitHub ↗ +
+ +
+
+
+ + +
+
+ +

3D Vision Foundation Model Pipeline

+

这些项目的共同架构模式:视觉编码 + 几何感知 + 语义理解。

+ +
+
+
RGB Image
/ Video
+
+
Visual Encoder
ViT / DINOv2
+
+
Geometry Expert
3D Reconstruction
+
+
3D Output
Point Cloud / GS
+
+
+
Text Query
Spatial Q&A
+
+
LLM Backbone
Qwen2 / LLaMA
+
+
Semantic Expert
Spatial Reasoning
+
+
Answer
+ 3D Grounding
+
+
+
+
+ + +
+
+ +

VRAM Requirements Comparison

+

所有项目均需 NVIDIA CUDA GPU。RTX 4090 (24GB) 可覆盖全部。

+ +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
ProjectParamsMin VRAMRecommendedUsage
G2VLM2B + ~8 GB +
+
16 GB+RTX 3090 / 4070Ti
VLM-3R7B + ~16 GB +
+
24 GBRTX 4090 / A100
TALO- + ~12 GB +
+
24 GBRTX 4090 / A100
Flow3r- + ~8 GB +
+
16 GB+RTX 3090 / 4070Ti
+
+
+
+ + +
+
+ +

Local Hardware Options

+

macOS 不支持 NVIDIA eGPU 驱动。以下是可行的本地运行方案。

+ +
+
+
+

Cloud GPU (Zero Hardware)

+

Google Colab Pro+ / RunPod / Vast.ai
A100 40GB 或 4090 24GB 按需租用
适合偶尔跑实验,无前期投入

+
~¥3/hour (4090) | ~¥150/month (Colab Pro+)
+
+ +
+
🖥
+

Linux Mini-ITX + RTX 4090

+

独立 Linux 小主机方案
mini-ITX 机箱 + RTX 4090 24GB + Ubuntu
从 Mac SSH 远程操作,兼容性最佳

+
~¥15,000 (主机 3K + 4090 12K)
+
+ +
+
🔌
+

eGPU + Linux (Intel Mac Only)

+

雷电 eGPU 盒子 + RTX 4090
外置 SSD 装 Ubuntu,开机选系统启动
仅限 Intel Mac,Apple Silicon 不支持

+
~¥13,500 (盒子 1.5K + 4090 12K)
+
+
+
+
+ + +
+
+ +

Environment Setup Guide

+

显卡到位后的通用环境搭建步骤(以 Ubuntu + RTX 4090 为例)。

+ +
+
+
1
+
+

Install NVIDIA Driver + CUDA 12.1

+

安装 NVIDIA 驱动和 CUDA Toolkit。

+
+# Install NVIDIA driver +sudo apt update && sudo apt install -y nvidia-driver-550 +sudo reboot + +# Verify GPU +nvidia-smi + +# Install CUDA 12.1 +wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run +sudo sh cuda_12.1.0_530.30.02_linux.run +
+
+
+ +
+
2
+
+

Setup Conda + PyTorch

+

创建 Python 环境并安装 CUDA 版 PyTorch。

+
+# Install Miniconda +wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh +bash Miniconda3-latest-Linux-x86_64.sh + +# Create env +conda create -n cvpr3d python=3.10 -y +conda activate cvpr3d + +# PyTorch + CUDA 12.1 +pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121 +
+
+
+ +
+
3
+
+

Clone & Run Projects

+

克隆项目并按照各自 README 安装依赖。

+
+# G2VLM (2B, ~8GB VRAM) +git clone https://github.com/InternRobotics/G2VLM && cd G2VLM +pip install -r requirements.txt +python inference_recon.py # 3D reconstruction +python inference_chat.py # spatial reasoning + +# VLM-3R (7B, ~16GB VRAM) +git clone https://github.com/VITA-Group/VLM-3R && cd VLM-3R +pip install -r requirements.txt + +# TALO (plug-and-play, ~12GB VRAM) +git clone https://github.com/Xian-Bei/TALO && cd TALO + +# Flow3r (~8GB VRAM, 8x SOTA) +git clone https://github.com/Kidrauh/flow3r && cd flow3r +
+
+
+
+
+
+ + +
+
+ +

Personal Progress

+

从调研到本地运行的计划时间线。

+ +
+
+
2026-03-19
+

Project Survey Complete

+

完成 CVPR 2026 3D Vision Foundation Model 调研,筛选出 G2VLM / VLM-3R / TALO / Flow3r 四个项目。

+
+
+
2026-03-19
+

Research Page Built

+

研究展示页面上线,记录项目详情、硬件需求、环境搭建指南。

+
+
+
Pending
+

GPU Hardware Arrives

+

等待 NVIDIA 显卡到位。推荐 RTX 4090 (24GB),可覆盖全部 4 个项目。

+
+
+
TBD
+

Environment Setup

+

Ubuntu + CUDA 12.1 + PyTorch 2.5.1 环境搭建。

+
+
+
TBD
+

Run Experiments

+

逐个运行 G2VLM → Flow3r → TALO → VLM-3R,从低显存到高显存依次验证。

+
+
+
+
+ + +
+ +
+ + + + + + \ No newline at end of file