From aabddef4867f4da92bc068fc695a70733dc03d95 Mon Sep 17 00:00:00 2001
From: kang <wankang2050@gmail.com>
Date: Tue, 19 May 2026 20:01:45 +0800
Subject: [PATCH] fix: improve filmstrip picking and audio retry

---
 RULES.md                               |  4 +--
 api/main.py                            |  2 +-
 docs/source-analysis.html              | 26 ++++++++++----
 web/app/page.tsx                       | 12 +++++--
 web/components/ad-recreation-board.tsx | 48 +++++++++++++++++++++++---
 5 files changed, 74 insertions(+), 18 deletions(-)

diff --git a/RULES.md b/RULES.md
index f467e7e..a15f729 100644
--- a/RULES.md
+++ b/RULES.md
@@ -11,11 +11,11 @@
 - 详见 `CLAUDE.md` 立项决策段 + `.memory/plan.md` 七步管线拆解
 - 风格：`04-Dark-Gallery-Ambient`（路径：`~/Projects/research/20260305-网页风格库/04-Dark-Gallery-Ambient.md`）
 - 第一冲刺：步骤 1-4（下载 / 拆轨 / 关键帧 / ASR+翻译）
-- 当前产品方向（2026-05-19 再确认）：信息流广告快速复刻默认进入“三字段候选生成”工作流。主界面为“左侧素材输入列 + 右侧信息流复刻工作表”。用户粘贴 TK 链接或上传视频后点击“开始分析”，系统自动下载源视频；下载完成后并行启动两条路：音频文案路提取原音频文案/字幕，并分析讲话人、语速节奏、背景音乐/环境声/音效；视频视觉路自动抽取参考帧。源视频工作区右侧主体链路是“参考帧池 → 转换层 → 主体元素”：参考帧池竖向排列，用户拖 1-2 张关键帧到转换层，转换层按参考创新生成新的主体套图，主体元素区展示后续分镜可用的主体图；旧下方“相似主体 / 主体模板库”不再作为主路径。波形下方的画面胶片只是临时预览，点击只跳转原视频时间点，拖进参考帧池才正式加入关键帧。产品图上传后独立形成产品资产包，自动识别视角/结构/比例并补缺角度。分镜工作台按逐句时间轴默认只露“文案 / 场景一句话 / 人物+产品+动作”，产品素材池、批量控制、三字段、视频候选和高级区都必须可折叠；视频候选无内容时默认不占大面积，有候选时默认只显示迷你缩略条，展开后才显示 4-grid。单条默认生成 4 个视频候选，顶部支持整片批量生成候选；首尾帧、视觉规划、产品出现方式和旧 6 字段保留在“高级”抽屉与后端 quick-plan 自动展开中，不能再作为客户默认闸门。
+- 当前产品方向（2026-05-19 再确认）：信息流广告快速复刻默认进入“三字段候选生成”工作流。主界面为“左侧素材输入列 + 右侧信息流复刻工作表”。用户粘贴 TK 链接或上传视频后点击“开始分析”，系统自动下载源视频；下载完成后并行启动两条路：音频文案路提取原音频文案/字幕，并分析讲话人、语速节奏、背景音乐/环境声/音效；视频视觉路自动抽取参考帧。源视频工作区右侧主体链路是“参考帧池 → 转换层 → 主体元素”：参考帧池竖向排列，用户拖 1-2 张关键帧到转换层，转换层按参考创新生成新的主体套图，主体元素区展示后续分镜可用的主体图；旧下方“相似主体 / 主体模板库”不再作为主路径。波形下方的画面胶片只是临时预览，点击只跳转原视频时间点，双击或拖进参考帧池才正式加入关键帧，已加入的胶片直接显示“已添加”。产品图上传后独立形成产品资产包，自动识别视角/结构/比例并补缺角度。分镜工作台按逐句时间轴默认只露“文案 / 场景一句话 / 人物+产品+动作”，产品素材池、批量控制、三字段、视频候选和高级区都必须可折叠；视频候选无内容时默认不占大面积，有候选时默认只显示迷你缩略条，展开后才显示 4-grid。单条默认生成 4 个视频候选，顶部支持整片批量生成候选；首尾帧、视觉规划、产品出现方式和旧 6 字段保留在“高级”抽屉与后端 quick-plan 自动展开中，不能再作为客户默认闸门。
 
 ## 部署事实
 - 平台：VPS `76.13.31.179`（Ubuntu 24.04 / Docker Compose / Coolify Traefik）
-- 发布状态：已部署并验证（2026-05-19，右侧三栏主体管线：竖向参考帧池 + 转换层 + 主体元素，参考帧缩略图保持小尺寸 9:16 比例 + hover 左侧紧凑预览 + 转换层多参考滚动，旧主体模板区移出主路径 + 逐句时间轴移到原版视频下方并支持双行文案 + 波形同框时间对齐画面胶片 + 胶片密度按钮上移波形顶部 + 去分隔线 + 胶片上下错落 + body 顶层原位大放大 + 隐藏源视频工作区音频解析摘要卡 + 隐藏工作区顶部状态提示条 + 三字段候选生成工作流 + 折叠紧凑候选区）；`https://marketing.skg.com` 已启用应用内登录页，未登录 API 返回 401，认证后首页 200；容器内 `/health` 返回 `ok:true`
+- 发布状态：已部署并验证（2026-05-19，胶片双击/拖拽加入参考帧池 + 胶片缓存复用 + 音频解析失败可重试，右侧三栏主体管线：竖向参考帧池 + 转换层 + 主体元素，参考帧缩略图保持小尺寸 9:16 比例 + hover 左侧紧凑预览 + 转换层多参考滚动，旧主体模板区移出主路径 + 逐句时间轴移到原版视频下方并支持双行文案 + 波形同框时间对齐画面胶片 + 胶片密度按钮上移波形顶部 + 去分隔线 + 胶片上下错落 + body 顶层原位大放大 + 隐藏源视频工作区音频解析摘要卡 + 隐藏工作区顶部状态提示条 + 三字段候选生成工作流 + 折叠紧凑候选区）；`https://marketing.skg.com` 已启用应用内登录页，未登录 API 返回 401，认证后首页 200；容器内 `/health` 返回 `ok:true`
 - 主站 / 前端：`https://marketing.skg.com`
 - API / 后端：`https://marketing.skg.com/api`
 - 代码仓库 / Gitea：`https://git.kang-kang.com/kangwan/20260512-skg-tk`
diff --git a/api/main.py b/api/main.py
index d907a9f..7470301 100644
--- a/api/main.py
+++ b/api/main.py
@@ -4252,7 +4252,7 @@ async def trigger_transcribe(job_id: str, bg: BackgroundTasks) -> Job:
     mp4 = job_dir(job_id) / "source.mp4"
     if job.status in {"created", "downloading"} or not mp4.exists():
         raise HTTPException(409, f"video not ready, got {job.status}")
-    if job.status == "transcribing" or job.audio_script.status == "rewriting" or job_id in AUDIO_WORKERS_RUNNING:
+    if job.audio_script.status == "rewriting" or job_id in AUDIO_WORKERS_RUNNING:
         raise HTTPException(409, f"job is busy, got {job.status}")
     manage_job_status = job.status != "splitting"
     audio_payload = AudioScript(
diff --git a/docs/source-analysis.html b/docs/source-analysis.html
index 6ca50b8..134db05 100644
--- a/docs/source-analysis.html
+++ b/docs/source-analysis.html
@@ -569,7 +569,7 @@
 
       <section id="pipeline" data-search>
         <h2>业务管线</h2>
-        <p>当前产品方向已收窄为“信息流广告快速复刻”：主界面左侧是素材输入列，右侧是信息流复刻工作表。后台仍按 01-09 流程顺序计算素材任务、源视频、音频文案、抽帧、主体资产、产品资产、分镜文案、三字段规划和视频候选这些状态，但这些判断不再默认显现在工作区顶部，避免状态提示挤占首屏操作空间。用户粘贴 TK 链接或上传视频后点击“开始分析”，系统自动下载源视频；下载完成后并行启动音频文案路和视频视觉路。音频文案路提取原音频文案/字幕，分析讲话人、语速节奏、背景音乐/环境声/音效，并为后续新口播和分镜文案提供时间轴；视频视觉路同步抽取参考帧。源视频工作区右侧主体链路改为“参考帧池 → 转换层 → 主体元素”：参考帧池只作为竖向原始参考，拖入转换层的 1-2 张关键帧用于参考创新生成新的主体套图，主体元素区承接生成结果供后续分镜使用；旧下方主体模板库不再作为主路径。波形下方的画面胶片由前端临时从源视频截取，密度可调，点击只跳转原视频时间点，拖入参考帧池才调用手动抽帧接口正式写入关键帧。产品图上传后独立形成产品资产包：自动识别视角、左右/上下/内外侧、结构点、比例和风险，并补缺角度。最终分镜规划按逐句时间轴把文案、主体元素和产品资产汇合；每条分镜默认是左侧“文案 / 场景一句话 / 人物+产品+动作”三字段、右侧横向视频候选轨。客户可直接改中文镜像，前端会调用改写/翻译链路自动优化对应英文主值；单条和整片都可选择生成数量，整片按行排队提交。首尾帧、视觉规划、产品出现方式等细节保留在高级抽屉和后端自动展开逻辑里，不再作为客户默认闸门。</p>
+        <p>当前产品方向已收窄为“信息流广告快速复刻”：主界面左侧是素材输入列，右侧是信息流复刻工作表。后台仍按 01-09 流程顺序计算素材任务、源视频、音频文案、抽帧、主体资产、产品资产、分镜文案、三字段规划和视频候选这些状态，但这些判断不再默认显现在工作区顶部，避免状态提示挤占首屏操作空间。用户粘贴 TK 链接或上传视频后点击“开始分析”，系统自动下载源视频；下载完成后并行启动音频文案路和视频视觉路。音频文案路提取原音频文案/字幕，分析讲话人、语速节奏、背景音乐/环境声/音效，并为后续新口播和分镜文案提供时间轴；视频视觉路同步抽取参考帧。源视频工作区右侧主体链路改为“参考帧池 → 转换层 → 主体元素”：参考帧池只作为竖向原始参考，拖入转换层的 1-2 张关键帧用于参考创新生成新的主体套图，主体元素区承接生成结果供后续分镜使用；旧下方主体模板库不再作为主路径。波形下方的画面胶片由前端临时从源视频截取，密度可调，点击只跳转原视频时间点，双击或拖入参考帧池才调用手动抽帧接口正式写入关键帧；已写入的胶片显示“已添加”，相同素材、相同密度和时长下会复用内存缓存，避免返回页面时重复扫视频。产品图上传后独立形成产品资产包：自动识别视角、左右/上下/内外侧、结构点、比例和风险，并补缺角度。最终分镜规划按逐句时间轴把文案、主体元素和产品资产汇合；每条分镜默认是左侧“文案 / 场景一句话 / 人物+产品+动作”三字段、右侧横向视频候选轨。客户可直接改中文镜像，前端会调用改写/翻译链路自动优化对应英文主值；单条和整片都可选择生成数量，整片按行排队提交。首尾帧、视觉规划、产品出现方式等细节保留在高级抽屉和后端自动展开逻辑里，不再作为客户默认闸门。</p>
         <div class="pipeline">
           <div class="step"><div class="num">01</div><h3>素材输入</h3><p>有当前素材任务即通过；输入框只负责创建或切换任务。</p></div>
           <div class="step"><div class="num">02</div><h3>源视频下载</h3><p><code>job.video_url</code> 存在即通过；<code>created/downloading</code> 视为运行中。公开视频默认不带 cookies 下载；只有 TikTok 明确要求登录态时才配置 <code>YTDLP_COOKIES_FILE</code>，生产容器禁止使用 <code>YTDLP_COOKIES_FROM_BROWSER=chrome</code>。</p></div>
@@ -592,8 +592,8 @@
               <tbody>
                 <tr><td><code>web/next.config.mjs</code></td><td>Next.js 构建配置：静态导出、图片不走优化、禁用开发环境左下角 Next Dev Indicator，并移除 Next 16 已不支持的 <code>eslint</code> 顶层配置，避免本地 dev 出现配置 Issue 提示。</td></tr>
                 <tr><td><code>web/app/globals.css</code></td><td>全局主题变量、登录页视觉样式、信息流工作台同源品牌 token、ReactFlow 样式引用，以及本地开发态 <code>nextjs-portal</code> 遮挡隐藏规则。工作台在 <code>skg-board-theme</code> 内定义 <code>--skg-gold-1</code>、<code>--skg-gold-2</code>、<code>--skg-cream</code>、<code>--skg-bg-*</code>、<code>--skg-text-*</code>、<code>--skg-radius-*</code> 和按钮阴影等变量，并新增 <code>skg-board-brand</code>、<code>skg-stat-card</code>、<code>skg-primary-action</code>、<code>skg-secondary-action</code>、<code>skg-empty-state</code> 等样式。暗色工作台复用登录页金色聚焦、米白主按钮和弱暖光氛围；明亮模式通过 <code>skg-board-theme--light</code> 复用同一套结构，改成暖白底、白色 panel、黑底主 CTA 和深色文本，不另起一套界面。</td></tr>
-                <tr><td><code>web/app/page.tsx</code></td><td>产品工作台主状态：jobs、activeJobId、生成任务状态；主渲染为全屏素材输入列 + 信息流广告复刻工作表；“开始分析”会把 job 放入并行素材分析队列，下载完成后触发 <code>triggerTranscribe</code> 解析音频，并触发 <code>analyzeJob</code> 自动抽 12 张参考帧，形成“音频文案路 + 视频视觉路”同步推进；底部吸附音频条和旧全局浮动主题按钮不再从主界面渲染，避免和工作台内的明暗模式切换重复。</td></tr>
-                <tr><td><code>web/components/ad-recreation-board.tsx</code></td><td>信息流广告复刻工作表：顶部先展示与登录页连续的 SKG brand strip，包含 SKG 字标、“未来健康 · 营销内容工作台”和“营销内容工作台 · TK 二创”；右侧素材/任务/视频/文案统计改为米白 stat 卡片，主动作按钮统一走 <code>skg-primary-action</code>，次动作走 <code>skg-secondary-action</code>，空状态复用 <code>AnimatedLoginCharacters</code>。<code>buildWorkflowSteps</code> 仍统一生成 01-09 流程顺序、状态和判定依据，<code>WorkflowStepBadge</code> / <code>PipelineLane</code> / 分镜列标题也继续共用同一套编号；但完整 <code>WorkflowOrderBar</code>、右侧素材/视频/音频/文案/参考帧需求 chips、文案依据下拉和“音频文案、抽帧参考、相似主体、产品素材池”四个状态条不再默认渲染在工作区顶部。左侧素材输入只负责链接/上传和任务切换，不再重复放横版原视频预览；右侧源视频工作区直接进入核心操作。讲话人、节奏和背景音分析仍写入 <code>AudioScript</code>，但不再作为“音频解析结果”卡片默认渲染；主工作区左侧宽度调整为 430-460px，上方是按 9:16 显示的竖版原视频播放器，播放器内覆盖“当前点抽帧”，按当前播放秒数手动补参考帧，播放器下方是逐句时间轴，英文和中文都最多显示两行；右侧上方是无标题的波形与切点参考框，下方是参考帧池；下一行只保留“相似主体 / 主体模板”。音频波形用参考图式的连续灰色包络显示响度、停顿和密集爆点，顶部把低/中/高密度按钮和当前播放秒数、总时长、鼠标指针停点秒数直接放在波形上方。视频播放时通过 <code>requestAnimationFrame</code> 平滑驱动波形播放线，同时同步高亮并滚动当前句；点击音频波形或字幕行会跳转原视频时间。音频波形下方同框渲染无标题的 <code>TimelineFilmstrip</code> 临时画面胶片，前端按低/中/高密度从源视频 canvas 截取预览缩略图，并按 <code>frame.time / duration</code> 的百分比定位到和波形同一条时间轴上；波形与胶片之间不显示分隔横线，胶片轨道贴近波形，缩略图轻微上下错落并倾斜重叠排列，hover 时用同一张胶片卡在原位置生成固定顶层克隆，约 4.8 倍放大并自动限制在视口内，避免被工作区、滚动容器或相邻面板遮挡；点击胶片只跳转原视频时间，不写入任务数据，只有拖进 <code>SourceKeyframePicker</code> 参考帧池时才调用手动抽帧并正式加入 <code>job.frames</code>。右侧参考帧池的主入口是“自动抽帧 12 张”，一键按动作峰值目标重新抽取 12 张源视频参考帧，优先抓手势、表情变化、节奏点和镜头变化；缩略图按竖版完整比例显示不裁切并用更多列紧凑铺开，点选状态直接叠在参考帧池缩略图上，鼠标停留会通过固定浮层放大展示完整帧。“生成 10 张高清图”放在下方相似主体白底视图区，不和抽参考按钮平齐；如果用户没有勾选帧，默认把全部关键帧作为主体参考，勾选后只传已选帧；生成区可在“透明骨架 / 普通真人”之间切换，可选择桌面导入的 5 套内置形象作为创意方向，并可填写统一主体方向，例如年轻女性、更运动、更高级。关键帧和相似主体白底视图都用更小的竖版缩略图密排；白底视图只展示每个 view 的最新一张，缩略图上提供“重新生成这一张”和“删除这一张”，单张重生会用 <code>replace_views=true</code> 替换同一视角。前端调用 <code>generateSubjectAssets</code> 时按主体类型传 <code>subject_style=transparent_human</code> 或 <code>source_actor</code>，按需传 <code>character_id</code>，并使用 <code>reconstruction_mode=similar</code>；后端会把关键帧和内置形象视为同一个主体的创意证据，并锁定同一性别表现、年龄段、体型、材质、风格和视觉身份，同时生成全身多视角 + 肩颈正/左右近景 + 后颈肩背特写，避免整套图出现男女性别、老少年龄或样式混杂。主体生成完成后会形成 <code>subject_consensus_brief</code>，主体模板保存区可预览/编辑这段 brief。音频结果下方是信息流复刻分镜工作台：顶部产品参考区是“同一产品素材池”，不限量上传产品图，不做不同产品身份判断；上传原图推荐长边 1200-2000px、短边至少 600px，但后端会统一生成最长边 1600px、JPEG 92 的 AI 工作副本，并回显尺寸、自动转换和风险标注；上传后按“套在脖子上的 U 形肩颈按摩仪”进行同一产品批量识别，左/右按佩戴者身体左右、上/下按佩戴方向，额外标注内外侧、开口方向、局部结构点、背景类型、用途标签、生成风险和备注，用户只检查备注，鼠标悬停通过固定浮层显示大图预览，能盖过滚动容器和分镜框架；缺视角补图失败时保留重试入口。脚本区在分镜行上方提供“作者想法”和“整片改写”，每行新口播文案可直接编辑并可单段 AI 改写，分镜时间和原内容列压缩为窄摘要列，新口播列进一步收窄，把横向空间留给画面规划和首尾帧。每条音频分镜纵向排列，行内从左到右串起原内容、新口播文案、画面规划/产品融入和历史候选视频槽；画面规划区先选择镜头类型（人物/情绪、人物+产品、产品特写、场景过渡），再用人物/产品开关、首帧规划、尾帧规划和产品出现方式决定这一条到底需不需要产品图或相似主体参考。当前主流程暂停直接调用视频模型，不再提供“生成本条 · Seedance”或“一键提交全部”视频入口；行内新增“首尾帧闸门”，分别显示/生成首帧和尾帧，旧 keyframe 类型首尾帧会被忽略，只认真正的 asset 首尾帧。生成首尾帧时调用 <code>generateSceneAsset</code>，主体只传 <code>subject_brief</code>，不再传主体图；产品按端点选择最多 1-2 张硬参考图，默认正面，侧面/后颈/厚度/特写等关键词会额外补一张对应视角。关键帧只作为前置主体重构证据和行数据承载位置，不再作为后续视频首尾帧参考。视频候选槽只展示历史候选和待生成占位，按钮改为“保存本条规划 / 保存全部规划”。只有该行勾选“产品”时，首尾帧生成才会从产品素材池按端点视角策略自动挑选最多 1-2 张相关产品图；未勾选产品时不会把产品图提交给首尾帧/后续生视频模型，并走纯文字首尾帧。只有该行勾选“人物”时，才会把主体 brief 注入 prompt；否则 prompt 会明确禁止强行添加主角式透明骨架人，后端也不会再给产品特写强加透明骨架人约束。<code>ModelTrace</code> 会在音频解析、产品识别/补图、相似主体高清视图包、脚本改写等入口旁直接展示模型名；所有生图入口都显示并使用 <code>gpt-image-2</code>，没有其他图片模型 fallback；点击后用固定浮层展示模型链路、输入输出和回退逻辑。旧分镜卡、抽帧控制和视频生成组件仍保留在文件里，但当前主路径不渲染。</td></tr>
+                <tr><td><code>web/app/page.tsx</code></td><td>产品工作台主状态：jobs、activeJobId、生成任务状态；主渲染为全屏素材输入列 + 信息流广告复刻工作表；“开始分析”会把 job 放入并行素材分析队列，下载完成后触发 <code>triggerTranscribe</code> 解析音频，并触发 <code>analyzeJob</code> 自动抽 12 张参考帧，形成“音频文案路 + 视频视觉路”同步推进；音频失败时会忽略失败状态下残留的半成品 transcript，允许再次触发音频解析；底部吸附音频条和旧全局浮动主题按钮不再从主界面渲染，避免和工作台内的明暗模式切换重复。</td></tr>
+                <tr><td><code>web/components/ad-recreation-board.tsx</code></td><td>信息流广告复刻工作表：顶部先展示与登录页连续的 SKG brand strip，包含 SKG 字标、“未来健康 · 营销内容工作台”和“营销内容工作台 · TK 二创”；右侧素材/任务/视频/文案统计改为米白 stat 卡片，主动作按钮统一走 <code>skg-primary-action</code>，次动作走 <code>skg-secondary-action</code>，空状态复用 <code>AnimatedLoginCharacters</code>。<code>buildWorkflowSteps</code> 仍统一生成 01-09 流程顺序、状态和判定依据，<code>WorkflowStepBadge</code> / <code>PipelineLane</code> / 分镜列标题也继续共用同一套编号；但完整 <code>WorkflowOrderBar</code>、右侧素材/视频/音频/文案/参考帧需求 chips、文案依据下拉和“音频文案、抽帧参考、相似主体、产品素材池”四个状态条不再默认渲染在工作区顶部。左侧素材输入只负责链接/上传和任务切换，不再重复放横版原视频预览；右侧源视频工作区直接进入核心操作。讲话人、节奏和背景音分析仍写入 <code>AudioScript</code>，但不再作为“音频解析结果”卡片默认渲染；主工作区左侧宽度调整为 430-460px，上方是按 9:16 显示的竖版原视频播放器，播放器内覆盖“当前点抽帧”，按当前播放秒数手动补参考帧，播放器下方是逐句时间轴，英文和中文都最多显示两行；右侧上方是无标题的波形与切点参考框，下方是参考帧池；下一行只保留“相似主体 / 主体模板”。音频波形用参考图式的连续灰色包络显示响度、停顿和密集爆点，顶部把低/中/高密度按钮和当前播放秒数、总时长、鼠标指针停点秒数直接放在波形上方。视频播放时通过 <code>requestAnimationFrame</code> 平滑驱动波形播放线，同时同步高亮并滚动当前句；点击音频波形或字幕行会跳转原视频时间。音频波形下方同框渲染无标题的 <code>TimelineFilmstrip</code> 临时画面胶片，前端按低/中/高密度从源视频 canvas 截取预览缩略图，并按 <code>frame.time / duration</code> 的百分比定位到和波形同一条时间轴上；波形与胶片之间不显示分隔横线，胶片轨道贴近波形，缩略图轻微上下错落并倾斜重叠排列，hover 时用同一张胶片卡在原位置生成固定顶层克隆，约 4.8 倍放大并自动限制在视口内，避免被工作区、滚动容器或相邻面板遮挡；单击胶片只跳转原视频时间，不写入任务数据，双击胶片或拖进参考帧池时才调用手动抽帧并正式加入 <code>job.frames</code>，已加入的胶片显示“已添加”；胶片预览按 job、视频、密度和时长缓存，未切换低/中/高时返回页面不重新扫视频。右侧参考帧池的主入口是“自动抽帧 12 张”，一键按动作峰值目标重新抽取 12 张源视频参考帧，优先抓手势、表情变化、节奏点和镜头变化；缩略图按竖版完整比例显示不裁切并用更多列紧凑铺开，点选状态直接叠在参考帧池缩略图上，鼠标停留会通过固定浮层放大展示完整帧。“生成 10 张高清图”放在下方相似主体白底视图区，不和抽参考按钮平齐；如果用户没有勾选帧，默认把全部关键帧作为主体参考，勾选后只传已选帧；生成区可在“透明骨架 / 普通真人”之间切换，可选择桌面导入的 5 套内置形象作为创意方向，并可填写统一主体方向，例如年轻女性、更运动、更高级。关键帧和相似主体白底视图都用更小的竖版缩略图密排；白底视图只展示每个 view 的最新一张，缩略图上提供“重新生成这一张”和“删除这一张”，单张重生会用 <code>replace_views=true</code> 替换同一视角。前端调用 <code>generateSubjectAssets</code> 时按主体类型传 <code>subject_style=transparent_human</code> 或 <code>source_actor</code>，按需传 <code>character_id</code>，并使用 <code>reconstruction_mode=similar</code>；后端会把关键帧和内置形象视为同一个主体的创意证据，并锁定同一性别表现、年龄段、体型、材质、风格和视觉身份，同时生成全身多视角 + 肩颈正/左右近景 + 后颈肩背特写，避免整套图出现男女性别、老少年龄或样式混杂。主体生成完成后会形成 <code>subject_consensus_brief</code>，主体模板保存区可预览/编辑这段 brief。音频结果下方是信息流复刻分镜工作台：顶部产品参考区是“同一产品素材池”，不限量上传产品图，不做不同产品身份判断；上传原图推荐长边 1200-2000px、短边至少 600px，但后端会统一生成最长边 1600px、JPEG 92 的 AI 工作副本，并回显尺寸、自动转换和风险标注；上传后按“套在脖子上的 U 形肩颈按摩仪”进行同一产品批量识别，左/右按佩戴者身体左右、上/下按佩戴方向，额外标注内外侧、开口方向、局部结构点、背景类型、用途标签、生成风险和备注，用户只检查备注，鼠标悬停通过固定浮层显示大图预览，能盖过滚动容器和分镜框架；缺视角补图失败时保留重试入口。脚本区在分镜行上方提供“作者想法”和“整片改写”，每行新口播文案可直接编辑并可单段 AI 改写，分镜时间和原内容列压缩为窄摘要列，新口播列进一步收窄，把横向空间留给画面规划和首尾帧。每条音频分镜纵向排列，行内从左到右串起原内容、新口播文案、画面规划/产品融入和历史候选视频槽；画面规划区先选择镜头类型（人物/情绪、人物+产品、产品特写、场景过渡），再用人物/产品开关、首帧规划、尾帧规划和产品出现方式决定这一条到底需不需要产品图或相似主体参考。当前主流程暂停直接调用视频模型，不再提供“生成本条 · Seedance”或“一键提交全部”视频入口；行内新增“首尾帧闸门”，分别显示/生成首帧和尾帧，旧 keyframe 类型首尾帧会被忽略，只认真正的 asset 首尾帧。生成首尾帧时调用 <code>generateSceneAsset</code>，主体只传 <code>subject_brief</code>，不再传主体图；产品按端点选择最多 1-2 张硬参考图，默认正面，侧面/后颈/厚度/特写等关键词会额外补一张对应视角。关键帧只作为前置主体重构证据和行数据承载位置，不再作为后续视频首尾帧参考。视频候选槽只展示历史候选和待生成占位，按钮改为“保存本条规划 / 保存全部规划”。只有该行勾选“产品”时，首尾帧生成才会从产品素材池按端点视角策略自动挑选最多 1-2 张相关产品图；未勾选产品时不会把产品图提交给首尾帧/后续生视频模型，并走纯文字首尾帧。只有该行勾选“人物”时，才会把主体 brief 注入 prompt；否则 prompt 会明确禁止强行添加主角式透明骨架人，后端也不会再给产品特写强加透明骨架人约束。<code>ModelTrace</code> 会在音频解析、产品识别/补图、相似主体高清视图包、脚本改写等入口旁直接展示模型名；所有生图入口都显示并使用 <code>gpt-image-2</code>，没有其他图片模型 fallback；点击后用固定浮层展示模型链路、输入输出和回退逻辑。旧分镜卡、抽帧控制和视频生成组件仍保留在文件里，但当前主路径不渲染。</td></tr>
                 <tr><td><code>SourceSubjectPipeline</code></td><td>源视频工作区右侧主体管线主路径：三栏分别是竖向 <strong>参考帧池</strong>、<strong>转换层</strong> 和 <strong>主体元素</strong>。参考帧池保留自动 12 张、胶片拖入正式成帧、点击勾选和删除；参考帧缩略图保持小尺寸固定宽度、<code>aspect-[9/16]</code> 和 <code>object-contain</code> 显示，避免人物比例被裁切或拉伸，也避免缩略图撑满整列，hover 预览通过 <code>MediaAssetTile</code> 的左侧紧凑浮层显示，避免盖住转换层。参考帧本身可拖到转换层。转换层不是抠图区，而是参考创新生成入口：拖入 1-2 张关键帧后自动调用 <code>generateSubjectAssets</code>，也保留手动重生按钮；转换层参考图列表有滚动上限，拖入多张不会挤掉下方控制；可选择透明骨架/真人、完整 10 张或常用 4 张，并填写统一方向。主体元素区显示生成出的主体套图，缩略图复用 <code>MediaAssetTile</code>，支持 hover 放大、单张重生和删除。旧下方 <code>SourceReferenceBuildPanel</code> 不再主路径渲染。</td></tr>
                 <tr><td><code>AudioStoryboardPlanPanel</code> 三字段候选生成</td><td>当前分镜主路径：每行是左右双栏，左侧默认显示 <code>skg_copy_*</code>、<code>scene_one_line_*</code>、<code>action_one_line_*</code> 三组中英字段，右侧直接显示视频候选横向轨。用户改中文镜像后，字段失焦会通过 <code>refineStoryboard</code> 优化对应英文主值，失败时退回 <code>translateText</code>；英文仍是后续 prompt 主值。<code>quickPlanStoryboard</code> 把三字段和主体 brief 展开为完整 <code>StoryboardScene</code>，<code>generateStoryboardVideo</code> 的 <code>count</code> 可由单行数字控件选择，候选新生成后持续向右追加，不再用 4-grid 撑高每行。整片生成同样可选择每行数量，并以 <code>concurrency=1</code> 按行排队提交。产品素材池、批量控制、每行主体区和高级区都可折叠，高级抽屉仍展示旧 6 字段、首尾帧 prompt 和首尾帧资产槽，但客户默认不用先处理首尾帧。</td></tr>
                 <tr><td><code>web/components/resource-library/library-drawer.tsx</code></td><td>全局资源中心浮窗：由工作台顶部“资源库”按钮打开，叠加在工作台上方但不阻塞主界面；尺寸、位置和当前 Tab 写入 <code>localStorage["skg-resource-library-drawer"]</code>。提示词 Tab 固定 5 列（场景描述、视频描述、主体描述、SKG 文案、产品角度），每列先显示 use_count 排名前 5 的“常用”，再按月份倒序分组；提示词节点常驻复制按钮，hover 可选英文/中文/双语复制，并调用 use 接口。素材 Tab 固定 4 列（主体、产品、场景、视频），节点不可拖动，按月份倒序硬编码排列；“应用到当前 job”只调用后端复制接口，得到普通 <code>ImageRef(kind="asset")</code> 后再写入产品素材池或复制 ID。浮窗顶部最近 24 小时横条混合显示提示词和素材；新建提示词、上传素材、删除前查引用、详情侧栏都在该组件内完成。</td></tr>
@@ -640,7 +640,7 @@ web/app/page.tsx
   -> 信息流广告复刻工作表：web/components/ad-recreation-board.tsx
   -> 开始分析：创建/激活 job → 下载完成后并行触发视频视觉路 analyzeJob 与音频文案路 triggerTranscribe
   -> 后台流程判定：01 素材输入 → 02 源视频下载 → 03 音频文案 → 04 抽帧参考 → 05 相似主体 → 06 产品素材池 → 07 分镜文案 → 08 三字段规划 → 09 视频候选；每步从 buildWorkflowSteps 取判定依据和状态，但默认不渲染完整状态条
-  -> 左侧素材输入列 + 源视频工作区（竖版 9:16 原视频播放器放大并内置当前点抽帧，逐句时间轴移到原版视频下方，英文/中文最多两行显示；右侧上方连续响度波形显示当前/总时长/指针停点，波形下方是可调低/中/高密度的临时画面胶片，点击仅跳转、拖入参考帧池才正式选帧；右侧下方是三栏主体管线：参考帧池竖排、转换层参考创新生成套图、主体元素展示生成结果；旧相似主体 / 主体模板区不再主路径渲染；讲话人/节奏/背景音分析写入数据但不默认显示成卡片）
+  -> 左侧素材输入列 + 源视频工作区（竖版 9:16 原视频播放器放大并内置当前点抽帧，逐句时间轴移到原版视频下方，英文/中文最多两行显示；右侧上方连续响度波形显示当前/总时长/指针停点，波形下方是可调低/中/高密度的临时画面胶片，单击仅跳转、双击或拖入参考帧池才正式选帧，并复用同密度胶片缓存；右侧下方是三栏主体管线：参考帧池竖排、转换层参考创新生成套图、主体元素展示生成结果；旧相似主体 / 主体模板区不再主路径渲染；讲话人/节奏/背景音分析写入数据但不默认显示成卡片）
   -> 信息流复刻分镜工作台：06 同一产品素材池不限量上传 → 自动识别视角 / 背景 / 用途 / 风险 → 人工检查备注 → 07 逐句时间轴 / 原内容 / 新口播文案 → 08 紧凑三字段（文案、场景一句话、人物+产品+动作；可折叠）→ quick-plan 自动展开高级字段 → 单条生成 4 个视频候选 / 收起态迷你缩略条 / 展开态 4-grid / 追加生成 / 选中候选 → 09 整片一键后台批量提交
   -> 底部音频条：不再渲染，音频结果集中到右侧工作表
   -> 旧节点/深度素材面板：web/components/nodes/index.tsx、web/components/lightbox.tsx、web/components/storyboard-workbench.tsx（底层保留，当前不作为主入口）
@@ -971,11 +971,11 @@ ProductRefStateItem {
             <tr><td>上传视频</td><td><code>POST /jobs/upload</code></td><td><code>uploadJob</code></td><td>保存 source.mp4，然后同样进入下载完成状态；当前上传后也加入第一步队列，下载完成后自动解析音频。</td></tr>
             <tr><td>删除输入视频</td><td><code>DELETE /jobs/{id}</code></td><td><code>deleteJob</code></td><td>从任务队列、URL 和磁盘 <code>jobs/&lt;id&gt;</code> 目录移除整个 job，包括源视频、关键帧、元素提取图和生成视频。</td></tr>
             <tr><td>解析视频</td><td><code>POST /jobs/{id}/analyze?frames=&amp;target=&amp;mode=&amp;quality=</code></td><td><code>analyzeJob</code></td><td>抽参考帧能力。当前开始流程会在视频下载完成后自动调用一次，默认 <code>frames=12</code>、<code>target=motion</code>、<code>quality=accurate</code>、<code>mode=replace</code>，形成全局动作/节奏参考帧池；原版视频旁的“抽参考 12 帧”也会用同一参数显式重跑。<code>target</code> 仍支持透明骨架人、综合、清晰主体、转场变化、表情瞬间、动作峰值。</td></tr>
-            <tr><td>音频文案轨</td><td><code>POST /jobs/{id}/transcribe</code></td><td><code>triggerTranscribe</code></td><td>若尚未拆轨，先从 <code>source.mp4</code> 提取 <code>audio.wav</code> 并回填 <code>source_audio_url</code>；远端启用时把 <code>audio.wav</code> 上传到 <code>ASR_BASE_URL</code> 的 OpenAI Audio Transcriptions 兼容接口，用 <code>ASR_MODEL</code> 提取原始文案，并传 <code>ASR_LANGUAGE=en</code> 降低英文素材延迟。微软官方路径包括 <code>/openai/deployments/{deployment}/audio/transcriptions?api-version=...</code> 和 <code>/openai/v1/audio/transcriptions?api-version=preview</code>；当前 SKG 网关探测这些路径均未返回可用 ASR，<code>gpt-4o-transcribe</code> 返回 <code>DeploymentNotFound</code>。当前生产因此复制本地成功策略：<code>ASR_REMOTE_ENABLED=false</code>、<code>ASR_LOCAL_FALLBACK_ENABLED=true</code>，直接走容器内 CPU 版 <code>faster-whisper</code> 生成真实逐句时间轴；<code>ASR_AUDIO_FALLBACK_ENABLED=false</code>，避免 Gemini 多模态假字幕。后端会拒绝重复文本、逐秒假字幕或覆盖率过低的结果。中文翻译由 <code>TRANSLATE_MODEL</code> 按 ASR 段落补齐，失败时保留原文时间轴且中文可为空。再用 <code>ASR_FALLBACK_MODEL</code> 读取 <code>audio.wav</code> 和已有转写时间轴，多模态音频分析讲话人、语速节奏、停顿、背景音乐/环境声/音效，写入 <code>speaker_profile</code>、<code>rhythm_profile</code>、<code>background_audio_profile</code>；若模型分析失败，则用转写段落、时长和语速做本地估算兜底。当前第一步不默认生成 SKG 新口播和 Azure OpenAI 配音。</td></tr>
+            <tr><td>音频文案轨</td><td><code>POST /jobs/{id}/transcribe</code></td><td><code>triggerTranscribe</code></td><td>若尚未拆轨，先从 <code>source.mp4</code> 提取 <code>audio.wav</code> 并回填 <code>source_audio_url</code>；远端启用时把 <code>audio.wav</code> 上传到 <code>ASR_BASE_URL</code> 的 OpenAI Audio Transcriptions 兼容接口，用 <code>ASR_MODEL</code> 提取原始文案，并传 <code>ASR_LANGUAGE=en</code> 降低英文素材延迟。微软官方路径包括 <code>/openai/deployments/{deployment}/audio/transcriptions?api-version=...</code> 和 <code>/openai/v1/audio/transcriptions?api-version=preview</code>；当前 SKG 网关探测这些路径均未返回可用 ASR，<code>gpt-4o-transcribe</code> 返回 <code>DeploymentNotFound</code>。当前生产因此复制本地成功策略：<code>ASR_REMOTE_ENABLED=false</code>、<code>ASR_LOCAL_FALLBACK_ENABLED=true</code>，直接走容器内 CPU 版 <code>faster-whisper</code> 生成真实逐句时间轴；<code>ASR_AUDIO_FALLBACK_ENABLED=false</code>，避免 Gemini 多模态假字幕。后端会拒绝重复文本、逐秒假字幕或覆盖率过低的结果。中文翻译由 <code>TRANSLATE_MODEL</code> 按 ASR 段落补齐，失败时保留原文时间轴且中文可为空。再用 <code>ASR_FALLBACK_MODEL</code> 读取 <code>audio.wav</code> 和已有转写时间轴，多模态音频分析讲话人、语速节奏、停顿、背景音乐/环境声/音效，写入 <code>speaker_profile</code>、<code>rhythm_profile</code>、<code>background_audio_profile</code>；若模型分析失败，则用转写段落、时长和语速做本地估算兜底。当前第一步不默认生成 SKG 新口播和 Azure OpenAI 配音。失败后只要后台 worker 不在运行，就允许重新触发；前端也不再把失败状态下残留的半成品 transcript 当成音频完成。</td></tr>
             <tr><td>分镜脚本改写</td><td><code>POST /jobs/{id}/script/rewrite</code></td><td><code>rewriteStoryboardScript</code></td><td>根据原英文参考文案、当前英文新口播、英文 role enum、时间段和作者想法改写英文口播；作者想法若含中文，后端会先经 <code>_ensure_english</code> 兜底翻译。<code>mode=segment</code> 只改一段；<code>mode=all</code> 一次改完整片，要求整片前后连贯。后端按 <code>AUDIO_REWRITE_MODEL</code>、<code>ASR_FALLBACK_MODEL</code>、<code>TRANSLATE_MODEL</code> 依次尝试，全部失败时用英文本地模板保留可编辑文案。接口返回 <code>items[index,text,text_zh]</code>，其中 <code>text</code> 是写入模型链路的英文主值，<code>text_zh</code> 只供团队审稿镜像显示；点击保存规划后写入 <code>StoryboardScene.action</code>。</td></tr>
             <tr><td>原始音频文件</td><td><code>GET /jobs/{id}/audio.wav</code></td><td><code>sourceAudioUrl</code></td><td>返回拆轨得到的 wav；当前主界面不再渲染底部吸附音频条，右侧复刻工作表会读取该文件生成参考图式横向响度波形，并和原视频、逐句时间轴联动；波形标题栏显示当前播放秒数、总时长和鼠标指针停点秒数。</td></tr>
             <tr><td>改写配音文件</td><td><code>GET /jobs/{id}/audio-script.mp3</code></td><td><code>apiAssetUrl(job.audio_script.voice_url)</code></td><td>后续新配音阶段保留的 TTS 产物；服务端固定走 <code>VOICE_PROVIDER=azure_openai</code>，通过 <code>AZURE_OPENAI_BASE_URL</code> 的 OpenAI 协议生成 mp3，并按 <code>AZURE_TTS_PATHS</code> 依次尝试 <code>/audio/speech</code>、<code>/v1/audio/speech</code> 等路径。当前第一步不默认生成该文件。</td></tr>
-            <tr><td>手动加帧</td><td><code>POST /jobs/{id}/frames?t=</code></td><td><code>addManualFrame</code></td><td>按视频时间戳抽一帧，index 递增但 frames 按 timestamp 排序。当前主界面会把原版视频播放器的播放秒数传给 <code>AudioIntakePanel</code> 标题栏右侧的“当前点抽帧”。</td></tr>
+            <tr><td>手动加帧</td><td><code>POST /jobs/{id}/frames?t=</code></td><td><code>addManualFrame</code></td><td>按视频时间戳抽一帧，index 递增但 frames 按 timestamp 排序。当前主界面会把原版视频播放器的播放秒数传给 <code>AudioIntakePanel</code> 标题栏右侧的“当前点抽帧”；胶片缩略图双击或拖入参考帧池也调用同一接口，成功后胶片显示已添加。</td></tr>
             <tr><td>删除参考帧</td><td><code>DELETE /jobs/{id}/frames/{idx}</code></td><td><code>deleteFrame</code></td><td>删除单张抽帧参考帧并清掉对应选择态；当前主界面每张缩略图右下角提供删除入口，方便手动抽错后直接修正。接口返回状态消息必须称为“参考帧/关键帧”，不能写成“分镜”，避免和逐句 storyboard 行混淆。</td></tr>
             <tr><td>Vision 识别</td><td><code>POST /frames/{idx}/describe</code></td><td><code>describeFrame</code></td><td>写入 frame.description，后续可从 objects 加候选元素。</td></tr>
             <tr><td>清洗水印</td><td><code>POST /frames/{idx}/cleanup</code></td><td><code>cleanupFrame</code></td><td>支持全图和区域清洗，生成 cleaned 待应用版本；前端批量清洗会顺序调用该接口，不自动覆盖原图。单帧清洗状态按 frame.index 隔离，清洗某一张不会禁用其他关键帧的清洗按钮。</td></tr>
@@ -1109,6 +1109,18 @@ ProductRefStateItem {
         <h2>变更记录</h2>
         <p>这个记录不是 git log 的替代品。它记录“产品理解发生了什么变化、影响了哪些源码、你以后描述需求时该怎么说”。后续每次改功能都要补一条。</p>
         <div class="changelog">
+          <article class="change">
+            <header>
+              <h3>2026-05-19 · 胶片双击加帧和音频失败重试</h3>
+              <span class="tag violet">UI</span>
+              <span class="tag cyan">Workflow</span>
+            </header>
+            <div class="body">
+              <p><strong>问题：</strong>胶片只能拖入参考帧池，不能双击快速加入；回到同一素材时胶片会重新扫视频；音频解析失败后如果留下半成品 transcript 或 transcribing 状态，开始队列和解析按钮可能不再真正触发重试。</p>
+              <p><strong>改动：</strong><code>TimelineFilmstrip</code> 支持双击调用 <code>addManualFrame</code>，已加入的胶片显示“已添加”；胶片预览按 job、视频、密度和时长做内存缓存，未切换低/中/高时复用已有截图。<code>web/app/page.tsx</code> 用音频失败状态排除半成品结果，<code>api/main.py</code> 的 <code>trigger_transcribe</code> 只按实际 worker 和 <code>audio_script.status=rewriting</code> 判定忙碌，失败后可重新提交。</p>
+              <p><strong>影响：</strong>用户可以双击胶片快速选参考帧；返回素材或切回同密度时不重复扫视频；音频失败后可直接点击解析音频或开始分析重试。</p>
+            </div>
+          </article>
           <article class="change">
             <header>
               <h3>2026-05-19 · 优化参考帧池预览和多参考转换</h3>
@@ -1151,7 +1163,7 @@ ProductRefStateItem {
             </header>
             <div class="body">
               <p><strong>问题：</strong>用户通常只需要 1-2 张关键帧，但只靠自动抽帧或当前播放点补帧，浏览大量候选画面不够快，直接抽很多帧又会污染正式关键帧池。</p>
-              <p><strong>改动：</strong><code>AudioIntakePanel</code> 在 <code>AudioWaveform</code> 下方同框新增无标题 <code>TimelineFilmstrip</code>，前端从源视频临时截取低/中/高密度胶片缩略图，并按 <code>frame.time / duration</code> 的百分比定位到和波形一致的横向时间点；低/中/高密度按钮上移到波形上方，波形和胶片之间不再显示分隔横线，缩略图增加轻微上下错落。hover 时关闭额外弹出预览，改为在原胶片坐标生成固定顶层克隆，使用同一张胶片卡放大到约 4.8 倍，点击只跳转视频时间点，拖进 <code>SourceKeyframePicker</code> 参考帧池才调用现有手动抽帧入口。</p>
+              <p><strong>改动：</strong><code>AudioIntakePanel</code> 在 <code>AudioWaveform</code> 下方同框新增无标题 <code>TimelineFilmstrip</code>，前端从源视频临时截取低/中/高密度胶片缩略图，并按 <code>frame.time / duration</code> 的百分比定位到和波形一致的横向时间点；低/中/高密度按钮上移到波形上方，波形和胶片之间不再显示分隔横线，缩略图增加轻微上下错落。hover 时关闭额外弹出预览，改为在原胶片坐标生成固定顶层克隆，使用同一张胶片卡放大到约 4.8 倍；当前单击只跳转视频时间点，双击或拖进参考帧池才调用现有手动抽帧入口。</p>
               <p><strong>影响：</strong>临时胶片不会写入 <code>job.frames</code>，只有拖入后才成为正式关键帧；胶片轨道和波形共用同一个无标题框架，基线更贴近波形，并显示同一条当前播放线；胶片 hover 克隆挂到 <code>document.body</code>，避免被工作区、滚动容器或相邻面板裁切。后续如果要调摆放密度、倾斜角度、上下错落或放大倍率，改 <code>FILMSTRIP_DENSITIES</code>、<code>FILMSTRIP_TILT_CLASSES</code>、<code>FILMSTRIP_VERTICAL_OFFSET_CLASSES</code> 和 <code>FILMSTRIP_HOVER_SCALE</code>。</p>
             </div>
           </article>
diff --git a/web/app/page.tsx b/web/app/page.tsx
index 8b32bb6..05edae6 100644
--- a/web/app/page.tsx
+++ b/web/app/page.tsx
@@ -60,6 +60,11 @@ const DEFAULT_PRODUCT_LIBRARY_IDS = [
 ]
 const VIDEO_READY_STATUSES: Job["status"][] = ["downloaded", "frames_extracted", "transcribed", "failed"]
 
+function isAudioProcessing(job?: Job | null) {
+  if (!job) return false
+  return job.audio_script?.status === "rewriting" || (job.status === "transcribing" && job.audio_script?.status !== "failed")
+}
+
 const PRODUCT_FUSION_WEARING_PROMPT = [
   "Product placement must be physically correct:",
   "The SKG device is a rigid opaque white U-shaped neck massager, not a soft scarf, necklace, cable, collar, sticker, implant, or transparent body part.",
@@ -448,7 +453,7 @@ export default function Home() {
       if (!options?.silent) toast.info("视频导入完成后，可在音频卡片点击提取音频")
       return
     }
-    if (target.status === "transcribing" || target.audio_script?.status === "rewriting") {
+    if (isAudioProcessing(target)) {
       if (!options?.silent) toast.info("音频正在处理中")
       return
     }
@@ -466,8 +471,9 @@ export default function Home() {
     if (!videoReady) return
 
     const audioKey = `${target.id}:audio`
-    const hasAudioResult = !!target.audio_script?.source_text || target.transcript.length > 0
-    const audioRunning = target.status === "transcribing" || target.audio_script?.status === "rewriting"
+    const audioFailed = target.audio_script?.status === "failed"
+    const hasAudioResult = !audioFailed && (!!target.audio_script?.source_text || target.transcript.length > 0)
+    const audioRunning = isAudioProcessing(target)
     if (!hasAudioResult && !audioRunning && !autoTriggeredRef.current.has(audioKey)) {
       autoTriggeredRef.current.add(audioKey)
       try {
diff --git a/web/components/ad-recreation-board.tsx b/web/components/ad-recreation-board.tsx
index ddeff80..4ab2287 100644
--- a/web/components/ad-recreation-board.tsx
+++ b/web/components/ad-recreation-board.tsx
@@ -139,6 +139,27 @@ const FILMSTRIP_DENSITIES: Array<{ value: FilmstripDensitySeconds; label: string
 const FILMSTRIP_TILT_CLASSES = ["-rotate-[8deg]", "-rotate-[6deg]", "-rotate-[9deg]"]
 const FILMSTRIP_VERTICAL_OFFSET_CLASSES = ["translate-y-0", "translate-y-2", "-translate-y-1.5", "translate-y-1", "-translate-y-2"]
 const FILMSTRIP_HOVER_SCALE = 4.8
+const FILMSTRIP_CACHE_LIMIT = 8
+const filmstripPreviewCache = new Map<string, FilmstripPreviewFrame[]>()
+
+function filmstripCacheKey(jobId: string, videoUrl: string, density: FilmstripDensitySeconds, duration: number) {
+  return `${jobId}:${videoUrl}:${density}:${Math.round(duration * 10) / 10}`
+}
+
+function rememberFilmstripPreview(key: string, frames: FilmstripPreviewFrame[]) {
+  filmstripPreviewCache.delete(key)
+  filmstripPreviewCache.set(key, frames)
+  while (filmstripPreviewCache.size > FILMSTRIP_CACHE_LIMIT) {
+    const oldest = filmstripPreviewCache.keys().next().value
+    if (!oldest) break
+    filmstripPreviewCache.delete(oldest)
+  }
+}
+
+function isAudioProcessing(job?: Job | null) {
+  if (!job) return false
+  return job.audio_script?.status === "rewriting" || (job.status === "transcribing" && job.audio_script?.status !== "failed")
+}
 
 type AudioStoryboardRow = {
   index: number
@@ -1910,7 +1931,7 @@ export function AdRecreationBoard({
   const readySegments = countReadySegments(job, draftSegments)
   const transcriptCount = job?.transcript.length ?? 0
   const backgroundReady = !!job?.audio_script?.background_audio_profile?.trim()
-  const audioRunning = job?.status === "transcribing" || job?.audio_script?.status === "rewriting"
+  const audioRunning = isAudioProcessing(job)
   const visualRunning = job?.status === "splitting"
   const visualReady = (job?.frames.length ?? 0) > 0
   const subjectAssetCount = countSubjectAssetViews(job)
@@ -2393,7 +2414,7 @@ function AudioIntakePanel({
   const syncFrameRef = useRef<number | null>(null)
   const audioSrcUrl = job ? apiAssetUrl(job.source_audio_url) || sourceAudioUrl(job.id) : ""
   const videoSrcUrl = job ? apiAssetUrl(job.video_url) || videoUrl(job.id) : ""
-  const processing = !!job && (job.status === "transcribing" || job.audio_script?.status === "rewriting")
+  const processing = isAudioProcessing(job)
   const timelineDuration = useMemo(() => {
     if (!job) return 1
     const lastTranscriptEnd = job.transcript.reduce((max, segment) => Math.max(max, segment.end || 0), 0)
@@ -2449,12 +2470,20 @@ function AudioIntakePanel({
       setFilmstripStatus("idle")
       return
     }
+    const cacheKey = filmstripCacheKey(job.id, videoSrcUrl, filmstripDensity, timelineDuration)
+    const cached = filmstripPreviewCache.get(cacheKey)
+    if (cached) {
+      setFilmstripPreviews(cached)
+      setFilmstripStatus(cached.length ? "ready" : "idle")
+      return
+    }
     let cancelled = false
     setFilmstripPreviews([])
     setFilmstripStatus("loading")
     captureVideoFilmstrip(videoSrcUrl, timelineDuration, filmstripDensity, () => cancelled)
       .then((frames) => {
         if (!cancelled) {
+          rememberFilmstripPreview(cacheKey, frames)
           setFilmstripPreviews(frames)
           setFilmstripStatus(frames.length ? "ready" : "idle")
         }
@@ -2655,6 +2684,7 @@ function AudioIntakePanel({
                   selectedTimes={frames.map((frame) => frame.timestamp)}
                   busyTime={filmstripBusyTime}
                   onSeek={seekTo}
+                  onAddFrame={(time) => void addFilmstripFrame(time)}
                   onDragStart={setFilmstripDragTime}
                   onDragEnd={() => setFilmstripDragTime(null)}
                 />
@@ -2750,6 +2780,7 @@ function TimelineFilmstrip({
   selectedTimes,
   busyTime,
   onSeek,
+  onAddFrame,
   onDragStart,
   onDragEnd,
 }: {
@@ -2762,6 +2793,7 @@ function TimelineFilmstrip({
   selectedTimes: number[]
   busyTime: number | null
   onSeek: (time: number) => void
+  onAddFrame: (time: number) => void
   onDragStart: (time: number) => void
   onDragEnd: () => void
 }) {
@@ -2838,6 +2870,10 @@ function TimelineFilmstrip({
                   onMouseEnter={(event) => showHoverPreview(event, frame, active, selected, busy)}
                   onMouseMove={(event) => showHoverPreview(event, frame, active, selected, busy)}
                   onMouseLeave={() => setHoverPreview(null)}
+                  onDoubleClick={(event) => {
+                    event.preventDefault()
+                    if (!busy) onAddFrame(frame.time)
+                  }}
                   onDragStart={(event) => {
                     setHoverPreview(null)
                     event.dataTransfer.setData(FILMSTRIP_DRAG_TYPE, frame.time.toFixed(2))
@@ -2864,9 +2900,10 @@ function TimelineFilmstrip({
                       disablePreview
                       selected={selected}
                       onClick={() => onSeek(frame.time)}
-                      title="点击跳到该时间点，拖入关键帧库才正式选取"
+                      title="单击跳到该时间点，双击或拖入参考帧池才正式选取"
+                      topLeft={selected ? <span className="rounded bg-emerald-500/85 px-1 text-[8.5px] font-semibold text-black">已添加</span> : undefined}
                       topRight={busy ? <Loader2 className="h-3 w-3 animate-spin text-cyan-100" /> : selected ? <Check className="h-3 w-3 text-emerald-200" /> : undefined}
-                      bottom={<span className="block rounded bg-black/74 px-1 py-0.5 text-center font-mono text-[9px] text-white/68">{frame.time.toFixed(1)}s</span>}
+                      bottom={<span className={`block rounded px-1 py-0.5 text-center font-mono text-[9px] ${selected ? "bg-emerald-400/82 text-black" : "bg-black/74 text-white/68"}`}>{selected ? "已添加" : `${frame.time.toFixed(1)}s`}</span>}
                     />
                   </div>
                 </div>
@@ -2906,8 +2943,9 @@ function TimelineFilmstrip({
                 objectFit="contain"
                 disablePreview
                 selected={hoverPreview.selected}
+                topLeft={hoverPreview.selected ? <span className="rounded-md bg-emerald-500/88 px-2 py-1 text-[22px] font-semibold leading-none text-black">已添加</span> : undefined}
                 topRight={hoverPreview.busy ? <Loader2 className="h-6 w-6 animate-spin text-cyan-100" /> : hoverPreview.selected ? <Check className="h-6 w-6 text-emerald-200" /> : undefined}
-                bottom={<span className="block rounded-md bg-black/74 px-2 py-1 text-center font-mono text-[42px] leading-none text-white/68">{hoverPreview.time.toFixed(1)}s</span>}
+                bottom={<span className={`block rounded-md px-2 py-1 text-center font-mono text-[42px] leading-none ${hoverPreview.selected ? "bg-emerald-400/86 text-black" : "bg-black/74 text-white/68"}`}>{hoverPreview.selected ? `已添加 · ${hoverPreview.time.toFixed(1)}s` : `${hoverPreview.time.toFixed(1)}s`}</span>}
               />
             </div>,
             document.body,