auto-save 2026-05-14 12:26 (~4)

2026-05-14 12:26:29 +08:00
parent df6f0c3bc4
commit 9ac5f843be
4 changed files with 39 additions and 40 deletions
--- a/.memory/worklog.json
+++ b/.memory/worklog.json
@@ -1,19 +1,5 @@
 {
  "entries": [
-    {
-      "files_changed": 1,
-      "hash": "7665d63",
-      "message": "auto-save 2026-05-13 05:22 (~1)",
-      "ts": "2026-05-13T05:22:43+08:00",
-      "type": "commit"
-    },
-    {
-      "files_changed": 1,
-      "hash": "245c104",
-      "message": "auto-save 2026-05-13 05:28 (~1)",
-      "ts": "2026-05-13T05:28:37+08:00",
-      "type": "commit"
-    },
    {
      "files_changed": 1,
      "hash": "e56631f",
@@ -3291,6 +3277,19 @@
      "type": "session-heartbeat",
      "message": "Codex 会话活跃 · 最近命令：codex · 3 项未提交变更 · 最近提交：auto-save 2026-05-14 12:15 (~2)",
      "files_changed": 3
+    },
+    {
+      "ts": "2026-05-14T12:20:57+08:00",
+      "type": "commit",
+      "message": "auto-save 2026-05-14 12:20 (~4)",
+      "hash": "df6f0c3",
+      "files_changed": 4
+    },
+    {
+      "ts": "2026-05-14T04:26:11Z",
+      "type": "session-heartbeat",
+      "message": "Codex 会话活跃 · 最近命令：codex · 4 项未提交变更 · 最近提交：auto-save 2026-05-14 12:20 (~4)",
+      "files_changed": 4
    }
  ]
 }
--- a/RULES.md
+++ b/RULES.md
@@ -37,10 +37,10 @@
 - `ASR_FALLBACK_MODEL`：当当前网关没有 `/audio/transcriptions` 时，用 Gemini 多模态 chat 直接识别 wav，默认 `gemini-2.5-flash`
 - `TRANSLATE_MODEL`：字幕翻译模型，默认 `gemini-2.5-flash`
 - `REWRITE_MODEL`：通用改写/分镜描述模型，默认 `gemini-2.5-pro`
- `AUDIO_REWRITE_MODEL`：音频口播改写模型，默认跟随 `REWRITE_MODEL`
+- `AUDIO_REWRITE_MODEL`：音频口播改写模型，默认跟随 `REWRITE_MODEL`；当前产物要求输出英文 SKG voice-over
 - `AUDIO_PRODUCT_BRIEF`：音频口播改写时注入的 SKG 产品卖点
 - `MINIMAX_API_KEY`：MiniMax T2A 配音 Key，只能放本地 `api/.env`，不能入库
- `MINIMAX_TTS_BASE_URL` / `MINIMAX_TTS_MODEL` / `MINIMAX_TTS_VOICE_ID`：MiniMax 配音端点、模型和音色配置
+- `MINIMAX_TTS_BASE_URL` / `MINIMAX_TTS_MODEL` / `MINIMAX_TTS_VOICE_ID`：MiniMax 配音端点、模型和音色配置；当前默认英文音色 `English_expressive_narrator`
 - `POE_API_KEY` / `VIDEO_API_KEY`：视频生成通道 Key，只能放本地环境变量

 ## 规则
--- a/api/README.md
+++ b/api/README.md
@@ -1,6 +1,6 @@
 # SKG TK 二创 API

-FastAPI 后端，跑 yt-dlp + ffmpeg + ASR/翻译/文案改写 + MiniMax 配音管线。
+FastAPI 后端，跑 yt-dlp + ffmpeg + ASR/翻译/英文 SKG 文案改写 + MiniMax 英文配音管线。

 ## 启动

@@ -19,11 +19,11 @@ uvicorn main:app --host 127.0.0.1 --port 4291

 - `GET  /health` — 健康检查 + 配置状态
 - `POST /jobs` `{url}` — 创建 job，后台下载源视频，视频就绪后可手动解析或提取音频
- `GET  /jobs/{id}` — 当前状态 + 产物
- `POST /jobs/{id}/transcribe` — 触发音频提取 + ASR + 翻译 + SKG 文案改写；配置 MiniMax 后生成配音。前端 Audio 节点提供“提取音频 / 重新提取音频”按钮，可与抽帧并行，不自动触发
+- `GET  /jobs/{id}` — 当前状态 + 产物；若原始音轨已拆出，会返回 `source_audio_url`
+- `POST /jobs/{id}/transcribe` — 触发音频提取 + ASR + 翻译 + SKG 英文文案改写；配置 MiniMax 后生成英文配音。前端 Audio 节点提供“提取音频 / 重新提取音频”按钮，可与抽帧并行，不自动触发
 - `GET  /jobs/{id}/video.mp4` — 原视频
 - `GET  /jobs/{id}/audio.wav` — 拆轨后的原始音频，供前端底部音频条生成波形
- `GET  /jobs/{id}/audio-script.mp3` — 改写文案的 MiniMax 配音
+- `GET  /jobs/{id}/audio-script.mp3` — 英文改写文案的 MiniMax 配音
 - `GET  /jobs/{id}/frames/{i}.jpg` — 第 i 张关键帧（0-9）

 ## Mock 模式
@@ -35,4 +35,4 @@ uvicorn main:app --host 127.0.0.1 --port 4291
 - `ffmpeg` 系统二进制（拆轨 / 抽帧）
 - `yt-dlp` 系统二进制（也可走 Python 包）
 - OpenAI 兼容 LLM 网关（ASR / 翻译 / 文案改写）；如果 `/audio/transcriptions` 不可用，会用 `ASR_FALLBACK_MODEL` 走 Gemini 多模态音频识别
- MiniMax T2A HTTP（改写文案配音，使用 `MINIMAX_API_KEY`）
+- MiniMax T2A HTTP（英文改写文案配音，使用 `MINIMAX_API_KEY`；默认音色 `English_expressive_narrator`）
--- a/docs/source-analysis.html
+++ b/docs/source-analysis.html
@@ -558,7 +558,7 @@
          <div class="step"><div class="num">5</div><h3>素材准备</h3><p>清洗关键帧，把多张关键帧作为同一主体的参考，先重绘六张标准站立主体资产图，再按关键帧生成多个去主体、相似或换风格场景图。</p></div>
          <div class="step"><div class="num">6</div><h3>分镜改造</h3><p>把参考主体、场景、动作和 SKG 产品放入分镜结构；产品融合使用纵向 6 行镜头工作表，每行绑定产品图、白底人物图、产品区域、场景图、描述词、秒数和单条生成入口。</p></div>
          <div class="step"><div class="num">7</div><h3>生成视频</h3><p>普通分镜可调用 Seedance / Kling / Veo 3；产品融合固定用 GPT Image 2 生成位置引导图，再用 Seedance 按秒数生成视频，结果回写到画面工作台节点。</p></div>
-          <div class="step"><div class="num">8</div><h3>声音文案</h3><p>音频轨独立处理：ASR 提取原始文案、翻译成中文、接 SKG 产品卖点改写成口播稿；配置 MiniMax 后直接生成配音 mp3。</p></div>
+          <div class="step"><div class="num">8</div><h3>声音文案</h3><p>音频轨独立处理：ASR 提取原始英文文案、翻译成中文对照、接 SKG 产品卖点改写成英文 voice-over；配置 MiniMax 后直接生成英文配音 mp3。底部音频条播放原音频时，指针会按时间走过字幕节点。</p></div>
          <div class="step"><div class="num">9</div><h3>合成成品</h3><p>片段、字幕、配音、转场合成最终 mp4。当前未实现。</p></div>
        </div>
      </section>
@@ -572,7 +572,7 @@
              <tbody>
                <tr><td><code>web/app/page.tsx</code></td><td>产品工作台主状态：jobs、activeJobId、按 job 隔离的 selectedFrames/详情面板状态、clipboard、ReactFlow 节点和边；负责打开/找回画布工作面板。</td></tr>
                <tr><td><code>web/components/nodes/index.tsx</code></td><td>DAG 节点定义：Input、VisualLab、Audio、Compose，以及画布工作面板 KeyframePanel / VideoFramePanel；旧 Keyframe/Storyboard/VideoGen 组件保留但不再挂主画布。</td></tr>
-                <tr><td><code>web/components/audio-strip.tsx</code></td><td>底部吸附音频条：可拖拽调整高度；按时间段展示英文、中文翻译和音频波形，并在右侧固定显示 SKG 改写稿和 MiniMax 配音。</td></tr>
+                <tr><td><code>web/components/audio-strip.tsx</code></td><td>底部吸附音频条：可拖拽调整高度；播放原音频时移动指针，逐个高亮英文/中文字幕节点和对应波形，并在右侧固定显示 SKG 英文改写稿和 MiniMax 英文配音。</td></tr>
                <tr><td><code>web/components/lightbox.tsx</code></td><td>关键帧素材准备面板：清洗、统一主体候选、参考帧网格、六张主体重绘图、每帧去主体场景图、纵向 6 行产品融合镜头工作表和审核。</td></tr>
                <tr><td><code>web/components/product-library-picker.tsx</code></td><td>SKG 内置白底产品图库选择器：搜索、品类筛选、预览尺寸，并把库内图片复制为当前 job 的 <code>asset</code>。</td></tr>
                <tr><td><code>web/components/storyboard-bar.tsx</code></td><td>顶部分镜编排条：展示选入编排的关键帧，并作为唯一分镜导航。</td></tr>
@@ -585,7 +585,7 @@
            <h3>后端核心</h3>
            <table>
              <tbody>
-                <tr><td><code>api/main.py</code></td><td>FastAPI 单文件后端：状态模型、任务恢复、下载、抽帧、Vision、清洗、元素、分镜、音频文案改写、MiniMax 配音、文件返回。</td></tr>
+                <tr><td><code>api/main.py</code></td><td>FastAPI 单文件后端：状态模型、任务恢复、下载、抽帧、Vision、清洗、元素、分镜、音频文案改写、MiniMax 英文配音、文件返回。</td></tr>
                <tr><td><code>api/product_library/skg-products</code></td><td>内置 SKG 白底产品图库：<code>manifest.json</code> 记录从桌面产品图筛出的 gallery 白底图和桌面 4 张产品角度图，<code>images/</code> 存 45 张参考图。</td></tr>
                <tr><td><code>jobs/&lt;jobId&gt;/state.json</code></td><td>运行时状态文件，不在源码列表里，但刷新恢复依赖它。</td></tr>
                <tr><td><code>jobs/&lt;jobId&gt;/audio.wav</code></td><td>拆轨得到的原始音频，底部 Audio Strip 会通过只读接口拉取并在浏览器里解码成波形峰值。</td></tr>
@@ -601,7 +601,7 @@
 web/app/page.tsx
  -> ReactFlow 节点：web/components/nodes/index.tsx
  -> 主画布：Input → VisualLab / Audio → Compose
-  -> 底部音频条：web/components/audio-strip.tsx（英文 / 中文 / 波形 / 改写稿）
+  -> 底部音频条：web/components/audio-strip.tsx（原音频播放 / 指针 / 英文 / 中文 / 波形 / 英文改写稿）
  -> 画布内视频抽帧面板：InputNode 单击视频缩略图打开 videoFramePanel
  -> 画布内镜头拆解面板：VisualLabNode 打开 keyframePanel，内嵌 web/components/lightbox.tsx
  -> 分镜工作台：web/components/storyboard-workbench.tsx（底层保留）
@@ -610,7 +610,7 @@ web/app/page.tsx
 后端主链路：
 api/main.py
  -> Job / KeyFrame / KeyElement / StoryboardScene / AudioScript
-  -> 下载 / 上传 / 抽帧 / Vision / 清洗 / 元素提取 / 分镜保存 / 音频文案改写 / MiniMax 配音
+  -> 下载 / 上传 / 抽帧 / Vision / 清洗 / 元素提取 / 分镜保存 / 音频文案改写 / MiniMax 英文配音
  -> jobs/&lt;jobId&gt;/state.json + 图片文件落盘</pre>
      </section>

@@ -648,7 +648,7 @@ api/main.py
            <p>一个视频任务。前端维护多个 <code>jobs[]</code>，当前激活的是 <code>activeJobId</code>。URL 查询参数会持久化多个 job。</p>
            <pre>Job {
  id, url, status, progress, message,
-  video_url, duration, width, height,
+  video_url, source_audio_url, duration, width, height,
  frames: KeyFrame[],
  transcript: TranscriptSegment[],
  audio_script: AudioScript,
@@ -701,7 +701,7 @@ api/main.py
          </div>
          <div class="card">
            <h3>AudioScript</h3>
-            <p>音频文案轨的结构化产物。<code>pipeline_transcribe</code> 在 ASR 和翻译后写入：先生成 SKG 口播改写稿，再用 MiniMax T2A 生成配音文件。</p>
+            <p>音频文案轨的结构化产物。<code>pipeline_transcribe</code> 在 ASR 和翻译后写入：先生成 SKG 英文 voice-over 改写稿，再用 MiniMax T2A 生成英文配音文件。</p>
            <pre>AudioScript {
  status: idle | rewriting | completed | failed,
  source_text,
@@ -791,9 +791,9 @@ SubjectAsset {
            <tr><td>上传视频</td><td><code>POST /jobs/upload</code></td><td><code>uploadJob</code></td><td>保存 source.mp4，然后同样进入下载完成状态。</td></tr>
            <tr><td>删除输入视频</td><td><code>DELETE /jobs/{id}</code></td><td><code>deleteJob</code></td><td>从任务队列、URL 和磁盘 <code>jobs/&lt;id&gt;</code> 目录移除整个 job，包括源视频、关键帧、元素提取图和生成视频。</td></tr>
            <tr><td>解析视频</td><td><code>POST /jobs/{id}/analyze?frames=&amp;target=&amp;mode=&amp;quality=</code></td><td><code>analyzeJob</code></td><td>拆轨 + 目标化抽关键帧。默认 <code>frames=12</code>；<code>target</code> 支持透明骨架人、综合、清晰主体、转场变化、表情瞬间、动作峰值；当前 UI 默认 <code>transparent_human</code>。透明骨架人目标现在只走本地清晰度、中心主体、对比度、画面变化和 pHash 去重，不在抽帧阶段逐帧调用 Vision；<code>mode=append</code> 追加新关键帧；<code>quality=auto</code> 为展示友好档，最高只自动选择精细，不会自动上极准；极准保留为手动选择。抽帧开始时同步拆出 <code>audio.wav</code> 并启动音频处理线程。多个抽帧请求进入后端队列顺序处理。</td></tr>
-            <tr><td>音频文案轨</td><td><code>POST /jobs/{id}/transcribe</code></td><td><code>triggerTranscribe</code></td><td>若尚未拆轨，先从 <code>source.mp4</code> 提取 <code>audio.wav</code>；随后 ASR 得到英文时间戳段落，再翻译中文，并按 <code>AUDIO_PRODUCT_BRIEF</code> 生成 <code>audio_script.rewritten_text</code>；配置 <code>MINIMAX_API_KEY</code> 后调用 MiniMax T2A 生成 <code>audio_script.voice_url</code>。前端不自动触发，用户在 Audio 节点点击“提取音频 / 重新提取音频”即可启动；抽帧中也允许并行触发，忙碌态由 <code>audio_script.status</code> 管理。</td></tr>
-            <tr><td>原始音频文件</td><td><code>GET /jobs/{id}/audio.wav</code></td><td><code>sourceAudioUrl</code></td><td>返回拆轨得到的 wav；底部 <code>AudioStrip</code> 拉取该文件，用 Web Audio API 解码并计算波形峰值，只读展示，不参与改写。</td></tr>
-            <tr><td>改写配音文件</td><td><code>GET /jobs/{id}/audio-script.mp3</code></td><td><code>apiAssetUrl(job.audio_script.voice_url)</code></td><td>返回 MiniMax T2A 生成的 mp3。没有配置 MiniMax 或生成失败时该文件不存在，但改写文案仍会保存在 <code>audio_script.rewritten_text</code>。</td></tr>
+            <tr><td>音频文案轨</td><td><code>POST /jobs/{id}/transcribe</code></td><td><code>triggerTranscribe</code></td><td>若尚未拆轨，先从 <code>source.mp4</code> 提取 <code>audio.wav</code> 并回填 <code>source_audio_url</code>；随后 ASR 得到英文时间戳段落，再翻译中文，并按 <code>AUDIO_PRODUCT_BRIEF</code> 生成英文 <code>audio_script.rewritten_text</code>；配置 <code>MINIMAX_API_KEY</code> 后调用 MiniMax T2A 生成英文 <code>audio_script.voice_url</code>。前端不自动触发，用户在 Audio 节点点击“提取音频 / 重新提取音频”即可启动并立即打开底部音频条；抽帧中也允许并行触发，忙碌态由 <code>audio_script.status</code> 管理。</td></tr>
+            <tr><td>原始音频文件</td><td><code>GET /jobs/{id}/audio.wav</code></td><td><code>sourceAudioUrl</code></td><td>返回拆轨得到的 wav；底部 <code>AudioStrip</code> 拉取该文件，用 Web Audio API 解码并计算波形峰值。原音频播放器驱动时间轴，播放时全局指针和当前字幕节点内指针同步移动。</td></tr>
+            <tr><td>改写配音文件</td><td><code>GET /jobs/{id}/audio-script.mp3</code></td><td><code>apiAssetUrl(job.audio_script.voice_url)</code></td><td>返回 MiniMax T2A 生成的英文 mp3。没有配置 MiniMax 或生成失败时该文件不存在，但英文改写文案仍会保存在 <code>audio_script.rewritten_text</code>。</td></tr>
            <tr><td>手动加帧</td><td><code>POST /jobs/{id}/frames?t=</code></td><td><code>addManualFrame</code></td><td>按视频时间戳抽一帧，index 递增但 frames 按 timestamp 排序。</td></tr>
            <tr><td>Vision 识别</td><td><code>POST /frames/{idx}/describe</code></td><td><code>describeFrame</code></td><td>写入 frame.description，后续可从 objects 加候选元素。</td></tr>
            <tr><td>清洗水印</td><td><code>POST /frames/{idx}/cleanup</code></td><td><code>cleanupFrame</code></td><td>支持全图和区域清洗，生成 cleaned 待应用版本；前端批量清洗会顺序调用该接口，不自动覆盖原图。单帧清洗状态按 frame.index 隔离，清洗某一张不会禁用其他关键帧的清洗按钮。</td></tr>
@@ -840,7 +840,7 @@ SubjectAsset {
            </tr>
            <tr>
              <td><span class="tag gray">Audio / ASR / Rewrite</span></td>
-              <td>独立声音文案轨：从 <code>source.mp4</code> 直接提取 <code>audio.wav</code>，再提取原始口播、翻译中文、改写成 SKG 产品语境口播；MiniMax T2A 配置后生成配音 mp3。不再等待抽帧完成，用户在主画布 <code>AudioNode</code> 手动点击“提取音频 / 重新提取音频”启动；即使视觉抽帧正在进行，也通过 <code>audio_script.status</code> 并行管理音频忙碌态。<code>AudioNode</code> 用“改前 · 原音频 / 改后 · SKG 口播”摘要展示；底部 <code>AudioStrip</code> 吸附屏幕底端，可拖拽调整高度，按时间段展示英文、中文翻译和波形；侧栏 Rewrite 展开后显示完整审核视图。</td>
+              <td>独立声音文案轨：从 <code>source.mp4</code> 直接提取 <code>audio.wav</code>，再提取原始口播、翻译中文、改写成 SKG 产品语境英文 voice-over；MiniMax T2A 配置后生成英文配音 mp3。不再等待抽帧完成，用户在主画布 <code>AudioNode</code> 点击卡片或“提取音频 / 重新提取音频”即可打开底部音频条并启动；即使视觉抽帧正在进行，也通过 <code>audio_script.status</code> 并行管理音频忙碌态。<code>AudioNode</code> 用“改前 · 原音频 / 改后 · SKG English VO”摘要展示；底部 <code>AudioStrip</code> 吸附屏幕底端，可拖拽调整高度，按时间段展示英文、中文翻译和波形；原音频播放时指针同步穿过字幕节点，右侧显示英文改写稿和 MiniMax 英文配音。</td>
              <td>不要阻断视觉素材管线。</td>
              <td><code>AudioNode</code>、<code>AudioStrip</code>、<code>ASRNode</code>、<code>TranslateNode</code>、<code>RewriteNode</code>、<code>pipeline_transcribe</code>、<code>AudioScript</code></td>
            </tr>
@@ -867,7 +867,7 @@ SubjectAsset {
              <li>Vision 识别关键帧，输出 scene、objects、style、suggested_prompt，并作为主体候选来源。</li>
              <li>主体候选确认、改名、删除和主体资产包生成。</li>
              <li>分镜工作台 4 图槽和改造说明自动保存。</li>
-              <li>音频文案轨：ASR/翻译后自动生成 SKG 口播改写稿；配置 MiniMax 后生成配音 mp3。</li>
+              <li>音频文案轨：ASR/翻译后自动生成 SKG 英文口播改写稿；配置 MiniMax 后生成英文配音 mp3。底部音频条可播放原音频并用指针逐段对齐字幕节点。</li>
              <li>nano-banana-pro image-to-image 生图。</li>
            </ul>
          </div>
@@ -875,7 +875,7 @@ SubjectAsset {
            <h3>阻塞 / 占位</h3>
            <ul>
              <li>ASR：优先走当前 OpenAI-compatible 音频转写入口；如果该网关没有 <code>/audio/transcriptions</code>，自动 fallback 到 <code>ASR_FALLBACK_MODEL</code>（默认 <code>gemini-2.5-flash</code>）的多模态音频识别。</li>
-              <li>MiniMax：当前接入的是官方 T2A 配音能力，不是 ASR；API Key 只能放本地环境变量，不能写入仓库。</li>
+              <li>MiniMax：当前接入的是官方 T2A 英文配音能力，不是 ASR；API Key 只能放本地环境变量，不能写入仓库。</li>
              <li>Audio Product Brief：默认是通用 SKG 放松产品卖点，后续可改成跟已选产品库条目联动。</li>
              <li>Video Gen：模型层按业务保留 Seedance / Kling / Veo/Voe 选择；后端已支持 Poe、火山方舟和 SKG 豆包视频网关。Seedance 可通过 <code>VIDEO_API_BASE_URL=https://ai.skg.com/doubao</code> 走 content JSON 异步任务，提交后写入 Video Gen 节点并轮询到完成。</li>
              <li>Compose：还没做本地 ffmpeg 字幕/TTS 合成。</li>
@@ -975,7 +975,7 @@ SubjectAsset {
            </header>
            <div class="body">
              <p><strong>问题：</strong>等待抽帧完成后自动启动音频，不符合“先把声音文案拿出来审核”的工作流；用户需要在音频卡片上直接触发。</p>
-              <p><strong>改动：</strong>移除前端抽帧完成后的自动转写逻辑；<code>AudioNode</code> 保留并固定显示“提取音频 / 重新提取音频”按钮。后端 <code>/transcribe</code> 不再要求 <code>frames_extracted</code>，视频就绪后可直接从 <code>source.mp4</code> 拆出 <code>audio.wav</code>，并继续 ASR、翻译、SKG 改写和 MiniMax 配音；抽帧中触发时不抢主状态，而是用 <code>audio_script.status</code> 表示音频处理中。当当前网关的 <code>whisper-1</code> audio endpoint 返回 404 时，会 fallback 到 Gemini 多模态音频识别；改写模型解析失败时使用本地 SKG 口播模板兜底，不再把可用文案标成前端错误。</p>
+              <p><strong>改动：</strong>移除前端抽帧完成后的自动转写逻辑；<code>AudioNode</code> 保留并固定显示“提取音频 / 重新提取音频”按钮，点击音频卡片也会立即打开底部音频条。后端 <code>/transcribe</code> 不再要求 <code>frames_extracted</code>，视频就绪后可直接从 <code>source.mp4</code> 拆出 <code>audio.wav</code>，并继续 ASR、翻译、SKG 英文改写和 MiniMax 英文配音；抽帧中触发时不抢主状态，而是用 <code>audio_script.status</code> 表示音频处理中。当当前网关的 <code>whisper-1</code> audio endpoint 返回 404 时，会 fallback 到 Gemini 多模态音频识别；改写模型解析失败时使用本地 SKG 英文口播模板兜底，不再把可用文案标成前端错误。</p>
              <p><strong>影响：</strong><code>web/app/page.tsx</code>、<code>web/components/nodes/index.tsx</code>、<code>api/main.py</code>、<code>docs/source-analysis.html</code>。</p>
            </div>
          </article>
@@ -987,7 +987,7 @@ SubjectAsset {
            </header>
            <div class="body">
              <p><strong>问题：</strong>音频和文案只在节点或侧栏里展示，审核时缺少“文字和声音时间轴对应”的空间；英文口播和中文翻译也没有上下对齐。</p>
-              <p><strong>改动：</strong>新增 <code>web/components/audio-strip.tsx</code>，在主工作台底部吸附显示，可拖拽调整高度、可收起。每个音频段按时间横向排列，上方显示英文，中间显示中文翻译，下方显示对应波形条；右侧显示改写后的 SKG 口播、MiniMax 配音和产品依据。后端新增 <code>GET /jobs/{id}/audio.wav</code> 只读接口，前端用 Web Audio API 解码生成波形峰值。</p>
+              <p><strong>改动：</strong>新增 <code>web/components/audio-strip.tsx</code>，在主工作台底部吸附显示，可拖拽调整高度、可收起。每个音频段按时间横向排列，上方显示英文，中间显示中文翻译，下方显示对应波形条；底部原音频播放器驱动时间轴，播放时绿色指针会沿全局波形移动，并在当前字幕节点内同步走过该段。右侧显示改写后的 SKG English VO、MiniMax 英文配音和产品依据。后端新增 <code>source_audio_url</code> 和 <code>GET /jobs/{id}/audio.wav</code> 只读接口，前端用 Web Audio API 解码生成波形峰值。</p>
              <p><strong>影响：</strong><code>web/app/page.tsx</code>、<code>web/components/audio-strip.tsx</code>、<code>web/lib/api.ts</code>、<code>api/main.py</code>、<code>docs/source-analysis.html</code>。</p>
            </div>
          </article>
@@ -999,7 +999,7 @@ SubjectAsset {
            </header>
            <div class="body">
              <p><strong>问题：</strong>音频识别成功后只显示改写文案，用户看不到它和原音频之间的变化关系，难以判断“是不是把参考视频转成我们自己的话”。</p>
-              <p><strong>改动：</strong><code>AudioNode</code> 增加轻量对照摘要：改前显示原音频识别/翻译预览，改后显示 SKG 口播；侧栏 <code>Rewrite</code> 面板改为完整审核视图，先列原音频逐段 ASR/翻译，再列改写稿、产品卖点依据和 MiniMax 配音播放器。</p>
+              <p><strong>改动：</strong><code>AudioNode</code> 增加轻量对照摘要：改前显示原音频识别/翻译预览，改后显示 SKG 英文口播；侧栏 <code>Rewrite</code> 面板改为完整审核视图，先列原音频逐段 ASR/翻译，再列英文改写稿、产品卖点依据和 MiniMax 英文配音播放器。</p>
              <p><strong>影响：</strong><code>web/components/nodes/index.tsx</code>、<code>web/components/dashboard.tsx</code>、<code>docs/source-analysis.html</code>。</p>
            </div>
          </article>
@@ -1042,13 +1042,13 @@ SubjectAsset {
          </article>
          <article class="change">
            <header>
-              <h3>2026-05-14 · 音频处理接入 SKG 口播改写与 MiniMax 配音</h3>
+              <h3>2026-05-14 · 音频处理接入 SKG 英文口播改写与 MiniMax 配音</h3>
              <span class="tag gray">Audio</span>
              <span class="tag green">MiniMax</span>
            </header>
            <div class="body">
-              <p><strong>问题：</strong>音频处理节点之前只说明“音轨 → ASR → 翻译 → 改写”，没有真实改写产物，也没有配音输出；用户无法直接拿到符合 SKG 产品语境的口播。</p>
-              <p><strong>改动：</strong><code>Job</code> 新增 <code>audio_script</code>，<code>pipeline_transcribe</code> 在 ASR 和翻译后生成 SKG 改写文案，并在配置 <code>MINIMAX_API_KEY</code> 时调用 MiniMax T2A 输出 <code>/jobs/{id}/audio-script.mp3</code>。前端 <code>AudioNode</code> 和侧栏 Rewrite 区显示模型链路、改写文案和配音播放器。</p>
+              <p><strong>问题：</strong>音频处理节点之前只说明“音轨 → ASR → 翻译 → 改写”，没有真实改写产物，也没有配音输出；用户无法直接拿到符合 SKG 产品语境的英文口播。</p>
+              <p><strong>改动：</strong><code>Job</code> 新增 <code>audio_script</code>，<code>pipeline_transcribe</code> 在 ASR 和翻译后生成 SKG 英文改写文案，并在配置 <code>MINIMAX_API_KEY</code> 时调用 MiniMax T2A 输出 <code>/jobs/{id}/audio-script.mp3</code>。前端 <code>AudioNode</code> 和侧栏 Rewrite 区显示模型链路、英文改写文案和配音播放器。</p>
              <p><strong>边界：</strong>MiniMax 官方 Speech API 当前接入的是 TTS 配音，不替代 ASR；原始音频文案提取仍走现有 OpenAI-compatible audio transcription 入口。</p>
              <p><strong>影响：</strong><code>api/main.py</code>、<code>api/.env.example</code>、<code>api/README.md</code>、<code>web/lib/api.ts</code>、<code>web/components/nodes/index.tsx</code>、<code>web/components/dashboard.tsx</code>、<code>web/app/page.tsx</code>、<code>docs/source-analysis.html</code>。</p>
            </div>