From 2d1a89f03ea4c12324333e823f70351738e23190 Mon Sep 17 00:00:00 2001
From: kang <wankang2050@gmail.com>
Date: Thu, 14 May 2026 12:43:03 +0800
Subject: [PATCH] auto-save 2026-05-14 12:42 (~9)

---
 .memory/worklog.json           |  27 ++++----
 RULES.md                       |   5 +-
 api/.env.example               |   1 +
 api/README.md                  |   6 +-
 api/main.py                    | 122 +++++++++++++++++++++++++--------
 docs/source-analysis.html      |  20 +++---
 web/components/audio-strip.tsx |   4 +-
 web/components/dashboard.tsx   |   6 +-
 web/components/nodes/index.tsx |   8 +--
 9 files changed, 132 insertions(+), 67 deletions(-)

diff --git a/.memory/worklog.json b/.memory/worklog.json
index 50d2070..aae3869 100644
--- a/.memory/worklog.json
+++ b/.memory/worklog.json
@@ -1,19 +1,5 @@
 {
   "entries": [
-    {
-      "files_changed": 1,
-      "hash": "4a9264a",
-      "message": "auto-save 2026-05-13 05:57 (~1)",
-      "ts": "2026-05-13T05:58:08+08:00",
-      "type": "commit"
-    },
-    {
-      "files_changed": 1,
-      "hash": "dc5f8d9",
-      "message": "auto-save 2026-05-13 06:03 (~1)",
-      "ts": "2026-05-13T06:04:03+08:00",
-      "type": "commit"
-    },
     {
       "files_changed": 1,
       "hash": "169951b",
@@ -3288,6 +3274,19 @@
       "type": "session-heartbeat",
       "message": "Codex 会话活跃 · 最近命令：codex · 6 项未提交变更 · 最近提交：auto-save 2026-05-14 12:31 (~2)",
       "files_changed": 6
+    },
+    {
+      "ts": "2026-05-14T12:37:30+08:00",
+      "type": "commit",
+      "message": "auto-save 2026-05-14 12:37 (~6)",
+      "hash": "3733151",
+      "files_changed": 6
+    },
+    {
+      "ts": "2026-05-14T04:38:39Z",
+      "type": "session-heartbeat",
+      "message": "Codex 会话活跃 · 最近命令：codex · 1 项未提交变更 · 最近提交：auto-save 2026-05-14 12:37 (~6)",
+      "files_changed": 1
     }
   ]
 }
diff --git a/RULES.md b/RULES.md
index ac821a0..c5baa22 100644
--- a/RULES.md
+++ b/RULES.md
@@ -37,10 +37,11 @@
 - `ASR_FALLBACK_MODEL`：当当前网关没有 `/audio/transcriptions` 时，用 Gemini 多模态 chat 直接识别 wav，默认 `gemini-2.5-flash`
 - `TRANSLATE_MODEL`：字幕翻译模型，默认 `gemini-2.5-flash`
 - `REWRITE_MODEL`：通用改写/分镜描述模型，默认 `gemini-2.5-pro`
-- `AUDIO_REWRITE_MODEL`：音频口播改写模型，默认跟随 `REWRITE_MODEL`；当前产物要求输出英文 SKG voice-over
+- `AUDIO_REWRITE_MODEL`：音频口播改写模型，默认跟随 `REWRITE_MODEL`；当前产物要求按原音频时长输出英文 SKG 产品介绍 voice-over
 - `AUDIO_PRODUCT_BRIEF`：音频口播改写时注入的 SKG 产品卖点
 - `MINIMAX_API_KEY`：MiniMax T2A 配音 Key，只能放本地 `api/.env`，不能入库
-- `MINIMAX_TTS_BASE_URL` / `MINIMAX_TTS_MODEL` / `MINIMAX_TTS_VOICE_ID`：MiniMax 配音端点、模型和音色配置；当前默认英文音色 `English_expressive_narrator`
+- `MINIMAX_TTS_BASE_URL` / `MINIMAX_TTS_MODEL` / `MINIMAX_TTS_VOICE_ID`：MiniMax 配音端点、模型和兜底音色配置
+- `MINIMAX_TTS_VOICE_POOL`：MiniMax 英文随机音色池；当前默认男声 `English_magnetic_voiced_man`、女声 `English_Upbeat_Woman`、成熟声 `English_MaturePartner`
 - `POE_API_KEY` / `VIDEO_API_KEY`：视频生成通道 Key，只能放本地环境变量
 
 ## 规则
diff --git a/api/.env.example b/api/.env.example
index 1ed17f6..a49662b 100644
--- a/api/.env.example
+++ b/api/.env.example
@@ -20,6 +20,7 @@ MINIMAX_API_KEY=
 MINIMAX_TTS_BASE_URL=https://api.minimax.io
 MINIMAX_TTS_MODEL=speech-2.8-turbo
 MINIMAX_TTS_VOICE_ID=English_expressive_narrator
+MINIMAX_TTS_VOICE_POOL=English_magnetic_voiced_man,English_Upbeat_Woman,English_MaturePartner
 
 # Poe 视频 API（优先用于 Seedance / Kling / Veo）
 POE_API_BASE_URL=https://api.poe.com/v1
diff --git a/api/README.md b/api/README.md
index b03cc8f..3390690 100644
--- a/api/README.md
+++ b/api/README.md
@@ -1,6 +1,6 @@
 # SKG TK 二创 API
 
-FastAPI 后端，跑 yt-dlp + ffmpeg + ASR/翻译/英文 SKG 文案改写 + MiniMax 英文配音管线。
+FastAPI 后端，跑 yt-dlp + ffmpeg + ASR/翻译/英文 SKG 产品介绍文案 + MiniMax 英文配音管线。
 
 ## 启动
 
@@ -20,7 +20,7 @@ uvicorn main:app --host 127.0.0.1 --port 4291
 - `GET  /health` — 健康检查 + 配置状态
 - `POST /jobs` `{url}` — 创建 job，后台下载源视频，视频就绪后可手动解析或提取音频
 - `GET  /jobs/{id}` — 当前状态 + 产物；若原始音轨已拆出，会返回 `source_audio_url`
-- `POST /jobs/{id}/transcribe` — 触发音频提取 + ASR + 翻译 + SKG 英文文案改写；配置 MiniMax 后生成英文配音。前端 Audio 节点提供“提取音频 / 重新提取音频”按钮，可与抽帧并行，不自动触发
+- `POST /jobs/{id}/transcribe` — 触发音频提取 + ASR + 翻译 + SKG 英文产品介绍文案；文案长度按原音频时长估算，配置 MiniMax 后从英文随机音色池生成配音。前端 Audio 节点提供“提取音频 / 重新提取音频”按钮，可与抽帧并行，不自动触发
 - `GET  /jobs/{id}/video.mp4` — 原视频
 - `GET  /jobs/{id}/audio.wav` — 拆轨后的原始音频，供前端底部音频条生成波形
 - `GET  /jobs/{id}/audio-script.mp3` — 英文改写文案的 MiniMax 配音
@@ -35,4 +35,4 @@ uvicorn main:app --host 127.0.0.1 --port 4291
 - `ffmpeg` 系统二进制（拆轨 / 抽帧）
 - `yt-dlp` 系统二进制（也可走 Python 包）
 - OpenAI 兼容 LLM 网关（ASR / 翻译 / 文案改写）；如果 `/audio/transcriptions` 不可用，会用 `ASR_FALLBACK_MODEL` 走 Gemini 多模态音频识别
-- MiniMax T2A HTTP（英文改写文案配音，使用 `MINIMAX_API_KEY`；默认音色 `English_expressive_narrator`）
+- MiniMax T2A HTTP（英文产品介绍文案配音，使用 `MINIMAX_API_KEY`；默认随机音色池 `English_magnetic_voiced_man,English_Upbeat_Woman,English_MaturePartner`）
diff --git a/api/main.py b/api/main.py
index 0d81386..f859fae 100644
--- a/api/main.py
+++ b/api/main.py
@@ -4,6 +4,7 @@ import asyncio
 import base64
 import json
 import os
+import random
 import shutil
 import subprocess
 import threading
@@ -51,6 +52,16 @@ MINIMAX_TTS_VOICE_ID = os.getenv(
     "MINIMAX_TTS_VOICE_ID",
     "English_expressive_narrator",
 ).strip() or "English_expressive_narrator"
+DEFAULT_MINIMAX_TTS_VOICE_POOL = [
+    "English_magnetic_voiced_man",
+    "English_Upbeat_Woman",
+    "English_MaturePartner",
+]
+MINIMAX_TTS_VOICE_POOL = [
+    v.strip()
+    for v in os.getenv("MINIMAX_TTS_VOICE_POOL", ",".join(DEFAULT_MINIMAX_TTS_VOICE_POOL)).split(",")
+    if v.strip()
+]
 
 POE_API_BASE_URL = os.getenv("POE_API_BASE_URL", "https://api.poe.com/v1").strip() or "https://api.poe.com/v1"
 POE_API_KEY = os.getenv("POE_API_KEY", "").strip()
@@ -1522,31 +1533,60 @@ def _transcript_join(segments: list[TranscriptSegment], field: Literal["en", "zh
     return "\n".join(lines)
 
 
-def _fallback_audio_script(segments: list[TranscriptSegment]) -> str:
-    joined = " ".join((s.en or s.zh).strip() for s in segments if (s.en or s.zh).strip())
-    if not joined:
-        return "Ease into the moment with SKG. Gentle warmth and rhythmic massage help everyday tension feel lighter, cleaner, and easier to leave behind."
+def _voiceover_target_words(target_seconds: float) -> tuple[int, int]:
+    seconds = max(4.0, min(float(target_seconds or 0) or 12.0, 45.0))
+    center = int(round(seconds * 2.35))
+    return max(10, int(center * 0.86)), min(110, max(14, int(center * 1.12)))
+
+
+def _segment_duration(segments: list[TranscriptSegment]) -> float:
+    if not segments:
+        return 0.0
+    start = min((s.start for s in segments), default=0.0)
+    end = max((s.end for s in segments), default=0.0)
+    return max(0.0, end - start)
+
+
+def _fallback_audio_script(segments: list[TranscriptSegment], target_seconds: float = 12.0) -> str:
+    seconds = max(target_seconds, _segment_duration(segments), 4.0)
+    if seconds <= 7:
+        return "Meet SKG: warm massage, easy comfort, and a tiny reset for busy bodies."
+    if seconds <= 13:
+        return (
+            "Meet SKG, your shortcut to a calmer body break. A little warmth, a steady massage rhythm, "
+            "and suddenly your day feels less tight and more yours."
+        )
+    if seconds <= 22:
+        return (
+            "This is SKG: smart massage for the moments your body asks for a pause. Warmth, rhythm, "
+            "and a clean wearable feel turn neck, back, or everyday tension into a softer reset."
+        )
     return (
-        "Let SKG turn a short break into real relief. With soothing warmth and steady massage rhythm, "
-        "everyday tension feels lighter, calmer, and easier to leave behind."
+        "Say hello to SKG, the small reset button your day keeps asking for. From neck and shoulder breaks "
+        "to back, eye, knee, or foot comfort, SKG brings warm, rhythmic massage into everyday routines, "
+        "so winding down feels simple, smart, and a little more fun."
     )
 
 
-def _rewrite_audio_script_sync(segments: list[TranscriptSegment]) -> tuple[str, str]:
-    fallback = _fallback_audio_script(segments)
+def _rewrite_audio_script_sync(segments: list[TranscriptSegment], target_seconds: float = 12.0) -> tuple[str, str]:
+    fallback = _fallback_audio_script(segments, target_seconds)
     if not LLM_API_KEY:
         return fallback, "LLM_API_KEY 未配置，使用本地 SKG 模板"
     source_text = _transcript_join(segments, "en")
     source_zh = _transcript_join(segments, "zh")
+    min_words, max_words = _voiceover_target_words(target_seconds)
     prompt = (
         "You are an English short-video voice-over writer for SKG wellness massagers. "
-        "Use the source transcript only for structure, pacing, and emotional hook, then rewrite it into a clean English VO for SKG.\n"
+        "Write a fresh product-introduction VO for SKG. Use the source transcript only as timing and pacing reference; "
+        "do not summarize it unless it helps the rhythm.\n"
         "Rules:\n"
-        "1. Output 28-55 English words, suitable for an 8-18 second TTS voice-over.\n"
-        "2. Make it natural, premium, concise, and ready to read aloud.\n"
+        f"1. Target audio length is about {target_seconds:.1f} seconds. Output {min_words}-{max_words} English words.\n"
+        "2. Make it natural, warm, premium, and a little playful. It should sound like a real creator, not a stiff ad.\n"
         "3. Do not claim medical treatment, cure, pain elimination, or clinical effects.\n"
         "4. Do not copy the original brand, creator, price, platform language, or exact claims.\n"
-        "5. If the source transcript is too thin, write a general SKG relaxation VO.\n"
+        "5. Introduce SKG products directly: smart massage, warmth, rhythm, daily neck/back/eye/knee/foot relaxation.\n"
+        "6. Keep it easy for TTS: short sentences, spoken phrasing, no hashtags, no stage directions, no quotation marks.\n"
+        "7. If the source transcript is thin, ignore it and write a general SKG product intro.\n"
         'Return strict JSON only: {"rewritten_text":"..."}.\n\n'
         f"SKG product context: {AUDIO_PRODUCT_BRIEF}\n\n"
         f"English transcript:\n{source_text or 'None'}\n\n"
@@ -1560,7 +1600,7 @@ def _rewrite_audio_script_sync(segments: list[TranscriptSegment]) -> tuple[str,
                 {"role": "user", "content": prompt},
             ],
             response_format={"type": "json_object"},
-            temperature=0.45,
+            temperature=0.72,
             max_tokens=600,
         )
         raw = (resp.choices[0].message.content or "").strip()
@@ -1581,7 +1621,27 @@ def _minimax_tts_url() -> str:
     return f"{MINIMAX_TTS_BASE_URL}/v1/t2a_v2"
 
 
-def _minimax_tts_sync(job_id: str, text: str) -> str:
+def _choose_minimax_voice_id() -> str:
+    if MINIMAX_TTS_VOICE_POOL:
+        return random.choice(MINIMAX_TTS_VOICE_POOL)
+    return MINIMAX_TTS_VOICE_ID
+
+
+def _voice_speed_for(voice_id: str, target_seconds: float, text: str) -> float:
+    words = len([w for w in text.replace("\n", " ").split(" ") if w.strip()])
+    estimated_seconds = words / 2.35 if words else target_seconds
+    if target_seconds > 0 and estimated_seconds > target_seconds * 1.12:
+        return 1.06
+    if target_seconds > 0 and estimated_seconds < target_seconds * 0.82:
+        return 0.94
+    if voice_id == "English_MaturePartner":
+        return 0.96
+    if voice_id == "English_Upbeat_Woman":
+        return 1.02
+    return 0.99
+
+
+def _minimax_tts_sync(job_id: str, text: str, voice_id: str, target_seconds: float = 12.0) -> str:
     if not MINIMAX_API_KEY:
         raise RuntimeError("MINIMAX_API_KEY 未配置，未生成配音")
     if not text.strip():
@@ -1593,8 +1653,8 @@ def _minimax_tts_sync(job_id: str, text: str) -> str:
         "language_boost": "English",
         "output_format": "hex",
         "voice_setting": {
-            "voice_id": MINIMAX_TTS_VOICE_ID,
-            "speed": 1,
+            "voice_id": voice_id,
+            "speed": _voice_speed_for(voice_id, target_seconds, text),
             "vol": 1,
             "pitch": 0,
         },
@@ -1628,14 +1688,16 @@ def _minimax_tts_sync(job_id: str, text: str) -> str:
     return f"/jobs/{job_id}/audio-script.mp3"
 
 
-def _build_audio_script_sync(job_id: str, segments: list[TranscriptSegment]) -> AudioScript:
+def _build_audio_script_sync(job_id: str, segments: list[TranscriptSegment], target_seconds: float = 12.0) -> AudioScript:
     source_text = _transcript_join(segments, "en")
     source_zh = _transcript_join(segments, "zh")
-    rewritten, rewrite_error = _rewrite_audio_script_sync(segments)
+    duration = max(float(target_seconds or 0), _segment_duration(segments), 4.0)
+    rewritten, rewrite_error = _rewrite_audio_script_sync(segments, duration)
+    selected_voice_id = _choose_minimax_voice_id()
     voice_url = ""
     voice_error = ""
     try:
-        voice_url = _minimax_tts_sync(job_id, rewritten)
+        voice_url = _minimax_tts_sync(job_id, rewritten, selected_voice_id, duration)
     except Exception as e:
         voice_error = str(e)
     # 改写失败时已有本地 SKG 模板兜底，不把它标成用户可见错误；配音失败才需要提示。
@@ -1649,7 +1711,7 @@ def _build_audio_script_sync(job_id: str, segments: list[TranscriptSegment]) ->
         rewrite_model=AUDIO_REWRITE_MODEL,
         voice_provider="minimax",
         voice_model=MINIMAX_TTS_MODEL,
-        voice_id=MINIMAX_TTS_VOICE_ID,
+        voice_id=selected_voice_id,
         voice_url=voice_url,
         error=errors,
         created_at=time.time(),
@@ -1678,6 +1740,7 @@ def pipeline_transcribe(job_id: str, manage_job_status: bool = True) -> None:
             if not wav.exists():
                 raise RuntimeError("音频提取完成但找不到 audio.wav")
         update(job, source_audio_url=f"/jobs/{job_id}/audio.wav")
+        target_duration = max(media_duration(wav), float(job.duration or 0), 4.0)
 
         if not LLM_API_KEY:
             # 无 key 模式：mock 数据
@@ -1701,13 +1764,13 @@ def pipeline_transcribe(job_id: str, manage_job_status: bool = True) -> None:
                     rewrite_model=AUDIO_REWRITE_MODEL,
                     voice_provider="minimax",
                     voice_model=MINIMAX_TTS_MODEL,
-                    voice_id=MINIMAX_TTS_VOICE_ID,
+                    voice_id="random:" + ",".join(MINIMAX_TTS_VOICE_POOL or [MINIMAX_TTS_VOICE_ID]),
                 ),
             }
             if manage_job_status:
-                update_kwargs.update(message="ASR mock 完成，生成 SKG 改写文案…", progress=92)
+                update_kwargs.update(message="ASR mock 完成，生成 SKG 英文产品口播…", progress=92)
             update(job, **update_kwargs)
-            audio_script = _build_audio_script_sync(job_id, mock)
+            audio_script = _build_audio_script_sync(job_id, mock, target_duration)
             if manage_job_status:
                 update(job, transcript=mock, status="transcribed", progress=100,
                        audio_script=audio_script,
@@ -1728,9 +1791,9 @@ def pipeline_transcribe(job_id: str, manage_job_status: bool = True) -> None:
                     if seg.en.strip()
                 ]
             else:
-                raise
+                segments = [{"start": 0.0, "end": target_duration, "text": "Source audio timing reference."}]
         if not segments:
-            raise RuntimeError("ASR 返回 0 段（可能无人声 / 格式问题）")
+            segments = [{"start": 0.0, "end": target_duration, "text": "Source audio timing reference."}]
 
         # 先把英文段落落到 job 上（让 UI 提前看到，翻译再补 zh）
         en_only = [
@@ -1767,13 +1830,13 @@ def pipeline_transcribe(job_id: str, manage_job_status: bool = True) -> None:
                 rewrite_model=AUDIO_REWRITE_MODEL,
                 voice_provider="minimax",
                 voice_model=MINIMAX_TTS_MODEL,
-                voice_id=MINIMAX_TTS_VOICE_ID,
+                voice_id="random:" + ",".join(MINIMAX_TTS_VOICE_POOL or [MINIMAX_TTS_VOICE_ID]),
             ),
         }
         if manage_job_status:
-            update_kwargs.update(message="翻译完成，生成 SKG 改写文案与 MiniMax 配音…", progress=94)
+            update_kwargs.update(message="翻译完成，生成 SKG 英文产品口播与 MiniMax 配音…", progress=94)
         update(job, **update_kwargs)
-        audio_script = _build_audio_script_sync(job_id, full)
+        audio_script = _build_audio_script_sync(job_id, full, target_duration)
         if manage_job_status:
             update(job, transcript=full, status="transcribed", progress=100,
                    audio_script=audio_script,
@@ -2017,6 +2080,7 @@ def health() -> dict:
             "audio_rewrite": AUDIO_REWRITE_MODEL,
             "minimax_tts": MINIMAX_TTS_MODEL,
             "minimax_voice": MINIMAX_TTS_VOICE_ID,
+            "minimax_voice_pool": MINIMAX_TTS_VOICE_POOL or [MINIMAX_TTS_VOICE_ID],
             "minimax_configured": bool(MINIMAX_API_KEY),
             "video": VIDEO_MODEL,
             "video_aliases": VIDEO_MODEL_ALIASES,
@@ -2216,7 +2280,7 @@ async def trigger_transcribe(job_id: str, bg: BackgroundTasks) -> Job:
         rewrite_model=AUDIO_REWRITE_MODEL,
         voice_provider="minimax",
         voice_model=MINIMAX_TTS_MODEL,
-        voice_id=MINIMAX_TTS_VOICE_ID,
+        voice_id="random:" + ",".join(MINIMAX_TTS_VOICE_POOL or [MINIMAX_TTS_VOICE_ID]),
     )
     if manage_job_status:
         update(job, status="transcribing", progress=max(45, min(job.progress, 70)), error="", message="准备提取音频…", audio_script=audio_payload)
diff --git a/docs/source-analysis.html b/docs/source-analysis.html
index 8ea2a55..92d9465 100644
--- a/docs/source-analysis.html
+++ b/docs/source-analysis.html
@@ -558,7 +558,7 @@
           <div class="step"><div class="num">5</div><h3>素材准备</h3><p>清洗关键帧，把多张关键帧作为同一主体的参考，先重绘六张标准站立主体资产图，再按关键帧生成多个去主体、相似或换风格场景图。</p></div>
           <div class="step"><div class="num">6</div><h3>分镜改造</h3><p>把参考主体、场景、动作和 SKG 产品放入分镜结构；产品融合使用纵向 6 行镜头工作表，每行绑定产品图、白底人物图、产品区域、场景图、描述词、秒数和单条生成入口。</p></div>
           <div class="step"><div class="num">7</div><h3>生成视频</h3><p>普通分镜可调用 Seedance / Kling / Veo 3；产品融合固定用 GPT Image 2 生成位置引导图，再用 Seedance 按秒数生成视频，结果回写到画面工作台节点。</p></div>
-          <div class="step"><div class="num">8</div><h3>声音文案</h3><p>音频轨独立处理：ASR 提取原始英文文案、翻译成中文对照、接 SKG 产品卖点改写成英文 voice-over；配置 MiniMax 后直接生成英文配音 mp3。底部音频条播放原音频时，指针会按时间走过字幕节点。</p></div>
+          <div class="step"><div class="num">8</div><h3>声音文案</h3><p>音频轨独立处理：提取原音频并按实际秒数生成 SKG 英文产品介绍 voice-over，ASR/翻译只作为改前对照和节奏参考；配置 MiniMax 后从男声、女声、成熟声池随机生成自然英文配音 mp3。底部音频条播放原音频时，指针会按时间走过字幕节点。</p></div>
           <div class="step"><div class="num">9</div><h3>合成成品</h3><p>片段、字幕、配音、转场合成最终 mp4。当前未实现。</p></div>
         </div>
       </section>
@@ -572,7 +572,7 @@
               <tbody>
                 <tr><td><code>web/app/page.tsx</code></td><td>产品工作台主状态：jobs、activeJobId、按 job 隔离的 selectedFrames/详情面板状态、clipboard、ReactFlow 节点和边；负责打开/找回画布工作面板。</td></tr>
                 <tr><td><code>web/components/nodes/index.tsx</code></td><td>DAG 节点定义：Input、VisualLab、Audio、Compose，以及画布工作面板 KeyframePanel / VideoFramePanel；旧 Keyframe/Storyboard/VideoGen 组件保留但不再挂主画布。</td></tr>
-                <tr><td><code>web/components/audio-strip.tsx</code></td><td>底部吸附音频条：可拖拽调整高度；播放原音频时移动指针，逐个高亮英文/中文字幕节点和对应波形，并在右侧固定显示 SKG 英文改写稿和 MiniMax 英文配音。</td></tr>
+                <tr><td><code>web/components/audio-strip.tsx</code></td><td>底部吸附音频条：可拖拽调整高度；播放原音频时移动指针，逐个高亮英文/中文字幕节点和对应波形，并在右侧固定显示按原音频时长生成的 SKG 英文产品口播和 MiniMax 随机英文配音。</td></tr>
                 <tr><td><code>web/components/lightbox.tsx</code></td><td>关键帧素材准备面板：清洗、统一主体候选、参考帧网格、六张主体重绘图、每帧去主体场景图、纵向 6 行产品融合镜头工作表和审核。</td></tr>
                 <tr><td><code>web/components/product-library-picker.tsx</code></td><td>SKG 内置白底产品图库选择器：搜索、品类筛选、预览尺寸，并把库内图片复制为当前 job 的 <code>asset</code>。</td></tr>
                 <tr><td><code>web/components/storyboard-bar.tsx</code></td><td>顶部分镜编排条：展示选入编排的关键帧，并作为唯一分镜导航。</td></tr>
@@ -701,7 +701,7 @@ api/main.py
           </div>
           <div class="card">
             <h3>AudioScript</h3>
-            <p>音频文案轨的结构化产物。<code>pipeline_transcribe</code> 在 ASR 和翻译后写入：先生成 SKG 英文 voice-over 改写稿，再用 MiniMax T2A 生成英文配音文件。</p>
+            <p>音频文案轨的结构化产物。<code>pipeline_transcribe</code> 提取 <code>audio.wav</code> 后按原音频秒数写入 SKG 英文产品介绍 voice-over，再用 MiniMax T2A 从英文音色池随机生成配音文件。</p>
             <pre>AudioScript {
   status: idle | rewriting | completed | failed,
   source_text,
@@ -791,7 +791,7 @@ SubjectAsset {
             <tr><td>上传视频</td><td><code>POST /jobs/upload</code></td><td><code>uploadJob</code></td><td>保存 source.mp4，然后同样进入下载完成状态。</td></tr>
             <tr><td>删除输入视频</td><td><code>DELETE /jobs/{id}</code></td><td><code>deleteJob</code></td><td>从任务队列、URL 和磁盘 <code>jobs/&lt;id&gt;</code> 目录移除整个 job，包括源视频、关键帧、元素提取图和生成视频。</td></tr>
             <tr><td>解析视频</td><td><code>POST /jobs/{id}/analyze?frames=&amp;target=&amp;mode=&amp;quality=</code></td><td><code>analyzeJob</code></td><td>拆轨 + 目标化抽关键帧。默认 <code>frames=12</code>；<code>target</code> 支持透明骨架人、综合、清晰主体、转场变化、表情瞬间、动作峰值；当前 UI 默认 <code>transparent_human</code>。透明骨架人目标现在只走本地清晰度、中心主体、对比度、画面变化和 pHash 去重，不在抽帧阶段逐帧调用 Vision；<code>mode=append</code> 追加新关键帧；<code>quality=auto</code> 为展示友好档，最高只自动选择精细，不会自动上极准；极准保留为手动选择。抽帧开始时同步拆出 <code>audio.wav</code> 并启动音频处理线程。多个抽帧请求进入后端队列顺序处理。</td></tr>
-            <tr><td>音频文案轨</td><td><code>POST /jobs/{id}/transcribe</code></td><td><code>triggerTranscribe</code></td><td>若尚未拆轨，先从 <code>source.mp4</code> 提取 <code>audio.wav</code> 并回填 <code>source_audio_url</code>；随后 ASR 得到英文时间戳段落，再翻译中文，并按 <code>AUDIO_PRODUCT_BRIEF</code> 生成英文 <code>audio_script.rewritten_text</code>；配置 <code>MINIMAX_API_KEY</code> 后调用 MiniMax T2A 生成英文 <code>audio_script.voice_url</code>。前端不自动触发，用户在 Audio 节点点击“提取音频 / 重新提取音频”即可启动并立即打开底部音频条；抽帧中也允许并行触发，忙碌态由 <code>audio_script.status</code> 管理。</td></tr>
+            <tr><td>音频文案轨</td><td><code>POST /jobs/{id}/transcribe</code></td><td><code>triggerTranscribe</code></td><td>若尚未拆轨，先从 <code>source.mp4</code> 提取 <code>audio.wav</code> 并回填 <code>source_audio_url</code>；随后用原音频实际秒数估算英文词数，按 <code>AUDIO_PRODUCT_BRIEF</code> 生成有趣、自然的 SKG 英文产品介绍 <code>audio_script.rewritten_text</code>。ASR/翻译结果保留为改前对照和节奏参考；如果 ASR 不可用，也会用原音频时长继续生成产品口播。配置 <code>MINIMAX_API_KEY</code> 后调用 MiniMax T2A，并从 <code>MINIMAX_TTS_VOICE_POOL</code> 随机选择男声、女声或成熟声生成 <code>audio_script.voice_url</code>。</td></tr>
             <tr><td>原始音频文件</td><td><code>GET /jobs/{id}/audio.wav</code></td><td><code>sourceAudioUrl</code></td><td>返回拆轨得到的 wav；底部 <code>AudioStrip</code> 拉取该文件，用 Web Audio API 解码并计算波形峰值。原音频播放器驱动时间轴，播放时全局指针和当前字幕节点内指针同步移动。</td></tr>
             <tr><td>改写配音文件</td><td><code>GET /jobs/{id}/audio-script.mp3</code></td><td><code>apiAssetUrl(job.audio_script.voice_url)</code></td><td>返回 MiniMax T2A 生成的英文 mp3。没有配置 MiniMax 或生成失败时该文件不存在，但英文改写文案仍会保存在 <code>audio_script.rewritten_text</code>。</td></tr>
             <tr><td>手动加帧</td><td><code>POST /jobs/{id}/frames?t=</code></td><td><code>addManualFrame</code></td><td>按视频时间戳抽一帧，index 递增但 frames 按 timestamp 排序。</td></tr>
@@ -840,7 +840,7 @@ SubjectAsset {
             </tr>
             <tr>
               <td><span class="tag gray">Audio / ASR / Rewrite</span></td>
-              <td>独立声音文案轨：从 <code>source.mp4</code> 直接提取 <code>audio.wav</code>，再提取原始口播、翻译中文、改写成 SKG 产品语境英文 voice-over；MiniMax T2A 配置后生成英文配音 mp3。不再等待抽帧完成，用户在主画布 <code>AudioNode</code> 点击卡片或“提取音频 / 重新提取音频”即可打开底部音频条并启动；即使视觉抽帧正在进行，也通过 <code>audio_script.status</code> 并行管理音频忙碌态。<code>AudioNode</code> 用“改前 · 原音频 / 改后 · SKG English VO”摘要展示；底部 <code>AudioStrip</code> 吸附屏幕底端，可拖拽调整高度，按时间段展示英文、中文翻译和波形；原音频播放时指针同步穿过字幕节点，右侧显示英文改写稿和 MiniMax 英文配音。</td>
+              <td>独立声音文案轨：从 <code>source.mp4</code> 直接提取 <code>audio.wav</code>，按原音频时长生成 SKG 产品语境英文 voice-over；ASR/翻译保留为改前对照和节奏参考。MiniMax T2A 配置后从男声、女声、成熟声池随机生成自然英文配音 mp3。不再等待抽帧完成，用户在主画布 <code>AudioNode</code> 点击卡片或“提取音频 / 重新提取音频”即可打开底部音频条并启动；即使视觉抽帧正在进行，也通过 <code>audio_script.status</code> 并行管理音频忙碌态。<code>AudioNode</code> 用“改前 · 原音频 / 改后 · SKG Product VO”摘要展示；底部 <code>AudioStrip</code> 吸附屏幕底端，可拖拽调整高度，按时间段展示英文、中文翻译和波形；原音频播放时指针同步穿过字幕节点，右侧显示英文产品口播和 MiniMax 英文配音。</td>
               <td>不要阻断视觉素材管线。</td>
               <td><code>AudioNode</code>、<code>AudioStrip</code>、<code>ASRNode</code>、<code>TranslateNode</code>、<code>RewriteNode</code>、<code>pipeline_transcribe</code>、<code>AudioScript</code></td>
             </tr>
@@ -867,7 +867,7 @@ SubjectAsset {
               <li>Vision 识别关键帧，输出 scene、objects、style、suggested_prompt，并作为主体候选来源。</li>
               <li>主体候选确认、改名、删除和主体资产包生成。</li>
               <li>分镜工作台 4 图槽和改造说明自动保存。</li>
-              <li>音频文案轨：ASR/翻译后自动生成 SKG 英文口播改写稿；配置 MiniMax 后生成英文配音 mp3。底部音频条可播放原音频并用指针逐段对齐字幕节点。</li>
+              <li>音频文案轨：点击提取音频后按原音频时长自动生成 SKG 英文产品介绍口播；配置 MiniMax 后从男声、女声、成熟声池随机生成自然英文配音 mp3。底部音频条可播放原音频并用指针逐段对齐字幕节点。</li>
               <li>nano-banana-pro image-to-image 生图。</li>
             </ul>
           </div>
@@ -875,7 +875,7 @@ SubjectAsset {
             <h3>阻塞 / 占位</h3>
             <ul>
               <li>ASR：优先走当前 OpenAI-compatible 音频转写入口；如果该网关没有 <code>/audio/transcriptions</code>，自动 fallback 到 <code>ASR_FALLBACK_MODEL</code>（默认 <code>gemini-2.5-flash</code>）的多模态音频识别。</li>
-              <li>MiniMax：当前接入的是官方 T2A 英文配音能力，不是 ASR；API Key 只能放本地环境变量，不能写入仓库。</li>
+              <li>MiniMax：当前接入的是官方 T2A 英文配音能力，不是 ASR；默认随机音色池是 <code>English_magnetic_voiced_man</code>、<code>English_Upbeat_Woman</code>、<code>English_MaturePartner</code>。API Key 只能放本地环境变量，不能写入仓库。</li>
               <li>Audio Product Brief：默认是通用 SKG 放松产品卖点，后续可改成跟已选产品库条目联动。</li>
               <li>Video Gen：模型层按业务保留 Seedance / Kling / Veo/Voe 选择；后端已支持 Poe、火山方舟和 SKG 豆包视频网关。Seedance 可通过 <code>VIDEO_API_BASE_URL=https://ai.skg.com/doubao</code> 走 content JSON 异步任务，提交后写入 Video Gen 节点并轮询到完成。</li>
               <li>Compose：还没做本地 ffmpeg 字幕/TTS 合成。</li>
@@ -975,7 +975,7 @@ SubjectAsset {
             </header>
             <div class="body">
               <p><strong>问题：</strong>等待抽帧完成后自动启动音频，不符合“先把声音文案拿出来审核”的工作流；用户需要在音频卡片上直接触发。</p>
-              <p><strong>改动：</strong>移除前端抽帧完成后的自动转写逻辑；<code>AudioNode</code> 保留并固定显示“提取音频 / 重新提取音频”按钮，点击音频卡片也会立即打开底部音频条。后端 <code>/transcribe</code> 不再要求 <code>frames_extracted</code>，视频就绪后可直接从 <code>source.mp4</code> 拆出 <code>audio.wav</code>，并继续 ASR、翻译、SKG 英文改写和 MiniMax 英文配音；抽帧中触发时不抢主状态，而是用 <code>audio_script.status</code> 表示音频处理中。当当前网关的 <code>whisper-1</code> audio endpoint 返回 404 时，会 fallback 到 Gemini 多模态音频识别；改写模型解析失败时使用本地 SKG 英文口播模板兜底，不再把可用文案标成前端错误。</p>
+              <p><strong>改动：</strong>移除前端抽帧完成后的自动转写逻辑；<code>AudioNode</code> 保留并固定显示“提取音频 / 重新提取音频”按钮，点击音频卡片也会立即打开底部音频条。后端 <code>/transcribe</code> 不再要求 <code>frames_extracted</code>，视频就绪后可直接从 <code>source.mp4</code> 拆出 <code>audio.wav</code>，并按原音频时长生成 SKG 英文产品介绍和 MiniMax 随机英文配音；抽帧中触发时不抢主状态，而是用 <code>audio_script.status</code> 表示音频处理中。当当前网关的 <code>whisper-1</code> audio endpoint 返回 404 时，会 fallback 到 Gemini 多模态音频识别；ASR 不可用时也会继续按原音频时长生成产品口播，不把可用文案标成前端错误。</p>
               <p><strong>影响：</strong><code>web/app/page.tsx</code>、<code>web/components/nodes/index.tsx</code>、<code>api/main.py</code>、<code>docs/source-analysis.html</code>。</p>
             </div>
           </article>
@@ -987,7 +987,7 @@ SubjectAsset {
             </header>
             <div class="body">
               <p><strong>问题：</strong>音频和文案只在节点或侧栏里展示，审核时缺少“文字和声音时间轴对应”的空间；英文口播和中文翻译也没有上下对齐。</p>
-              <p><strong>改动：</strong>新增 <code>web/components/audio-strip.tsx</code>，在主工作台底部吸附显示，可拖拽调整高度、可收起。每个音频段按时间横向排列，上方显示英文，中间显示中文翻译，下方显示对应波形条；底部原音频播放器驱动时间轴，播放时绿色指针会沿全局波形移动，并在当前字幕节点内同步走过该段。右侧显示改写后的 SKG English VO、MiniMax 英文配音和产品依据。后端新增 <code>source_audio_url</code> 和 <code>GET /jobs/{id}/audio.wav</code> 只读接口，前端用 Web Audio API 解码生成波形峰值。</p>
+              <p><strong>改动：</strong>新增 <code>web/components/audio-strip.tsx</code>，在主工作台底部吸附显示，可拖拽调整高度、可收起。每个音频段按时间横向排列，上方显示英文，中间显示中文翻译，下方显示对应波形条；底部原音频播放器驱动时间轴，播放时绿色指针会沿全局波形移动，并在当前字幕节点内同步走过该段。右侧显示按原音频时长生成的 SKG 英文产品口播、MiniMax 随机英文配音和产品依据。后端新增 <code>source_audio_url</code> 和 <code>GET /jobs/{id}/audio.wav</code> 只读接口，前端用 Web Audio API 解码生成波形峰值。</p>
               <p><strong>影响：</strong><code>web/app/page.tsx</code>、<code>web/components/audio-strip.tsx</code>、<code>web/lib/api.ts</code>、<code>api/main.py</code>、<code>docs/source-analysis.html</code>。</p>
             </div>
           </article>
@@ -999,7 +999,7 @@ SubjectAsset {
             </header>
             <div class="body">
               <p><strong>问题：</strong>音频识别成功后只显示改写文案，用户看不到它和原音频之间的变化关系，难以判断“是不是把参考视频转成我们自己的话”。</p>
-              <p><strong>改动：</strong><code>AudioNode</code> 增加轻量对照摘要：改前显示原音频识别/翻译预览，改后显示 SKG 英文口播；侧栏 <code>Rewrite</code> 面板改为完整审核视图，先列原音频逐段 ASR/翻译，再列英文改写稿、产品卖点依据和 MiniMax 英文配音播放器。</p>
+              <p><strong>改动：</strong><code>AudioNode</code> 增加轻量对照摘要：改前显示原音频识别/翻译预览，改后显示 SKG 英文产品口播；侧栏 <code>Rewrite</code> 面板改为完整审核视图，先列原音频逐段 ASR/翻译，再列英文产品介绍稿、产品卖点依据和 MiniMax 英文配音播放器。</p>
               <p><strong>影响：</strong><code>web/components/nodes/index.tsx</code>、<code>web/components/dashboard.tsx</code>、<code>docs/source-analysis.html</code>。</p>
             </div>
           </article>
diff --git a/web/components/audio-strip.tsx b/web/components/audio-strip.tsx
index ab479fd..4ee78d6 100644
--- a/web/components/audio-strip.tsx
+++ b/web/components/audio-strip.tsx
@@ -332,9 +332,9 @@ export function AudioStrip({ job, open, onClose }: { job: Job | null; open: bool
             </div>
           </div>
           <div className="min-h-0 overflow-y-auto rounded-lg border border-emerald-300/20 bg-emerald-300/[0.07] p-3 max-lg:hidden">
-            <div className="mb-2 text-[10px] uppercase tracking-widest text-emerald-100/70">English VO · SKG rewrite</div>
+            <div className="mb-2 text-[10px] uppercase tracking-widest text-emerald-100/70">English product VO · SKG intro</div>
             <p className="text-[12.5px] leading-relaxed text-white/90">
-              {audioScript?.rewritten_text || "Waiting for the parsed transcript to become an English SKG voice-over."}
+              {audioScript?.rewritten_text || "Waiting for the source audio length to become a natural English SKG product voice-over."}
             </p>
             {voiceUrl && (
               <audio controls src={voiceUrl} className="mt-3 h-8 w-full" />
diff --git a/web/components/dashboard.tsx b/web/components/dashboard.tsx
index 278e124..efc48fc 100644
--- a/web/components/dashboard.tsx
+++ b/web/components/dashboard.tsx
@@ -622,14 +622,14 @@ export const Dashboard = forwardRef<DashboardHandle, Props>(function Dashboard({
                   <div className="kanban-meta">参考视频原话，不直接用于成片</div>
                 </KanbanCard>
 
-                <KanbanCard tone="green" tags={["对照", "改后"]} title={job?.audio_script?.rewrite_model || "SKG 口播改写"}>
+                <KanbanCard tone="green" tags={["对照", "改后"]} title={job?.audio_script?.rewrite_model || "SKG 英文产品口播"}>
                   {job?.audio_script?.rewritten_text ? (
                     <div className="rounded-md border border-emerald-400/25 bg-emerald-400/10 px-3 py-2.5 text-[13px] text-[var(--text-strong)] leading-relaxed">
                       {job.audio_script.rewritten_text}
                     </div>
                   ) : (
                     <div className="text-[11px] text-[var(--text-soft)]">
-                      {isAudioRewriting ? "正在把原音频转成 SKG 口播文案…" : "转录完成后自动生成 SKG 口播文案"}
+                      {isAudioRewriting ? "正在按原音频时长生成 SKG 英文产品口播…" : "转录完成后自动生成 SKG 英文产品口播"}
                     </div>
                   )}
                   <div className="kanban-meta">用于后续 TTS、字幕和视频生成 prompt</div>
@@ -649,7 +649,7 @@ export const Dashboard = forwardRef<DashboardHandle, Props>(function Dashboard({
                       {job?.audio_script?.error || "配置 MiniMax 后自动生成配音文件"}
                     </div>
                   )}
-                  <div className="kanban-meta">{job?.audio_script?.voice_id || "Chinese (Mandarin)_Reliable_Executive"}</div>
+                  <div className="kanban-meta">{job?.audio_script?.voice_id || "random English voice"}</div>
                 </KanbanCard>
               </>
             )}
diff --git a/web/components/nodes/index.tsx b/web/components/nodes/index.tsx
index 7cbd56e..479bf84 100644
--- a/web/components/nodes/index.tsx
+++ b/web/components/nodes/index.tsx
@@ -2151,7 +2151,7 @@ export function AudioNode({ data, selected }: any) {
         }}
       >
         <div>
-          音轨 → ASR 转录 → 英中翻译 → SKG 英文口播 → MiniMax 英文配音<br />
+          音轨 → 取时长/节奏 → SKG 英文产品口播 → MiniMax 随机英文配音<br />
           <span className="text-[var(--text-faint)] font-mono">
             {audioScript?.rewrite_model || "AUDIO_REWRITE_MODEL"} → {audioScript?.voice_model || "MiniMax T2A"}
           </span>
@@ -2188,15 +2188,15 @@ export function AudioNode({ data, selected }: any) {
             )}
             {rewrittenText && (
               <div className="rounded-md border border-emerald-400/25 bg-emerald-400/10 px-2.5 py-2">
-                <div className="mb-1 text-[9.5px] uppercase tracking-widest text-emerald-200/80">改后 · SKG English VO</div>
+                <div className="mb-1 text-[9.5px] uppercase tracking-widest text-emerald-200/80">改后 · SKG Product VO</div>
                 <div className="line-clamp-4 text-[11.5px] leading-relaxed text-[var(--text-strong)] break-words">{rewrittenText}</div>
               </div>
             )}
           </div>
         )}
-        {voiceUrl && <div className="text-[10.5px] text-emerald-200/85">MiniMax English voice ready · 底部音频条播放</div>}
+        {voiceUrl && <div className="text-[10.5px] text-emerald-200/85">MiniMax natural English voice ready · 底部音频条播放</div>}
         {isRewriting && (
-          <div className="text-[10.5px] text-[var(--text-faint)]">正在生成改写文案和配音…</div>
+          <div className="text-[10.5px] text-[var(--text-faint)]">正在按原音频时长生成英文产品口播和配音…</div>
         )}
         {audioScript?.error && rewrittenText && !voiceUrl && (
           <div className="text-[10.5px] text-amber-300/85">配音待生成：{audioScript.error}</div>