auto-save 2026-05-14 10:25 (~13)

2026-05-14 10:25:50 +08:00
parent be1ae80750
commit 7bfbb38289
13 changed files with 118 additions and 52 deletions
--- a/docs/source-analysis.html
+++ b/docs/source-analysis.html
@@ -552,13 +552,14 @@
        <p>当前产品不是“复制别人的视频”，而是拆解参考视频，提取可借鉴的镜头元素，再改造成 SKG 产品语境的视频素材。</p>
        <div class="pipeline">
          <div class="step"><div class="num">1</div><h3>输入</h3><p>TK 链接或本地上传，后端下载/保存源视频。</p></div>
-          <div class="step"><div class="num">2</div><h3>镜头拆解</h3><p>拆轨、抽关键帧、手动加帧，形成参考分镜池。当前主题默认使用“透明骨架人”抽帧目标：本地先扫候选，Vision 再按透明身体、白色骨架、人物占比、清晰度、广告感和产品可用性打分验收；不合格候选会自动换下一帧。</p></div>
+          <div class="step"><div class="num">2</div><h3>镜头拆解</h3><p>拆轨、抽关键帧、手动加帧，形成参考分镜池。当前主题默认直接抽 12 帧，并使用“透明骨架人”抽帧目标：本地先扫候选，Vision 再按透明身体、白色骨架、人物占比、清晰度、广告感和产品可用性打分验收；不合格候选会自动换下一帧。</p></div>
          <div class="step"><div class="num">3</div><h3>清洗水印</h3><p>对关键帧做全图或区域清洗，清洗版先进入待审核状态；确认后可单张替换，也可一键替换全部待应用清洗版。</p></div>
          <div class="step"><div class="num">4</div><h3>主体识别</h3><p>识别场景和主体候选，只是候选，不应锁死。</p></div>
          <div class="step"><div class="num">5</div><h3>素材准备</h3><p>清洗关键帧，把多张关键帧作为同一主体的参考，先重绘六张标准站立主体资产图，再按关键帧生成多个去主体、相似或换风格场景图。</p></div>
          <div class="step"><div class="num">6</div><h3>分镜改造</h3><p>把参考主体、场景、动作和 SKG 产品放入分镜结构；产品融合使用纵向 6 行镜头工作表，每行绑定产品图、白底人物图、产品区域、场景图、描述词、秒数和单条生成入口。</p></div>
          <div class="step"><div class="num">7</div><h3>生成视频</h3><p>普通分镜可调用 Seedance / Kling / Veo 3；产品融合固定用 GPT Image 2 生成位置引导图，再用 Seedance 按秒数生成视频，结果回写到画面工作台节点。</p></div>
-          <div class="step"><div class="num">8</div><h3>合成成品</h3><p>片段、字幕、配音、转场合成最终 mp4。当前未实现。</p></div>
+          <div class="step"><div class="num">8</div><h3>声音文案</h3><p>音频轨独立处理：ASR 提取原始文案、翻译成中文、接 SKG 产品卖点改写成口播稿；配置 MiniMax 后直接生成配音 mp3。</p></div>
+          <div class="step"><div class="num">9</div><h3>合成成品</h3><p>片段、字幕、配音、转场合成最终 mp4。当前未实现。</p></div>
        </div>
      </section>

@@ -583,7 +584,7 @@
            <h3>后端核心</h3>
            <table>
              <tbody>
-                <tr><td><code>api/main.py</code></td><td>FastAPI 单文件后端：状态模型、任务恢复、下载、抽帧、Vision、清洗、元素、分镜、文件返回。</td></tr>
+                <tr><td><code>api/main.py</code></td><td>FastAPI 单文件后端：状态模型、任务恢复、下载、抽帧、Vision、清洗、元素、分镜、音频文案改写、MiniMax 配音、文件返回。</td></tr>
                <tr><td><code>api/product_library/skg-products</code></td><td>内置 SKG 白底产品图库：<code>manifest.json</code> 记录从桌面产品图筛出的 gallery 白底图，<code>images/</code> 存 41 张压缩后的参考图。</td></tr>
                <tr><td><code>jobs/&lt;jobId&gt;/state.json</code></td><td>运行时状态文件，不在源码列表里，但刷新恢复依赖它。</td></tr>
                <tr><td><code>jobs/&lt;jobId&gt;/frames</code></td><td>关键帧 jpg。注意 frame.index 是稳定 ID，不等于数组下标。</td></tr>
@@ -605,8 +606,8 @@ web/app/page.tsx

 后端主链路：
 api/main.py
-  -> Job / KeyFrame / KeyElement / StoryboardScene
-  -> 下载 / 上传 / 抽帧 / Vision / 清洗 / 元素提取 / 分镜保存
+  -> Job / KeyFrame / KeyElement / StoryboardScene / AudioScript
+  -> 下载 / 上传 / 抽帧 / Vision / 清洗 / 元素提取 / 分镜保存 / 音频文案改写 / MiniMax 配音
  -> jobs/&lt;jobId&gt;/state.json + 图片文件落盘</pre>
      </section>

@@ -647,6 +648,7 @@ api/main.py
  video_url, duration, width, height,
  frames: KeyFrame[],
  transcript: TranscriptSegment[],
+  audio_script: AudioScript,
  storyboard_images?: StoryboardImage[]
 }</pre>
          </div>
@@ -692,6 +694,23 @@ api/main.py
  cutout_id,
  subject_kind: object | living,
  subject_assets: SubjectAsset[]
+}</pre>
+          </div>
+          <div class="card">
+            <h3>AudioScript</h3>
+            <p>音频文案轨的结构化产物。<code>pipeline_transcribe</code> 在 ASR 和翻译后写入：先生成 SKG 口播改写稿，再用 MiniMax T2A 生成配音文件。</p>
+            <pre>AudioScript {
+  status: idle | rewriting | completed | failed,
+  source_text,
+  source_zh,
+  rewritten_text,
+  product_brief,
+  rewrite_model,
+  voice_provider: minimax,
+  voice_model,
+  voice_id,
+  voice_url,
+  error
 }</pre>
          </div>
          <div class="card">
@@ -769,7 +788,9 @@ SubjectAsset {
            <tr><td>创建任务</td><td><code>POST /jobs</code></td><td><code>createJob</code></td><td>提交 TK 链接，后台开始下载，停在 downloaded 等用户点解析。</td></tr>
            <tr><td>上传视频</td><td><code>POST /jobs/upload</code></td><td><code>uploadJob</code></td><td>保存 source.mp4，然后同样进入下载完成状态。</td></tr>
            <tr><td>删除输入视频</td><td><code>DELETE /jobs/{id}</code></td><td><code>deleteJob</code></td><td>从任务队列、URL 和磁盘 <code>jobs/&lt;id&gt;</code> 目录移除整个 job，包括源视频、关键帧、元素提取图和生成视频。</td></tr>
-            <tr><td>解析视频</td><td><code>POST /jobs/{id}/analyze?frames=&amp;target=&amp;mode=&amp;quality=</code></td><td><code>analyzeJob</code></td><td>拆轨 + 目标化抽关键帧。<code>target</code> 支持透明骨架人、综合、清晰主体、转场变化、表情瞬间、动作峰值；当前 UI 默认 <code>transparent_human</code>。透明骨架人目标会先扩大本地候选池，再调用 Vision 按 6 个分数验收；不合格候选自动丢弃并抽下一候选。<code>mode=append</code> 追加新关键帧；<code>quality=auto</code> 根据本机算力和视频时长自动选择快速、精细或极准。多个抽帧请求进入后端队列顺序处理。</td></tr>
+            <tr><td>解析视频</td><td><code>POST /jobs/{id}/analyze?frames=&amp;target=&amp;mode=&amp;quality=</code></td><td><code>analyzeJob</code></td><td>拆轨 + 目标化抽关键帧。默认 <code>frames=12</code>；<code>target</code> 支持透明骨架人、综合、清晰主体、转场变化、表情瞬间、动作峰值；当前 UI 默认 <code>transparent_human</code>。透明骨架人目标会先扩大本地候选池，再调用 Vision 按 6 个分数验收；不合格候选自动丢弃并抽下一候选。<code>mode=append</code> 追加新关键帧；<code>quality=auto</code> 根据本机算力和视频时长自动选择快速、精细或极准。多个抽帧请求进入后端队列顺序处理。</td></tr>
+            <tr><td>音频文案轨</td><td><code>POST /jobs/{id}/transcribe</code></td><td><code>triggerTranscribe</code></td><td>读取拆轨得到的 <code>audio.wav</code>，先 ASR 得到英文时间戳段落，再翻译中文，随后按 <code>AUDIO_PRODUCT_BRIEF</code> 生成 <code>audio_script.rewritten_text</code>；配置 <code>MINIMAX_API_KEY</code> 后调用 MiniMax T2A 生成 <code>audio_script.voice_url</code>。</td></tr>
+            <tr><td>改写配音文件</td><td><code>GET /jobs/{id}/audio-script.mp3</code></td><td><code>apiAssetUrl(job.audio_script.voice_url)</code></td><td>返回 MiniMax T2A 生成的 mp3。没有配置 MiniMax 或生成失败时该文件不存在，但改写文案仍会保存在 <code>audio_script.rewritten_text</code>。</td></tr>
            <tr><td>手动加帧</td><td><code>POST /jobs/{id}/frames?t=</code></td><td><code>addManualFrame</code></td><td>按视频时间戳抽一帧，index 递增但 frames 按 timestamp 排序。</td></tr>
            <tr><td>Vision 识别</td><td><code>POST /frames/{idx}/describe</code></td><td><code>describeFrame</code></td><td>写入 frame.description，后续可从 objects 加候选元素。</td></tr>
            <tr><td>清洗水印</td><td><code>POST /frames/{idx}/cleanup</code></td><td><code>cleanupFrame</code></td><td>支持全图和区域清洗，生成 cleaned 待应用版本；前端批量清洗会顺序调用该接口，不自动覆盖原图。单帧清洗状态按 frame.index 隔离，清洗某一张不会禁用其他关键帧的清洗按钮。</td></tr>
@@ -815,10 +836,10 @@ SubjectAsset {
              <td><code>StoryboardWorkbench</code>、<code>updateStoryboard</code></td>
            </tr>
            <tr>
-              <td><span class="tag gray">ASR / Translate / Rewrite</span></td>
-              <td>未来的文案轨，目前部分占位或受 audio 阻塞。</td>
+              <td><span class="tag gray">Audio / ASR / Rewrite</span></td>
+              <td>独立声音文案轨：从 <code>audio.wav</code> 提取原始口播、翻译中文、改写成 SKG 产品语境口播；MiniMax T2A 配置后生成配音 mp3。主画布的 <code>AudioNode</code> 只展示模型链路、改写稿和配音播放器。</td>
              <td>不要阻断视觉素材管线。</td>
-              <td><code>ASRNode</code>、<code>TranslateNode</code>、<code>RewriteNode</code>、ASR 接口</td>
+              <td><code>AudioNode</code>、<code>ASRNode</code>、<code>TranslateNode</code>、<code>RewriteNode</code>、<code>pipeline_transcribe</code>、<code>AudioScript</code></td>
            </tr>
            <tr>
              <td><span class="tag green">Video / Compose</span></td>
@@ -843,15 +864,16 @@ SubjectAsset {
              <li>Vision 识别关键帧，输出 scene、objects、style、suggested_prompt，并作为主体候选来源。</li>
              <li>主体候选确认、改名、删除和主体资产包生成。</li>
              <li>分镜工作台 4 图槽和改造说明自动保存。</li>
+              <li>音频文案轨：ASR/翻译后自动生成 SKG 口播改写稿；配置 MiniMax 后生成配音 mp3。</li>
              <li>nano-banana-pro image-to-image 生图。</li>
            </ul>
          </div>
          <div class="card">
            <h3>阻塞 / 占位</h3>
            <ul>
-              <li>ASR：SKG 网关 audio endpoint 404 或渠道不可用。</li>
-              <li>Translate：本身 text 通，但产品流里依赖 ASR 段落。</li>
-              <li>Rewrite：需要 SKG 产品信息模板和目标脚本结构。</li>
+              <li>ASR：仍依赖当前 OpenAI-compatible 音频转写入口；如果该网关 audio endpoint 不通，文案提取仍会失败。</li>
+              <li>MiniMax：当前接入的是官方 T2A 配音能力，不是 ASR；API Key 只能放本地环境变量，不能写入仓库。</li>
+              <li>Audio Product Brief：默认是通用 SKG 放松产品卖点，后续可改成跟已选产品库条目联动。</li>
              <li>Video Gen：模型层按业务保留 Seedance / Kling / Veo/Voe 选择；后端已支持 Poe 视频通道，别名默认映射到 <code>seedance-2-fast</code>、<code>kling-omni</code>、<code>veo-3.1-fast</code>，提交后写入 Video Gen 节点。</li>
              <li>Compose：还没做本地 ffmpeg 字幕/TTS 合成。</li>
            </ul>
@@ -892,6 +914,31 @@ SubjectAsset {
        <h2>变更记录</h2>
        <p>这个记录不是 git log 的替代品。它记录“产品理解发生了什么变化、影响了哪些源码、你以后描述需求时该怎么说”。后续每次改功能都要补一条。</p>
        <div class="changelog">
+          <article class="change">
+            <header>
+              <h3>2026-05-14 · 音频处理接入 SKG 口播改写与 MiniMax 配音</h3>
+              <span class="tag gray">Audio</span>
+              <span class="tag green">MiniMax</span>
+            </header>
+            <div class="body">
+              <p><strong>问题：</strong>音频处理节点之前只说明“音轨 → ASR → 翻译 → 改写”，没有真实改写产物，也没有配音输出；用户无法直接拿到符合 SKG 产品语境的口播。</p>
+              <p><strong>改动：</strong><code>Job</code> 新增 <code>audio_script</code>，<code>pipeline_transcribe</code> 在 ASR 和翻译后生成 SKG 改写文案，并在配置 <code>MINIMAX_API_KEY</code> 时调用 MiniMax T2A 输出 <code>/jobs/{id}/audio-script.mp3</code>。前端 <code>AudioNode</code> 和侧栏 Rewrite 区显示模型链路、改写文案和配音播放器。</p>
+              <p><strong>边界：</strong>MiniMax 官方 Speech API 当前接入的是 TTS 配音，不替代 ASR；原始音频文案提取仍走现有 OpenAI-compatible audio transcription 入口。</p>
+              <p><strong>影响：</strong><code>api/main.py</code>、<code>api/.env.example</code>、<code>api/README.md</code>、<code>web/lib/api.ts</code>、<code>web/components/nodes/index.tsx</code>、<code>web/components/dashboard.tsx</code>、<code>web/app/page.tsx</code>、<code>docs/source-analysis.html</code>。</p>
+            </div>
+          </article>
+          <article class="change">
+            <header>
+              <h3>2026-05-14 · 默认抽帧张数改为 12 帧</h3>
+              <span class="tag violet">InputNode</span>
+              <span class="tag blue">抽帧</span>
+            </header>
+            <div class="body">
+              <p><strong>问题：</strong>透明骨架人主题需要更稳定的素材覆盖，默认 5 帧太少，容易缺少可用于主体、场景和产品融合的角度。</p>
+              <p><strong>改动：</strong>后端 <code>KEYFRAME_COUNT</code> 默认值、前端抽帧 fallback、API client 默认参数都改为 12；抽帧设置里的张数选项把 12 放到第一位。透明骨架人目标仍会对每个候选做 Vision 验收，不合格候选自动换下一帧。</p>
+              <p><strong>影响：</strong><code>api/main.py</code>、<code>api/.env.example</code>、<code>web/lib/api.ts</code>、<code>web/app/page.tsx</code>、<code>web/components/nodes/index.tsx</code>、<code>docs/source-analysis.html</code>。</p>
+            </div>
+          </article>
          <article class="change">
            <header>
              <h3>2026-05-14 · 抽帧新增透明骨架人 AI 验收目标</h3>