auto-save 2026-05-14 12:26 (~4)

2026-05-14 12:26:29 +08:00
parent df6f0c3bc4
commit 9ac5f843be
4 changed files with 39 additions and 40 deletions
--- a/api/README.md
+++ b/api/README.md
@@ -1,6 +1,6 @@
 # SKG TK 二创 API

-FastAPI 后端，跑 yt-dlp + ffmpeg + ASR/翻译/文案改写 + MiniMax 配音管线。
+FastAPI 后端，跑 yt-dlp + ffmpeg + ASR/翻译/英文 SKG 文案改写 + MiniMax 英文配音管线。

 ## 启动

@@ -19,11 +19,11 @@ uvicorn main:app --host 127.0.0.1 --port 4291

 - `GET  /health` — 健康检查 + 配置状态
 - `POST /jobs` `{url}` — 创建 job，后台下载源视频，视频就绪后可手动解析或提取音频
- `GET  /jobs/{id}` — 当前状态 + 产物
- `POST /jobs/{id}/transcribe` — 触发音频提取 + ASR + 翻译 + SKG 文案改写；配置 MiniMax 后生成配音。前端 Audio 节点提供“提取音频 / 重新提取音频”按钮，可与抽帧并行，不自动触发
+- `GET  /jobs/{id}` — 当前状态 + 产物；若原始音轨已拆出，会返回 `source_audio_url`
+- `POST /jobs/{id}/transcribe` — 触发音频提取 + ASR + 翻译 + SKG 英文文案改写；配置 MiniMax 后生成英文配音。前端 Audio 节点提供“提取音频 / 重新提取音频”按钮，可与抽帧并行，不自动触发
 - `GET  /jobs/{id}/video.mp4` — 原视频
 - `GET  /jobs/{id}/audio.wav` — 拆轨后的原始音频，供前端底部音频条生成波形
- `GET  /jobs/{id}/audio-script.mp3` — 改写文案的 MiniMax 配音
+- `GET  /jobs/{id}/audio-script.mp3` — 英文改写文案的 MiniMax 配音
 - `GET  /jobs/{id}/frames/{i}.jpg` — 第 i 张关键帧（0-9）

 ## Mock 模式
@@ -35,4 +35,4 @@ uvicorn main:app --host 127.0.0.1 --port 4291
 - `ffmpeg` 系统二进制（拆轨 / 抽帧）
 - `yt-dlp` 系统二进制（也可走 Python 包）
 - OpenAI 兼容 LLM 网关（ASR / 翻译 / 文案改写）；如果 `/audio/transcriptions` 不可用，会用 `ASR_FALLBACK_MODEL` 走 Gemini 多模态音频识别
- MiniMax T2A HTTP（改写文案配音，使用 `MINIMAX_API_KEY`）
+- MiniMax T2A HTTP（英文改写文案配音，使用 `MINIMAX_API_KEY`；默认音色 `English_expressive_narrator`）