SKG TK 二创 API
FastAPI 后端,跑 yt-dlp + ffmpeg + ASR/翻译/文案改写 + MiniMax 配音管线。
启动
cd api
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
cp .env.example .env # 按需填 GEMINI_API_KEY
uvicorn main:app --port 4291 --reload
路由
GET /health— 健康检查 + 配置状态POST /jobs{url}— 创建 job,后台跑下载/拆轨/抽帧GET /jobs/{id}— 当前状态 + 产物POST /jobs/{id}/transcribe— 触发 ASR + 翻译 + SKG 文案改写;配置 MiniMax 后生成配音GET /jobs/{id}/video.mp4— 原视频GET /jobs/{id}/audio-script.mp3— 改写文案的 MiniMax 配音GET /jobs/{id}/frames/{i}.jpg— 第 i 张关键帧(0-9)
Mock 模式
未设 LLM_API_KEY 时,转录走本地 mock,便于 UI 联调;未设 MINIMAX_API_KEY 时只生成改写文案,不生成配音文件。
依赖
ffmpeg系统二进制(拆轨 / 抽帧)yt-dlp系统二进制(也可走 Python 包)- OpenAI 兼容 LLM 网关(ASR / 翻译 / 文案改写)
- MiniMax T2A HTTP(改写文案配音,使用
MINIMAX_API_KEY)