From 3b9e74f0a2c5413621edb668d8ab00e28c84da00 Mon Sep 17 00:00:00 2001 From: kang Date: Sun, 17 May 2026 12:55:45 +0800 Subject: [PATCH] refactor: narrow intake to audio-first workflow --- .memory/worklog.json | 65 +++---- .project.json | 2 +- RULES.md | 10 +- api/main.py | 128 ++++++++++--- docs/source-analysis.html | 107 ++++++----- web/app/page.tsx | 27 +-- web/components/ad-recreation-board.tsx | 238 +++++++++++++++++-------- web/components/audio-strip.tsx | 37 ++-- web/lib/api.ts | 1 + 9 files changed, 395 insertions(+), 220 deletions(-) diff --git a/.memory/worklog.json b/.memory/worklog.json index 79ed182..b860abc 100644 --- a/.memory/worklog.json +++ b/.memory/worklog.json @@ -1,37 +1,5 @@ { "entries": [ - { - "files_changed": 1, - "message": "Codex 会话活跃 · 最近命令:codex · 1 项未提交变更 · 最近提交:auto-save 2026-05-14 17:31 (~1)", - "ts": "2026-05-14T09:36:15Z", - "type": "session-heartbeat" - }, - { - "files_changed": 1, - "hash": "c5cc460", - "message": "auto-save 2026-05-14 17:37 (~1)", - "ts": "2026-05-14T17:37:45+08:00", - "type": "commit" - }, - { - "files_changed": 1, - "message": "Codex 会话活跃 · 最近命令:codex · 1 项未提交变更 · 最近提交:auto-save 2026-05-14 17:37 (~1)", - "ts": "2026-05-14T09:38:43Z", - "type": "session-heartbeat" - }, - { - "files_changed": 1, - "hash": "43cb9d7", - "message": "auto-save 2026-05-14 17:43 (~1)", - "ts": "2026-05-14T17:43:17+08:00", - "type": "commit" - }, - { - "files_changed": 1, - "message": "Codex 会话活跃 · 最近命令:codex · 1 项未提交变更 · 最近提交:auto-save 2026-05-14 17:43 (~1)", - "ts": "2026-05-14T09:46:15Z", - "type": "session-heartbeat" - }, { "files_changed": 1, "message": "Codex 会话活跃 · 最近命令:codex · 1 项未提交变更 · 最近提交:auto-save 2026-05-14 17:43 (~1)", @@ -3268,6 +3236,39 @@ "message": "auto-save 2026-05-17 12:28 (~4)", "hash": "08f1837", "files_changed": 4 + }, + { + "ts": "2026-05-17T12:33:13+08:00", + "type": "commit", + "message": "feat: add automatic production start workflow", + "hash": "b02bc3f", + "files_changed": 7 + }, + { + "ts": "2026-05-17T04:38:24Z", + "type": "session-heartbeat", + "message": "Codex 会话活跃 · 最近命令:codex · 分支 main · 1 项未提交变更 · 最近提交:feat: add automatic production start workflow", + "files_changed": 1 + }, + { + "ts": "2026-05-17T12:44:55+08:00", + "type": "commit", + "message": "auto-save 2026-05-17 12:44 (~5)", + "hash": "05e9e59", + "files_changed": 5 + }, + { + "ts": "2026-05-17T04:48:24Z", + "type": "session-heartbeat", + "message": "Codex 会话活跃 · 最近命令:codex · 分支 main · 7 项未提交变更 · 最近提交:auto-save 2026-05-17 12:44 (~5)", + "files_changed": 7 + }, + { + "ts": "2026-05-17T12:50:17+08:00", + "type": "commit", + "message": "auto-save 2026-05-17 12:50 (~8)", + "hash": "4dc4092", + "files_changed": 8 } ] } diff --git a/.project.json b/.project.json index 2911927..4c7ab81 100644 --- a/.project.json +++ b/.project.json @@ -27,7 +27,7 @@ "type": "web_login" } ], - "description": "SKG 信息流广告快速复刻分镜生产板:粘贴/上传素材后点击开始生产,自动下载、抽帧、解析音频、扫描关键元素并生成分镜初稿;用户在每张分镜卡中选择关键元素生成提取图和 6 视图,审核文案后可单条或全量生成视频候选,完整视频合成暂为待接入入口。", + "description": "SKG 信息流广告快速复刻第一步:粘贴 TK 链接或上传视频后点击开始,系统自动下载源视频;下载完成后优先解析原音频,提取原文案/字幕,分析讲话人、语速节奏、背景音乐/环境声/音效。抽帧、分镜、元素生成和视频合成暂保留为后续能力,不作为当前开始流程的默认动作。", "kind": "app", "name": "SKG Marketing Studio / SKG 营销内容工作台", "ownership": "company", diff --git a/RULES.md b/RULES.md index 596b700..434a952 100644 --- a/RULES.md +++ b/RULES.md @@ -11,7 +11,7 @@ - 详见 `CLAUDE.md` 立项决策段 + `.memory/plan.md` 七步管线拆解 - 风格:`04-Dark-Gallery-Ambient`(路径:`~/Projects/research/20260305-网页风格库/04-Dark-Gallery-Ambient.md`) - 第一冲刺:步骤 1-4(下载 / 拆轨 / 关键帧 / ASR+翻译) -- 当前产品方向(2026-05-17 确认):优先做信息流广告快速复刻产出,不再把主界面做成可视化流程节点;主界面为“左侧素材输入列 + 右侧单一分镜生产板块”。用户粘贴链接或上传素材后点击“开始”,系统自动下载、抽帧、解析音频、扫描关键元素并生成分镜初稿;分镜生产板块内,每个分镜从上到下依次包含音频分镜文案、该分镜关键元素 / 抽帧生成、该分镜视频生成。用户在关键元素候选里选择后生成元素提取图和 6 视图,审核分镜规划后可单条生成或“生成全部视频”。完整视频合成入口保留为待接入能力。 +- 当前产品方向(2026-05-17 再确认):先解决信息流广告快速复刻的第一步,不再沿用“开始后自动抽帧、分镜、元素生成、合成”的默认做法。主界面为“左侧素材输入列 + 右侧音频解析工作表”。用户粘贴 TK 链接或上传视频后点击“开始”,系统自动下载源视频;下载完成后优先提取原音频文案/字幕,并分析讲话人、语速节奏、背景音乐/环境声/音效。抽帧、分镜规划、产品融入、元素 6 视图和视频合成暂作为后续能力保留,不在当前第一步自动触发。 ## 部署事实 - 平台:VPS `76.13.31.179`(Ubuntu 24.04 / Docker Compose / Coolify Traefik) @@ -55,11 +55,11 @@ - `ASR_FALLBACK_MODEL`:当当前网关没有 `/audio/transcriptions` 时,用 Gemini 多模态 chat 直接识别 wav,默认 `gemini-2.5-flash` - `TRANSLATE_MODEL`:字幕翻译模型,默认 `gemini-2.5-flash` - `REWRITE_MODEL`:通用改写/分镜描述模型,默认 `gemini-2.5-pro` -- `AUDIO_REWRITE_MODEL`:音频口播改写模型,默认跟随 `REWRITE_MODEL`;当前产物要求按原音频时长输出英文 SKG 产品介绍 voice-over +- `AUDIO_REWRITE_MODEL`:后续音频口播改写模型,默认跟随 `REWRITE_MODEL`;当前第一步不默认调用口播改写,只保留原文案和声音分析 - `AUDIO_PRODUCT_BRIEF`:音频口播改写时注入的 SKG 产品卖点 -- `MINIMAX_API_KEY`:MiniMax T2A 配音 Key,只能放本地 `api/.env`,不能入库 -- `MINIMAX_TTS_BASE_URL` / `MINIMAX_TTS_MODEL` / `MINIMAX_TTS_VOICE_ID`:MiniMax 配音端点、模型和兜底音色配置 -- `MINIMAX_TTS_VOICE_POOL`:MiniMax 英文随机音色池;当前默认男声 `English_magnetic_voiced_man`、女声 `English_Upbeat_Woman`、成熟声 `English_MaturePartner` +- `MINIMAX_API_KEY`:MiniMax T2A 配音 Key,只能放本地 `api/.env`,不能入库;当前第一步暂不默认调用 +- `MINIMAX_TTS_BASE_URL` / `MINIMAX_TTS_MODEL` / `MINIMAX_TTS_VOICE_ID`:MiniMax 配音端点、模型和兜底音色配置,供后续新配音阶段使用 +- `MINIMAX_TTS_VOICE_POOL`:MiniMax 英文随机音色池;当前默认男声 `English_magnetic_voiced_man`、女声 `English_Upbeat_Woman`、成熟声 `English_MaturePartner`,供后续新配音阶段使用 - `POE_API_KEY` / `VIDEO_API_KEY`:视频生成通道 Key,只能放本地环境变量 - `WEB_AUTH_USERNAME` / `WEB_AUTH_PASSWORD` / `WEB_AUTH_SESSION_SECRET`:生产网页登录和会话签名配置;密码和 session secret 只放服务器环境变量,不入库 - 生产环境变量:服务器只使用 `deploy/.env.production`,模板为 `deploy/.env.production.example`;真实 Key 不入库 diff --git a/api/main.py b/api/main.py index 49e4546..b960f1d 100644 --- a/api/main.py +++ b/api/main.py @@ -146,7 +146,7 @@ def llm() -> OpenAI: return _llm_client # Pipeline 状态: -# created → downloading → downloaded(停,等用户点解析/提取音频) +# created → downloading → downloaded(前端“开始”会继续触发音频解析) # → splitting → frames_extracted # → transcribing → transcribed | failed JobStatus = Literal[ @@ -437,6 +437,7 @@ class AudioScript(BaseModel): rewritten_text: str = "" speaker_profile: str = "" rhythm_profile: str = "" + background_audio_profile: str = "" product_brief: str = "" rewrite_model: str = "" voice_provider: str = "" @@ -1392,7 +1393,7 @@ def media_duration(path: Path) -> float: def pipeline_download(job_id: str) -> None: - """阶段 1:仅下载(或上传跳过),落 source.mp4,停在 downloaded 等用户点解析/提取音频。""" + """阶段 1:仅下载(或上传跳过),落 source.mp4;前端开始流程会在 downloaded 后触发音频解析。""" job = JOBS[job_id] d = job_dir(job_id) try: @@ -1423,7 +1424,7 @@ def pipeline_download(job_id: str) -> None: height=int(v_stream["height"]) if v_stream else 0, progress=25, error="", - message=f"视频就绪 · {duration:.1f}s · 等待解析", + message=f"视频就绪 · {duration:.1f}s · 等待音频解析", ) except Exception as e: update(job, status="failed", error=str(e), message="下载失败") @@ -1785,6 +1786,91 @@ def _audio_delivery_profile(segments: list[TranscriptSegment], target_seconds: f return speaker, rhythm +def _fallback_audio_profile(segments: list[TranscriptSegment], target_seconds: float = 0.0) -> tuple[str, str, str]: + duration = max(float(target_seconds or 0), _segment_duration(segments), 0.0) + words = sum(len([w for w in s.en.replace("\n", " ").split(" ") if w.strip()]) for s in segments) + sentence_count = len([s for s in segments if (s.en or s.zh).strip()]) + wpm = int(round(words / max(duration, 1.0) * 60)) if words else 0 + avg_sentence = duration / sentence_count if sentence_count else 0.0 + speaker = "检测到短视频口播人声;当前仅能根据转写段落估算,未做声纹克隆。" + rhythm = ( + f"音频约 {duration:.1f}s,{sentence_count} 个文案段,语速约 {wpm} wpm,平均每段 {avg_sentence:.1f}s。" + if duration > 0 and sentence_count + else "音频节奏信息不足;等待模型返回更完整的语速和停顿分析。" + ) + background = "背景音待模型细分;当前已保留原音频文件,可继续用于音乐、人声和环境声判断。" + return speaker, rhythm, background + + +def _audio_profile_model_sync(wav: Path, segments: list[TranscriptSegment], target_seconds: float = 0.0) -> tuple[str, str, str]: + fallback = _fallback_audio_profile(segments, target_seconds) + if not LLM_API_KEY or not wav.exists(): + return fallback + transcript = _transcript_join(segments, "en") or _transcript_join(segments, "zh") or "No reliable transcript." + try: + audio_b64 = base64.b64encode(wav.read_bytes()).decode("ascii") + except Exception: + return fallback + prompt = ( + "Analyze this short-video audio for an ad recreation workflow. Return strict JSON only, no markdown.\n" + "Fields:\n" + "- speaker_profile: describe speaker count, likely gender/age range if audible, tone, energy, accent/language, confidence.\n" + "- rhythm_profile: describe pacing, pauses, speech density, segment rhythm, and timing pattern.\n" + "- background_audio_profile: describe music, background sound, ambience, SFX, loudness relationship to voice, and whether it should be recreated or replaced.\n" + "Do not invent an exact identity. If uncertain, state uncertainty.\n\n" + f"Known transcript/timestamps:\n{transcript[:5000]}" + ) + last_error: Exception | None = None + for attempt in range(2): + try: + resp = llm().chat.completions.create( + model=ASR_FALLBACK_MODEL, + messages=[{"role": "user", "content": [ + {"type": "text", "text": prompt}, + {"type": "input_audio", "input_audio": {"data": audio_b64, "format": "wav"}}, + ]}], + response_format={"type": "json_object"}, + temperature=0.1, + max_tokens=900, + ) + content = (resp.choices[0].message.content or "").strip() + data = json.loads(content) + speaker = str(data.get("speaker_profile") or "").strip() + rhythm = str(data.get("rhythm_profile") or "").strip() + background = str(data.get("background_audio_profile") or "").strip() + if speaker or rhythm or background: + return ( + speaker or fallback[0], + rhythm or fallback[1], + background or fallback[2], + ) + except Exception as e: + last_error = e + if attempt == 0: + time.sleep(1.0) + if last_error: + print(f"[audio profile fallback] {last_error}", flush=True) + return fallback + + +def _build_audio_intake_sync(job_id: str, wav: Path, segments: list[TranscriptSegment], target_seconds: float = 0.0) -> AudioScript: + source_text = _transcript_join(segments, "en") + source_zh = _transcript_join(segments, "zh") + duration = max(float(target_seconds or 0), _segment_duration(segments), 0.0) + speaker_profile, rhythm_profile, background_audio_profile = _audio_profile_model_sync(wav, segments, duration) + return AudioScript( + status="completed", + source_text=source_text, + source_zh=source_zh, + speaker_profile=speaker_profile, + rhythm_profile=rhythm_profile, + background_audio_profile=background_audio_profile, + product_brief=AUDIO_PRODUCT_BRIEF, + rewrite_model=ASR_FALLBACK_MODEL, + created_at=time.time(), + ) + + def _rewrite_audio_script_sync(segments: list[TranscriptSegment], target_seconds: float = 12.0) -> tuple[str, str]: fallback = _fallback_audio_script(segments, target_seconds) if not LLM_API_KEY: @@ -1980,21 +2066,21 @@ def pipeline_transcribe(job_id: str, manage_job_status: bool = True) -> None: status="rewriting", source_text=_transcript_join(mock, "en"), source_zh=_transcript_join(mock, "zh"), + speaker_profile="正在分析原音频讲话人和口播节奏…", + rhythm_profile="正在按原音频时长、语速和停顿分析口播节奏…", + background_audio_profile="正在分析背景音乐、环境声和音效…", product_brief=AUDIO_PRODUCT_BRIEF, - rewrite_model=AUDIO_REWRITE_MODEL, - voice_provider="minimax", - voice_model=MINIMAX_TTS_MODEL, - voice_id="random:" + ",".join(MINIMAX_TTS_VOICE_POOL or [MINIMAX_TTS_VOICE_ID]), + rewrite_model=ASR_FALLBACK_MODEL, ), } if manage_job_status: - update_kwargs.update(message="ASR mock 完成,生成 SKG 英文产品口播…", progress=92) + update_kwargs.update(message="ASR mock 完成,分析声音和背景音…", progress=92) update(job, **update_kwargs) - audio_script = _build_audio_script_sync(job_id, mock, target_duration) + audio_script = _build_audio_intake_sync(job_id, wav, mock, target_duration) if manage_job_status: update(job, transcript=mock, status="transcribed", progress=100, audio_script=audio_script, - message="转录完成(MOCK · 未设 LLM_API_KEY)") + message="音频解析完成(MOCK · 未设 LLM_API_KEY)") else: update(job, transcript=mock, audio_script=audio_script) return @@ -2046,21 +2132,21 @@ def pipeline_transcribe(job_id: str, manage_job_status: bool = True) -> None: status="rewriting", source_text=_transcript_join(full, "en"), source_zh=_transcript_join(full, "zh"), + speaker_profile="正在分析原音频讲话人和口播节奏…", + rhythm_profile="正在按原音频时长、语速和停顿分析口播节奏…", + background_audio_profile="正在分析背景音乐、环境声和音效…", product_brief=AUDIO_PRODUCT_BRIEF, - rewrite_model=AUDIO_REWRITE_MODEL, - voice_provider="minimax", - voice_model=MINIMAX_TTS_MODEL, - voice_id="random:" + ",".join(MINIMAX_TTS_VOICE_POOL or [MINIMAX_TTS_VOICE_ID]), + rewrite_model=ASR_FALLBACK_MODEL, ), } if manage_job_status: - update_kwargs.update(message="翻译完成,生成 SKG 英文产品口播与 MiniMax 配音…", progress=94) + update_kwargs.update(message="翻译完成,分析讲话人、节奏和背景音…", progress=94) update(job, **update_kwargs) - audio_script = _build_audio_script_sync(job_id, full, target_duration) + audio_script = _build_audio_intake_sync(job_id, wav, full, target_duration) if manage_job_status: update(job, transcript=full, status="transcribed", progress=100, audio_script=audio_script, - message=f"转录完成 · {len(full)} 段({ASR_MODEL} + {TRANSLATE_MODEL})") + message=f"音频解析完成 · {len(full)} 段({ASR_MODEL} + {TRANSLATE_MODEL} + {ASR_FALLBACK_MODEL} 音频分析)") else: update(job, transcript=full, audio_script=audio_script) @@ -2498,12 +2584,10 @@ async def trigger_transcribe(job_id: str, bg: BackgroundTasks) -> Job: audio_payload = AudioScript( status="rewriting", speaker_profile="正在分析原音频讲话人和口播节奏…", - rhythm_profile="正在按原音频时长、语速和停顿生成 SKG 产品配音脚本…", + rhythm_profile="正在按原音频时长、语速和停顿分析口播节奏…", + background_audio_profile="正在分析背景音乐、环境声和音效…", product_brief=AUDIO_PRODUCT_BRIEF, - rewrite_model=AUDIO_REWRITE_MODEL, - voice_provider="minimax", - voice_model=MINIMAX_TTS_MODEL, - voice_id="random:" + ",".join(MINIMAX_TTS_VOICE_POOL or [MINIMAX_TTS_VOICE_ID]), + rewrite_model=ASR_FALLBACK_MODEL, ) if manage_job_status: update(job, status="transcribing", progress=max(45, min(job.progress, 70)), error="", message="准备提取音频…", audio_script=audio_payload) diff --git a/docs/source-analysis.html b/docs/source-analysis.html index 7ce639a..954e3d5 100644 --- a/docs/source-analysis.html +++ b/docs/source-analysis.html @@ -485,7 +485,7 @@

这个页面是产品协作地图,不是应用功能页。

它把“你看到的界面、你想改的功能、实际要动的源码、可能影响的数据和接口”放在同一个地方。 - 后续描述需求时,可以直接说“改素材输入列 / 某个分镜卡片 / 某个接口行为”,这样改动范围会更准,也更容易追踪每次变更带来的影响。 + 后续描述需求时,可以直接说“改素材输入列 / 音频解析工作表 / 某个接口行为”,这样改动范围会更准,也更容易追踪每次变更带来的影响。

项目路径/Users/kangwan/Projects/business/20260512-20260512-skg-tk-二创验证
@@ -500,7 +500,7 @@

1. 先说你在改哪个产品区

-

例如“素材输入列”、“分镜生产板块”、“分镜卡片里的音频文案层 / 关键元素层 / 视频生成层”。不要只说“这里乱”,要指向页面里的功能区。

+

例如“素材输入列”、“音频解析工作表”、“逐句时间轴 / 讲话人分析 / 背景音分析”。不要只说“这里乱”,要指向页面里的功能区。

2. 再说这个区应该承担什么职责

@@ -569,12 +569,12 @@

业务管线

-

当前产品方向收敛为“信息流广告快速复刻分镜生产板”:主界面左侧是素材输入列,右侧是单一分镜生产板块。用户粘贴链接或上传素材后点击“开始”,系统自动下载、抽帧、解析音频、扫描关键元素并生成分镜初稿;每个分镜卡片从上到下对应音频分镜文案、该分镜关键元素 / 抽帧生成、该分镜视频生成。用户在关键元素候选里选择后生成元素提取图和 6 视图,审核分镜规划后可单条生成或“生成全部视频”。它不再保留单独的右侧空白画布,也不再把音频、元素和合成拆成多列。

+

当前产品方向已收窄为“信息流广告快速复刻第一步”:主界面左侧是素材输入列,右侧是音频解析工作表。用户粘贴 TK 链接或上传视频后点击“开始”,系统自动下载源视频;下载完成后优先提取原音频文案/字幕,并分析讲话人、语速节奏、背景音乐/环境声/音效。抽帧、分镜规划、产品融入、元素 6 视图和视频合成暂作为后续能力保留,不在当前开始流程里自动触发。

-
1

开始生产

TK / 信息流视频链接或本地上传;点击“开始”后创建任务,下载完成后自动进入抽帧和音频处理。

-
2

自动规划

抽帧后逐帧 Vision 扫描关键元素,同时音频按原时长、语速和停顿生成 SKG 英文产品口播与配音。

-
3

人工选择元素

每张分镜卡展示候选元素;用户选择后生成独立提取图和 6 视图,作为后续产品融合/视频生成参考。

-
4

单条 / 全量生成

审核分镜文案后,可在单张分镜内生成视频,也可点击“生成全部视频”;生成时默认带入四张 SKG 产品角度图。

+
1

导入素材

粘贴 TK / 信息流视频链接或上传本地视频;“开始”只把任务放入第一步队列。

+
2

下载源视频

后端用 yt-dlp 或本地上传文件落 source.mp4,记录时长、尺寸和视频只读地址。

+
3

解析音频

source.mp4 提取 audio.wav,ASR 提取原文案,翻译成中文,并写入逐句时间轴。

+
4

声音分析

用音频模型分析讲话人、口播节奏、停顿、背景音乐/环境声/音效;不默认改写配音或生成视频。

@@ -587,8 +587,8 @@ web/next.config.mjsNext.js 构建配置:静态导出、图片不走优化、禁用开发环境左下角 Next Dev Indicator,并移除 Next 16 已不支持的 eslint 顶层配置,避免本地 dev 出现配置 Issue 提示。 web/app/globals.css全局主题变量、登录页视觉样式、ReactFlow 样式引用,以及本地开发态 nextjs-portal 遮挡隐藏规则。 - web/app/page.tsx产品工作台主状态:jobs、activeJobId、按 job 隔离的 selectedFrames/音频条/生成任务状态;主渲染为全屏素材输入列 + 分镜生产板块;新增“开始生产”编排状态,负责下载完成后自动触发抽帧、音频处理、逐帧 Vision 扫描和分镜初稿保存;视频生成时默认复制四张 SKG 产品角度图作为参考。 - web/components/ad-recreation-board.tsx信息流广告分镜生产板:左侧素材输入;右侧按分镜纵向排列,每张分镜卡内部依次承载音频分镜文案、关键元素 / 抽帧生成、视频生成候选;关键元素候选可点击生成提取图 + 6 视图;支持单条生成和“生成全部视频”。 + web/app/page.tsx产品工作台主状态:jobs、activeJobId、按 job 隔离的音频条/生成任务状态;主渲染为全屏素材输入列 + 音频解析工作表;“开始”编排状态只负责在下载完成后自动触发 triggerTranscribe,不再默认触发抽帧、Vision 扫描或分镜初稿保存。 + web/components/ad-recreation-board.tsx信息流广告音频解析工作表:左侧素材输入;右侧展示视频下载状态、原文案/中文翻译、讲话人/节奏/背景音分析和逐句时间轴。旧分镜卡、抽帧控制和视频生成组件仍保留在文件里,但当前主路径不渲染。 web/app/login/page.tsx生产登录页:访问账号/访问密钥表单、保持登录、错误/成功状态;当前只在原版 Digital Oasis 动态背景上叠加一个组合登录框,桌面端左侧是动态角色,右侧是图标化登录表单;面板左上角展示官网 SKG 字标和中文“营销内容工作台”系统标识。 web/app/login/layout.tsx登录路由专属 layout:覆盖全站默认网页标题和描述为空,避免 /login 继承工作台 metadata 后在页面源码里继续出现登录界面文字以外的文案。 web/components/login/oasis-canvas.tsx登录页全屏动态视觉层:用 iframe 直接承载下载包 web/public/oasis-source/index.html 的原 WebGPU / Three.js 草场源码;父级登录页只覆盖自己的文案和表单,并在捕获阶段把全局鼠标坐标同时用原生事件和 postMessage 转发给 iframe,避免登录面板或输入框遮挡时草地失去鼠标响应。 @@ -596,7 +596,7 @@ web/public/skg-logo-black.svg从官网 https://cn.skg.com/logo-black.svg 获取的 SKG 官方黑色 SVG 字标;登录页通过 CSS 反相成白色玻璃标识使用。 web/components/login/animated-login-characters.tsx登录页四个几何动态角色组件:当前嵌入登录框顶部,去掉独立网格背景,保留鼠标眼神跟随、输入、显示密码、错误和成功状态反馈。 web/components/nodes/index.tsx旧 DAG 节点和深度素材面板定义仍保留,当前主界面不再把这些节点挂到画布上。 - web/components/audio-strip.tsx底部吸附音频条:可拖拽调整高度;播放原音频时移动指针,逐个高亮英文/中文字幕节点和对应波形,并在右侧固定显示按原音频时长生成的 SKG 英文产品口播和 MiniMax 随机英文配音。 + web/components/audio-strip.tsx底部吸附音频条:可拖拽调整高度;播放原音频时移动指针,逐个高亮英文/中文字幕节点和对应波形,并在右侧固定显示原文案、中文翻译、讲话人、节奏和背景音分析。 web/components/lightbox.tsx关键帧素材准备面板:清洗、统一主体候选、参考帧网格、六张主体重绘图、每帧去主体场景图、纵向 6 行产品融合镜头工作表和审核。 web/components/product-library-picker.tsxSKG 内置白底产品图库选择器:搜索、品类筛选、预览尺寸,并把库内图片复制为当前 job 的 assetweb/components/storyboard-bar.tsx顶部分镜编排条:展示选入编排的关键帧,并作为唯一分镜导航。 @@ -609,7 +609,7 @@

后端核心

- + @@ -623,18 +623,17 @@
前端主链路:
 web/app/page.tsx
-  -> 分镜生产板:web/components/ad-recreation-board.tsx
-  -> 开始生产:创建/激活 job → 自动抽帧 → 自动音频处理 → 自动 Vision 扫描 → 自动写入分镜初稿
-  -> 左侧素材输入列 + 右侧分镜卡片列表
-  -> 每张分镜卡:音频分镜文案 → 候选元素选择 / 提取图 / 6 视图 → 单条或全部视频生成
-  -> 底部音频条:web/components/audio-strip.tsx(原音频播放 / 指针 / 英文 / 中文 / 波形 / 英文改写稿)
+  -> 音频解析工作表:web/components/ad-recreation-board.tsx
+  -> 开始:创建/激活 job → 下载完成后自动触发音频处理
+  -> 左侧素材输入列 + 右侧原文案/中文翻译/声音背景音分析/逐句时间轴
+  -> 底部音频条:web/components/audio-strip.tsx(原音频播放 / 指针 / 英文 / 中文 / 波形 / 声音分析)
   -> 旧节点/深度素材面板:web/components/nodes/index.tsx、web/components/lightbox.tsx、web/components/storyboard-workbench.tsx(底层保留,当前不作为主入口)
   -> API 契约:web/lib/api.ts
 
 后端主链路:
 api/main.py
   -> Job / KeyFrame / KeyElement / StoryboardScene / AudioScript
-  -> 下载 / 上传 / 抽帧 / Vision / 清洗 / 元素提取 / 分镜保存 / 音频文案改写 / MiniMax 英文配音
+  -> 下载 / 上传 / 音频提取 / ASR / 翻译 / 声音背景音分析 / 抽帧 / Vision / 清洗 / 元素提取 / 分镜保存 / 后续音频改写与 MiniMax 英文配音
   -> jobs/<jobId>/state.json + 图片文件落盘
@@ -642,14 +641,14 @@ api/main.py

界面区域到源码

-
你看到的区域信息流广告分镜生产板
+
你看到的区域信息流广告音频解析工作表
主要源码AdRecreationBoard in web/components/ad-recreation-board.tsx;状态、轮询和接口回写仍在 web/app/page.tsx
-
适合怎么描述“开始生产后哪些步骤自动跑、素材输入列、分镜生产板块、分镜卡片的文案/元素/视频生成层要如何调整”。
+
适合怎么描述“素材输入列、开始后的自动下载/音频解析、原文案/翻译/声音背景音结果怎么展示”。
-
你看到的区域单个分镜卡片
-
主要源码StoryboardSegmentCardDraftSegmentCard in web/components/ad-recreation-board.tsx;复用 updateStoryboardaddElementcutoutElementgenerateSubjectAssetsgenerateStoryboardVideo 等接口。
-
适合怎么描述“每个分镜内部音频文案、关键元素和视频生成候选从上到下应该怎么对应”。
+
你看到的区域音频解析结果表
+
主要源码AudioIntakePanel / AudioIntakeStatus in web/components/ad-recreation-board.tsx;复用 triggerTranscribeAudioScript
+
适合怎么描述“原始文案、中文翻译、讲话人、节奏、背景音、逐句时间轴还需要哪些字段”。
你看到的区域旧深度素材面板(当前不作为主路径)
@@ -725,7 +724,7 @@ api/main.py

AudioScript

-

音频文案轨的结构化产物。pipeline_transcribe 提取 audio.wav 后按原音频秒数写入 SKG 英文产品介绍 voice-over,再用 MiniMax T2A 从英文音色池随机生成配音文件。

+

第一步音频解析的结构化产物。pipeline_transcribe 提取 audio.wav 后先保存原始转写、中文翻译、讲话人画像、口播节奏和背景音乐/环境声/音效分析。rewritten_textvoice_url 等字段仍保留给后续新配音阶段,当前第一步不默认写入。

AudioScript {
   status: idle | rewriting | completed | failed,
   source_text,
@@ -733,6 +732,7 @@ api/main.py
   rewritten_text,
   speaker_profile,
   rhythm_profile,
+  background_audio_profile,
   product_brief,
   rewrite_model,
   voice_provider: minimax,
@@ -814,13 +814,13 @@ SubjectAsset {
           
- - + + - - + + - + @@ -850,9 +850,9 @@ SubjectAsset { - - - + + + @@ -863,14 +863,14 @@ SubjectAsset { - - + + - - + + @@ -888,10 +888,10 @@ SubjectAsset {
  • 手动按时间戳加关键帧。
  • 关键帧清洗水印,全图或区域清洗。
  • Vision 识别关键帧,输出 scene、objects、style、suggested_prompt,并作为主体候选来源。
  • -
  • “开始生产”会在下载完成后自动抽帧、触发音频处理、逐帧 Vision 扫描并保存分镜初稿。
  • -
  • 主体候选确认、改名、删除和主体资产包生成;当前分镜卡可点击候选元素直接生成提取图 + 6 视图。
  • +
  • “开始”会在下载完成后自动触发音频处理,不再默认自动抽帧、Vision 扫描或保存分镜初稿。
  • +
  • 主体候选确认、改名、删除和主体资产包生成能力保留在底层旧面板和接口中,当前第一步主界面不主动展示。
  • 分镜工作台 4 图槽和改造说明自动保存。
  • -
  • 音频文案轨:点击开始或提取音频后按原音频时长、语速和停顿自动生成 SKG 英文产品介绍口播;配置 MiniMax 后从男声、女声、成熟声池随机生成自然英文配音 mp3。底部音频条可播放原音频并用指针逐段对齐字幕节点。
  • +
  • 音频文案轨:点击开始或提取音频后提取原文案、中文翻译、讲话人、语速节奏、背景音乐/环境声/音效。底部音频条可播放原音频并用指针逐段对齐字幕节点。
  • nano-banana-pro image-to-image 生图。
  • @@ -899,15 +899,15 @@ SubjectAsset {

    阻塞 / 占位

    • ASR:优先走当前 OpenAI-compatible 音频转写入口;如果该网关没有 /audio/transcriptions,自动 fallback 到 ASR_FALLBACK_MODEL(默认 gemini-2.5-flash)的多模态音频识别。
    • -
    • MiniMax:当前接入的是官方 T2A 英文配音能力,不是 ASR;默认随机音色池是 English_magnetic_voiced_manEnglish_Upbeat_WomanEnglish_MaturePartner。API Key 只能放本地环境变量,不能写入仓库。
    • -
    • Audio Product Brief:默认是通用 SKG 放松产品卖点,后续可改成跟已选产品库条目联动。
    • +
    • MiniMax:当前接入的是官方 T2A 英文配音能力,不是 ASR;第一步暂不默认调用。默认随机音色池是 English_magnetic_voiced_manEnglish_Upbeat_WomanEnglish_MaturePartner。API Key 只能放本地环境变量,不能写入仓库。
    • +
    • Audio Product Brief:默认是通用 SKG 放松产品卖点;当前第一步只保留配置,后续分镜/新配音阶段再使用。
    • Video Gen:模型层按业务保留 Seedance / Kling / Veo/Voe 选择;后端已支持 Poe、火山方舟和 SKG 豆包视频网关。Seedance 可通过 VIDEO_API_BASE_URL=https://ai.skg.com/doubao 走 content JSON 异步任务,提交后写入候选片段并轮询到完成。
    • Compose:还没做本地 ffmpeg 字幕/TTS 合成。
    -

    最重要的产品判断:当前视觉素材管线已经能继续推进,文案/音频/视频生成不要再反过来卡住镜头拆解和元素改造。

    +

    最重要的产品判断:当前先把“链接/上传 → 下载 → 音频原文案与声音背景音分析”跑顺;视觉抽帧、分镜和视频生成不要再反过来挤进第一步。

    @@ -915,16 +915,16 @@ SubjectAsset {

    需求描述模板

    -

    改分镜生产板

    -

    “我在素材输入列或右侧分镜生产板块,开始生产后哪些步骤自动跑,哪些步骤留给人工选择和审核。”

    +

    改音频解析工作表

    +

    “我在素材输入列或右侧音频解析工作表,开始后下载、转写、翻译、讲话人/节奏/背景音哪些状态要怎么展示。”

    -

    改分镜卡片层级

    -

    “每个分镜从上到下要如何对应音频文案、关键元素和视频生成候选,哪些内容必须跟着同一个分镜走。”

    +

    改音频字段

    +

    “每条音频解析结果需要哪些字段,例如原文案、中文翻译、说话人、语速、停顿、BGM、环境声、音效、置信度。”

    -

    改分镜字段

    -

    “每个分镜行需要哪些文本字段、图片参考、秒数、模型选择和自动保存规则,保存后如何传给生成视频。”

    +

    进入下一步

    +

    “音频解析完成后,什么时候才进入抽帧、分镜规划、产品融入、关键元素 6 视图或视频生成。”

    改数据/接口

    @@ -941,6 +941,18 @@ SubjectAsset {

    变更记录

    这个记录不是 git log 的替代品。它记录“产品理解发生了什么变化、影响了哪些源码、你以后描述需求时该怎么说”。后续每次改功能都要补一条。

    +
    +
    +

    2026-05-17 · 收窄为第一步音频解析

    + UI + Workflow +
    +
    +

    问题:用户明确否定前一版“开始后自动抽帧、分镜、元素、合成”的推进方式,当前只需要把信息流广告快速复刻的第一步跑通:粘贴 TK 链接或上传视频,下载源视频,提取原音频文案,并分析讲话人、节奏和背景音。

    +

    改动:web/app/page.tsx 的开始流程改为下载完成后只自动触发 triggerTranscribe;上传视频也加入同一音频解析队列。AdRecreationBoard 主渲染改成左侧素材输入 + 右侧音频解析工作表,不再显示“追加分镜”“开始抽帧”“生成全部视频”。AudioStrip 右侧改为原文案/翻译/声音背景音分析。AudioScript 新增 background_audio_profile,后端 pipeline_transcribe 先保存原文案、中文翻译、讲话人、节奏和背景音分析,当前第一步不默认生成 SKG 新口播或 MiniMax 配音。

    +

    影响:web/app/page.tsxweb/components/ad-recreation-board.tsxweb/components/audio-strip.tsxweb/lib/api.tsapi/main.pyRULES.md.project.jsondocs/source-analysis.html。后续需求应先描述“音频解析完成后是否进入下一步”,不要默认把抽帧/分镜/合成塞进开始动作。

    +
    +

    2026-05-17 · 开始生产自动编排

    @@ -948,6 +960,7 @@ SubjectAsset { Workflow
    +

    状态:已被上一条“收窄为第一步音频解析”覆盖;保留此记录用于解释旧代码和历史提交为什么存在。

    问题:用户希望粘贴视频链接后点击一次“开始”,系统就自动完成素材准备:抽帧、音频分析、关键元素扫描和分镜初稿;人工只负责判断规划是否合理、选择关键元素、再单条或全量生成视频。

    改动:web/app/page.tsx 新增开始生产编排状态:创建/激活 job 后,下载完成自动触发 analyzeJobtriggerTranscribe,关键帧出来后逐帧调用 describeFrame 并用 updateStoryboard 保存分镜初稿。视频生成时若分镜未显式选择产品图,会自动复制四张 desktop-skg-product-angle-01..04 作为 SKG 产品真源,并把已生成的关键元素 6 视图作为主体参考。AdRecreationBoard 把导入按钮改为“开始”,分镜卡里的候选元素可点击生成提取图 + 6 视图,顶部新增“生成全部视频”。AudioScript 新增 speaker_profilerhythm_profile,用于展示讲话人 / 节奏参考。

    影响:web/app/page.tsxweb/components/ad-recreation-board.tsxweb/components/nodes/index.tsxweb/lib/api.tsapi/main.pyRULES.md.project.jsondocs/source-analysis.html。后续需求应区分“开始生产自动编排”和“人工审核/选择/生成”的边界。

    diff --git a/web/app/page.tsx b/web/app/page.tsx index 14492ac..af9d603 100644 --- a/web/app/page.tsx +++ b/web/app/page.tsx @@ -226,7 +226,9 @@ export default function Home() { toast.info(`上传中:${file.name} (${(file.size / 1024 / 1024).toFixed(1)} MB)`) const created = await uploadJob(file) addJob(created) - toast.success(`已上传 ${created.id.slice(0, 8)}`) + setProductionJobIds((prev) => new Set(prev).add(created.id)) + setAudioStripJobId(created.id) + toast.success(`已上传 ${created.id.slice(0, 8)},下载完成后自动解析音频`) } catch (e) { toast.error("上传失败:" + (e instanceof Error ? e.message : String(e))) } finally { @@ -537,13 +539,11 @@ export default function Home() { } setProductionJobIds((prev) => new Set(prev).add(target.id)) setAudioStripJobId(target.id) - toast.success("已进入自动生产:下载完成后会抽帧、解析音频并生成分镜初稿") + toast.success("已进入第一步:下载完成后自动解析音频文案、讲话人和背景音") if (target.video_url && ["downloaded", "frames_extracted", "transcribed", "failed"].includes(target.status)) { - if (!target.frames.length) void handleAnalyzeJob(target.id, { mode: "replace" }) void handleTranscribeAudio(target.id, { silent: true }) - if (target.frames.length) void handlePlanStoryboardJob(target.id) } - }, [handleAnalyzeJob, handlePlanStoryboardJob, handleSubmit, handleTranscribeAudio, job]) + }, [handleSubmit, handleTranscribeAudio, job]) useEffect(() => { if (productionJobIds.size === 0) return @@ -552,22 +552,13 @@ export default function Home() { const videoReady = !!item.video_url && ["downloaded", "frames_extracted", "transcribed", "failed"].includes(item.status) if (!videoReady) continue const audioKey = `${item.id}:audio` - if (!autoTriggeredRef.current.has(audioKey) && item.audio_script?.status !== "rewriting" && !item.audio_script?.rewritten_text) { + const hasAudioResult = !!item.audio_script?.source_text || item.transcript.length > 0 + if (!autoTriggeredRef.current.has(audioKey) && item.audio_script?.status !== "rewriting" && !hasAudioResult) { autoTriggeredRef.current.add(audioKey) void handleTranscribeAudio(item.id, { silent: true }) } - const analyzeKey = `${item.id}:analyze` - if (!autoTriggeredRef.current.has(analyzeKey) && item.frames.length === 0 && item.status !== "splitting") { - autoTriggeredRef.current.add(analyzeKey) - void handleAnalyzeJob(item.id, { mode: "replace" }) - } - const planKey = `${item.id}:plan:${item.frames.length}` - if (item.frames.length > 0 && !autoTriggeredRef.current.has(planKey)) { - autoTriggeredRef.current.add(planKey) - void handlePlanStoryboardJob(item.id) - } } - }, [handleAnalyzeJob, handlePlanStoryboardJob, handleTranscribeAudio, jobs, productionJobIds]) + }, [handleTranscribeAudio, jobs, productionJobIds]) const handleQuickGenerateVideo = useCallback(async (frameIdx: number, scene: StoryboardScene, model: string) => { if (!job) return @@ -812,7 +803,7 @@ export default function Home() { if (jobs.length === 0) return // 状态切到 downloaded 时提示用户点解析(仅一次) if (job?.status === "downloaded" && prevStatusRef.current !== "downloaded") { - toast.info("视频已就绪,请在左侧看板开始抽帧", { duration: 6000 }) + toast.info("视频已下载,音频解析会自动开始;也可以在右侧手动重试", { duration: 6000 }) } prevStatusRef.current = job?.status ?? null diff --git a/web/components/ad-recreation-board.tsx b/web/components/ad-recreation-board.tsx index 083f739..efc810b 100644 --- a/web/components/ad-recreation-board.tsx +++ b/web/components/ad-recreation-board.tsx @@ -105,11 +105,11 @@ function videoSrc(video: GeneratedVideo) { } function audioPreview(job: Job | null) { - if (!job) return "导入素材后,先解析音频,再把产品内容改写成新的分镜文字。" - const rewritten = job.audio_script?.rewritten_text?.trim() - if (rewritten) return rewritten + if (!job) return "粘贴 TK 链接或上传视频后,系统会先下载视频;下载完成后自动提取音频文案。" + const source = job.audio_script?.source_text?.trim() || job.audio_script?.source_zh?.trim() + if (source) return source if (job.transcript?.length) return job.transcript.slice(0, 5).map((item) => item.en || item.zh).join(" ") - return "暂无音频文案。解析后这里会作为新剧情和分镜文字的依据。" + return "暂无音频文案。下载完成后会自动提取原音频文案、讲话人和背景音。" } function orderedFrames(job: Job | null, selectedFrames: KeyFrame[]) { @@ -172,8 +172,10 @@ export function AdRecreationBoard({ : [] const framesForSegments = orderedFrames(job, selectedFrames) const generatedVideos = job?.generated_videos ?? [] - const audioReady = !!job?.audio_script?.rewritten_text?.trim() + const audioReady = !!job?.audio_script?.source_text?.trim() || !!job?.transcript?.length const readySegments = countReadySegments(job, draftSegments) + const transcriptCount = job?.transcript.length ?? 0 + const backgroundReady = !!job?.audio_script?.background_audio_profile?.trim() useEffect(() => { setDraftSegments([]) @@ -341,15 +343,15 @@ export function AdRecreationBoard({
    -
    feed ad storyboard board
    -

    信息流广告分镜生产板

    +
    feed ad audio intake board
    +

    信息流广告音频解析工作表

    - - - + + +
    @@ -371,11 +373,11 @@ export function AdRecreationBoard({
    - + 02
    -

    音频分镜生产板块

    -

    每张分镜卡从上到下对应:音频分镜文案、关键元素、视频生成。

    +

    音频解析第一步

    +

    先把源视频下载到本地,再提取原文案、讲话人节奏和背景音;分镜、抽帧、合成先不自动跑。

    data.onTranscribeAudio?.(job?.id)}> @@ -385,14 +387,6 @@ export function AdRecreationBoard({ data.onOpenAudioStrip?.(job?.id)}> 打开音轨 - - - 追加分镜 - - - {generatingAll ? : } - 生成全部视频 -
    @@ -409,69 +403,21 @@ export function AdRecreationBoard({
    {job.audio_script.speaker_profile &&
    讲话人:{job.audio_script.speaker_profile}
    } {job.audio_script.rhythm_profile &&
    节奏:{job.audio_script.rhythm_profile}
    } + {job.audio_script.background_audio_profile &&
    背景音:{job.audio_script.background_audio_profile}
    }
    )}
    - +
    -
    - {job && framesForSegments.length > 0 ? framesForSegments.map((frame, order) => ( - video.frame_idx === frame.index)} - busy={elementBusyFrame === frame.index} - sixViewBusyKey={sixViewBusyKey} - onToggleFrame={() => data.onToggleFrame(frame.index)} - onJobUpdate={data.onJobUpdate} - onGenerateElement={(candidate) => generateElementForFrame(frame, candidate)} - onGenerateSixViews={(element) => generateSixViewsForElement(frame, element)} - onGenerateVideo={onGenerateVideo} - onToggleVideo={toggleVideo} - onDeleteVideo={(videoId) => data.onDeleteVideo?.(videoId)} - /> - )) : null} - - {draftSegments.map((draft, index) => ( - updateDraftSegment(draft.id, patch)} - onRemove={() => removeDraftSegment(draft.id)} - onJobUpdate={data.onJobUpdate} - onGenerateVideo={onGenerateVideo} - /> - ))} - - {!job && } - {job && framesForSegments.length === 0 && draftSegments.length === 0 && ( - - )} -
    +
    - +
    @@ -577,6 +523,123 @@ function MaterialColumn({ ) } +function AudioIntakeStatus({ job, audioReady }: { job: Job | null; audioReady: boolean }) { + const downloading = !!job && ["created", "downloading"].includes(job.status) + const audioRunning = !!job && (job.status === "transcribing" || job.audio_script?.status === "rewriting") + return ( +
    +
    + } title="当前步骤" /> + +
    +
    + + + + +
    +
    + {job?.message || "粘贴 TK 链接或上传视频后,点击开始进入下载和音频解析。"} +
    +
    + ) +} + +function AudioIntakePanel({ job }: { job: Job | null }) { + if (!job) { + return + } + + const script = job.audio_script + const original = script?.source_text?.trim() || job.transcript.map((item) => item.en).filter(Boolean).join(" ") + const translated = script?.source_zh?.trim() || job.transcript.map((item) => item.zh).filter(Boolean).join(" ") + const profiles = [ + { label: "讲话人", value: script?.speaker_profile }, + { label: "节奏", value: script?.rhythm_profile }, + { label: "背景音", value: script?.background_audio_profile }, + ] + const processing = job.status === "transcribing" || script?.status === "rewriting" + + return ( +
    +
    +
    + } title="原文案提取" /> + 0} running={processing} /> +
    +
    + + +
    +
    + +
    +
    + } title="声音与背景音分析" /> + {formatSeconds(job.duration)} +
    +
    + {profiles.map((item) => ( + + ))} +
    +
    + +
    +
    + } title="逐句时间轴" /> + {job.transcript.length} 段 +
    + {job.transcript.length ? ( +
    +
    +
    时间
    +
    原文
    +
    中文
    +
    +
    + {job.transcript.map((segment) => ( +
    +
    {segment.start.toFixed(1)}-{segment.end.toFixed(1)}s
    +
    {segment.en || -}
    +
    {segment.zh || 翻译中}
    +
    + ))} +
    +
    + ) : ( + + )} +
    +
    + ) +} + +function TextBlock({ title, value, empty }: { title: string; value?: string; empty: string }) { + return ( +
    +
    {title}
    +
    + {value || {empty}} +
    +
    + ) +} + +function ProfileTile({ label, value, running }: { label: string; value?: string; running?: boolean }) { + return ( +
    +
    + {label} + {running ? : value ? : } +
    +

    + {value || (running ? "模型分析中..." : "等待音频分析结果。")} +

    +
    + ) +} + function FrameExtractControls({ job, data, @@ -1006,6 +1069,29 @@ function SegmentBand({ icon, title, children }: { icon: ReactNode; title: string ) } +function AudioStepSummary({ job, audioReady }: { job: Job | null; audioReady: boolean }) { + const downloading = !!job && ["created", "downloading"].includes(job.status) + const audioRunning = !!job && (job.status === "transcribing" || job.audio_script?.status === "rewriting") + return ( +
    +
    + +
    +
    第一步:音频解析
    +
    + {job?.message || "等待素材输入;完成后再进入分镜规划和素材生成。"} +
    +
    +
    +
    + + + +
    +
    + ) +} + function ComposeSummary({ audioReady, selectedVideoCount, @@ -1068,9 +1154,9 @@ function MaterialCard({ {tone.label}
    - - - + + +
    {onDelete && ( (null) const transcript = job?.transcript ?? [] const audioScript = job?.audio_script - const voiceUrl = apiAssetUrl(audioScript?.voice_url) const sourceUrl = job ? apiAssetUrl(job.source_audio_url || sourceAudioUrl(job.id)) : "" const processing = !!job && (job.status === "transcribing" || audioScript?.status === "rewriting") const activeSegment = transcript.find((segment) => currentTime >= segment.start && currentTime <= Math.max(segment.end, segment.start + 0.2)) @@ -248,12 +247,6 @@ export function AudioStrip({ job, open, onClose }: { job: Job | null; open: bool {transcript.length || 0} 段
    - {voiceUrl && ( -
    - - English VO ready -
    - )}
    -
    English product VO · SKG intro
    -

    - {audioScript?.rewritten_text || "Waiting for the source audio length to become a natural English SKG product voice-over."} -

    - {voiceUrl && ( -
    )} diff --git a/web/lib/api.ts b/web/lib/api.ts index 34e9e2a..4c88896 100644 --- a/web/lib/api.ts +++ b/web/lib/api.ts @@ -358,6 +358,7 @@ export interface AudioScript { rewritten_text: string speaker_profile: string rhythm_profile: string + background_audio_profile: string product_brief: string rewrite_model: string voice_provider: string
    api/main.pyFastAPI 单文件后端:登录会话、状态模型、任务恢复、下载、抽帧、Vision、清洗、元素、分镜、音频文案改写、MiniMax 英文配音、文件返回。
    api/main.pyFastAPI 单文件后端:登录会话、状态模型、任务恢复、下载、抽帧、Vision、清洗、元素、分镜、原音频转写/翻译、声音与背景音分析、后续口播改写/TTS、文件返回。
    api/product_library/skg-products内置 SKG 白底产品图库:manifest.json 记录从桌面产品图筛出的 gallery 白底图和桌面 4 张产品角度图,images/ 存 45 张参考图。
    jobs/<jobId>/state.json运行时状态文件,不在源码列表里,但刷新恢复依赖它。
    jobs/<jobId>/audio.wav拆轨得到的原始音频,底部 Audio Strip 会通过只读接口拉取并在浏览器里解码成波形峰值。
    网页登录POST /auth/loginGET /auth/checkPOST /auth/logoutweb/app/login/page.tsx、Nginx auth_request登录页提交账号密码到 /api/auth/login,后端设置 HttpOnly 会话 Cookie;生产 Nginx 对工作台和 /api//auth/check 做统一校验,未登录页面跳 /login/,API 返回 JSON 401。
    历史列表GET /jobslistJobs所有 job 精简列表(id/url/status/thumbnail/mtime…),按 state.json mtime 倒序。前端 URL 无 ?job= 时拉它回填全部历史;带 limit 可截断。
    创建任务POST /jobscreateJob提交 TK 链接,后台开始下载,停在 downloaded 等用户点解析。
    上传视频POST /jobs/uploaduploadJob保存 source.mp4,然后同样进入下载完成状态。
    创建任务POST /jobscreateJob提交 TK 链接,后台开始下载;前端“开始”队列会在 downloaded 后自动触发音频解析。
    上传视频POST /jobs/uploaduploadJob保存 source.mp4,然后同样进入下载完成状态;当前上传后也加入第一步队列,下载完成后自动解析音频。
    删除输入视频DELETE /jobs/{id}deleteJob从任务队列、URL 和磁盘 jobs/<id> 目录移除整个 job,包括源视频、关键帧、元素提取图和生成视频。
    解析视频POST /jobs/{id}/analyze?frames=&target=&mode=&quality=analyzeJob拆轨 + 目标化抽关键帧。默认 frames=12target 支持透明骨架人、综合、清晰主体、转场变化、表情瞬间、动作峰值;当前 UI 默认 transparent_human。透明骨架人目标现在只走本地清晰度、中心主体、对比度、画面变化和 pHash 去重,不在抽帧阶段逐帧调用 Vision;mode=append 追加新关键帧;quality=auto 为展示友好档,最高只自动选择精细,不会自动上极准;极准保留为手动选择。抽帧开始时同步拆出 audio.wav 并启动音频处理线程。多个抽帧请求进入后端队列顺序处理。
    音频文案轨POST /jobs/{id}/transcribetriggerTranscribe若尚未拆轨,先从 source.mp4 提取 audio.wav 并回填 source_audio_url;随后用原音频实际秒数估算英文词数,按 AUDIO_PRODUCT_BRIEF 生成有趣、自然的 SKG 英文产品介绍 audio_script.rewritten_text,并写入 speaker_profilerhythm_profile 作为讲话人 / 节奏参考。ASR/翻译结果保留为改前对照;如果 ASR 不可用,也会用原音频时长继续生成产品口播。配置 MINIMAX_API_KEY 后调用 MiniMax T2A,并从 MINIMAX_TTS_VOICE_POOL 随机选择男声、女声或成熟声生成 audio_script.voice_url
    解析视频POST /jobs/{id}/analyze?frames=&target=&mode=&quality=analyzeJob后续阶段保留的抽帧能力。默认 frames=12target 支持透明骨架人、综合、清晰主体、转场变化、表情瞬间、动作峰值。当前第一步主流程不自动调用该接口。
    音频文案轨POST /jobs/{id}/transcribetriggerTranscribe若尚未拆轨,先从 source.mp4 提取 audio.wav 并回填 source_audio_url;随后用 ASR 提取原始文案,翻译成中文,写入 audio_script.source_textsource_zh 和逐句 transcript。再用 ASR_FALLBACK_MODEL 多模态音频分析讲话人、语速节奏、停顿、背景音乐/环境声/音效,写入 speaker_profilerhythm_profilebackground_audio_profile。当前第一步不默认生成 SKG 新口播和 MiniMax 配音。
    原始音频文件GET /jobs/{id}/audio.wavsourceAudioUrl返回拆轨得到的 wav;底部 AudioStrip 拉取该文件,用 Web Audio API 解码并计算波形峰值。原音频播放器驱动时间轴,播放时全局指针和当前字幕节点内指针同步移动。
    改写配音文件GET /jobs/{id}/audio-script.mp3apiAssetUrl(job.audio_script.voice_url)返回 MiniMax T2A 生成的英文 mp3。没有配置 MiniMax 或生成失败时该文件不存在,但英文改写文案仍会保存在 audio_script.rewritten_text
    改写配音文件GET /jobs/{id}/audio-script.mp3apiAssetUrl(job.audio_script.voice_url)后续新配音阶段保留的 MiniMax T2A 产物。当前第一步不默认生成该文件。
    手动加帧POST /jobs/{id}/frames?t=addManualFrame按视频时间戳抽一帧,index 递增但 frames 按 timestamp 排序。
    Vision 识别POST /frames/{idx}/describedescribeFrame写入 frame.description,后续可从 objects 加候选元素。
    清洗水印POST /frames/{idx}/cleanupcleanupFrame支持全图和区域清洗,生成 cleaned 待应用版本;前端批量清洗会顺序调用该接口,不自动覆盖原图。单帧清洗状态按 frame.index 隔离,清洗某一张不会禁用其他关键帧的清洗按钮。
    分镜生产板承载当前主路径:素材输入列按文件任务管理素材;点击“开始”后自动触发下载后抽帧、音频处理、Vision 扫描和分镜初稿;分镜生产板块按分镜纵向排列;每张分镜卡从上到下编辑音频分镜文案、选择关键元素并生成提取图/6 视图、生成本分镜候选视频;顶部可“生成全部视频”,底部仅汇总完整视频合成入口。不要再拆回多个画布节点;不要恢复右侧空白画布占位。音频解析工作表承载当前第一步主路径:素材输入列按文件任务管理素材;点击“开始”后自动下载源视频,下载完成后只触发音频提取、原文案转写、中文翻译、讲话人/节奏/背景音分析,并以工作表方式展示。不要在当前开始流程里自动抽帧、自动写分镜、自动生成元素或自动合成视频;不要恢复右侧空白画布占位。 web/components/ad-recreation-board.tsxweb/app/page.tsx
    音频条分镜生产板块顶部触发音频解析,底部 AudioStrip 仍负责原音频播放、字幕/口播文本、波形和配音预览。不要阻断视觉素材管线。音频解析工作表顶部触发音频解析,底部 AudioStrip 负责原音频播放、字幕/翻译、波形和声音/背景音分析预览。当前第一步不要默认展示新配音播放器或把 MiniMax 配音当作已完成结果。 web/components/audio-strip.tsxpipeline_transcribeAudioScript
    候选片段生成视频结果直接显示在对应分镜卡片的视频生成层;单条生成和“生成全部视频”都会默认带入四张 SKG 产品角度图,已生成的关键元素 6 视图会作为主体参考图。不要把 Compose 提前变成最终剪辑台;最终合成仍是占位。后续阶段保留的生成视频能力,仍可通过底层接口和旧组件继续演进。不要在第一步入口里露出“生成全部视频”或误导用户认为已进入视频合成。 /storyboard/videogenerated_videosAdRecreationBoard