feat: add xai video model

2026-06-03 16:59:43 +08:00
parent e14acee2a7
commit d038f1b2f4
8 changed files with 228 additions and 56 deletions
--- a/docs/source-analysis.html
+++ b/docs/source-analysis.html
@@ -618,7 +618,7 @@
          <p><strong>2026-05-25 三模式版：</strong>默认首页再收敛为一个中央对话框，首页和画布底部输入框只让用户选文生图、文生视频、图生视频，然后手写提示词生成。图生视频只显示“上传图片”，不再把首帧 / 首尾帧这类模型实现概念作为主入口；营销图文不再作为首页默认入口。后端 <code>/health</code> 返回可选图片 / 视频模型、图片尺寸、视频画幅和真实可用视频时长，首页按返回值显示模型和规格选择；当前 Doubao / Seedance 生产链路单条最长 15 秒，不向用户暴露 30 秒按钮。</p>
          <p><strong>2026-05-25 根域名画布版：</strong><code>https://marketing.skg.com</code> 登录后直接进入个人生成画布，不再先进入 React 单对话框首页再点画布；<code>/canvas/</code> 只保留为旧链接兼容跳转。后续优先少改成熟画布结构，只在必要时改模式文案、生成接入和结果/队列显示。</p>
          <p><strong>2026-05-25 上游能力恢复版：</strong>用户明确要求“API 没关系，其他恢复，别削弱”。因此根域名画布恢复 <code>chatfire-AI/huobao-canvas</code> 的成熟节点和工作流结构：推荐词、AI 润色、自动执行、工作流模板、首帧/尾帧/参考图节点、图片/视频/LLM 配置、多角度分镜、故事板、绘本和批量下载都保留；只继续替换品牌、路由和 API 接入。生成请求仍走 SKG 后端 <code>/api</code> 与登录 Cookie，员工不需要个人 API Key。</p>
-          <p><strong>2026-05-25 媒体模型接入收口：</strong>图片和视频模型选择只暴露当前后端真实可用项：图片为 <code>auto</code>、<code>gpt-image-2</code>、<code>gemini-3-pro-image-preview</code>；视频当前只接通 <code>Seedance 2.0 Fast</code>（真实模型 <code>doubao-seedance-2-0-fast-260128</code>）。旧上游的 Nano Banana、Seedream、Kling、Veo 或浏览器本地自定义媒体模型不能进入生成下拉，避免同事选到实际不可用的模型。</p>
+          <p><strong>2026-05-25 媒体模型接入收口：</strong>图片和视频模型选择只暴露当前后端真实可用项：图片为 <code>auto</code>、<code>gpt-image-2</code>、<code>gemini-3-pro-image-preview</code>；视频已接通 <code>Seedance 2.0 Fast</code>（真实模型 <code>doubao-seedance-2-0-fast-260128</code>）和按独立 key 配置的 <code>Grok Imagine Video</code>（真实模型 <code>grok-imagine-video</code>）。旧上游的 Nano Banana、Seedream、Kling、Veo 或浏览器本地自定义媒体模型不能进入生成下拉，避免同事选到实际不可用的模型。</p>
          <p><strong>2026-05-26 公司沉淀版：</strong>画布项目从浏览器本地存储升级为服务端 Postgres 持久化；<code>localStorage</code> 只作为离线缓存和首次导入来源。后端同时建立用户、任务、资源索引和审计表，保留原有 <code>state.json</code> 文件作为任务详情真源，避免一次迁移动到大文件资产结构。</p>
          <p><strong>2026-05-26 AI 润色中性化：</strong>画布 <code>AI 润色</code> 不再复用 SKG 广告文案接口 <code>/creative/copy</code>。后端新增 <code>POST /prompt/polish</code>，前端 <code>useChat</code>、根画布输入框、文本节点和自动执行意图分析改走中性提示词/通用生成接口：只优化用户已经给出的主体、风格、镜头和细节，不主动添加 SKG、按摩产品、TikTok 广告话术或用户没有提到的品牌。当前润色链路会先清理上一次润色遗留的模板尾巴，再判断人物/无人/物体/场景/动物/未知主体；原文明确有人时才声明虚构 AI 角色，原文明确无人时才保留无人物约束，原文没写人时不主动造人但也不追加“必须无人物”的模板尾巴；当输入或参考图已经有人物时，按 AI 生成的虚拟角色继续描述，而不是把人物参考图判定为不可用。</p>
          <p><strong>2026-05-26 我的工作流云端版：</strong>工作流面板从只有公共模板扩展为“公共工作流 / 我的工作流”两类。当前画布可以保存成当前登录用户自己的云端工作流模板，后续在同一账号的其他电脑或浏览器打开后可插回画布；保存时只沉淀节点结构、连线、配置和提示词，主动清掉已生成图片、视频、任务进度、错误和运行态字段，避免把一次性生成结果误当模板复用。</p>
@@ -657,7 +657,7 @@
                <tr><td><code>web/canvas-app/src/stores/workflows.js</code></td><td>我的工作流 store：调用 <code>GET/POST/DELETE /canvas-workflows</code> 读取、保存和删除当前登录用户自己的云端工作流模板。保存前会清理节点里的 <code>base64</code>、生成 URL、任务进度、错误、视频结果和 LLM 输出等运行态字段，只保留可复用的节点结构、连线、配置和提示词。</td></tr>
                <tr><td><code>web/canvas-app/src/views/Canvas.vue</code></td><td>画布主交互：恢复上游底部 prompt composer、<code>AI 润色</code>、<code>自动执行</code>、推荐词、节点菜单、工作流面板、API/模型设置入口和批量下载入口。自动执行会调用 <code>useWorkflowOrchestrator</code> 分析提示词，创建文生图、图转视频、故事板、多角度分镜或绘本节点组；手动模式只创建文本节点，用户自行连接节点。工作流面板支持公共模板和我的工作流：公共模板走本地 <code>createNodes()</code>，我的工作流从云端 <code>workflow_data</code> 插回当前画布，并重新生成节点 ID、按视口中心重排、按映射重连边。Vue Flow 开启可见节点渲染，大画布不再把所有节点同时挂载到 DOM；节点数超过 120 时隐藏 MiniMap，减少点击后的同步重绘压力。底部推荐词来自共享短词池，4 个一组单行展示，刷新按钮在 30 组内轮换，不改变输入面板高度。</td></tr>
                <tr><td><code>web/canvas-app/src/config/suggestions.js</code></td><td>首页和画布共用的推荐词配置：维护 <code>QUICK_SUGGESTION_GROUPS</code>，当前为 30 组 / 120 个短词，每组 4 个，控制刷新按钮的轮换范围；词条保持短小，避免推荐栏换行或顶起 composer。</td></tr>
-                <tr><td><code>web/canvas-app/src/config/models.js</code></td><td>画布媒体模型和规格的前端白名单：图片只内置 <code>auto</code>、<code>gpt-image-2</code>、<code>gemini-3-pro-image-preview</code>，尺寸只内置 <code>auto</code>、<code>1024x1536</code>、<code>1024x1024</code>、<code>1536x1024</code>；视频只内置 <code>seedance</code> / <code>Seedance 2.0 Fast</code>，画幅和时长对齐后端 <code>/health</code> 能力边界。<code>useModelConfig.js</code> 和 Pinia 模型 store 会忽略浏览器本地自定义图片/视频模型，防止旧缓存把不可用模型带回生成下拉。</td></tr>
+                <tr><td><code>web/canvas-app/src/config/models.js</code></td><td>画布媒体模型和规格的前端白名单：图片只内置 <code>auto</code>、<code>gpt-image-2</code>、<code>gemini-3-pro-image-preview</code>，尺寸只内置 <code>auto</code>、<code>1024x1536</code>、<code>1024x1024</code>、<code>1536x1024</code>；视频内置 <code>seedance</code> / <code>Seedance 2.0 Fast</code> 和默认不可用的 <code>xai</code> / <code>Grok Imagine Video</code>，后者只有后端 <code>/health</code> 回传 <code>available=true</code> 时才进入生成下拉。画幅和时长对齐后端 <code>/health</code> 能力边界。<code>useModelConfig.js</code> 和 Pinia 模型 store 会忽略浏览器本地自定义图片/视频模型，防止旧缓存把不可用模型带回生成下拉。</td></tr>
                <tr><td><code>web/canvas-app/src/hooks/useCachedMediaUrl.js</code></td><td>画布媒体本地缓存 Hook：只缓存同源、登录保护下的 <code>/api/jobs/...</code> 和 <code>/api/agent-runs/...</code> 图片 / 视频 / 音频。图片节点和视频节点先用原始 URL 保证首屏可见，再后台写入浏览器 Cache Storage；下次打开同一素材时返回本机 <code>blob:</code> URL，减少反复从 VPS 下载。</td></tr>
                <tr><td><code>web/canvas-app/src/hooks/useApi.js</code></td><td>画布到本项目后端的适配层：不再读取浏览器 API Key，而是使用当前登录会话 Cookie 调用 <code>/api</code>。文生图 / 图生图先创建轻量 creative job，再调用 <code>/frames/0/generate</code>；本地上传到图片节点的参考图也会先通过 <code>/creative/jobs/image</code> 写成后端资产，再把 <code>/api/jobs/...</code> URL 保存到节点，避免刷新后丢失。文生视频 / 图生视频调用 <code>/storyboard/video</code> 并轮询 <code>/jobs/{id}</code>，完成后把图片或 mp4 URL 写回画布节点。<code>useChat</code> 已从 SKG 广告文案接口切到 <code>/prompt/polish</code>：AI 润色显式使用 image/video prompt 模式，LLM 节点使用通用 chat 模式，避免自动注入用户没有提到的 SKG、产品、平台或营销语境；后端会清理旧润色模板尾巴、判断人物/无人/物体/场景意图，并在输出后检查“有人却禁止人物、无人却新增人物、未写 SKG 却出现 SKG”等冲突。图生视频实际提交到后端后，后端会对参考图追加 AI 虚拟角色条件说明，不要求前端判断图片里是否有人脸。</td></tr>
                <tr><td><code>web/scripts/sync-canvas-root.mjs</code></td><td>构建桥接脚本：在 <code>next build</code> 静态导出完成后，把 Vite 画布产物 <code>web/canvas-app/dist</code> 覆盖到 <code>web/out</code> 根目录，使 <code>https://marketing.skg.com</code> 登录后直接进入画布；旧 <code>web/scripts/sync-canvas-dist.mjs</code> 保留但不再由生产构建调用。</td></tr>
@@ -692,7 +692,7 @@
              <tbody>
                <tr><td><code>api/main.py</code></td><td>FastAPI 单文件后端：登录会话、状态模型、任务恢复、下载、抽帧、Vision、清洗、元素、分镜、原音频转写/翻译、声音与背景音分析、后续口播改写/TTS、文件返回；同时承载全局 <code>prompt_library</code> 和 <code>asset_library</code> 的磁盘索引、CRUD、删除保护和复制到 job API。启动时会初始化 Postgres schema、扫描现有 <code>state.json</code> / 资源库并写入索引；<code>/canvas-projects</code> 系列接口把画布项目按当前登录用户持久化，<code>/canvas-workflows</code> 系列接口把我的工作流按当前登录用户持久化为可复用模板。轻量创作入口 <code>POST /creative/jobs/image</code> 把上传图片或空白底图写成一个只有 0 号关键帧的 <code>Job</code>，让首页直接复用生图/生视频接口；该接口兼容无 body / JSON 空对象 / 正常 multipart 上传，避免无首帧文生图或文生视频时空 multipart 被 FastAPI 在业务前置解析阶段拒绝；<code>POST /prompt/polish</code> 用于中性 AI 润色和通用 LLM 文本生成，只保留用户明确给出的主体、品牌、产品、地点、风格和意图，不默认加入 SKG、按摩产品、平台或短视频广告话术。润色链路会先用 <code>_strip_previous_polish_boilerplate</code> 去掉旧模板尾巴，再用 <code>_classify_prompt_intent</code> 判断人物、无人、物体、场景、动物或未知主体，最后用 <code>_repair_polished_prompt</code> 修掉有人/无人矛盾、未写人却新增人物、未写 SKG 却出现 SKG 等冲突；<code>_append_reference_image_person_guard</code> 会在视频任务最终入队前给参考图请求追加条件提示，声明参考图里若有人物则按 AI 生成的虚拟角色处理；<code>/health</code> 返回 <code>database</code>、<code>image_options</code>、<code>image_size_options</code>、<code>video_options</code>、<code>video_size_options</code>、<code>video_duration_options</code> 和 <code>video_max_duration_seconds</code>；<code>/frames/{idx}/generate</code> 的 <code>model</code> 字段用于图片模型偏好，<code>size</code> 字段用于图片输出尺寸；<code>/storyboard/video</code> 继续使用 <code>model</code> 字段选择视频别名，并先校验画幅与时长能力边界，然后把 <code>GeneratedVideo</code> 写成 <code>queued</code> 占位并进入进程内视频队列。队列默认 <code>VIDEO_QUEUE_MAX_CONCURRENT=2</code>、<code>VIDEO_QUEUE_MAX_CONCURRENT_PER_USER=1</code>，同一用户连续提交不会占满全局并发；排队任务会回写 <code>queue_position</code>、<code>queue_size</code>、<code>queue_message</code>。旧 <code>AgentRun</code> 一键出片状态机、TK 复刻接口和 <code>POST /creative/copy</code> 作为明确的 SKG 营销文案接口继续保留。</td></tr>
                <tr><td><code>api/db.py</code></td><td>Postgres 适配层：在 <code>DATABASE_URL</code> 存在且 <code>psycopg</code> 可用时启用；负责建表、健康检查、用户 upsert、审计日志、画布项目 CRUD、我的工作流 CRUD，以及把 <code>Job</code>、<code>AgentRun</code>、提示词库和素材库写入索引表。数据库不可用时本地开发会降级为 disabled，生产 <code>verify-prod-docker.sh</code> 会要求 <code>database.connected=true</code>。</td></tr>
-                <tr><td><code>video_model_options()</code></td><td>视频模型能力出口：如果 <code>seedance</code>、<code>kling</code>、<code>veo3</code>、<code>veo</code> 等业务别名实际都映射到同一个真实模型，会按真实模型去重，只给前端返回一个可用选项；当前生产真实模型为 <code>doubao-seedance-2-0-fast-260128</code>，前端显示为 <code>Seedance 2.0 Fast</code>。后续只有在服务器真的配置了不同可用视频模型时，才应把新的模型重新暴露给画布。</td></tr>
+                <tr><td><code>video_model_options()</code></td><td>视频模型能力出口：如果 <code>seedance</code>、<code>kling</code>、<code>veo3</code>、<code>veo</code> 等业务别名实际都映射到同一个真实模型，会按真实模型去重，只给前端返回一个可用选项；当前 Seedance 真实模型为 <code>doubao-seedance-2-0-fast-260128</code>，前端显示为 <code>Seedance 2.0 Fast</code>。新增 <code>xai</code> / <code>grok-imagine-video</code> 独立走 <code>XAI_VIDEO_API_BASE_URL=https://ai.skg.com/ezlink/xai</code>、<code>XAI_VIDEO_API_KEY</code>、<code>/v1/videos/generations</code> 和 <code>/v1/videos/{id}</code>，创建返回 <code>request_id</code>、轮询完成返回 <code>video.url</code>；未配置 xAI key 时 <code>/health</code> 会标记不可用，前端不显示。</td></tr>
                <tr><td><code>api/product_library/skg-products</code></td><td>内置 SKG 白底产品图库：<code>manifest.json</code> 记录从桌面产品图筛出的 gallery 白底图和桌面 4 张产品角度图，<code>images/</code> 存 45 张参考图。</td></tr>
                <tr><td><code>api/character_library/skg-characters</code></td><td>内置相似主体形象库：从桌面 5 套策划形象导入，<code>manifest.json</code> 记录运动阳光男、都市型男、优雅白领女、运动辣妹、绅士大叔，每套含 7 张透明骨架参考图和一段 <code>prompt_brief</code>。相似主体生成时优先使用文字 brief 作为创意方向，避免把内置图作为强参考图复制。</td></tr>
                <tr><td><code>asset_library/</code></td><td>全局素材库目录，和 <code>jobs/</code> 平级，不写入任何 job state。四类目录为 <code>subjects</code>、<code>products</code>、<code>scenes</code>、<code>videos</code>；每个素材自带 <code>manifest.json</code> 和图片/视频文件，<code>index.json</code> 只是启动扫描重建出来的缓存。库素材选用到 job 时必须复制文件到 <code>jobs/&lt;jobId&gt;/assets</code> 或 <code>storyboard-videos</code>，禁止直接保存 library 引用。</td></tr>
@@ -1266,7 +1266,7 @@ ProductRefStateItem {
              <li>ASR：优先走当前 OpenAI-compatible 音频转写入口；如果该网关没有 <code>/audio/transcriptions</code>，自动 fallback 到 <code>ASR_FALLBACK_MODEL</code>（默认 <code>gemini-2.5-flash</code>）的多模态音频识别。</li>
              <li>Voice：当前语音通道固定是 <code>VOICE_PROVIDER=azure_openai</code>，通过 <code>AZURE_OPENAI_BASE_URL=https://ai.skg.com/azure</code> 的 OpenAI 协议生成 TTS；后端按 <code>AZURE_TTS_PATHS</code> 依次尝试路径。第一步暂不默认调用。</li>
              <li>Audio Product Brief：默认是通用 SKG 放松产品卖点；当前第一步只保留配置，后续分镜/新配音阶段再使用。</li>
-              <li>Video Gen：当前视频通道固定优先 Seedance；<code>VIDEO_API_BASE_URL=https://ai.skg.com/doubao</code> 走 content JSON 异步任务，提交后写入候选片段并轮询到完成。</li>
+              <li>Video Gen：当前视频通道默认 Seedance；<code>VIDEO_API_BASE_URL=https://ai.skg.com/doubao</code> 走 content JSON 异步任务。新增 <code>xai</code> / <code>Grok Imagine Video</code> 时，后端按模型分流到 <code>XAI_VIDEO_API_BASE_URL=https://ai.skg.com/ezlink/xai</code> 的 <code>/v1/videos/generations</code>，使用 <code>request_id</code> 轮询 <code>/v1/videos/{id}</code>，完成后下载 <code>video.url</code> 写入候选片段。</li>
              <li>Compose：还没做本地 ffmpeg 字幕/TTS 合成。</li>
            </ul>
          </div>
@@ -1310,6 +1310,19 @@ ProductRefStateItem {
        <h2>变更记录</h2>
        <p>这个记录不是 git log 的替代品。它记录“产品理解发生了什么变化、影响了哪些源码、你以后描述需求时该怎么说”。后续每次改功能都要补一条。</p>
        <div class="changelog">
+          <article class="change">
+            <header>
+              <h3>2026-06-03 · 接入 xAI Grok Imagine Video</h3>
+              <span class="tag blue">API</span>
+              <span class="tag violet">Model</span>
+              <span class="tag green">Canvas</span>
+            </header>
+            <div class="body">
+              <p><strong>问题：</strong>SKG xAI 网关 <code>https://ai.skg.com/ezlink/xai</code> 已确认可用 <code>grok-imagine-video</code> 文生视频，但项目只把 Seedance 暴露给画布，后端也按单一视频网关处理，无法同时保留 Seedance 并新增 xAI。</p>
+              <p><strong>改动：</strong><code>api/main.py</code> 新增 <code>xai</code> / <code>grok-imagine-video</code> 视频模型别名、<code>XAI_VIDEO_API_BASE_URL</code> / <code>XAI_VIDEO_API_KEY</code> / <code>XAI_VIDEO_CREATE_PATH</code> / <code>XAI_VIDEO_STATUS_PATH</code> 配置，按模型分流到 <code>/v1/videos/generations</code> 和 <code>/v1/videos/{id}</code>；创建时识别 xAI 的 <code>request_id</code>，轮询完成时读取 <code>video.url</code> 并下载 MP4。纯文生视频不会把系统空白帧误传为参考图；图生视频会把用户上传首帧作为 <code>image</code> 传入。</p>
+              <p><strong>前端 / 配置：</strong><code>web/canvas-app/src/config/models.js</code> 新增默认不可用的 <code>xai</code> 模型，<code>web/canvas-app/src/stores/pinia/models.js</code> 改为接受后端 <code>/health</code> 返回的可用视频模型，不再硬编码只保留 Seedance。<code>api/.env.example</code>、<code>deploy/.env.local.example</code> 和 <code>deploy/.env.production.example</code> 增加 xAI 私有 key 配置位，真实 key 只填本地或服务器私有 env。</p>
+            </div>
+          </article>
          <article class="change">
            <header>
              <h3>2026-05-30 · 稳定性 / 安全加固（子进程超时、SSRF、并发锁、上传持久化、轮询容错）</h3>