auto-save 2026-05-17 13:56 (~4)

2026-05-17 13:56:10 +08:00
parent 5a871492d6
commit c4b6980dd0
4 changed files with 19 additions and 9 deletions
--- a/RULES.md
+++ b/RULES.md
@@ -52,8 +52,9 @@
 ## 环境变量
 - `LLM_BASE_URL` / `LLM_API_KEY`：OpenAI 兼容网关，用于 ASR、翻译、文案改写、图像等模型调用
 - `ASR_MODEL`：OpenAI Audio Transcriptions 音频转写模型，默认 `whisper-1`
- `ASR_FALLBACK_MODEL`：当当前网关没有 `/audio/transcriptions` 时，用 Gemini 多模态 chat 直接识别 wav，默认 `gemini-2.5-flash`
- `ASR_TIMEOUT_SECONDS`：ASR 单次请求超时，默认 45 秒；`whisper-1` 超时后自动走 `ASR_FALLBACK_MODEL`，避免第一步长时间停在转录中
+- `ASR_FALLBACK_MODEL`：远端 ASR 和本机 ASR 都不可用时才尝试的多模态兜底，默认 `gemini-2.5-flash`；如果模型不能真实听到音频或返回疑似逐秒假字幕，后端必须拒绝写入时间轴
+- `ASR_TIMEOUT_SECONDS`：远端 ASR / 音频分析单次请求超时，默认 45 秒，避免第一步长时间停在转录中
+- `LOCAL_ASR_BIN` / `LOCAL_ASR_MODEL` / `LOCAL_ASR_TIMEOUT_SECONDS`：本机 ASR 兜底，默认使用 `/opt/homebrew/bin/mlx_whisper` + `mlx-community/whisper-tiny`，用于当前 SKG 网关 `/audio/transcriptions` 不可用时生成真实逐句时间轴
 - `TRANSLATE_MODEL`：字幕翻译模型，默认 `gemini-2.5-flash`
 - `REWRITE_MODEL`：通用改写/分镜描述模型，默认 `gemini-2.5-pro`
 - `AUDIO_REWRITE_MODEL`：后续音频口播改写模型，默认跟随 `REWRITE_MODEL`；当前第一步不默认调用口播改写，只保留原文案和声音分析