VibeVoice — 语音 AI 全家桶

微软开源 | ASR + TTS + 实时语音 | MIT 许可

Microsoft Research ASR 语音识别 TTS 语音合成 MIT 开源
🎙
VibeVoice-ASR
语音识别模型
  • 单次处理 60 分钟音频
  • 输出:说话人 + 时间戳 + 内容
  • 支持 50+ 语言
  • 支持自定义热词
🔊
VibeVoice-1.5B
15 亿参数 · TTS
  • 高质量文字转语音
  • 自然语调和韵律
  • 多语言支持
  • 7.5Hz 超低帧率 token
VibeVoice-Realtime-0.5B
5 亿参数 · 实时 TTS
  • 流式文字输入
  • 首音延迟 ~300ms
  • 支持长文本朗读
  • 适合实时对话场景

核心技术

技术说明
连续语音 Tokenizer声学 + 语义双 Tokenizer,7.5Hz 超低帧率
长音频处理单次 60 分钟,无需分段
说话人分离自动识别 Who + When + What
流式推理边输入文字边生成语音,300ms 首音
热词支持自定义专业术语提升识别率

vs 同类方案

维度WhisperElevenLabsVibeVoice
ASR有(更强)
TTS
实时流式
说话人识别内置
长音频需分段N/A60分钟单次
开源是(MIT)
费用免费按量付费免费

我们的应用场景

法考视频字幕提取

9,553 个法考视频需要提取字幕。VibeVoice-ASR 单次处理 60 分钟 + 自动时间戳 + 说话人识别,配合法律热词("不当得利""善意取得"等)可显著提升识别率。

高优先级

法海法考 App 语音朗读

用 Realtime-0.5B 为题目和解析生成语音朗读,支持边看题边听讲解,提升学习体验。

中优先级

百陶会多语言介绍

用 VibeVoice-1.5B 为产品页面生成中英文语音介绍,50+ 语言支持覆盖海外客户。

低优先级

ASR 使用示例

# 安装 pip install transformers torch # ASR:语音转文字(带时间戳和说话人) from transformers import pipeline asr = pipeline( "automatic-speech-recognition", model="microsoft/VibeVoice-ASR" ) result = asr("lecture_60min.wav") # 输出:[{speaker: "A", start: 0.0, end: 3.2, text: "..."}, ...]

TTS 使用示例

# 实时 TTS:文字转语音 from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained( "microsoft/VibeVoice-Realtime-0.5B" ) # 流式生成,首音 ~300ms for audio_chunk in model.generate_stream("今天我们来讲民法典..."): play(audio_chunk)

硬件要求与本机适配

模型显存需求M2 Max 可运行?
VibeVoice-ASR~8GB可以(MPS 加速)
VibeVoice-1.5B~6GB可以
VibeVoice-Realtime-0.5B~2GB可以

本机 M2 Max 64GB 完全满足所有模型运行要求

评价:实用性很高

ASR + TTS + 实时语音三合一开源方案,MIT 许可无商用限制。ASR 的 60 分钟长音频 + 说话人识别是真正的差异化优势。本机 M2 Max 可直接运行,不需要 GPU 服务器。对法考字幕提取项目有直接价值。