VibeVoice — 语音 AI 全家桶
微软开源 | ASR + TTS + 实时语音 | MIT 许可
Microsoft Research
ASR 语音识别
TTS 语音合成
MIT 开源
🎙
VibeVoice-ASR
语音识别模型
- 单次处理 60 分钟音频
- 输出:说话人 + 时间戳 + 内容
- 支持 50+ 语言
- 支持自定义热词
🔊
VibeVoice-1.5B
15 亿参数 · TTS
- 高质量文字转语音
- 自然语调和韵律
- 多语言支持
- 7.5Hz 超低帧率 token
⚡
VibeVoice-Realtime-0.5B
5 亿参数 · 实时 TTS
- 流式文字输入
- 首音延迟 ~300ms
- 支持长文本朗读
- 适合实时对话场景
核心技术
| 技术 | 说明 |
| 连续语音 Tokenizer | 声学 + 语义双 Tokenizer,7.5Hz 超低帧率 |
| 长音频处理 | 单次 60 分钟,无需分段 |
| 说话人分离 | 自动识别 Who + When + What |
| 流式推理 | 边输入文字边生成语音,300ms 首音 |
| 热词支持 | 自定义专业术语提升识别率 |
vs 同类方案
| 维度 | Whisper | ElevenLabs | VibeVoice |
| ASR | 有 | 无 | 有(更强) |
| TTS | 无 | 有 | 有 |
| 实时流式 | 无 | 有 | 有 |
| 说话人识别 | 无 | 无 | 内置 |
| 长音频 | 需分段 | N/A | 60分钟单次 |
| 开源 | 是 | 否 | 是(MIT) |
| 费用 | 免费 | 按量付费 | 免费 |
我们的应用场景
法考视频字幕提取
9,553 个法考视频需要提取字幕。VibeVoice-ASR 单次处理 60 分钟 + 自动时间戳 + 说话人识别,配合法律热词("不当得利""善意取得"等)可显著提升识别率。
高优先级
法海法考 App 语音朗读
用 Realtime-0.5B 为题目和解析生成语音朗读,支持边看题边听讲解,提升学习体验。
中优先级
百陶会多语言介绍
用 VibeVoice-1.5B 为产品页面生成中英文语音介绍,50+ 语言支持覆盖海外客户。
低优先级
ASR 使用示例
pip install transformers torch
from transformers import pipeline
asr = pipeline(
"automatic-speech-recognition",
model="microsoft/VibeVoice-ASR"
)
result = asr("lecture_60min.wav")
TTS 使用示例
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"microsoft/VibeVoice-Realtime-0.5B"
)
for audio_chunk in model.generate_stream("今天我们来讲民法典..."):
play(audio_chunk)
硬件要求与本机适配
| 模型 | 显存需求 | M2 Max 可运行? |
| VibeVoice-ASR | ~8GB | 可以(MPS 加速) |
| VibeVoice-1.5B | ~6GB | 可以 |
| VibeVoice-Realtime-0.5B | ~2GB | 可以 |
本机 M2 Max 64GB 完全满足所有模型运行要求
评价:实用性很高
ASR + TTS + 实时语音三合一开源方案,MIT 许可无商用限制。ASR 的 60 分钟长音频 + 说话人识别是真正的差异化优势。本机 M2 Max 可直接运行,不需要 GPU 服务器。对法考字幕提取项目有直接价值。