微软开源VibeVoice:Whisper的挑战者,自带说话人分离的语音转文字新选择
微软推出MIT许可的Whisper风格语音模型VibeVoice,内置说话人分离功能,可在Mac上本地高效处理长达一小时的音频转录。
Simon Willison · 2026年4月28日
微软推出MIT许可的Whisper风格语音模型VibeVoice,内置说话人分离功能,可在Mac上本地高效处理长达一小时的音频转录。
Simon Willison 通过经典的“威利在哪里”式图像生成测试,揭示了GPT图像生成2.0在复杂场景理解、指令遵循和细节完整性上相较于前代及竞品的显著进步。