微软发布三款自研基础模型：语音转写、语音生成与图像生成

📅 2026 年 4 月 3 日 📖 约 2 分钟 TechCrunch AI工程商业

微软AI（Microsoft AI）研究实验室于周四发布三款自研基础模型：MAI-Transcribe-1支持25种语言语音转文字，速度达Azure Fast的2.5倍；MAI-Voice-1可在1秒内生成60秒音频，并支持定制声音；MAI-Image-2为视频生成模型，此前已于3月19日上线MAI Playground，现同步开放至Microsoft Foundry。

三模型由Mustafa Suleyman领衔的MAI Superintelligence团队开发——该团队成立于2025年11月。Suleyman强调其‘人文主义AI’理念：以人类沟通方式为中心，聚焦实用场景优化训练。

定价方面，MAI-Transcribe-1起价0.36美元/小时，MAI-Voice-1为22美元/百万字符，MAI-Image-2文本输入5美元/百万tokens、图像输出33美元/百万tokens，官方称显著低于Google与OpenAI同类服务。尽管自研加速，微软仍重申与OpenAI的长期合作，新模型将逐步集成至Windows、Copilot等产品中。

📎 阅读原文 · TechCrunch