微软发布三款自研基础模型，覆盖语音转写、音频与图像生成

📅 2026 年 4 月 3 日 📖 约 2 分钟 TechCrunch AI工程商业

微软AI（Microsoft AI）研究实验室于周四发布三款自研基础模型：MAI-Transcribe-1支持25种语言语音转文字，速度达Azure Fast的2.5倍；MAI-Voice-1可在1秒内生成60秒定制化语音；MAI-Image-2为视频生成模型，此前已上线MAI Playground，现同步开放至Microsoft Foundry平台。

三模型由Mustafa Suleyman领衔的MAI Superintelligence团队开发，该团队成立于2025年11月。Suleyman强调其‘人文主义AI’理念——以人类沟通方式为优化核心，聚焦实用场景。

定价方面，MAI-Transcribe-1起价0.36美元/小时，MAI-Voice-1为22美元/百万字符，MAI-Image-2文本输入5美元/百万tokens、图像输出33美元/百万tokens，官方称明显低于Google与OpenAI同类API。尽管加速自研，微软仍重申与OpenAI的长期合作，并透露近期协议调整为其超智能研究铺平道路。

📎 阅读原文 · TechCrunch