微软发布三款自研基础模型,覆盖语音转写、音频与图像生成

微软发布三款自研基础模型,覆盖语音转写、音频与图像生成

微软AI(Microsoft AI)研究实验室于周四发布三款自研基础模型:MAI-Transcribe-1支持25种语言语音转文字,速度达Azure Fast的2.5倍;MAI-Voice-1可在1秒内生成60秒定制化语音;MAI-Image-2为视频生成模型,此前已上线MAI Playground,现同步开放至Microsoft Foundry平台。

三模型由Mustafa Suleyman领衔的MAI Superintelligence团队开发,该团队成立于2025年11月。Suleyman强调其‘人文主义AI’理念——以人类沟通方式为优化核心,聚焦实用场景。

定价方面,MAI-Transcribe-1起价0.36美元/小时,MAI-Voice-1为22美元/百万字符,MAI-Image-2文本输入5美元/百万tokens、图像输出33美元/百万tokens,官方称明显低于Google与OpenAI同类API。尽管加速自研,微软仍重申与OpenAI的长期合作,并透露近期协议调整为其超智能研究铺平道路。

📎 阅读原文 · TechCrunch