微软发布三款自研基础模型:语音转写、语音生成与图像生成
微软AI(Microsoft AI)研究实验室于周四发布三款自研基础模型:MAI-Transcribe-1支持25种语言语音转文字,速度达Azure Fast的2.5倍;MAI-Voice-1可在1秒内生成60秒音频,并支持定制声音;MAI-Image-2为视频生成模型,此前已于3月19日上线MAI Playground,现同步开放至Microsoft Foundry。
三模型由Mustafa Suleyman领衔的MAI Superintelligence团队开发——该团队成立于2025年11月。Suleyman强调其‘人文主义AI’理念:以人类沟通方式为中心,聚焦实用场景优化训练。
定价方面,MAI-Transcribe-1起价0.36美元/小时,MAI-Voice-1为22美元/百万字符,MAI-Image-2文本输入5美元/百万tokens、图像输出33美元/百万tokens,官方称显著低于Google与OpenAI同类服务。尽管自研加速,微软仍重申与OpenAI的长期合作,新模型将逐步集成至Windows、Copilot等产品中。