微软、谷歌同日发布新AI模型:语音、图像与本地开源能力齐上阵

华尔街见闻
Apr 03

微软谷歌周四同步发布新一代AI模型,进一步加码多模态能力布局。微软推出自研MAI系列基础模型,覆盖语音转写、语音生成和图像生成,并加速融入自家产品体系;谷歌则发布Gemma 4开源模型,主打本地运行和多模态能力,并将许可切换至更开放的Apache 2.0协议。

微软:三款MAI模型覆盖语音与图像能力

微软推出的“世界级”自研MAI模型,一共包括三款:

首先是MAI-Transcribe-1,这是一款“最先进”的语音转文本模型,能够理解全球使用最广泛的25种语言,其批量转录速度相比微软现有的Azure Fast方案提升了2.5倍。MAI-Transcribe-1的起步价格为每小时0.36美元。

其次是MAI-Voice-1,这是一款新的语音生成模型,只需1秒即可生成60秒的音频。同时,它还支持在Microsoft Foundry中通过短音频样本创建定制语音。MAI-Voice-1的起步价格为每100万个字符22美元。

最后是MAI-Image-2,这是一款更快的文生图模型,目前已经开始在Copilot中上线,接下来将陆续应用于Bing和PowerPoint。MAI-Image-2的价格为文本输入每100万个词元(Token)收费5美元,图像输出每100万个词元收费33美元。

如今,这三款模型已全部在Microsoft Foundry上线,其中语音转写和语音生成模型也可在MAI Playground中使用。这些模型由微软的MAI超级智能团队开发,该团队由Microsoft AI首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)领导,于2025年11月成立并对外公布。

微软表示:

“我们正在快速部署这些顶级模型,用于支持自家的消费者和商业产品。很快你将会在Foundry以及微软各类产品和体验中看到更多模型。”

媒体分析称,这一发布表明,尽管微软仍与OpenAI保持紧密合作,但公司正持续推进构建自有多模态AI模型体系,并与其他AI研究机构展开竞争。

不过,苏莱曼在接受媒体采访时重申,微软仍将继续与OpenAI保持合作关系。但他也向媒体表示,近期对双方合作关系的重新谈判,使微软能够真正推进其超级智能研究。

微软已向OpenAI投资超过130亿美元,并通过一项多年期合作,将其模型部署在自家多款产品中。微软在芯片领域也采取类似策略:既自主研发,也同时采购外部供应商的产品。

谷歌:Gemma 4开源模型主打本地运行与多模态能力

谷歌推出的Gemma 4开源模型采用Apache 2.0许可,而不再使用此前自定义的Gemma许可协议。谷歌表示,这些模型具备高级推理能力、代理式工作流、代码生成,以及视觉和音频生成能力,并提供四种不同版本,针对本地运行进行了优化,甚至可以运行在“数十亿台安卓设备”上。

谷歌表示:

“Gemma 4基于与Gemini 3相同的世界级研究和技术,是目前你可以在本地硬件上运行的能力最强的一系列模型。它们与我们的Gemini模型形成互补,为开发者提供业内最强大的开源与专有工具组合。”

“这种开源许可为开发者提供了完整的灵活性和数字主权基础,让你可以完全掌控数据、基础设施和模型。你可以在任何环境中自由构建并安全部署,无论是在本地还是云端。”

四种不同版本主要区别在于参数规模。针对边缘设备(包括智能手机),公司推出了20亿和40亿参数的“Effective”模型,更注重多模态能力和低延迟处理,适用于移动设备和物联网设备。针对更强大的设备,则提供了260亿参数的“Mixture of Experts”(专家混合)模型,以及310亿参数的“Dense”(稠密)模型,旨在运行于消费级GPU上,可用于驱动IDE、编程助手以及代理式工作流。这些模型还支持完全离线运行。

谷歌表示,在Gemma 4上实现了“前所未有的单位参数智能水平”。为佐证这一说法,公司指出,Gemma 4中310亿和260亿参数版本在Arena AI文本排行榜上分别位列第三和第六,击败了规模是其20倍的模型。

所有这些模型都可以处理视频和图像,因此非常适合用于光学字符识别等任务。较小的两个模型还支持处理音频输入并理解语音。此外,谷歌表示,Gemma 4系列支持离线代码生成,这意味着用户可以在没有互联网连接的情况下进行编程(例如进行“vibe coding”)。这些模型还支持超过140种语言。

谷歌的Gemma 4开源模型可以在多个平台下载,包括Hugging Face、Kaggle和Ollama。谷歌强调:

“这些模型在基础设施安全方面,遵循与我们专有模型相同的严格安全协议。”

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10