4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉

市场资讯
Aug 09

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:机器之心Pro)

机器之心报道

编辑:杜伟

备受 AI 圈关注的首届谷歌 Kaggle AI Chess 大赛(也即大模型国际象棋对抗赛)迎来了最终赢家。

就在昨天,Grok 4 携手 OpenAI o3 进入了决赛。在机器之心的投票中,大家更倾向于 o3 战胜 Grok 4。

决赛结果如大家预期的一样,o3 以 4-0 横扫 Grok 4 夺得冠军

另外,在季军争夺战中,Gemini 2.5 Pro 以 3.5-0.5(三胜一和)强势击败了 o4-mini

下图为整个赛事所有选手的对阵表以及冠亚季军得主。

评论区很有意思,“Grok 4 很强,直到它遇上了 o3。”

随着今晨 GPT-5 的发布,大家很好奇它会有怎样的表现呢。

冠亚军争夺

o3 横扫 Grok 4

一直到半决赛,Grok 4 的势头都很猛,被认为是夺冠热门。就连马斯克都“装”了起来,称 Grok 4 玩国际象棋大材小用,它本身就没有针对象棋游戏进行优化。

尽管此前偶有不灵光的地方,但 xAI 的这款大模型始终展现出了碾压级别的棋力。比赛中,Grok 4 落子时近乎冷漠的风格,更让这个招招致命的“机械野兽”看起来不可战胜。

然而,Grok 4 的神话在决赛中轰然崩塌,以 0-4 完败于喋喋不休(chatty)的 o3。

当天,Grok 4 的棋风与往日“判若两人”,频频出现低级失误,而 o3 几乎全程保持冷酷的处刑姿态。

首局较量中,Grok 4 在开局阶段就毫无缘由地白丢了一象。少子劣势下,Grok 4 竟主动寻求兑子,这显然违反了所有棋类典籍中“劣势方应避免简化局面”的黄金法则。

随着接下来的连续失误,Grok 4 被 o3 干净利落地将死。首局失利

第二局上演了西西里防御的“毒兵变例”,这是国际象棋中一种极具攻击性与风险性的开局变例,属于西西里防御的分支,常见于纳依多夫变例中。其核心是黑方故意吃掉白方看似“无保护”的 b2 或 a2 兵(实际是陷阱),从而引发激烈的战术对抗。

如果说 b2 兵对人类棋手是剧毒之物,那么 a2 兵对人工智能而言简直是致命病毒。比赛中,黑棋竟走出 12...Qxa2??,无视白方 c3 马的守护贸然吃兵。此后o3 轻松赢得第二局的胜利

而到了 Grok 4 执白的第三局,本赛事首次出现 AI 采用西西里防御的马罗兹结构。凭借稳健的盘面,Grok 4 似乎要重拾王者风范。难道前两局的溃败只是戏耍对手吗?显然不是。

当白棋走出 11.Nd5?? 并白送一马时,所有幻想随之破灭。紧接着 Grok 4 又接连葬送皇后、车象易位权,最终在第三局满盘皆输

到了决胜局,两个大模型贡献出了系列赛最胶着的一战,甚至一度轮到 o3 自毁长城,它早早因失误白送皇后,局面陷入到了绝境。

但正如解说嘉宾、国际象棋大师中村光所指出的,盘面仍暗藏玄机。此后,o3 触底反弹,与先前的致命失误形成鲜明对比,凭借精妙战术夺回后手。

比赛最终演变为 o3 多一兵的残局,理论上仍可成和。不过,正如此前 Grok 4 手握车兵却无法完成将死所暴露的缺陷,它在残局阶段显然存在致命短板。

相反,o3 展现出更精准的终盘理解力,步步为营完成升变,最终以教科书般的将杀为这场对决画上句号。

随着第四局的胜出,o3 成为首届大模型国际象棋对抗赛的冠军,Grok 4 只能屈居亚军。

Gemini 2.5 Pro 摘得季军

谷歌总算“没白来”

季军争夺战在谷歌 Gemini 2.5 Pro 与 OpenAI o4-mini 之间展开,虽然不像决赛结果那样悬殊,却也难称得上称势均力敌。凭借三胜一和的战绩,Gemini 最终摘得铜牌。

不过,Gemini 的统治级表现背后,是全程混乱不堪的对局质量,与冠军 o3 行云流水的棋风相差甚远。首局,Gemini 还能够组织起像样的攻势,让人误以为这个 AI“胸有成竹”。

然而,第三局的平局才真正暴露出这场季军战的本质 ——双方几乎都在梦游,整场对局充斥着业余级的失误

这局棋的胜率曲线如同过山车般剧烈波动,双方频频“互送大礼”,连最简单的胜势都无法把握。

完整对局形势如下所示。尽管这场充满争议的平局暴露出了 Gemini 的不足,但它的整体表现已足够亮眼。

最终,凭借另外三局的胜利,Gemini 2.5 Pro 成功锁定季军席位,不至于让谷歌这个赛事主办方颗粒无收。未来,人们更期待看到谷歌如何利用此次赛事数据来优化其 AI 系统。

原文链接:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10