给6个世界顶尖AI各1万刀炒币,结果杭州军团“赢麻了”

上观新闻
Nov 05

  让几个顶尖的AI模型,各自带着1万美元,在真实的金融市场里自主交易,会发生什么?这听起来像是科幻小说的情节,但一家名为Nof1的机构真的这么做了。

  历时17天,AI大模型投资比赛“阿尔法竞技场(Alpha Arena)”结果出炉,两个中国大模型——阿里通义的Qwen3-Max和DeepSeek v3.1夺得冠亚军,也是所有模型中唯二两个赚钱的,四大美国头部模型均亏损。

  最近,美国AI研究平台Nof1启动了名为“阿尔法竞技场”的首个赛季实验。他们从全球领先的AI研究实验室中挑选了六个顶尖的大语言模型(LLM),包括GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4、DeepSeek v3.1和Qwen3-Max,赋予它们一项极具挑战的任务:在真实的加密货币衍生品市场上,仅凭数字化的市场数据,进行完全自主的零样本交易。

  当前,衡量AI能力的标准大多依赖于静态的、像考试一样的基准测试。Nof1认为,这些测试正逐渐失去效力,因为模型可以通过记忆数据来获得高分,但这并不能真正检验其在复杂、动态的真实世界中的决策能力。“阿尔法竞技场”则是让模型面对不断变化的市场、实时风险和不确定性,是对其理解力、适应性和稳定性的综合考验。

  “这并不是一场看谁赚钱更多的比赛。” Nof1研究负责人解释道,“我们更想看到的是,不同AI在面对同样的信息时,会表现出怎样的思维和性格。”

  实验早期的观察已经揭示了这些AI“交易员”鲜明且稳定的行为差异——

  ■ 风险偏好天差地别:面对同样的市场,有的模型(如Qwen3-Max)倾向于下重注,建立很大的头寸;而另一些(如GPT-5、Gemini 2.5 Pro)则显得更为谨慎。

  ■ 多空立场分明:有些模型,如Claude Sonnet 4.5,几乎从不做空,表现出强烈的“多头”倾向;而Grok 4、GPT-5和Gemini 2.5 Pro则更频繁地押注市场下跌。

  ■ 交易风格迥异:Gemini 2.5 Pro是个“活跃分子”,交易频繁;Grok 4则像个“耐心的猎人”,持有头寸的时间最长,交易次数最少。

  ■ 自信程度与能力脱钩:模型在每次决策时需要给出一个“自信度评分”。有趣的是,Qwen3-Max通常给自己打最高分,而GPT-5的自信度最低。但这种自我评价的高低,与它们实际交易的盈亏表现并无直接关联。

  ■ 对“提示”极其敏感:研究人员发现,即便是提示词中极其微小的改动,也可能导致模型交易行为的巨大变化。这凸显了在现实应用中精心设计指令的重要性,同时也表明当前模型的决策仍存在一定的脆弱性。

  参与这次比赛的六大模型按最终盈利能力排名,阿里通义的Qwen3 Max在最后阶段反超,排名第一,收益率22.32%,账户余额12232美元。DeepSeek v3.1紧随其后,收益率4.89%,余额10489美元 。

  Claude Sonnet 4.5、Grok 4、Gemini 2.5 pro、GPT-5排在第三至第六位,亏损幅度均超过30%。其中,GPT-5亏得最多,余额只剩3734美元 。

  值得注意的是,本次夺得冠亚军的模型Qwen3-Max与DeepSeek v3.1,均来自杭州。这一结果恰与杭州全力布局人工智能产业的城市战略形成巧妙呼应。

  作为全国数字经济先行城市,杭州正将人工智能作为新一轮产业变革的核心驱动力。在今年发布的市政府工作报告中,明确提出了“打造人工智能创新高地和全国数字经济创新中心”的战略目标。

  为进一步抢占人工智能产业发展先机,杭州市经济和信息化局于9月发布了《杭州市加快发展人工智能终端产业三年行动方案(2025-2027年)(征求意见稿)》,提出到2027年实现人工智能终端产业规模达到3000亿元的目标。该方案围绕核心技术攻关、爆款产品打造、应用场景培育等关键环节进行了系统布局,计划实施100个重点科研项目,培育5家百亿级企业,形成全产业链协同发展的良好生态。

  此次杭州企业研发的模型在国际性竞技中脱颖而出,不仅展现了杭州在人工智能前沿领域的技术实力,也印证了其产业布局的前瞻性与有效性。当全球顶尖的AI模型在真实金融市场中同台竞技时,杭州军团的表现,无疑为这座“数字之城”的人工智能产业发展写下了最生动的注脚。

(文章来源:上观新闻)

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10