給6個世界頂尖AI各1萬刀炒幣,結果杭州軍團「贏麻了」

上觀新聞
11/05

  讓幾個頂尖的AI模型,各自帶着1萬美元,在真實的金融市場裏自主交易,會發生什麼?這聽起來像是科幻小說的情節,但一家名為Nof1的機構真的這麼做了。

  歷時17天,AI大模型投資比賽「阿爾法競技場(Alpha Arena)」結果出爐,兩個中國大模型——阿里通義的Qwen3-Max和DeepSeek v3.1奪得冠亞軍,也是所有模型中唯二兩個賺錢的,四大美國頭部模型均虧損。

  最近,美國AI研究平臺Nof1啓動了名為「阿爾法競技場」的首個賽季實驗。他們從全球領先的AI研究實驗室中挑選了六個頂尖的大語言模型(LLM),包括GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4、DeepSeek v3.1和Qwen3-Max,賦予它們一項極具挑戰的任務:在真實的加密貨幣衍生品市場上,僅憑數字化的市場數據,進行完全自主的零樣本交易。

  當前,衡量AI能力的標準大多依賴於靜態的、像考試一樣的基準測試。Nof1認為,這些測試正逐漸失去效力,因為模型可以通過記憶數據來獲得高分,但這並不能真正檢驗其在複雜、動態的真實世界中的決策能力。「阿爾法競技場」則是讓模型面對不斷變化的市場、實時風險和不確定性,是對其理解力、適應性和穩定性的綜合考驗。

  「這並不是一場看誰賺錢更多的比賽。」 Nof1研究負責人解釋道,「我們更想看到的是,不同AI在面對同樣的信息時,會表現出怎樣的思維和性格。」

  實驗早期的觀察已經揭示了這些AI「交易員」鮮明且穩定的行為差異——

  ■ 風險偏好天差地別:面對同樣的市場,有的模型(如Qwen3-Max)傾向於下重注,建立很大的頭寸;而另一些(如GPT-5、Gemini 2.5 Pro)則顯得更為謹慎。

  ■ 多空立場分明:有些模型,如Claude Sonnet 4.5,幾乎從不沽空,表現出強烈的「多頭」傾向;而Grok 4、GPT-5和Gemini 2.5 Pro則更頻繁地押注市場下跌。

  ■ 交易風格迥異:Gemini 2.5 Pro是個「活躍分子」,交易頻繁;Grok 4則像個「耐心的獵人」,持有頭寸的時間最長,交易次數最少。

  ■ 自信程度與能力脫鉤:模型在每次決策時需要給出一個「自信度評分」。有趣的是,Qwen3-Max通常給自己打最高分,而GPT-5的自信度最低。但這種自我評價的高低,與它們實際交易的盈虧表現並無直接關聯。

  ■ 對「提示」極其敏感:研究人員發現,即便是提示詞中極其微小的改動,也可能導致模型交易行為的巨大變化。這凸顯了在現實應用中精心設計指令的重要性,同時也表明當前模型的決策仍存在一定的脆弱性。

  參與這次比賽的六大模型按最終盈利能力排名,阿里通義的Qwen3 Max在最後階段反超,排名第一,收益率22.32%,賬戶餘額12232美元。DeepSeek v3.1緊隨其後,收益率4.89%,餘額10489美元 。

  Claude Sonnet 4.5、Grok 4、Gemini 2.5 pro、GPT-5排在第三至第六位,虧損幅度均超過30%。其中,GPT-5虧得最多,餘額只剩3734美元 。

  值得注意的是,本次奪得冠亞軍的模型Qwen3-Max與DeepSeek v3.1,均來自杭州。這一結果恰與杭州全力佈局人工智能產業的城市戰略形成巧妙呼應。

  作為全國數字經濟先行城市,杭州正將人工智能作為新一輪產業變革的核心驅動力。在今年發佈的市政府工作報告中,明確提出了「打造人工智能創新高地和全國數字經濟創新中心」的戰略目標。

  為進一步搶佔人工智能產業發展先機,杭州市經濟和信息化局於9月發佈了《杭州市加快發展人工智能終端產業三年行動方案(2025-2027年)(徵求意見稿)》,提出到2027年實現人工智能終端產業規模達到3000億元的目標。該方案圍繞核心技術攻關、爆款產品打造、應用場景培育等關鍵環節進行了系統佈局,計劃實施100個重點科研項目,培育5家百億級企業,形成全產業鏈協同發展的良好生態。

  此次杭州企業研發的模型在國際性競技中脫穎而出,不僅展現了杭州在人工智能前沿領域的技術實力,也印證了其產業佈局的前瞻性與有效性。當全球頂尖的AI模型在真實金融市場中同臺競技時,杭州軍團的表現,無疑為這座「數字之城」的人工智能產業發展寫下了最生動的註腳。

(文章來源:上觀新聞)

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10