作者:Bruce
一、一場真金白銀的 AI 交易對決
AI研究實驗室nof1.ai發起的"Alpha Arena"實盤交易大賽最新結果出爐,其表現差異令人震驚。截至2025年10月20日的數據顯示,DeepSeek V3.1實現了+39.9%的驚人回報,Grok-4緊隨其後,回報率為+35.3%。與此同時,另外兩大知名模型GPT-5和Gemini 2.5 Pro則表現不佳,分別錄得-26.2%和-30.28%的虧損。
這場對決並非模擬,而是一場真金白銀的較量。它將全球頂尖的通用AI大模型置於終極的對抗環境中——瞬息萬變的金融市場。
二、實驗背景與規則
本次交易競賽由AI研究實驗室nof1.ai主辦,其創始人Jay Azhang擁有工程、金融和生物學的複合背景,此前曾將一支基金的管理規模從300萬美元提升至2000萬美元。他的核心理念是:金融市場是AI的"終極試煉場",這是一個動態的、隨着AI變強而難度同步提升的訓練環境,是打造"現實世界版AlphaZero"的絕佳場所。
競賽規則如下:
-
參賽模型: 共六個全球頂尖的AI大模型參與,包括GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max。
-
初始資金: 每個模型獲得10,000美元的真實資金。
-
交易標的: 自主交易BTC, ETH, SOL, BNB, DOGE, XRP等主流加密貨幣的永續合約。
-
交易平臺: 所有交易均在Hyperliquid上執行,確保資金安全和交易透明度。
-
比賽時間: 自2025年10月18日啓動,持續進行中。
三、AI 交易"人格"分析:從狙擊手到高頻交易員
更有價值的是,本次交易競賽通過詳細的交易數據,揭示了不同AI模型背後已然形成的、迥異的交易"人格"或投資哲學。
1. 領先者:耐心狙擊手與謹慎持倉者
DeepSeek V3.1 (+39.9%) 和 Grok-4 (+35.3%) 的成功策略非常明確:高信念,低頻次。
DeepSeek被稱為"耐心狙擊手",僅完成了6筆交易,平均持倉時間超過21小時,且絕大多數為多頭頭寸。這種策略表明,該模型傾向於等待高確定性的機會,然後讓利潤奔跑。值得注意的是,雖然近期有美國政府報告對DeepSeek模型提出批評,但這一優異的實盤交易表現為其能力提供了市場化的驗證。
Grok則是"謹慎持倉者",僅完成了1筆交易,平均持倉時間長達54小時。其成功可能源於其獨特的架構,該架構能夠獲取實時網絡信息,使其能夠更好地整合市場情緒和新聞事件,這一能力被社區認為是交易中的重要優勢。
2. 中間梯隊:迅捷多頭與平衡機會主義者
Claude Sonnet 4.5 (+24.51%) 展現了完全不同的風格。它像一個"迅捷多頭",在5筆交易中,平均持倉時間僅為3小時40分鐘,且100%為多頭頭寸。
Qwen3 Max (+8.43%) 則更像一個"平衡機會主義者",完成了8筆交易,平均持倉時間為7小時24分鐘,顯示出一種更為穩健的策略。
3. 落後者:逆勢空頭與高頻交易員
GPT-5 (-26.2%) 的策略似乎並不適應當前市場環境。儘管在12筆交易中,其平均持倉時間超過23小時,但表現不佳,這可能反映了其風險管理機制的不足。
Gemini 2.5 Pro (-30.28%) 則是一個典型的"高頻交易員",完成了多達47筆交易,平均持倉時間僅6小時48分鐘,高頻交易導致了較高的手續費支出,最終導致了顯著虧損。
四、數據匯總:AI 模型交易表現對比
以下表格總結了截至2025年10月20日,不同AI交易策略的具體表現(數據來源:Alpha Arena by nof1.ai):
從僅交易1次到交易47次,不同模型的策略差異一目瞭然。
五、為何這很重要:AI 能力評估的新範式
Alpha Arena大賽的意義遠超一場交易競賽。它代表了AI評估範式的轉變,揭示了這些大模型正在形成獨特的交易"人格"——從耐心的價值投資者到活躍的日內交易員。
這不僅是一場金融能力的圖靈測試,更重要的是,它將AI評估從靜態的、學術性的基準測試,推向了一個公開、可驗證、且充滿對抗性的真實世界環境。在這個環境中,AI模型必須面對市場的不確定性、波動性以及其他參與者的競爭,這比傳統的benchmark測試更能反映AI在複雜現實環境中的真實能力。
創新意義體現在三個方面:
-
實時性評估:不同於靜態數據集測試,金融市場提供了持續變化的挑戰環境
-
多維度能力考察:同時測試了風險管理、策略制定、執行能力等多項綜合技能
-
客觀結果衡量:以實際盈虧作為唯一評判標準,避免了主觀評價的偏差
這場實驗的結果,無疑將對未來AI在金融及其他動態決策領域的應用,提供極具價值的洞察。它不僅展示了不同AI模型的能力差異,更重要的是為我們理解AI如何在複雜、動態的現實環境中發揮作用開闢了新的視角。