阿里開源推理模型QwQ!可聯網搜索,思維鏈裸奔,開發者玩瘋了

智東西
2025/02/25

作者|陳駿達

編輯|漠影

智東西2月25日報道,今天,阿里通義千問團隊推出QwQ-Max-Preview深度思考模型,並支持聯網搜索,展現出超強的通用能力,不僅現場銳評了最新的《哪吒2》電影,還能寫代碼、做數學題,並可以勝任創意寫作、遊戲開發等開放性任務。這款模型會在不久後開源,目前已在通義千問的新官網上線,僅需點擊聊天框左下角的「深度思考(QwQ)」按鈕即可體驗。

QwQ-Max-Preview的博客文章有滿屏醒目的顏文字,並附上跳轉到體驗頁面和Discord的鏈接,還特別標註出這篇博客是正是由新模型親自操刀的,模型撰寫博客時的思考過程也被一併呈現在文內。

體驗鏈接:https://chat.qwen.ai/

Discord鏈接:https://discord.com/invite/yPEP2vHTu4

在DeepSeek推出DeepSeek-R1深度思考模型後,阿里和騰訊都爭相推出了類R1的深度推理模型。QwQ-Max-Preview基於Qwen2.5-Max構建,在數學、編程以及通用任務中展現了更強的能力,同時在與Agent相關的工作流中也有不錯的表現。作為即將發布的QwQ-Max的預覽版,這個版本還在持續優化中。

通義千問團隊計劃在不久的將來以Apache 2.0許可協議開源發布QwQ-Max以及Qwen2.5-Max。此外,通義千問計劃面向全球用戶推出Qwen Chat App,並開源更適合端側的小尺寸推理模型。

博客內,通義千問團隊放出了多個實測案例。

通義千問的深度思考模型能與聯網功能結合,根據實時互聯網信息進行推理,先來看看通義千問是怎麼評價《哪吒2》的。在打開深度思考和聯網搜索功能後,千問快速查詢互聯網信息,並在思考過程中與答案裏都清晰地引用信源。

下方是QwQ對《哪吒2》的評價,截圖後由Qwen2.5-VL-72B-Instruct翻譯:

下一個案例主要展現了模型的代碼能力。提示詞為「創建一個p5.js腳本,用於在旋轉的球體內創建100個彈跳的黃色小球。小球被限制在球體內,並且正確處理了碰撞檢測。球體緩慢旋轉以產生動態效果。」

長時間思考後,QwQ-Max-Preview輸出了71行代碼,並附上了對代碼主要功能的描述和使用指南,可以說是十分全面了。複製代碼並運行後,可以看到動畫的效果基本符合提示詞要求。

不過,當智東西將同款提示詞甩給體驗鏈接中的QwQ-Max-Preview,它給出的代碼運行後可以說是「車禍現場」,黃色小球漫天飛舞,完全忽視了「小球被限制在球體內」這一要求。這一現象或許是由於預覽版本尚不穩定。

接下來的測試任務是遊戲開發。QwQ-Max-Preview收到的需求是:「在同一個HTML文件中創建一個遊戲。發揮你的想象力,將俄羅斯方塊和2048遊戲結合成一個遊戲。」

模型開發出的新遊戲確實將兩款遊戲的玩法結合了起來,原版2048遊戲是通過滑動方塊進行相同數字的消除,而新遊戲中數字將會從上方掉落,需要玩家進行操作並消除。

這款模型還能勝任更為複雜的遊戲開發任務,例如下方提示詞這種帶調整的:

創建一個棋盤遊戲網頁,顯示一個六邊形網格,就像在《卡坦島》遊戲中一樣。每個六邊形網格都標有從1到N的數字,其中N是六邊形格子的總數。使其具有通用性,以便可以使用滑塊更改「環」的數量。例如,在《卡坦島》中,半徑為3個六邊形。請使用單個HTML頁面。

案例中模型對提示詞的理解還是比較到位的,拖動滑塊確實可以修改環的數量。

不過,在我們用同樣提示詞進行的實測中,完成效果依舊不太理想,從六邊形的形狀到格子的排列,都與原提示詞的要求有些偏差,還出現了超出顯示範圍的問題。或許在未來正式版發布後,這些問題能得到解決。

通義千問思考模型本次還融入了Agent能力,支持工具選擇,不過目前的體驗版本尚不支持。在博客文章中提供的案例裏,可以看到這些工具包括圖像生成、物流追蹤、二維碼生成、港股行情等。

示例中,測試人員選擇了二維碼生成器和圖像生成兩款工具,要求模型生成一個穿着白色連衣裙的女孩,然後展示一個指向taobao.com的二維碼圖片。

生成結果是這樣的,可以看到模型選擇了二次元的畫風,畫面內容符合要求,二維碼實測也可以跳轉至淘寶官網。

據通義千問團隊介紹,本次他們既會開源滿血版思考模型,也將推出輕量級的變體,還會將其融入應用,此舉是為了讓不同層次用戶都能體驗到這款模型的能力。他們也邀請全球開發者社群對這些模型進行實驗、優化和擴展,探索從教育工具到agent等多樣化應用場景。

QwQ-Max-Preview的發布及將要到來的開源,意味着阿里也正式加入了這波推理模型的開源潮。阿里的Qwen系列模型作為當今全球影響力最大的開源模型家族之一,衍生模型數量已經超過9萬個,還霸榜了Hugging Face開源排行榜的全球前10名。在正式版的QwQ-Max開源發布後,或許還會給全球開發者帶來更多的驚喜。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10