阿里QVQ-Max來了!超絕視覺推理模型,會看網課學編程,免費可用

智東西
03-28

作者 | 程茜

編輯 | 心緣

智東西3月28日報道,阿里大模型表情包軍團再添猛將!今日凌晨,大模型“勞模”阿里雲通義團隊發佈其首款視覺推理模型QVQ-Max

在數學問題、生活常識、編程代碼、藝術創作等場景,該模型可以看懂圖片和視頻裏的內容,還能結合這些信息進行分析、推理,並給出解決方案

例如,QVQ-Max可以協助用戶在工作中完成數據分析、信息整理、編程寫代碼等任務,幫助學生解答配有圖表的數學、物理等科目的難題,並通過直觀的方式講解複雜概念,在生活中根據衣櫃照片推薦穿搭方案、基於食譜圖片指導用戶烹飪

用戶只需上傳任何圖像或視頻然後提出問題,點擊 “思考 ”按鈕,即可查看它如何逐步處理視覺信息。

多模態數學問題的數據集MathVision可以用來評估模型解決複雜數學問題的能力,研究人員發現,模型思考的token數越長,其MathVision的準確度就會越高。

博客中提到,他們設計QVQ-Max的目標,就是讓它成爲一個既“眼尖”又“腦快”的助手,幫助用戶解決各種實際問題。

體驗地址:https://chat.qwen.ai/

一、秀多圖識別、數學推理、看視頻學習編程技能

阿里通義團隊在博客中放出了幾個新鮮的QVQ-Max演示案例。

首先是多圖識別,QVQ-Max可以描述圖片中的景色,並且通過分析圖片信息找到這兩張圖片的相關之處。

其次是數學推理,這道難題需要模型從圖片中找問題和答案,QVQ-Max通過分析其餘8個數字之間的關係,得出了最後一格的數字應該是10的正確答案。

第三個是讓QVQ-Max看手相,感情線、生命線、事業線分析得頭頭是道。

第四個考驗了模型的視頻理解能力,演示中模型對一個簡筆畫的蝸牛視頻進行了分析,然後爲這條視頻創建了貼合的字幕。

最後一個是讓QVQ-Max看視頻自學編程,在觀看了一個類似貪喫蛇的小遊戲視頻後,QVQ-Max很快就復刻了一個類似遊戲,給出了完整的代碼。

二、觀察細緻入微、深入分析,還能靈活創作

QVQ-Max的能力可以總結爲三個方面:細緻觀察、深入推理和靈活應用

細緻觀察方面,QVQ-Max能快速識別出複雜圖表、日常隨手拍照片中的關鍵元素,例如它可以找到圖片中有哪些物品、有什麼文字標識等。

深入推理就是讓模型基於看到的內容進行分析,然後結合背景知識得出結論。例如,在一道幾何題中,它可以根據題目附帶的圖形推導出答案;在一段視頻裏,它能根據畫面內容推測出接下來可能發生的情節。

除了分析和推理,QVQ-Max還可以靈活應用這些能力進行創作,例如幫助用戶設計插畫、生成短視頻腳本、創作角色扮演的內容,或者化身評論家、占卜師。

這使得其在用戶工作、學習、生活中的應用場景增多。

一般而言,大模型在回答問題、寫文章、生成代碼時主要依賴文字輸入。

但現實生活中,很多信息並不只是用文字表達,而是圖片、圖表、視頻、文字交互出現,並且圖片中包含的信息會比文字更直觀、更復雜,如其中的顏色、形狀、位置關係等。例如用戶分析建築圖紙時,僅靠文字描述是無法判斷其合理性的,需要結合圖紙以及專業知識分析,這也是阿里通用團隊研究視覺推理模型的原因。

結語:視覺推理模型的演進方向:更準確觀察、視覺Agent、交互多元

目前發佈的QVQ-Max是阿里通義視覺推理模型的第一版,未來,研究人員會重點關注以下幾個方向:通過視覺內容的校驗來檢查觀察內容的準確性提高識別能力;通過視覺Agent提升模型在處理多步和更復雜的任務,如手機電腦操控,玩遊戲;讓模型在思考和交互中不侷限於文字,還可以涵蓋更多的模態,比如工具校驗,視覺生成等。

作爲一款能看懂又能深度推理的視覺模型,QVQ-Max已經展現出了完成創造性任務的應用潛力。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10