炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:IT之家)
IT之家 7 月 24 日消息,科技媒體 NeoWin 今天(7 月 24 日)發佈博文,報道稱蘋果公司攜手劍橋大學,提出一種新的 AI 評估系統,通過引入外部驗證工具增強 AI 評審員的能力,以提高評審質量。
在評估大語言模型(LLM)時,研究人員和開發者越來越多地藉助 AI 力量,這種方式也稱爲“LLM-as-a-judge”。不過這種方式也存在諸多挑戰,在長篇事實覈查、高級編碼和數學問題等複雜任務中,評估質量往往會下降。
蘋果攜手劍橋大學發表了一篇新研究論文,概述了一種新系統,通過爲 AI 評審員配備外部驗證工具,以提高其評審質量,從而克服人類和 AI 註釋中的侷限性。
人類評審員由於時間限制、疲勞以及更傾向於寫作風格而非事實準確性,面臨挑戰和偏見,而 AI 在上述複雜任務上則遇到困難。
研究人員創建的評估代理是具有自主性的,它能夠評估響應以確定是否需要外部工具,並使用正確的工具。每個評估都經過三個主要步驟:初始領域評估、工具使用和最終決策。
事實覈查工具使用網絡搜索來驗證響應中的原子事實;代碼執行利用 OpenAI 的代碼解釋器運行並驗證代碼的正確性;數學覈查工具是代碼執行工具的一個專門版本,用於驗證數學和算術運算。
如果發現沒有工具對判斷有幫助,系統將使用基線 LLM 註釋器,以避免在簡單任務上不必要的處理和潛在的績效迴歸。
IT之家附上參考地址
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。