蘋果攜手劍橋大學設計最佳 AI 評審框架，突破複雜任務評審侷限

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

（來源：IT之家）

IT之家 7 月 24 日消息，科技媒體 NeoWin 今天（7 月 24 日）發布博文，報道稱蘋果公司攜手劍橋大學，提出一種新的 AI 評估系統，通過引入外部驗證工具增強 AI 評審員的能力，以提高評審質量。

在評估大語言模型（LLM）時，研究人員和開發者越來越多地藉助 AI 力量，這種方式也稱為「LLM-as-a-judge」。不過這種方式也存在諸多挑戰，在長篇事實覈查、高級編碼和數學問題等複雜任務中，評估質量往往會下降。

蘋果攜手劍橋大學發表了一篇新研究論文，概述了一種新系統，通過為 AI 評審員配備外部驗證工具，以提高其評審質量，從而克服人類和 AI 註釋中的侷限性。

人類評審員由於時間限制、疲勞以及更傾向於寫作風格而非事實準確性，面臨挑戰和偏見，而 AI 在上述複雜任務上則遇到困難。

研究人員創建的評估代理是具有自主性的，它能夠評估響應以確定是否需要外部工具，並使用正確的工具。每個評估都經過三個主要步驟：初始領域評估、工具使用和最終決策。

事實覈查工具使用網絡搜索來驗證響應中的原子事實；代碼執行利用 OpenAI 的代碼解釋器運行並驗證代碼的正確性；數學覈查工具是代碼執行工具的一個專門版本，用於驗證數學和算術運算。

如果發現沒有工具對判斷有幫助，系統將使用基線 LLM 註釋器，以避免在簡單任務上不必要的處理和潛在的績效迴歸。

IT之家附上參考地址

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

蘋果攜手劍橋大學設計最佳 AI 評審框架，突破複雜任務評審侷限

熱議股票