谷歌開源大模型評測工具LMEval,打通谷歌、OpenAI、Anthropic

智東西
05-28

編譯 | 金碧輝

編輯 | 程茜

智東西5月28日消息,據科技媒體The Decoder 5月26日報道,當天,谷歌正式發佈開源大模型評測框架LMEval,支持對GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型進行多模態能力標準化評估。

LMEval基於LiteLLM框架(能讓開發者通過統一API便捷調用GPT、Claude、Llama等上百款大模型,並支持流式響應、批量推理及成本監控等功能的開源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大廠商API接口,首次實現文本、圖像、代碼三類任務的一站式評測,並通過增量評估技術減少80%重複測試算力消耗。

LMEval的源代碼和示例筆記本已經在GitHub上公開,供廣大開發者使用和研究。

地址:https://github.com/google/lmeval

一、跨平臺互通,採用增量評估+多線程並行計算技術,測試效率提升5倍

LMEval基於LiteLLM框架,將谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口標準化,開發者無需針對不同平臺重寫測試代碼。

同時,科技媒體The Decoder援引谷歌官方說道,LMEval系統採用增量評估技術,配合多線程並行計算,能節省80%算力,原本8小時的測試流程可壓縮至1.5小時。

在評估場景層面,LMEval突破了單一文本問答的侷限,將圖像理解、代碼生成等場景納入評測範疇,滿足多領域對大模型能力評測的需求。

在題型方面,LMEval提供了是非判斷、多選問答、開放式生成等多達12種題型,爲全面評估模型在不同任務形式下的表現創造了條件。同時,LMEval模塊化設計允許開發者依據自身研究或業務需求,靈活添加新的評估維度,增強了框架的擴展性與適應性。

在安全評估層面,LMEval新增的規避性回答檢測功能能夠識別模型在面對敏感問題時所採取的推諉策略,這對於評估模型在處理敏感信息時的可靠性意義重大。

▲Giskard的安全評分顯示了不同的AI模型如何有效地規避潛在的有害內容。百分比越高,安全性就越高。(圖源:谷歌)

在數據存儲與隱私保護層面,LMEval將測試數據存儲於自加密的SQLite數據庫中,本地訪問需密鑰驗證,有效阻斷搜索引擎抓取,在數據使用過程中全方位保障數據安全與隱私。

三、評測成本直降90%,月之暗面已部署

據The Decoder報道,LMEval採用增量評估技術後,企業新增測試場景的運維成本降低90%。國內大模型創業公司月之暗面技術負責人王海明、劉徵瀛在今年5月26日谷歌LMEval框架發佈後的媒體溝通會上透露,該工具已應用於其內部流程優化,在未使用LMEval前,月之暗面針對新模型或新場景的評測往往需要數週時間來搭建測試環境、設計評測流程以及執行測試。

而引入LMEval後,原本複雜冗長的流程得以簡化,現在僅需幾天就能完成一輪全面評測,研發週期大幅縮短超兩週。

LMEval配套的LMEvalboard可視化工具支持生成雷達圖,能直觀對比不同模型在各項能力上的表現短板。

開發者點擊圖表即可查看具體錯誤案例,還能並排對比不同模型對同一問題的響應差異,助力精準定位模型性能優劣,爲模型的優化與改進提供有力依據

結語:谷歌開源LMEval框架,打通五大廠商API接口

谷歌開放的開源框架LMEval基於LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,讓開發者能在統一環境下評測不同來源模型。通過模塊化設計,它可同時滿足文本、圖像、代碼等多模態評估需求,提供12種題型,還能靈活添加新評估維度。而增量評估技術配合多線程並行計算,節省80%算力,使企業新增測試場景的運維成本降低90%,顯著提升測試效率、降低測試成本。

谷歌推出的LMeval框架通過標準化和靈活性的結合,爲研究人員和開發者提供了便利。在未來,隨着AI技術的不斷演進,LMeval框架或有可能成爲行業內評測工作的標準,助力推動AI模型的持續發展與優化。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10