鳳凰網科技訊 12月29日,通義實驗室多模態交互團隊近日宣佈開源其通用GUI智能體基座模型MAI-UI。該模型旨在通過理解螢幕界面並執行操作,完成跨應用、多步驟的複雜任務,例如查詢車票、在通訊羣組同步信息、調整會議安排等。

據介紹,MAI-UI具備在指令不明確時主動向用戶提問澄清的能力,並支持通過調用結構化工具(如地圖搜索、路線規劃API)來替代繁瑣的界面點擊操作,以提高任務執行的成功率與效率。該模型家族包含2B、8B等不同參數規模的版本,其中2B與8B模型已開源。

根據團隊公布的評測數據,MAI-UI在ScreenSpot-Pro、AndroidWorld等多個GUI理解與任務執行基準測試中取得了當前領先的成績。該模型適用於手機、電腦等不同操作系統的界面交互場景。
