【OpenAI開源HealthBench,60個國家合力開發5000段真實對話】金色財經報道,OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。與以往測試集不同的是,該測試集的5000段核心測試對話,全部由來自60個國家/地區的26個專業262名醫生打造,極大增強了該測試集的難度、真實性以及豐富度。並且採用了多輪對話測試,而不是簡單的答題或選擇題模式。根據測試數據顯示,大模型在醫療保健領域的表現有了顯著提升。例如,從之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整體性能有了顯著進步。尤其是小型模型的進步更為突出,GPT-4.1nano不僅在性能上超越了GPT-4o,而且成本降低了25倍。