▲OpenAI公布醫療AI評測新基準HealthBench,刷新模型表現指標。(圖/OpenAI)
記者吳立言/綜合報導
OpenAI今(13日)宣布推出HealthBench,一項全新開源評估基準,用以測量大型語言模型(LLMs)在醫療領域的效能與安全性。該基準由全球262位執業醫師共同設計,涵蓋5,000個多輪醫療對話、48,562個醫師撰寫的細緻評分標準,標誌著AI醫療能力評估邁入全新階段。
在OpenAI的內部測試中,GPT系列模型展現出穩健成長,從GPT-3.5 Turbo的 16%,到GPT-4o的32%,再到最新o3模型達60%的總體得分。而成本大幅降低的小型模型GPT-4.1 nano更令人驚艷,以僅約1/25成本超越GPT-4o,凸顯小模型在醫療應用上的潛力。
OpenAI 表示,HealthBench 的設計基於三大核心理念:
• 有意義(Meaningful):評分標準聚焦真實世界的影響力,不僅是紙上考題,更涵蓋實際就診流程中的對話、推理與個別化需求。
• 可信賴(Trustworthy):由醫師親自撰寫的評分標準與加權系統,確保評估準則與臨床標準一致。
• 具進步空間(Unsaturated):現有頂尖模型仍有明顯提升空間,讓開發者能持續優化。
HealthBench 所涵蓋的對話涵蓋多語言、不同醫療專科、病患與醫師視角、難度高、極具挑戰性,並依七大主題分類,如急診處理、資訊不確定性處理、全球健康議題等。每個對話均以 醫師撰寫的客製化評分規則 進行評估,涵蓋「正確性」、「表達溝通」、「上下文理解」等多個維度。模型的回應會由GPT-4.1擔任自動評分員,逐項檢查是否符合每條標準,最後依得分占比生成總體評分。
OpenAI強調,改善人類健康將是AGI帶來最具決定性的改變之一。若能妥善設計與部署,大型語言模型將有潛力協助全球提升醫療知識可及性、支援臨床決策、強化民眾自我健康倡議能力。HealthBench的推出,正是通往這一未來願景的關鍵基礎建設。
讀者迴響