OpenAI進攻醫療產業　推出HealthBench建立全球AI評估新標準

▲OpenAI。（圖／OpenAI）

▲OpenAI公布醫療AI評測新基準HealthBench，刷新模型表現指標。（圖／OpenAI）

記者吳立言／綜合報導

OpenAI今（13日）宣布推出HealthBench，一項全新開源評估基準，用以測量大型語言模型（LLMs）在醫療領域的效能與安全性。該基準由全球262位執業醫師共同設計，涵蓋5,000個多輪醫療對話、48,562個醫師撰寫的細緻評分標準，標誌著AI醫療能力評估邁入全新階段。

在OpenAI的內部測試中，GPT系列模型展現出穩健成長，從GPT-3.5 Turbo的 16%，到GPT-4o的32%，再到最新o3模型達60%的總體得分。而成本大幅降低的小型模型GPT-4.1 nano更令人驚艷，以僅約1/25成本超越GPT-4o，凸顯小模型在醫療應用上的潛力。

OpenAI 表示，HealthBench 的設計基於三大核心理念：
• 有意義（Meaningful）：評分標準聚焦真實世界的影響力，不僅是紙上考題，更涵蓋實際就診流程中的對話、推理與個別化需求。
• 可信賴（Trustworthy）：由醫師親自撰寫的評分標準與加權系統，確保評估準則與臨床標準一致。
• 具進步空間（Unsaturated）：現有頂尖模型仍有明顯提升空間，讓開發者能持續優化。

HealthBench 所涵蓋的對話涵蓋多語言、不同醫療專科、病患與醫師視角、難度高、極具挑戰性，並依七大主題分類，如急診處理、資訊不確定性處理、全球健康議題等。每個對話均以醫師撰寫的客製化評分規則進行評估，涵蓋「正確性」、「表達溝通」、「上下文理解」等多個維度。模型的回應會由GPT-4.1擔任自動評分員，逐項檢查是否符合每條標準，最後依得分占比生成總體評分。

OpenAI強調，改善人類健康將是AGI帶來最具決定性的改變之一。若能妥善設計與部署，大型語言模型將有潛力協助全球提升醫療知識可及性、支援臨床決策、強化民眾自我健康倡議能力。HealthBench的推出，正是通往這一未來願景的關鍵基礎建設。

每日新聞精選　免費訂閱《ETtoday電子報》