OpenAI進攻醫療產業 推出HealthBench建立全球AI評估新標準

▲OpenAI。(圖/OpenAI)

▲OpenAI公布醫療AI評測新基準HealthBench,刷新模型表現指標。(圖/OpenAI)

記者吳立言/綜合報導

OpenAI今(13日)宣布推出HealthBench,一項全新開源評估基準,用以測量大型語言模型(LLMs)在醫療領域的效能與安全性。該基準由全球262位執業醫師共同設計,涵蓋5,000個多輪醫療對話、48,562個醫師撰寫的細緻評分標準,標誌著AI醫療能力評估邁入全新階段。

在OpenAI的內部測試中,GPT系列模型展現出穩健成長,從GPT-3.5 Turbo的 16%,到GPT-4o的32%,再到最新o3模型達60%的總體得分。而成本大幅降低的小型模型GPT-4.1 nano更令人驚艷,以僅約1/25成本超越GPT-4o,凸顯小模型在醫療應用上的潛力。

OpenAI 表示,HealthBench 的設計基於三大核心理念:
• 有意義(Meaningful):評分標準聚焦真實世界的影響力,不僅是紙上考題,更涵蓋實際就診流程中的對話、推理與個別化需求。
• 可信賴(Trustworthy):由醫師親自撰寫的評分標準與加權系統,確保評估準則與臨床標準一致。
• 具進步空間(Unsaturated):現有頂尖模型仍有明顯提升空間,讓開發者能持續優化。

HealthBench 所涵蓋的對話涵蓋多語言、不同醫療專科、病患與醫師視角、難度高、極具挑戰性,並依七大主題分類,如急診處理、資訊不確定性處理、全球健康議題等。每個對話均以 醫師撰寫的客製化評分規則 進行評估,涵蓋「正確性」、「表達溝通」、「上下文理解」等多個維度。模型的回應會由GPT-4.1擔任自動評分員,逐項檢查是否符合每條標準,最後依得分占比生成總體評分。

OpenAI強調,改善人類健康將是AGI帶來最具決定性的改變之一。若能妥善設計與部署,大型語言模型將有潛力協助全球提升醫療知識可及性、支援臨床決策、強化民眾自我健康倡議能力。HealthBench的推出,正是通往這一未來願景的關鍵基礎建設。

05/13 全台詐欺最新數據

更多新聞
581 2 7462 損失金額(元) 更多新聞

※ 資料來源:內政部警政署165打詐儀錶板

分享給朋友:

追蹤我們:

※本文版權所有,非經授權,不得轉載。[ ETtoday著作權聲明 ]

AI科技熱門新聞

AI寫作神器Manus全面開放

傳ChatGPT手機版將新增「Record」功能

OpenAI執行長:ChatGPT只是開始

Google宣布Android生態系三大升級

Google搜尋首頁將改頭換面?

OP響樂生活銷量破10萬 幕後解密

Airbnb2025夏季改版大公開

月付20美元解鎖Notion全能助手

ChatGPT深度研究新增PDF匯出功能

蘋果FastVLM模型亮相

OpenAI推出HealthBench

馬斯克坦言Grok 3.5「還太粗糙」

Cursor Pro推學生一年免費福利

首款代理式AI瀏覽器Fellou正式登場

相關新聞

讀者迴響

熱門新聞

最夯影音

更多

熱門快報

回到最上面
OSZAR »