精品成人国产在线观看男人呻吟_日韩视频精品在线_91视频8mav_国产中文_97国产超碰_色综合天天综合网国产成人网

聚慕 - 專業醫療器械服務商
設為首頁 收藏本頁 人事招聘 關于聚慕
400-901-5099
全部商品分類
openai發布最新開源框架:醫療大模型評估瞄準現實情況
發布時間:2025-05-19 09:12:17

OpenAI近日發布了一款開源基準測試工具,旨在衡量大型語言模型在醫療健康領域的性能和安全性。

該公司在周一的博客文章中表示,這個名為HealthBench的大型數據集超越了傳統的考試式提問,它基于醫學專家認為最重要的內容,測試人工智能模型在真實醫療場景中的表現。

該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發和部署得當,大型語言模型有潛力擴大健康信息的獲取途徑,支持臨床醫生提供高質量的醫療服務,并幫助人們維護自身及其社區的健康。"

公司高管在博文中表示:"評估對于理解模型在醫療環境中的表現至關重要。學術界和業界雖已付出巨大努力,但許多現有評估未能反映真實場景,缺乏基于醫學專家意見的嚴格驗證,或者未能給最先進的模型留下改進空間。"

該公司表示,該評估框架是與來自60個國家的262名執業醫師合作構建的。

HealthBench內置了5000個真實的醫療對話,并根據醫生制定的評分標準對模型的回應進行評分,評估其安全性、適當性和準確性。

77411747366336684

該公司表示,HealthBench中的對話模擬了AI模型與個人用戶或臨床醫生之間的互動,這些對話通過合成生成和人工對抗測試產生。OpenAI稱,這些對話"旨在真實地模擬大型語言模型在現實世界中的使用情況:它們是多輪次的、多語種的,涵蓋了各種普通用戶和醫療服務提供者的角色,跨越了多個醫學專業和背景,并根據難度進行了篩選。"

HealthBench評估了48562項獨特的評分標準,涵蓋多個健康情境和行為維度,如準確性、指令遵循和溝通能力。

模型的回應由一個基于模型的評分器進行評估,以判斷是否滿足每個評分標準。基于滿足的標準所獲總分,與可能獲得的最高分數進行比較,得到模型回應的總體得分。

HealthBench的對話分為七個主題,例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。

OpenAI 健康人工智能團隊負責人Karan Singhal在LinkedIn的帖子中表示,HealthBench的開發面向兩大受眾:一是AI研究界,旨在"形成共同標準并激勵開發有益于人類的模型";二是醫療機構,旨在"提供高質量證據,以更好地理解當前和未來的用例及局限性。"

OpenAI表示,HealthBench的開發旨在遵循幾項核心原則來評估醫療領域的AI系統。首先,該公司稱,評分應反映現實世界的影響。OpenAI在博文中表示:"這應超越考題范圍,捕捉復雜的現實生活場景和工作流程,以反映個人和臨床醫生與模型互動的方式。"

同時,評估還應反映醫療專業人士的標準和優先事項,為改進AI系統提供堅實的基礎。該公司指出:"應顯示出巨大的改進空間,從而激勵模型開發者持續提升性能。"

斯坦福AI 研究與科學評估中心執行主任Ethan Goh表示,HealthBench是推動醫療 AI 性能評估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(如MedQA, MultiMedQA, MedMCQA, USMLE)依賴于選擇題,這些題目通常來自醫生資格考試。這些基準現已飽和,對于衡量AI模型改進的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個用于任務級評估的基準彌補了這一空白,涵蓋了患者和臨床醫生的使用場景。"

Goh表示,許多行業參與者早已將其模型用于各種醫療保健應用,但坦率地說,在對AI回答進行穩健評估方面做得并不出色,因為他們急于部署一個可用的原型,而這在面向消費者或醫療服務提供者的使用場景中可能具有極高的風險。

OpenAI評估了自家模型以及來自谷歌、Anthropic、Meta 和 xAI (Grok) 的模型。總體而言,OpenAI 的 o3 模型表現最佳。但值得注意的是,也有行業人士警告稱,一家公司自行制定基準,并顯示其模型在該基準上表現最佳,這一做法存在風險。如果不公開其模型及數據集以供公眾審查,那無異于同時扮演法官、陪審團和行刑者的角色。在像醫療這樣討論生死的敏感領域,這種程度的不透明是不可接受的,這種不透明性可能會掩蓋模型的弱點。

54901747366342543

OpenAI在醫療健康領域動作頻頻,該公司正與賽諾菲和Formation Bio合作,構建一款由AI驅動的工具,旨在通過加速臨床試驗招募來改進藥物研發。Iodine Software也正與OpenAI合作,將包括GPT-4在內的生成式AI和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color Health也與OpenAI合作開發了生成式AI工具,包括一款AI驅動的癌癥輔助診療應用,雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學健康科學中心 (UTHealth Houston) 也與OpenAI合作,構建和部署用于醫學培訓和患者床旁的算法。


注:文章來源于網絡,如有侵權,請聯系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價格
  • 安調
  • 其他
* 手機號碼:
* 姓名:
主站蜘蛛池模板: 欧美激情猛片xxxⅹ大3 | 成人欧美在线观看 | 国产手机av在线 | 国内精品视频饥渴少妇在线播放 | 国产成人高清成人av片在线看 | 国产精品免费看 | 黄色影院在线看 | 亚洲精品午夜国产va久久成人 | 国产免费观看电影网站 | 免费一级毛片在线播放不收费 | 亚洲情在线 | 夜夜夜影院| 日本网站在线播放 | 黄色大片在线观看 | 久久精精 | 草操视频 | 欧美性生交zzzzzxxxxx | 一级外国毛片 | 好看的91视频 | 操操操操网 | 日本羞羞的午夜电视剧 | 成人午夜精品 | 九九热在线免费观看视频 | 毛片免费在线视频 | 久久精品伊人网 | www国产成人免费观看视频,深夜成人网 | 国产流白浆高潮在线观看 | 国产成人精品午夜 | 日本不卡一区在线观看 | 国产亚洲精品综合一区91 | 亚洲网站一区 | 中文字幕在线观看www | 久久国产一二区 | 亚洲成人欧美在线 | 久久av免费 | 久久精品中文字幕一区 | 久久成年网站 | 欧美日韩免费一区 | 成人在线观看一区二区三区 | chinese军人gay呻吟 | 中国产一级毛片 |