黄色影视在线免费观看,日韩精品久久,成人亚洲

ＯｐｅｎＡＩ近日發布了一款開源基準測試工具，旨在衡量大型語言模型在醫療健康領域的性能和安全性。

該公司在周一的博客文章中表示，這個名為ＨｅａｌｔｈＢｅｎｃｈ的大型數據集超越了傳統的考試式提問，它基于醫學專家認為最重要的內容，測試人工智能模型在真實醫療場景中的表現。

該公司在博文中寫道：＂通用人工智能（ＡＧＩ）的決定性影響之一是改善人類健康。如果開發和部署得當，大型語言模型有潛力擴大健康信息的獲取途徑，支持臨床醫生提供高質量的醫療服務，并幫助人們維護自身及其社區的健康。＂

公司高管在博文中表示：＂評估對于理解模型在醫療環境中的表現至關重要。學術界和業界雖已付出巨大努力，但許多現有評估未能反映真實場景，缺乏基于醫學專家意見的嚴格驗證，或者未能給最先進的模型留下改進空間。＂

該公司表示，該評估框架是與來自６０個國家的２６２名執業醫師合作構建的。

ＨｅａｌｔｈＢｅｎｃｈ內置了５０００個真實的醫療對話，并根據醫生制定的評分標準對模型的回應進行評分，評估其安全性、適當性和準確性。

77411747366336684

該公司表示，ＨｅａｌｔｈＢｅｎｃｈ中的對話模擬了ＡＩ模型與個人用戶或臨床醫生之間的互動，這些對話通過合成生成和人工對抗測試產生。ＯｐｅｎＡＩ稱，這些對話＂旨在真實地模擬大型語言模型在現實世界中的使用情況：它們是多輪次的、多語種的，涵蓋了各種普通用戶和醫療服務提供者的角色，跨越了多個醫學專業和背景，并根據難度進行了篩選。＂

ＨｅａｌｔｈＢｅｎｃｈ評估了４８５６２項獨特的評分標準，涵蓋多個健康情境和行為維度，如準確性、指令遵循和溝通能力。

模型的回應由一個基于模型的評分器進行評估，以判斷是否滿足每個評分標準。基于滿足的標準所獲總分，與可能獲得的最高分數進行比較，得到模型回應的總體得分。

ＨｅａｌｔｈＢｅｎｃｈ的對話分為七個主題，例如緊急情況、處理不確定性或全球健康。每個主題都有其專屬的評分標準。

ＯｐｅｎＡＩ　健康人工智能團隊負責人Ｋａｒａｎ　Ｓｉｎｇｈａｌ在ＬｉｎｋｅｄＩｎ的帖子中表示，ＨｅａｌｔｈＢｅｎｃｈ的開發面向兩大受眾：一是ＡＩ研究界，旨在＂形成共同標準并激勵開發有益于人類的模型＂；二是醫療機構，旨在＂提供高質量證據，以更好地理解當前和未來的用例及局限性。＂

ＯｐｅｎＡＩ表示，ＨｅａｌｔｈＢｅｎｃｈ的開發旨在遵循幾項核心原則來評估醫療領域的ＡＩ系統。首先，該公司稱，評分應反映現實世界的影響。ＯｐｅｎＡＩ在博文中表示：＂這應超越考題范圍，捕捉復雜的現實生活場景和工作流程，以反映個人和臨床醫生與模型互動的方式。＂

同時，評估還應反映醫療專業人士的標準和優先事項，為改進ＡＩ系統提供堅實的基礎。該公司指出：＂應顯示出巨大的改進空間，從而激勵模型開發者持續提升性能。＂

斯坦福ＡＩ　研究與科學評估中心執行主任Ｅｔｈａｎ　Ｇｏｈ表示，ＨｅａｌｔｈＢｅｎｃｈ是推動醫療　ＡＩ　性能評估邁向正確方向的一步。Ｇｏｈ在ＬｉｎｋｅｄＩｎ的帖子中提到，許多先前的基準（如ＭｅｄＱＡ，　ＭｕｌｔｉＭｅｄＱＡ，　ＭｅｄＭＣＱＡ，　ＵＳＭＬＥ）依賴于選擇題，這些題目通常來自醫生資格考試。這些基準現已飽和，對于衡量ＡＩ模型改進的作用不大（即ＡＩ模型的得分已接近１００％）。ＨｅａｌｔｈＢｅｎｃｈ通過一個用于任務級評估的基準彌補了這一空白，涵蓋了患者和臨床醫生的使用場景。＂

Ｇｏｈ表示，許多行業參與者早已將其模型用于各種醫療保健應用，但坦率地說，在對ＡＩ回答進行穩健評估方面做得并不出色，因為他們急于部署一個可用的原型，而這在面向消費者或醫療服務提供者的使用場景中可能具有極高的風險。

ＯｐｅｎＡＩ評估了自家模型以及來自谷歌、Ａｎｔｈｒｏｐｉｃ、Ｍｅｔａ　和　ｘＡＩ　（Ｇｒｏｋ）　的模型。總體而言，ＯｐｅｎＡＩ　的　ｏ３　模型表現最佳。但值得注意的是，也有行業人士警告稱，一家公司自行制定基準，并顯示其模型在該基準上表現最佳，這一做法存在風險。如果不公開其模型及數據集以供公眾審查，那無異于同時扮演法官、陪審團和行刑者的角色。在像醫療這樣討論生死的敏感領域，這種程度的不透明是不可接受的，這種不透明性可能會掩蓋模型的弱點。

54901747366342543

ＯｐｅｎＡＩ在醫療健康領域動作頻頻，該公司正與賽諾菲和Ｆｏｒｍａｔｉｏｎ　Ｂｉｏ合作，構建一款由ＡＩ驅動的工具，旨在通過加速臨床試驗招募來改進藥物研發。Ｉｏｄｉｎｅ　Ｓｏｆｔｗａｒｅ也正與ＯｐｅｎＡＩ合作，將包括ＧＰＴ－４在內的生成式ＡＩ和大型語言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外，Ｃｏｌｏｒ　Ｈｅａｌｔｈ也與ＯｐｅｎＡＩ合作開發了生成式ＡＩ工具，包括一款ＡＩ驅動的癌癥輔助診療應用，雙方正合作測試計算機生成的癌癥患者個性化護理計劃。休斯頓德克薩斯大學健康科學中心　（ＵＴＨｅａｌｔｈ　Ｈｏｕｓｔｏｎ）　也與ＯｐｅｎＡＩ合作，構建和部署用于醫學培訓和患者床旁的算法。

注：文章來源于網絡，如有侵權，請聯系刪除

上一篇：四川出臺新政促進醫藥健康產業發展，支持口腔疾病防治創新

下一篇：fda內部將于6月30日前全面部署生成式ai，加速審評流程

精品成人国产在线观看男人呻吟_日韩视频精品在线_91视频8mav_国产中文_97国产超碰_色综合天天综合网国产成人网

新聞欄目

相關推薦