久久久中文久久久无码,亚洲午夜久久久影院伊人,中字无码AV点击进入,亚洲av永久无码精品网站mmd

聚慕 - 專業(yè)醫(yī)療器械服務(wù)商
設(shè)為首頁(yè) 收藏本頁(yè) 人事招聘 關(guān)于聚慕
400-901-5099
全部商品分類
openai發(fā)布最新開源框架:醫(yī)療大模型評(píng)估瞄準(zhǔn)現(xiàn)實(shí)情況
發(fā)布時(shí)間:2025-05-19 09:12:17

OpenAI近日發(fā)布了一款開源基準(zhǔn)測(cè)試工具,旨在衡量大型語(yǔ)言模型在醫(yī)療健康領(lǐng)域的性能和安全性。

該公司在周一的博客文章中表示,這個(gè)名為HealthBench的大型數(shù)據(jù)集超越了傳統(tǒng)的考試式提問,它基于醫(yī)學(xué)專家認(rèn)為最重要的內(nèi)容,測(cè)試人工智能模型在真實(shí)醫(yī)療場(chǎng)景中的表現(xiàn)。

該公司在博文中寫道:"通用人工智能(AGI)的決定性影響之一是改善人類健康。如果開發(fā)和部署得當(dāng),大型語(yǔ)言模型有潛力擴(kuò)大健康信息的獲取途徑,支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù),并幫助人們維護(hù)自身及其社區(qū)的健康。"

公司高管在博文中表示:"評(píng)估對(duì)于理解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。學(xué)術(shù)界和業(yè)界雖已付出巨大努力,但許多現(xiàn)有評(píng)估未能反映真實(shí)場(chǎng)景,缺乏基于醫(yī)學(xué)專家意見的嚴(yán)格驗(yàn)證,或者未能給最先進(jìn)的模型留下改進(jìn)空間。"

該公司表示,該評(píng)估框架是與來(lái)自60個(gè)國(guó)家的262名執(zhí)業(yè)醫(yī)師合作構(gòu)建的。

HealthBench內(nèi)置了5000個(gè)真實(shí)的醫(yī)療對(duì)話,并根據(jù)醫(yī)生制定的評(píng)分標(biāo)準(zhǔn)對(duì)模型的回應(yīng)進(jìn)行評(píng)分,評(píng)估其安全性、適當(dāng)性和準(zhǔn)確性。

77411747366336684

該公司表示,HealthBench中的對(duì)話模擬了AI模型與個(gè)人用戶或臨床醫(yī)生之間的互動(dòng),這些對(duì)話通過合成生成和人工對(duì)抗測(cè)試產(chǎn)生。OpenAI稱,這些對(duì)話"旨在真實(shí)地模擬大型語(yǔ)言模型在現(xiàn)實(shí)世界中的使用情況:它們是多輪次的、多語(yǔ)種的,涵蓋了各種普通用戶和醫(yī)療服務(wù)提供者的角色,跨越了多個(gè)醫(yī)學(xué)專業(yè)和背景,并根據(jù)難度進(jìn)行了篩選。"

HealthBench評(píng)估了48562項(xiàng)獨(dú)特的評(píng)分標(biāo)準(zhǔn),涵蓋多個(gè)健康情境和行為維度,如準(zhǔn)確性、指令遵循和溝通能力。

模型的回應(yīng)由一個(gè)基于模型的評(píng)分器進(jìn)行評(píng)估,以判斷是否滿足每個(gè)評(píng)分標(biāo)準(zhǔn)。基于滿足的標(biāo)準(zhǔn)所獲總分,與可能獲得的最高分?jǐn)?shù)進(jìn)行比較,得到模型回應(yīng)的總體得分。

HealthBench的對(duì)話分為七個(gè)主題,例如緊急情況、處理不確定性或全球健康。每個(gè)主題都有其專屬的評(píng)分標(biāo)準(zhǔn)。

OpenAI 健康人工智能團(tuán)隊(duì)負(fù)責(zé)人Karan Singhal在LinkedIn的帖子中表示,HealthBench的開發(fā)面向兩大受眾:一是AI研究界,旨在"形成共同標(biāo)準(zhǔn)并激勵(lì)開發(fā)有益于人類的模型";二是醫(yī)療機(jī)構(gòu),旨在"提供高質(zhì)量證據(jù),以更好地理解當(dāng)前和未來(lái)的用例及局限性。"

OpenAI表示,HealthBench的開發(fā)旨在遵循幾項(xiàng)核心原則來(lái)評(píng)估醫(yī)療領(lǐng)域的AI系統(tǒng)。首先,該公司稱,評(píng)分應(yīng)反映現(xiàn)實(shí)世界的影響。OpenAI在博文中表示:"這應(yīng)超越考題范圍,捕捉復(fù)雜的現(xiàn)實(shí)生活場(chǎng)景和工作流程,以反映個(gè)人和臨床醫(yī)生與模型互動(dòng)的方式。"

同時(shí),評(píng)估還應(yīng)反映醫(yī)療專業(yè)人士的標(biāo)準(zhǔn)和優(yōu)先事項(xiàng),為改進(jìn)AI系統(tǒng)提供堅(jiān)實(shí)的基礎(chǔ)。該公司指出:"應(yīng)顯示出巨大的改進(jìn)空間,從而激勵(lì)模型開發(fā)者持續(xù)提升性能。"

斯坦福AI 研究與科學(xué)評(píng)估中心執(zhí)行主任Ethan?。牵铮璞硎?,HealthBench是推動(dòng)醫(yī)療?。粒伞⌒阅茉u(píng)估邁向正確方向的一步。Goh在LinkedIn的帖子中提到,許多先前的基準(zhǔn)(如MedQA,?。停酰欤簦椋停澹洌眩?,?。停澹洌停茫眩?, USMLE)依賴于選擇題,這些題目通常來(lái)自醫(yī)生資格考試。這些基準(zhǔn)現(xiàn)已飽和,對(duì)于衡量AI模型改進(jìn)的作用不大(即AI模型的得分已接近100%)。HealthBench通過一個(gè)用于任務(wù)級(jí)評(píng)估的基準(zhǔn)彌補(bǔ)了這一空白,涵蓋了患者和臨床醫(yī)生的使用場(chǎng)景。"

Goh表示,許多行業(yè)參與者早已將其模型用于各種醫(yī)療保健應(yīng)用,但坦率地說,在對(duì)AI回答進(jìn)行穩(wěn)健評(píng)估方面做得并不出色,因?yàn)樗麄兗庇诓渴鹨粋€(gè)可用的原型,而這在面向消費(fèi)者或醫(yī)療服務(wù)提供者的使用場(chǎng)景中可能具有極高的風(fēng)險(xiǎn)。

OpenAI評(píng)估了自家模型以及來(lái)自谷歌、Anthropic、Meta 和?。粒伞。ǎ牵颍铮耄〉哪P汀?傮w而言,OpenAI 的?。铮场∧P捅憩F(xiàn)最佳。但值得注意的是,也有行業(yè)人士警告稱,一家公司自行制定基準(zhǔn),并顯示其模型在該基準(zhǔn)上表現(xiàn)最佳,這一做法存在風(fēng)險(xiǎn)。如果不公開其模型及數(shù)據(jù)集以供公眾審查,那無(wú)異于同時(shí)扮演法官、陪審團(tuán)和行刑者的角色。在像醫(yī)療這樣討論生死的敏感領(lǐng)域,這種程度的不透明是不可接受的,這種不透明性可能會(huì)掩蓋模型的弱點(diǎn)。

54901747366342543

OpenAI在醫(yī)療健康領(lǐng)域動(dòng)作頻頻,該公司正與賽諾菲和Formation?。拢椋锖献?,構(gòu)建一款由AI驅(qū)動(dòng)的工具,旨在通過加速臨床試驗(yàn)招募來(lái)改進(jìn)藥物研發(fā)。Iodine?。樱铮妫簦鳎幔颍逡舱cOpenAI合作,將包括GPT-4在內(nèi)的生成式AI和大型語(yǔ)言模型整合到其廣泛的臨床管理和收入周期管理解決方案中。此外,Color?。龋澹幔欤簦枰才cOpenAI合作開發(fā)了生成式AI工具,包括一款AI驅(qū)動(dòng)的癌癥輔助診療應(yīng)用,雙方正合作測(cè)試計(jì)算機(jī)生成的癌癥患者個(gè)性化護(hù)理計(jì)劃。休斯頓德克薩斯大學(xué)健康科學(xué)中心?。ǎ眨裕龋澹幔欤簦琛。龋铮酰螅簦铮睿∫才cOpenAI合作,構(gòu)建和部署用于醫(yī)學(xué)培訓(xùn)和患者床旁的算法。


注:文章來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復(fù)。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價(jià)格
  • 安調(diào)
  • 其他
* 手機(jī)號(hào)碼:
* 姓名: