久久久中文久久久无码,亚洲午夜久久久影院伊人,中字无码AV点击进入,亚洲av永久无码精品网站mmd

聚慕 - 專業(yè)醫(yī)療器械服務(wù)商
設(shè)為首頁 收藏本頁 人事招聘 關(guān)于聚慕
400-901-5099
全部商品分類
醫(yī)院本地化部署ds全攻略:選型、ai幻覺與安全風(fēng)險(xiǎn)規(guī)避
發(fā)布時(shí)間:2025-04-03 09:14:32

作為國(guó)內(nèi)首家成功部署全量版DeepSeek-R1-671B的醫(yī)療機(jī)構(gòu),深圳大學(xué)附屬華南醫(yī)院通過創(chuàng)新的量化技術(shù)和動(dòng)態(tài)算力分配策略,實(shí)現(xiàn)了千億參數(shù)模型在醫(yī)療場(chǎng)景的落地應(yīng)用。

面對(duì)大模型部署的算力挑戰(zhàn),華南醫(yī)院通過采用INT4量化技術(shù),將671B模型的顯存需求從1.34TB降至336GB,僅需32張H100顯卡即可流暢運(yùn)行。更巧妙的是,醫(yī)院同時(shí)部署了32B、70B和671B三個(gè)版本,讓用戶可以根據(jù)任務(wù)復(fù)雜度靈活切換,既提升了復(fù)雜臨床問題的處理能力,又優(yōu)化了算力資源的使用效率?!        ?/p>

在技術(shù)落地的過程中,安全性和可靠性是醫(yī)療AI不可逾越的紅線。華南醫(yī)院人工智能團(tuán)隊(duì)發(fā)現(xiàn),使用Ollama工具部署時(shí),存在未授權(quán)訪問等安全風(fēng)險(xiǎn)。為此,他們通過嚴(yán)格的本地網(wǎng)絡(luò)隔離和安全加固,并進(jìn)行了全面的壓力測(cè)試,確保系統(tǒng)在高并發(fā)場(chǎng)景下的穩(wěn)定性?!          ?/p>

針對(duì)大模型普遍存在的「幻覺」問題,華南醫(yī)院開創(chuàng)性地將RAG技術(shù)與專病知識(shí)庫相結(jié)合。以外掛臨床指南、專家共識(shí)等權(quán)威資料的方式,不僅顯著提升了回答的準(zhǔn)確性,還能標(biāo)注答案出處,實(shí)現(xiàn)了診療建議的可追溯性?!     ?/p>

3月27日,深圳大學(xué)附屬華南醫(yī)院醫(yī)學(xué)人工智能研究所副所長(zhǎng)張永波做客健康界ALL?。椋睢。粒臁。龋澹幔欤簦琛?chuàng)新應(yīng)用大講堂,揭秘大模型部署工程細(xì)節(jié),分享技術(shù)選型、AI幻覺與安全風(fēng)險(xiǎn)規(guī)避經(jīng)驗(yàn),展望「AI醫(yī)院」從構(gòu)想逐步變?yōu)楝F(xiàn)實(shí)的路徑。

本文精選部分內(nèi)容,供廣大同仁交流,歡迎在評(píng)論區(qū)留言。

算力優(yōu)化策略

量化技術(shù)與動(dòng)態(tài)模型切換

大模型本地化部署對(duì)于硬件資源要求較高,比如CPU、GPU、內(nèi)存、存儲(chǔ)以及網(wǎng)絡(luò)帶寬等。其中顯卡和GPU的選擇是重中之重。下表展示了醫(yī)院部署DeepSeek?。遥辈煌瑓?shù)版本的顯存需求以及推薦的顯卡配置?! ?/p>

Image

        

張永波介紹,華南醫(yī)院在部署的過程中是選擇量化的方式,也就是將模型中的權(quán)重和激活從高精度(如?。疲校常不颍疲校保叮┺D(zhuǎn)換為低精度(如INT8或INT4)的過程,從而降低內(nèi)存占用和計(jì)算需求,同時(shí)縮小模型體積,加速推理?!     ?/p>

醫(yī)院最終選擇了以INT4量化顯存來部署。如此,僅需一個(gè)336GB的顯存,32×H100的顯卡配置是能夠完全滿足671B的本地化部署需求?!    ?/p>

「盡管醫(yī)院投入了大量硬件資源,但由于671B模型的參數(shù)量龐大,算力需求極高,仍無法滿足全院所有人員的并發(fā)使用需求?!箯堄啦ㄌ寡?,所以醫(yī)院部署了三種參數(shù),希望讓用戶能夠有序地、基于任務(wù)的復(fù)雜程度去選擇不同的模型版本。

比如簡(jiǎn)單對(duì)話,32B模型版本就能夠很好實(shí)現(xiàn),如果涉及到比如數(shù)學(xué)問題、代碼邏輯推理或者復(fù)雜的臨床診療問題時(shí),就需要切換到671B全量參數(shù)的模型,讓其去做推理?!       ?/p>

Image

(院內(nèi)人員可基于自己的任務(wù)需求,切換不同參數(shù)版本模型。)

部署大模型

需防Ollama「裸奔」風(fēng)險(xiǎn)

確定了方略之后,如何進(jìn)行部署?華南醫(yī)院是基于Ollama工具,進(jìn)行DeepSeek的本地化部署。

Ollama是一個(gè)用于本地運(yùn)行和管理大語言模型(LLM)的命令行工具,它不僅集成了很多包括DeepSeekR1在內(nèi)的開源大模型,提供適用于macOS、Windows 及?。蹋椋睿酰榷喾N平臺(tái)的安裝包,內(nèi)置了GPU相關(guān)驅(qū)動(dòng),能夠讓用戶在本地環(huán)境中輕松部署、運(yùn)行和監(jiān)控AI模型?!          ?/p>

「但是Ollama有一個(gè)問題,就是滿足了速率,犧牲了性能?!箯堄啦ㄌ寡裕?dāng)初華南醫(yī)院人工智能團(tuán)隊(duì)為了能夠快速實(shí)現(xiàn)部署而使用了Ollama工具,但是后面在開發(fā)過程中發(fā)現(xiàn),基于Ollama部署的DeepSeek在高并發(fā)量情況下是存在缺陷的,比如說同時(shí)50個(gè)用戶去訪問DeepSeek模型,可能會(huì)出現(xiàn)系統(tǒng)崩潰問題?! ?/p>

另一個(gè)非常重要的就是安全問題。3月3日,國(guó)家網(wǎng)絡(luò)安全通報(bào)中心發(fā)布《關(guān)于大模型工具Ollama存在安全風(fēng)險(xiǎn)的情況通報(bào)》,提醒用戶如使用Ollama私有化部署且未修改默認(rèn)配置,就會(huì)存在數(shù)據(jù)泄露、算力盜取、服務(wù)中斷等安全風(fēng)險(xiǎn)?! ?/p>

「由于華南醫(yī)院采用本地部署方案,且未開放Ollama的訪問端口,因此有效規(guī)避了潛在的安全風(fēng)險(xiǎn)?!顾硎尽?/p>

在完成本地模型部署后,需要評(píng)估當(dāng)前軟硬件環(huán)境下的模型效能,定位系統(tǒng)瓶頸,也為后期負(fù)載均衡提供數(shù)據(jù)支持。張永波介紹,具體可以通過延遲、吞吐量、資源利用率、階梯加壓、極限測(cè)試等幾個(gè)方面進(jìn)行性能基準(zhǔn)測(cè)試和壓力測(cè)試。


注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除

為您找貨 · 告訴我們您想要找什么商品?我們將盡快給您答復(fù)。
* 商品名稱:
* 您想了解:
  • 商品資料
  • 貨期
  • 價(jià)格
  • 安調(diào)
  • 其他
* 手機(jī)號(hào)碼:
* 姓名: