大模型等 AI 技術,正在像水、電等基礎設施能力一樣,在醫(yī)療機構的未來醫(yī)療服務體系中具有無可替代的價值。為幫助醫(yī)療機構應對在大模型私有化部署中面臨的成本高、落地難等難題,我們與英特爾展開合作,在第四代英特爾 至強 可擴展處理器的基礎上,以 BigDL-LLM 庫和 OpenVINO 工具套件作為推理優(yōu)化方案的左右手,雙管齊下,打造高質量、低成本的醫(yī)療 AI 應用并獲得了預期推廣成果。
王實
CTO
"
人工智能 (Artificial Intelligence,AI) 在醫(yī)療領域的落地,正為醫(yī)療行業(yè)的信息化、數(shù)字化進程帶來新一輪質變,它可以通過優(yōu)化診療效率,改善患者體驗,提升全民健康服務水平。近年來引人矚目的大語言模型 (Large Language Model,LLM,以下簡稱“大模型”) 技術,以其更強的學習性能和更優(yōu)的模型擬合效果,更是為 AI 在醫(yī)療領域中的應用注入了新動力。
領先的醫(yī)療人工智能解決方案提供商北京惠每云科技有限公司 (以下簡稱“惠每科技”) 以其臨床決策支持系統(tǒng) (Clinical Decision Support System,CDSS) 產(chǎn)品和海量醫(yī)療數(shù)據(jù)為基礎,積極引入大模型技術來為醫(yī)療機構打造更高品質的醫(yī)療 AI 應用。但這并非易事,醫(yī)療機構對數(shù)據(jù)安全的顧慮,以及昂貴的 AI 專用芯片部署和應用成本是阻礙這一進程的兩大“攔路虎”。
為幫助醫(yī)療機構在其廣泛應用的 IT 平臺上實現(xiàn)高質量、低成本的大模型私有化部署,惠每科技與英特爾展開技術合作,對醫(yī)療大模型在英特爾 至強 平臺上的推理性能實施優(yōu)化。雙方在以第四代英特爾 至強 可擴展處理器為核心的硬件基礎設施上,采用 BigDL-LLM 大模型開源庫與 OpenVINO 工具套件打造了兩種大模型優(yōu)化方案。實際部署后的測試結果表明:在保證精準度以及不增加成本的前提下,優(yōu)化后的方案可有效提升鑒別診斷、出院記錄等醫(yī)療 AI 應用的處理效率,并獲得了醫(yī)生的認可。
大模型技術正成為醫(yī)療 AI 發(fā)展新動力
得益于強勁算力與海量數(shù)據(jù)的加持,高速發(fā)展的大模型技術正以一系列極具震撼力的應用場景,成為 AI 領域令人矚目的焦點。與傳統(tǒng) AI 技術相比,參數(shù)規(guī)模龐大 (動輒數(shù)百乃至上千億參數(shù)量級) 的大模型不僅具備更強的學習性能和更優(yōu)的模型擬合效果,還擁有高效的遷移學習能力,這能讓用戶在一個通用模型上完成不同類型的任務。此外,對思維鏈 (Chain of Thought,CoT) 的良好支持,也使大模型應用補齊了傳統(tǒng) AI 在邏輯推理能力上的短板。
上述優(yōu)勢不僅讓大模型技術與應用成為了各大科技巨頭爭先探索的藍海,也推動了其在社交、金融、電商以及醫(yī)療等垂直領域的迅速落地,并顯現(xiàn)出巨大的市場潛力。有相關預測數(shù)據(jù)表明,大模型市場在未來數(shù)年都將保持 21.4% 的年復合增長率 (Compound Annual Growth Rate, CAGR),到 2029 年或達 408 億美元的市場規(guī)模1。
在醫(yī)療行業(yè),無論是面向大眾提供普惠醫(yī)療服務的智能問答與家庭醫(yī)療助手,還是有助于醫(yī)護人員提升效率的 AI 導診和臨床輔助診療應用,或是加速醫(yī)療影像處理效能,提高大病、惡疾早期發(fā)現(xiàn)率的 AI 閱片等,眾多醫(yī)療 AI 企業(yè)正在借助大模型來提升這些應用的性能,幫助醫(yī)療機構在診療服務全流程中實現(xiàn)更全面且優(yōu)質的服務能力、更精準的結果輸出以及更廣泛的運用范圍。而其中,深耕醫(yī)療信息化多年,具有出色醫(yī)療 AI 應用研發(fā)能力和頭部優(yōu)勢的惠每科技,也在這一趨勢中將大模型作為其技術再突破、服務再提升的重要抓手。
一直以來,惠每科技的 CDSS 產(chǎn)品 (如醫(yī)院端核心應用 Dr.Mayson、臨床科研平臺 Darwin 等),都是通過實時數(shù)據(jù)分析與事中智能提示等核心能力的打造,助力醫(yī)療機構在臨床診療決策、病案與病歷管理、診療風險預警以及醫(yī)保費用管理等環(huán)節(jié)中提升服務質量、診療效率和管理效能。
而這些場景對自然語言處理 (Natural Language Processing, NLP)、計算機視覺 (Computer Vision, CV) 等 AI 能力的需求,正好讓大模型有了用武之地。如圖 1 所示,在惠每科技最新發(fā)布的 CDSS 3.0 架構中,新一代 AI 大數(shù)據(jù)處理平臺已集成了醫(yī)療大模型。這些醫(yī)療大模型是通過海量數(shù)據(jù)在一系列大模型上重新訓練而成的,不僅融合了惠每科技在醫(yī)學知識庫、專家系統(tǒng)上的雄厚知識積累,也凝集了其落地于 600 余家醫(yī)療機構所獲得的豐富實戰(zhàn)經(jīng)驗,已在病歷生成等場景中獲得了成功運用。
圖 1 集成大模型的惠每新一代 AI 大數(shù)據(jù)處理平臺架構
推動高質量、低成本的私有化部署,是醫(yī)療大模型落地的主要挑戰(zhàn)
然而在推進醫(yī)療大模型落地的過程中,惠每科技面臨著嚴峻挑戰(zhàn),其中主要的是如何幫助醫(yī)療機構實現(xiàn)高質量、低成本的私有化部署:
降低建設成本:傳統(tǒng)上的大模型訓練和推理工作通常需要借助專用加速芯片來完成,但這類芯片昂貴的價格往往讓醫(yī)療機構望而卻步,同時其普遍缺貨或供貨周期較長的問題也會大幅拉長方案的建設周期。 保障數(shù)據(jù)安全:行業(yè)的特殊性使醫(yī)療機構對數(shù)據(jù)安全、隱私保護極為重視,任何醫(yī)療數(shù)據(jù)都不能離開安全可控的內網(wǎng)環(huán)境,所以醫(yī)療大模型需要進行私有化部署。
這些因素都阻礙著醫(yī)療大模型在醫(yī)療機構的落地與普及。
為應對這一挑戰(zhàn),惠每科技攜手英特爾,采用 BigDL-LLM 大模型開源庫和 OpenVINO 工具套件,在基于第四代英特爾 至強 可擴展處理器的基礎設施上打造了大模型推理加速方案。
基于 BigDL-LLM,打造醫(yī)療大模型量化優(yōu)化方案
數(shù)百上千億計的參數(shù)規(guī)模在給醫(yī)療大模型帶來更優(yōu)學習效果、更精準輔助診療結果的同時,也對承載平臺的資源,包括算力、內存等提出了更嚴苛的要求。這不僅會影響 AI 應用的最終運行效率,影響醫(yī)護、患者、管理者以及科研人員的使用體驗,更會限制更大參數(shù)規(guī)模、更優(yōu)性能的大模型在醫(yī)療機構的普及。模型量化則是應對這一問題的重要優(yōu)化手段之一。
對 AI 模型的量化,是指將訓練好的模型的權值、激活值等從高精度數(shù)據(jù)格式 (如 FP32 等) 轉化為低精度數(shù)據(jù)格式 (如 INT4 /INT8 等),這不僅可以降低推理過程中對內存等資源的需求,從而讓平臺可以容納更大參數(shù)規(guī)模的大模型,也能大幅 提升推理速度,使醫(yī)療 AI 應用的運行更為迅捷。在惠每科技與英特爾的合作中,雙方基于第四代英特爾 至強 可擴展處理器內置的指令集,借助由英特爾開發(fā)和開源的 BigDL-LLM 大模型庫來實現(xiàn)推理加速量化方案。
BigDL-LLM 是一個為英特爾架構 XPU 打造的輕量級大語言模型加速庫,在英特爾架構平臺上具有廣泛的模型支持,能實現(xiàn)更低的時延和更小的內存占用。作為英特爾開源 AI 框架 BigDL 的一部分,BigDL-LLM 不僅提供了對各種低精度數(shù)據(jù)格式的支持和優(yōu)化,還可基于不同處理器內置指令集 (如英特爾AVX - 512_VNNI、英特爾AMX 等) 及相配套的軟件實施推理加速,使大模型在英特爾架構平臺上實現(xiàn)更高的推理效率。在本次合作中,惠每科技就使用英特爾AVX - 512_VNNI 指令集顯著加速了其醫(yī)療大模型在 INT4 低精度數(shù)據(jù)格式上的推理。
如圖 2 所示,方案中 BigDL-LLM 為醫(yī)療大模型提供了兩種使用方法:便捷命令 (Command Line Interface, CLI) 方法和編程接口 (Application Programming Interface, API) 方法。通過 CLI 方法,惠每科技可方便地完成模型量化并評估量化后的推理效果,由此判斷該量化方案是否適用于當前這個模型。這些 CLI 命令包括使用 llm-convert 來對模型的量化精度快速轉換用于預覽,或者使用 llm-cli/llm-chat 來運行并快速測試量化后的模型。
圖 2 BigDL-LLM 為醫(yī)療大模型提供推理加速
另一方面,借助 BigDL-LLM 所提供的面向 HuggingFace 和 LangChain 的 API 編程接口,惠每科技能夠快速地將 LLM 量化方案整合進 HuggingFace 或 LangChain 的項目代碼,進而便捷地完成模型部署。作為熱門的 Transformers 開源庫之一,HuggingFace 上的 Transformers 模型一直是各類大模型的重要組成部分,而導入 BigDL-LLM 的優(yōu)勢在于能讓惠每科技等用戶只需修改少許代碼 (更改 import,并在 from_ pretrained 參數(shù)中設置 load_in_4bit=True) 即可快速加載模型。在使用 bigdl.llm.transformers 后,BigDL-LLM 會在模型加載過程中對模型進行 INT4 的低精度量化,由此實現(xiàn)對基于 HuggingFace Transformers 的模型進行加速。
與此同時,LangChain 也是近年來大模型領域流行的開源框架之一,包括惠每科技在內的許多用戶都在使用 LangChain 來開發(fā)不同的大模型應用。BigDL-LLM 同樣也通過 API 編程接口 bigdl.llm.langchain 提供了便于使用的 LangChain 集成能力,讓開發(fā)者能輕松借助 BigDL-LLM 來開發(fā)新模型或遷移基于 HuggingFace Transformers 優(yōu)化的 INT4 模型,或是其它原生 INT4 模型。
基于 OpenVINO 工具套件,構建醫(yī)療大模型非量化優(yōu)化方案
在量化優(yōu)化方案之外,英特爾還借助 OpenVINO 工具套件為惠每科技打造了非量化優(yōu)化方案。作為一款面向 AI 推理及部署優(yōu)化的軟件工具套件,OpenVINO 自推出以來,在幫助 AI 開發(fā)者和最終用戶縮短開發(fā)、部署時間,以及充分釋放豐富的英特爾 硬件性能優(yōu)勢方面,始終發(fā)揮著重要作用。在最新的 OpenVINO 2023.11 版本中,其通過一系列新功能的加入,實現(xiàn)了面向大模型的功能增強。
在幫助惠每科技使用 OpenVINO 工具套件的 Pipeline 構建醫(yī)療大模型的高效推理服務部署之余,英特爾還借助該工具套件來助力優(yōu)化模型推理流水線,通過消減模型輸入和輸出之間的內存副本來降低資源消耗,提升推理效率,并通過執(zhí)行圖的重新設計來優(yōu)化模型中的組件。
以惠每科技使用的大模型 ChatGLM6b 為例,該模型的結構如圖 3 所示,其流水線回路主要包含 3 個主要模塊,即 Embedding、GLMBlock 層和 lm_logits。模型的流水線中有兩類不同的執(zhí)行圖,首次推理時不需要 KV 緩存作為 GLMBlock 層的輸入;從第二次迭代開始,QKV 注意力機制的上一次結果 (pastKV) 將成為當前一輪模型推理的輸入。
圖 3 ChatGLM 的模型結構
可以看到,隨著所生成 tokens 長度不斷增加,在流水線推理過程中,模型輸入和輸出之間將存留海量的大型內存副本 (內存拷貝開銷由模型的參數(shù) hidden_size 以及迭代的次數(shù)決定),不僅將占據(jù)大量的內存空間,龐大的內存拷貝開銷也會使推理的執(zhí)行效率遭遇挑戰(zhàn)。
為應對上述挑戰(zhàn),基于 OpenVINO 工具套件的非量化優(yōu)化方案執(zhí)行了三個方面的優(yōu)化。
優(yōu)化一
利用零拷貝 (Zero-Copy) 視圖來傳遞預分配的 KV 所需的內存副本空間。由于傳統(tǒng)的內存拷貝需要耗費大量的處理器資源和內存帶寬,因此當內存副本規(guī)模大幅增加時,會成為大模型推理效率的瓶頸。而零拷貝技術的引入,能避免數(shù)據(jù)的多次拷貝,有效實現(xiàn) KV 緩存加速。
優(yōu)化二使用 OpenVINO opset 來重構 ChatGLM 的模型架構,從而幫助模型中的節(jié)點利用英特爾 AMX 指令集內聯(lián)和多頭注意力 (Multi-Head Attention, MHA) 融合來實現(xiàn)推理優(yōu)化。如圖 4 所示,優(yōu)化方案構建的 OpenVINO stateful 模型在 GLMBlock 層重新封裝了一個類,并按圖中工作流來調用 OpenVINO opset,然后再將圖形數(shù)據(jù)序列化為中間表示 (Intermediate Representation, IR) 模型 (如 .xml、.bin)。
圖 4 構建 OpenVINO stateful 模型
該優(yōu)化方案一方面構建了全局的上下文結構體,用于在模型內部追加并保存每一輪迭代后的 pastKV 結果,減少相應的內存拷貝開銷。另一方面,則通過采用內聯(lián)優(yōu)化 (Intrinsic Optimization) 的方式,實現(xiàn)了 Rotary Embedding 和 MHA 融合。
第四代英特爾 至強 可擴展處理器內置英特爾 AMX 指令集的引入,也能幫助 ChatGLM 等醫(yī)療大模型提升 BF16 或 INT8 精度數(shù)據(jù)格式下的模型推理速度。英特爾 AMX 指令集提供的內聯(lián)指令能更快速地處理 BF16 或 INT8 精度數(shù)據(jù)格式的矩陣乘加運算,實現(xiàn)對 ChatGLM 模型中 Attention 和 Rotary Embedding 等算子的融合,從而在保證精度的同時提高運算效率、加速推理。
優(yōu)化三引入 OpenVINO 工具套件在 HuggingFace 上的 Optimum 接口。Optimum 是 Huggingface Transformers 庫提供的一個擴展包,可用來提升模型在特定硬件基礎設施上的訓練和推理性能?;?OpenVINO 工具套件提供的 Optimum 接口,惠每科技能在提高性能之余,將模型更便捷地擴展到更多醫(yī)療大模型推理應用中去。
這種優(yōu)化方法在其它任務,包括 token-classification、question-answering、audio-classification 以及 image-classification 等中也同樣適用。
效果評估
通過惠每科技與英特爾的協(xié)同優(yōu)化,基于惠每科技醫(yī)療大模型構建的醫(yī)療 AI 應用無論是在應用效率還是在準確性等方面都獲得了提升,并很快表現(xiàn)出了顯著的臨床應用優(yōu)勢與價值,包括:
提升醫(yī)療輔助診療準確性:通過對大量醫(yī)療數(shù)據(jù)的有效學習, 醫(yī)療大模型能持續(xù)學習各種疾病特征,并借助優(yōu)化方案更快、 更精準地做出判斷。結合惠每科技醫(yī)療知識庫,為醫(yī)護人員提供更加科學和準確的輔助診療方案和建議,優(yōu)化診療決策; 提升醫(yī)護與管理人員效率:借助基于醫(yī)療大模型構建的各類醫(yī)療 AI 應用,醫(yī)護人員可以更高效地獲取患者的輔助診療結果和病情 / 病歷分析,從而能將更多時間和精力專注于患者的治療和康復。同時醫(yī)療機構管理人員也能在診療風險預警、醫(yī)保費用管理等環(huán)節(jié)上實現(xiàn)更為直觀和高效的管控。
為評估優(yōu)化后的醫(yī)療大模型的實用效果,惠每科技參加了由中國健康信息處理大會 (China Health Information Processing Conference, CHIP) 組織的中文臨床醫(yī)療信息處理權威評測。這一評測全部使用中文真實醫(yī)療數(shù)據(jù),覆蓋諸如醫(yī)療術語識別和醫(yī)療知識問答等多個常見醫(yī)療 AI 應用場景,并采用量化的 F1 值進行排名。同時在大模型評測中,必須使用一個大模型同時完成 16 個任務的考驗,非常具有挑戰(zhàn)性。最終惠每科技從 396 支參賽隊伍中脫穎而出,榮獲“CHIP2023 -PromptCBLUE 醫(yī)療大模型評測”參數(shù)高效微調賽道第一名。2
圖 5 基于惠每科技醫(yī)療大模型構建的鑒別診斷應用工作流程
目前,基于優(yōu)化后的惠每科技醫(yī)療大模型所構建的醫(yī)療 AI 產(chǎn)品與應用,已在多個合作醫(yī)療機構中得到了部署與運行,并取得了不錯的效果。首先,以基于大模型的鑒別診斷應用為例,這一輔助診療應用能體現(xiàn)臨床醫(yī)生的診斷思維鏈,而非簡單的記錄。如圖 5 所示,醫(yī)生在應用中打開病程記錄首頁并填寫患者主訴及病歷特點后,后臺的 3 個不同醫(yī)療大模型就會迅速執(zhí)行推理,在數(shù)秒后即可生成鑒別診斷。醫(yī)生可以點擊查看不同大模型生成的結果,再根據(jù)自身的專業(yè)意見選擇最優(yōu)結果,選擇【一鍵回填】或復制粘貼到病歷相應的位置。
在此過程中,醫(yī)生可對病歷生成的結果進行【點贊】/【點踩】,也可在系統(tǒng)中反饋錯誤或問題,或返回病程記錄頁繼續(xù)修改患者主訴或病歷特點,之后再次通過醫(yī)療大模型進行計算和執(zhí)行新的鑒別診斷推理。這些設計能有效收集醫(yī)生反饋,實現(xiàn)大模型的增強學習。
其次,出院記錄的自動生成是在合作醫(yī)療機構落地的另一項重要應用。傳統(tǒng)上,諸如出院記錄一類的流程,需要醫(yī)院多個部門對多類數(shù)據(jù)進行總結并形成摘要,過程繁瑣且容易出現(xiàn)差錯。借助醫(yī)療大模型的技術優(yōu)勢,醫(yī)生打開或保存【出院記錄】時,會立即觸發(fā)大模型后臺計算。在數(shù)秒內得到結果后,醫(yī)生即可查看包含出院診斷、入院情況、診療經(jīng)過、出院情況和出院醫(yī)囑等內容的結果。醫(yī)生可【一鍵回填】或復制粘貼到病歷相應的位置,并對病歷生成的結果進行【點贊】/【點踩】,也可點【識別錯誤】反饋相應問題。
上述基于醫(yī)療大模型的應用,都能與惠每科技 CDSS 系統(tǒng)實現(xiàn)無縫銜接,并可部署到既有的英特爾 架構處理器平臺。這讓醫(yī)療機構無需購置專用的加速芯片或加速服務器,從而有效降低大模型部署的成本壓力。來自惠每科技的數(shù)據(jù)統(tǒng)計表明, 在某合作醫(yī)院的某科室上線 1 個月后,鑒別診斷應用的使用率已達 23% 以上,出院記錄自動生成應用的使用率達到 15% 以上,說明基于醫(yī)療大模型構建的 AI 應用能力已獲得醫(yī)生的初步認可。3
展望
隨著 AI、大數(shù)據(jù)等新技術、新能力在醫(yī)療領域贏得越來越多的實用化落地,更多醫(yī)療機構也正通過這些前沿 IT 技術的引入來加速智慧醫(yī)療的進程,而惠每科技開展醫(yī)療大模型技術探索并基于此推出一系列醫(yī)療 AI 應用,正是這一進程的最新注腳。這些醫(yī)療 AI 應用將與惠每科技優(yōu)勢的 CDSS 產(chǎn)品一起,助力數(shù)以百計的醫(yī)療機構用戶進一步提升醫(yī)療服務質量。
在此過程中,惠每科技與英特爾攜手面向基于英特爾架構處理器 (第四代英特爾至強可擴展處理器的優(yōu)化) 的平臺展開了一系列大模型優(yōu)化。無論是量化優(yōu)化,還是非量化優(yōu)化方案,都能在保證精度的前提下有效提升醫(yī)療大模型的推理速度,同時基于英特爾架構處理器的部署方案也能幫助醫(yī)療機構有效地節(jié)約成本。面向未來,惠每科技還將與英特爾一起,共同對大模型技術在醫(yī)療領域中更廣泛和更深入的應用開展 更多探索,例如利用大模型開展病歷內涵質控等,進而推動醫(yī)療全流程的 AI 技術加持或智能化,讓智慧醫(yī)療惠及更多醫(yī)與患,從而普惠大眾。
參考資料:
1 數(shù)據(jù)援引自 Marketwatch 相關報告:https://www.marketwatch.com/press-release/large-language-model-llm-market-size-to-grow-usd-40-8-billion-by-2029-at-a-cagr-of-21-4-valuates-reports-7bbc5419
2 數(shù)據(jù)援引自天池官網(wǎng):https://tianchi.aliyun.com/competition/entrance/532132/rankingList。
3 數(shù)字援引自惠每科技數(shù)字醫(yī)學云講壇第141期,詳細信息請訪問:https://www.e-chinc.com/#/ResourcesDetailVideo?id=1704682818727731202&packId=1614869950189219841
實際性能受使用情況、配置和其他因素的差異影響。更多信息請見www.Intel.com/PerformanceIndex。
性能測試結果基于配置信息中顯示的日期進行測試,且可能并未反映所有公開可用的安全更新。詳情請參閱配置信息披露。沒有任何產(chǎn)品或組件是絕對安全的。
具體成本和結果可能不同。
英特爾技術可能需要啟用硬件、軟件或激活服務。
英特爾未做出任何明示和默示的保證,包括但不限于,關于適銷性、適合特定目的及不侵權的默示保證,以及在履約過程、交易過程或貿易慣例中引起的任何保證。
英特爾并不控制或審計第三方數(shù)據(jù)。請您審查該內容,咨詢其他來源,并確認提及數(shù)據(jù)是否準確。
-
英特爾
+關注
關注
61文章
10007瀏覽量
172152 -
cpu
+關注
關注
68文章
10901瀏覽量
212682
原文標題:英特爾助惠每醫(yī)療大模型方案在至強? 平臺上實現(xiàn)雙維優(yōu)化
文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論