先劃重點:中文醫學知識,不是「中醫」。
自從 Meta(原 Facebook)的 LLaMA 大語言模型發布以來,相信大家看到了許多以“駝類動物”命名的 LLM。比如斯坦福用了 Alpaca,伯克利用了 Vicuna,Joseph Cheung 等開發者團隊用了 Guanaco。
據說南美洲的無峰駝類動物一共就是上圖列出的 4 種 —— 已經被各家的大模型命名使用。
不得不承認這些以“駝類動物”命名的 LLM 都很厲害,但如果,我是說如果,我拿出下面這個 LLM,閣下又當如何應對?
沒錯,正是「華駝」。
見名知意,華駝肯定跟醫學有關——這是一個基于中文醫學知識的LLaMA 微調模型。
說到這,這個 LLM 的命名很難不讓人拍案叫絕,將神醫華佗與基于“羊駝”的大語言模型巧妙地結合在一起。
此項目開源了經過中文醫學指令精調 / 指令微調 (Instruct-tuning) 的 LLaMA-7B 模型。
通過醫學知識圖譜和 GPT 3.5 API 構建了中文醫學指令數據集,并在此基礎上對 LLaMA 進行了指令微調,提高了 LLaMA 在醫療領域的問答效果。
據介紹,醫學知識庫圍繞疾病、藥物、檢查指標等構建,字段包括并發癥,高危因素,組織學檢查,臨床癥狀,藥物治療,輔助治療等。知識庫示例如下:
{“中心詞”: “偏頭痛”, “相關疾病”: [“妊娠合并偏頭痛”, “惡寒發熱”], “相關癥狀”: [“皮膚變硬”, “頭部及眼后部疼痛并能聽到連續不斷的隆隆聲”, “晨起頭痛加重”], “所屬科室”: [“中西醫結合科”, “內科”], “發病部位”: [“頭部”]}
然后利用 GPT3.5 接口圍繞醫學知識庫構建問答數據,并設置了多種 Prompt 形式來充分利用知識。指令微調的訓練集數據示例如下:
“問題:一位年輕男性長期使用可卡因,突然出現胸痛、嘔吐、出汗等癥狀,經檢查發現心電圖反映心肌急性損傷,請問可能患的是什么疾病?治療方式是什么?” 回答: 可能患的是心肌梗塞,需要進行維拉帕米、依普利酮、硝酸甘油、?阻滯劑、嗎啡等藥物治療,并進行溶栓治療、低分子量肝素、鈣通道阻滯劑等輔助治療。此外需要及時停用可卡因等藥物,以防止病情加重。“
該項目提供模型的訓練數據集共計八千余條,需要注意的是,雖然訓練集的構建融入了知識,但是仍存在錯誤和不完善的地方。
基于相同的數據,項目團隊還訓練了醫療版本的 ChatGLM 模型:ChatGLM-6B-Med。
這些模型在醫療領域的問答效果得到了顯著提升,下面是不同模型的效果對比:
由此可見,指令微調在醫療領域具有很大的應用潛力。
同時,該項目還嘗試將醫學文獻的【結論】融入多輪對話,在此基礎上對 LLaMA 進行指令微調,以進一步提高模型的實用性。
目前,項目團隊只開放針對”肝癌“單個疾病訓練的模型參數。未來計劃發布融入文獻結論的醫學對話數據集,并且會針對“肝膽胰”相關 16 種疾病訓練模型。這將有助于廣泛應用于更多疾病的診斷和治療建議。
下面是訓練樣本的示例:
華駝項目團隊稱下一個發布的新模型會被命名為扁鵲 (PienChueh)。
審核編輯 :李倩
-
模型
+關注
關注
1文章
3298瀏覽量
49061 -
語言模型
+關注
關注
0文章
538瀏覽量
10315 -
知識圖譜
+關注
關注
2文章
132瀏覽量
7725 -
LLM
+關注
關注
0文章
298瀏覽量
363
原文標題:首個中文醫學知識LLM:真正的賽華佗—華駝(HuaTuo)
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論