來自:HyperAI超神經(jīng)
微軟的研究團(tuán)隊近日在 arxiv.org 發(fā)布了論文:《Domain-Specific Language Model Pretraining for BiomedicalNatural Language Processing生物醫(yī)學(xué)特定領(lǐng)域的語言模型預(yù)訓(xùn)練》,介紹并開源了一個能夠用于生物醫(yī)學(xué)領(lǐng)域 NLP 基準(zhǔn),并命名為 BLURB。
BiomedicalLanguageUnderstanding andReasoningBenchmark 的首字母縮寫,即為 BLURB 的命名規(guī)則,翻譯為生物醫(yī)學(xué)語言理解和推理基準(zhǔn)。
醫(yī)學(xué) NLP 基準(zhǔn),BLURB 身負(fù)重任
BLURB 包括 13 個公開可用的數(shù)據(jù)集,涉及 6 個不同的任務(wù)。
為了避免偏重多可用數(shù)據(jù)集的任務(wù),如命名實體識別(NER),BLURB 的報告和排名,將所有任務(wù)的宏觀平均數(shù)作為主要得分。
圖為 BLURB 中使用的數(shù)據(jù)集、以及
團(tuán)隊列出的訓(xùn)練、開發(fā)和測試中的實例數(shù)量
BLURB 排行榜是不分模型的。任何能夠使用相同的訓(xùn)練和開發(fā)數(shù)據(jù)產(chǎn)生測試預(yù)測的系統(tǒng)都可以參與。
團(tuán)隊表示 BLURB 的主要目標(biāo)是:降低生物醫(yī)學(xué)NLP的準(zhǔn)入門檻,幫助加快該領(lǐng)域的進(jìn)展,能對社會和人類產(chǎn)生積極影響。
生物醫(yī)學(xué) NLP :必須使用域內(nèi)文本
研究已經(jīng)表明生物醫(yī)學(xué) NLP 可以在醫(yī)學(xué)領(lǐng)域提高數(shù)據(jù)集的準(zhǔn)確性。但是在跨學(xué)科的數(shù)據(jù)集中,準(zhǔn)確性又會大大降低。而由于不同醫(yī)學(xué)領(lǐng)域之間(Domain)跨度較大,所以對于 NLP 的預(yù)訓(xùn)練會花費非常多的時間。
微軟研究人員為了提升 NLP 的訓(xùn)練速度,通過對預(yù)訓(xùn)練和特定任務(wù)的微調(diào),對生物醫(yī)學(xué) NLP 應(yīng)用的影響進(jìn)行了建模比較,從而評估最適合的預(yù)訓(xùn)練方法。
團(tuán)隊對域內(nèi)文本與混合域外文本進(jìn)行的對照
首先,團(tuán)隊創(chuàng)建了一個名為「生物醫(yī)學(xué)語言理解與推理基準(zhǔn)」(BLURB)的基準(zhǔn),該基準(zhǔn)側(cè)重于 PubMed 提供的出版物,涵蓋了相似問題解答和文本提取之類的任務(wù)。
實驗證明,這種對比的方法能夠?qū)?NLP 訓(xùn)練的速度提升數(shù)倍。
同時,為了鼓勵對生物醫(yī)學(xué) NLP 的研究,研究人員創(chuàng)建了以 BLURB 基準(zhǔn)為基準(zhǔn)的排行榜,還開源了預(yù)訓(xùn)練模型。以求快速生物醫(yī)學(xué) NLP 能夠早日投入使用。
原文標(biāo)題:醫(yī)學(xué)AI又一突破,微軟開源生物醫(yī)學(xué)NLP基準(zhǔn):BLURB
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責(zé)任編輯:haq
-
微軟
+關(guān)注
關(guān)注
4文章
6627瀏覽量
104328 -
AI
+關(guān)注
關(guān)注
87文章
31490瀏覽量
269906 -
生物醫(yī)學(xué)
+關(guān)注
關(guān)注
0文章
46瀏覽量
11176
原文標(biāo)題:醫(yī)學(xué)AI又一突破,微軟開源生物醫(yī)學(xué)NLP基準(zhǔn):BLURB
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論