私密按摩师在线播放视频,亚洲热影院,在线中文字幕av

感謝清華大學自然語言處理實驗室對預訓練語言模型架構的梳理，我們將沿此脈絡前行，探索預訓練語言模型的前沿技術，紅框中為已介紹的文章，綠框中為本期介紹的模型，歡迎大家留言討論交流。

在之前的一期推送中，我們給大家介紹過百度的ERNIE。其實清華大學NLP實驗室，比百度更早一點，也發表了名為ERNIE的模型，即Enhanced Language Representation with Informative Entities。

他們認為現存的預訓練語言模型很少會考慮與知識圖譜（Knowledge Graph： KG）相結合，但其實知識圖譜可以提供非常豐富的結構化知識和常識以供更好的語言理解。他們覺得這其實是很有意義的，可以通過外部的知識來強化語言模型的表示能力。在這篇文章中，他們使用大規模語料的語言模型預訓練與知識圖譜相結合，更好地利用語義，句法，知識等各方面的信息，推出了Enhanced language representation model（ERNIE），在許多知識驅動的任務上獲得了巨大提升，而且更適用于廣泛通用的NLP任務。

作者提出，要將知識嵌入到自然語言模型表達中去，有兩個關鍵的挑戰：

知識的結構化編碼

對于一個給定的文本，如何從知識圖譜中，高效地將和文本相關的常識或知識抽取出來并編碼是一個重要問題。

異構信息融合

語言模型表示的形式和知識圖譜的表達形式是大不相同的，是兩個獨立的向量空間。怎么樣去設計一個獨特的訓練任務來將，語義，句法，知識等信息融合起來是另一個挑戰。

針對這些挑戰，清華NLP實驗室提出方案是 Enhanced Language RepresentatioN with Informative Entities （ERNIE）

首先，通過識別文本中的命名實體，然后將其鏈指到知識圖譜中的相應實體上，進行知識的抽取和編碼。相比于直接使用知識圖譜中基于圖結構的信息，作者通過TranE這樣的知識嵌入算法，對知識圖譜的圖結構實體進行編碼，然后將這富有信息的實體表示作為ERNIE的輸入，這樣就可以把知識模塊中的實體的信息表示，引入到模型下層的語義表示中去。

其次，和BERT類似，采用了MLM和NSP的預訓練目標。除此以外，為了更好地融合文本信息和知識信息，設計了一個新的預訓練目標，通過隨機地mask一些命名實體，同時要求模型去知識圖譜中尋找合適的實體，來填充被mask掉的部分。這個訓練目標這樣做就可以要求語言模型，同時利用文本信息和知識圖譜來對token-entity進行預測，從而成為一個富有知識的語言表達模型。

本文在兩個知識驅動的NLP任務entity typing 和 relation classification進行了實驗，ENRIE在這兩個任務上的效果大幅超越BERT，因為其充分利用了語義，句法和知識信息。在其他的NLP任務上，ENRIE的效果也很不錯。

定義

首先，定義我們的文本token序列為{w1，。 . 。， wn}，n為token序列的長度。同時，輸入的token可以在KG中對應entity。所對應entity的序列為{e1，。 . 。， em}， m是序列中entity的數量。因為不一定每一個token都對應得到KG中的一個entity，所以在大多數情況下m不等于n。所有token的集合也就是字典為V，在KG中所有entity的列表為E。如果，某個在V中的token w ∈ V 在KG中有對應的entity e ∈ E。那么這個對應關系定義為f（w） = e

我們可以看下方的模型結構圖，大概包括兩個模塊。

下層的文本編碼器（T-Encoder），負責捕捉基本的詞法和句法的信息，其與BERT的encoder實現是相同的，都是多層的Transformer，層數為N。

上方的知識編碼器（K-Encoder），負責將跟entity相關的知識信息融入到下方層傳來的文本編碼信息中，兩者可以在統一的特征空間中去表示。T-Encoder的輸出是{w1，。 . 。， wn}，實體輸入通過TranE得到的知識嵌入為{e1，。 . 。， em}。兩者通過K-Encoder計算出對應的特征以實現特定任務。

K-Encoder的結構和BERT略微不同，包含M個stacked aggregators。首先對token的輸出和entity的embedding通過兩個多頭自注意力進行self attention。

接著，通過以下的式子進行兩者的結合。Wt和We分別是token和Embedding的attention權重矩陣。

Pre-training for Injecting Knowledge

除了結構的改變以外，文章提出了特殊的預訓練語言模型訓練目標。通過隨機地mask一些entity然后要求模型通過知識圖譜中實體來進行選擇預測，起名為denoising entity auto-encoder（dEA）。由于知識圖譜中entity的數量規模相對softmax層太大了，會首先在KG中進行篩選找到相關的entity。有時候token和entity可能沒有正確的對應，就需要采取一些措施。

5%的情況下，會將token對應的entity替換成一個隨機的entity，這是讓模型能夠在align錯的時候，能夠糾正過來。

15%的情況下，會將entity mask掉，糾正沒有把所有存在的entity抽取出來和entity進行對應的問題。

其余的情況下，保持token-entity alignments 不變，來將entity的表示融合進token的表示，以獲得更好的語言理解能力。

Fine-tuning for Specific Tasks

對于大量普通的NLP任務來說，ERNIE可以采取和BERT相似的finetune策略，將［CLS］的輸出作為輸入文本序列的表示。對于一些知識驅動的任務，我們設計了特殊的finetune流程。

對于關系分類任務，任務要求模型根據上下文，對給定的entity對的關系進行分類。本文設計了特殊的方法，通過加入兩種mark token來高亮實體。［HD］表示head entity，［TL］表示tail entity。

對于實體類別分類任務，finetune的方式是關系分類的簡化版，通過［ENT］標示出entity的位置，指引模型同時結合上下文和實體的信息來進行判斷。

模型細節

從頭開始訓ENRIE的代價太大了，所以模型用了BERT的參數初始化。利用英文WIKI作為語料，和WiKidata進行對應，語料中包含大約4500M個subwords，和140M個entities，將句中小于三個實體的樣本丟棄。通過TranE算法在WiKidata上訓練entity的embedding。使用了部分WiKidata，其中包含5040986個實體和24267796個三元組。

模型尺度上來說，T-encoder的層數N為6，K-encoder層數M為6。隱藏層維度兩個網絡分別Hw = 768， He = 100。Attention的頭數分別 Aw = 12， Ae = 4。總參數量大約114M。

ERNIE僅在語料上訓練了一輪，最大文本長度由于速度原因設為256，batch-size為512。除了學習率為5e-5，其他參數和BERT幾乎一樣。

實驗效果

直接放圖吧，比當時的state-of-the-art ：BERT在很多任務上都提升了不少。

這里作者認識到，有了知識圖譜的介入，可以用更少的數據達到更好的效果。

結論

在文中提出了一種方法名為ERNIE，來將知識的信息融入到語言表達的模型中。具體地，提出了knowledgeable aggregator 和預訓練任務dEA來更好地結合文本和知識圖譜兩個異構的信息源。實驗表明，ENRIE能更好地在有限的數據上進行訓練和泛化。

未來還有幾個重要的方向值得研究

將知識嵌入到基于特征的預訓練語言模型如ELMo。

引入更多不同的結構化知識進入到語言表達模型中去，比如ConceptNet，這和WiKidata是完全不同的方式。

進行真實世界更廣泛的語料收集，可以進行更通用和有效的預訓練

編輯：jq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編碼器

編碼器

+關注

關注
45

文章
3664

瀏覽量
135209
自然語言

自然語言

+關注

關注
1

文章
291

瀏覽量
13397
nlp

nlp

+關注

關注
1

文章
489

瀏覽量
22100
知識圖譜

知識圖譜

+關注

關注
2

文章
132

瀏覽量
7738

原文標題：ENRIE：知識圖譜與BERT相結合，為語言模型賦能助力

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關注！文章轉載請注明出處。

三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

據外媒11月7日報道，三星電子全球AI中心總監Kim Dae-hyun近日透露，公司正致力于自主研發知識圖譜技術，旨在進一步優化Galaxy AI的功能，提升其易用性，并加強用戶數據的隱私保護。

發表于 11-07 15:19 ?770次閱讀

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

今天來學習大語言模型在自然語言理解方面的原理以及問答回復實現。主要是基于深度學習和自然語言處理技術。大語言

發表于 08-02 11:03

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

今天開始學習《大語言模型應用指南》第一篇——基礎篇，對于人工智能相關專業技術人員應該可以輕松加愉快的完成此篇閱讀，但對于我還是有許多的知識點、專業術語比較陌生，需要網上搜索學習更多的資料才能理解書中

發表于 07-25 14:33

【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

上周收到《大語言模型應用指南》一書，非常高興，但工作項目繁忙，今天才品鑒體驗，感謝作者編寫了一部內容豐富、理論應用相結合、印刷精美的著作，也感謝電子發燒友論壇提供了一個讓我了解大語言

發表于 07-21 13:35

三星電子將收購英國知識圖譜技術初創企業

在人工智能技術日新月異的今天，三星電子公司再次展現了其前瞻性的戰略布局與技術創新實力。近日，三星正式宣布完成了對英國領先的人工智能（AI）與知識圖譜技術初創企業Oxford Semantic Technologies的收購，此舉標志著三星在提升設備端AI能力、深化個性化用戶體驗方面邁出了重要一步。

發表于 07-18 14:46 ?575次閱讀

知識圖譜與大模型之間的關系

在人工智能的廣闊領域中，知識圖譜與大模型是兩個至關重要的概念，它們各自擁有獨特的優勢和應用場景，同時又相互補充，共同推動著人工智能技術的發展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大

發表于 07-10 11:39 ?1207次閱讀

Al大模型機器人

）大模型AI機器人采用中英文雙語應用，目前的知識圖譜包括了金航標和薩科微所有的產品內容、應用場景、產品的家屬參數等，熱賣的型號S8050、TL431、SS8550、FR107、LM321、ZMM5V6

發表于 07-05 08:52

大模型應用之路：從提示詞到通用人工智能（AGI）

鋪平道路。基于AI大模型的推理功能，結合了RAG（檢索增強生成）、智能體（Agent）、知識庫、向量數據庫、知識圖譜等先進技術，我們向實現真正的AGI（通用人工智能）邁出了重要步伐。

發表于 06-14 10:20 ?2371次閱讀

大<b class='flag-5'>模型</b>應用之路：從提示詞到通用人工智能（AGI）

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是Transformer，此框架被推出后直接

發表于 05-12 23:57

【大語言模型：原理與工程實踐】大語言模型的應用

相關的文檔片段，將這些文檔與用戶問題結合成提示詞，再輸入給大語言模型。這種方法為大語言模型提供了問題背景

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

在知識獲取、邏輯推理、代碼生成等方面的能力。這些評測基準包括語言建模能力、綜合知識能力、數學計算能力、代碼能力和垂直領域等多個維度。對于微調模型，對話能力的評測關注

發表于 05-07 17:12

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

《大語言模型“原理與工程實踐”》是關于大語言模型內在機理和應用實踐的一次深入探索。作者不僅深入討論了理論，還提供了豐富的實踐案例，幫助讀者理解如何將理論

發表于 05-07 10:30

【大語言模型：原理與工程實踐】大語言模型的基礎技術

全面剖析大語言模型的核心技術與基礎知識。首先，概述自然語言的基本表示，這是理解大語言模型技術的

發表于 05-05 12:17

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

能力，使其能夠應對更復雜和抽象的語言任務。神經網絡的前向傳播和反向傳播算法是其核心技術。前向傳播中，模型根據輸入文本的上下文和先前知識生成相關輸出；而在反向傳播中，模型通過調整參數使輸

發表于 05-04 23:55

利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統（下）

對于語言模型（LLM）幻覺，知識圖譜被證明優于向量數據庫。知識圖譜提供更準確、多樣化、有趣、邏輯和一致的信息，減少了LLM中出現幻覺的可能性。

發表于 02-22 14:13 ?1307次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

知識圖譜與BERT相結合助力語言模型

評論

三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

【《大語言模型應用指南》閱讀體驗】+ 基礎篇

【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書

三星電子將收購英國知識圖譜技術初創企業

知識圖譜與大模型之間的關系

Al大模型機器人

大模型應用之路：從提示詞到通用人工智能（AGI）

大語言模型：原理與工程時間+小白初識大語言模型

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統（下）