色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

結(jié)合句子間差異的無監(jiān)督句子嵌入對比學(xué)習(xí)方法-DiffCSE

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰NLP ? 2022-05-05 11:35 ? 次閱讀

寫在前面

今天分享給大家一篇NAACL2022論文,結(jié)合句子間差異的無監(jiān)督句子嵌入對比學(xué)習(xí)方法-DiffCSE,全名《DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings》。該篇論文主要是在SimCSE上進(jìn)行優(yōu)化,通過ELECTRA模型的生成偽造樣本和RTD(Replaced Token Detection)任務(wù),來學(xué)習(xí)原始句子與偽造句子之間的差異,以提高句向量表征模型的效果。

paper:https://arxiv.org/pdf/2204.10298.pdf
github:https://github.com/voidism/DiffCSE

介紹

句向量表征技術(shù)目前已經(jīng)通過對比學(xué)習(xí)獲取了很好的效果。而對比學(xué)習(xí)的宗旨就是拉近相似數(shù)據(jù),推開不相似數(shù)據(jù),有效地學(xué)習(xí)數(shù)據(jù)表征。SimCSE方法采用dropout技術(shù),對原始文本進(jìn)行數(shù)據(jù)增強(qiáng),構(gòu)造出正樣本,進(jìn)行后續(xù)對比學(xué)習(xí)訓(xùn)練,取得了較好的效果;并且在其實(shí)驗(yàn)中表明”dropout masks機(jī)制來構(gòu)建正樣本,比基于同義詞或掩碼語言模型的刪除或替換等更復(fù)雜的增強(qiáng)效果要好得多。“。這一現(xiàn)象也說明,「直接增強(qiáng)(刪除或替換)往往改變句子本身語義」

paper:https://aclanthology.org/2021.emnlp-main.552.pdf
github:https://github.com/princeton-nlp/SimCSE
論文解讀:https://zhuanlan.zhihu.com/p/452761704

Dangovski等人發(fā)現(xiàn),在圖像上,采用不變對比學(xué)習(xí)和可變對比學(xué)習(xí)相互結(jié)合的方法可以提高圖像表征的效果。而采用不敏感的圖像轉(zhuǎn)換(如,灰度變換)進(jìn)行數(shù)據(jù)增強(qiáng)再對比損失來改善視覺表征學(xué)習(xí),稱為「不變對比學(xué)習(xí)」。而「可變對比學(xué)習(xí)」,則是采用敏感的圖像轉(zhuǎn)換(如,旋轉(zhuǎn)變換)進(jìn)行數(shù)據(jù)增強(qiáng)的對比學(xué)習(xí)。如下圖所示,做左側(cè)為不變對比學(xué)習(xí),右側(cè)為可變對比學(xué)習(xí)。對于NLP來說,「dropout方法」進(jìn)行數(shù)據(jù)增強(qiáng)為不敏感變化,采用「詞語刪除或替換等」方法進(jìn)行數(shù)據(jù)增強(qiáng)為敏感變化。

0a73af38-cbbd-11ec-bce3-dac502259ad0.png

paper:https://arxiv.org/pdf/2111.00899.pdf

作者借鑒Dangovski等人在圖像上的做法,提出來「DiffCSE方法」,通過使用基于dropout masks機(jī)制的增強(qiáng)作為不敏感轉(zhuǎn)換學(xué)習(xí)對比學(xué)習(xí)損失和基于MLM語言模型進(jìn)行詞語替換的方法作為敏感轉(zhuǎn)換學(xué)習(xí)「原始句子與編輯句子」之間的差異,共同優(yōu)化句向量表征。

模型

模型如下圖所示,

0a944d06-cbbd-11ec-bce3-dac502259ad0.png

左側(cè)為一個(gè)標(biāo)準(zhǔn)的SimCSE模型,右側(cè)為一個(gè)帶條件的句子差異預(yù)測模型。給定一個(gè)句子,SimCSE模型通過dropout機(jī)制構(gòu)造一個(gè)正例,使用BERT編碼器f,獲取句向量,SimCSE模型的訓(xùn)練目標(biāo)為:

其中,為訓(xùn)練輸入batch大小,為余弦相似度,為溫度參數(shù).

右側(cè)實(shí)際上是ELECTRA模型,包含生成器和判別器。給定一個(gè)長度為T的句子,,生成一個(gè)隨機(jī)掩碼序列,其中。使用MLM預(yù)訓(xùn)練語言模型作為生成器G,通過掩碼序列來生成句子中被掩掉的token,獲取生成序列。然后使用判別器D進(jìn)行替換token檢測,也就是預(yù)測哪些token是被替換的。其訓(xùn)練目標(biāo)為:

針對一個(gè)batch的訓(xùn)練目標(biāo)為。

最終將兩個(gè)loss通過動(dòng)態(tài)權(quán)重將其結(jié)合,

為了使判別器D的損失可以傳播的編碼器f中,將句向量拼接到判別器D的輸入中,輔助進(jìn)行RTD任務(wù),這樣做可以鼓勵(lì)編碼器f使信息量足夠大,從而使判別器D能夠區(qū)分和之間的微小差別。

當(dāng)訓(xùn)練DiffCSE模型時(shí),固定生成器G參數(shù),只有句子編碼器f和鑒別器D得到優(yōu)化。訓(xùn)練結(jié)束后,丟棄鑒別器D,只使用句子編碼器f提取句子嵌入對下游任務(wù)進(jìn)行評價(jià)。

結(jié)果&分析

在句子相似度任務(wù)以及分類任務(wù)上的效果,如下表1和表2所示,相比與SimCSE模型均有提高,

0aa24fdc-cbbd-11ec-bce3-dac502259ad0.png

0ac4e8e4-cbbd-11ec-bce3-dac502259ad0.png

為了驗(yàn)證DiffCSE模型具體是哪個(gè)部分有效,進(jìn)行以下消融實(shí)驗(yàn)。

Removing Contrastive Loss

如表3所示,當(dāng)去除對比學(xué)習(xí)損失,僅采用RTD損失時(shí),在句子相似度任務(wù)上,下降30%,在分類任務(wù)上下降2%。

0af3bdd6-cbbd-11ec-bce3-dac502259ad0.png

Next Sentence vs. Same Sentence

如表3所示,當(dāng)將同句話預(yù)測任務(wù),變成預(yù)測下句話任務(wù)時(shí),在句子相似度任務(wù)和分類任務(wù)上,具有不同程度的下降。

Other Conditional Pretraining Tasks

DiffCSE模型采用MLM模型和LM模型分別作為生成器時(shí),效果如表3所示,在句子相似度任務(wù)和分類任務(wù)上,具有不同程度的下降。句子相似度任務(wù)上下降的較為明顯。

Augmentation Methods: Insert/Delete/Replace

將MLM模型生成偽造句換成隨機(jī)插入、隨機(jī)刪除或隨機(jī)替換的效果,如表示所4,MLM模型的效果綜合來說較為優(yōu)秀。

0b2021e6-cbbd-11ec-bce3-dac502259ad0.png

Pooler Choice

在SimCSE模型中,采用pooler層(一個(gè)帶有tanh激活函數(shù)的全連接層)作為句子向量輸出。該論文實(shí)驗(yàn)發(fā)現(xiàn),采用帶有BN的兩層pooler效果更為突出,如表5所示;并發(fā)現(xiàn),BN在SimCSE模型上依然有效。

0b423128-cbbd-11ec-bce3-dac502259ad0.png

代碼如下:

classProjectionMLP(nn.Module):
def__init__(self,config):
super().__init__()
in_dim=config.hidden_size
hidden_dim=config.hidden_size*2
out_dim=config.hidden_size
affine=False
list_layers=[nn.Linear(in_dim,hidden_dim,bias=False),
nn.BatchNorm1d(hidden_dim),
nn.ReLU(inplace=True)]
list_layers+=[nn.Linear(hidden_dim,out_dim,bias=False),
nn.BatchNorm1d(out_dim,affine=affine)]
self.net=nn.Sequential(*list_layers)

defforward(self,x):
returnself.net(x)

Size of the Generator

在DiffCSE模型中,嘗試了不同大小的生成器G,如下表所示,DistilBERTbase模型效果最優(yōu)。并且發(fā)現(xiàn)與原始ELECTRA模型的結(jié)論不太一致。原始ELECTRA認(rèn)為生成器的大小在判別器的1/4到1/2之間效果是最好的,過強(qiáng)的生成器會(huì)增大判別器的難度。而DiffCSE模型由于融入了句向量,導(dǎo)致判別器更容易判別出token是否被替換,所以生成器的生成能力需要適當(dāng)提高。

0b4ebb78-cbbd-11ec-bce3-dac502259ad0.png

Masking Ratio

對于掩碼概率,經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),在掩碼概率為30%時(shí),模型效果最優(yōu)。

0b5df624-cbbd-11ec-bce3-dac502259ad0.png

Coefficient λ

針對兩個(gè)損失之間的權(quán)重值,經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),對比學(xué)習(xí)損失為RTD損失200倍時(shí),模型效果最優(yōu)。

0b710796-cbbd-11ec-bce3-dac502259ad0.png

總結(jié)

個(gè)人覺得這篇論文的主要思路還是通過加入其他任務(wù),來增強(qiáng)句向量表征任務(wù),整體來說挺好的。但是該方法如何使用到監(jiān)督學(xué)習(xí)數(shù)據(jù)上,值得思考,歡迎留言討論。

審核編輯 :李倩
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7134

    瀏覽量

    89411
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    319

    瀏覽量

    21083
  • 向量
    +關(guān)注

    關(guān)注

    0

    文章

    55

    瀏覽量

    11691

原文標(biāo)題:DiffCSE:結(jié)合句子間差異的無監(jiān)督句子嵌入對比學(xué)習(xí)方法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AN205 GD32E51x與GD32E50x系列差異

    電子發(fā)燒友網(wǎng)站提供《AN205 GD32E51x與GD32E50x系列差異.pdf》資料免費(fèi)下載
    發(fā)表于 01-17 16:24 ?0次下載
    AN205 GD32E51x與GD32E50x系列<b class='flag-5'>間</b>的<b class='flag-5'>差異</b>

    傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。盡管深度學(xué)習(xí)(一般指神經(jīng)網(wǎng)絡(luò)算法)是一個(gè)強(qiáng)大的工具,目前也非常流行,但它的應(yīng)用領(lǐng)域仍然有限。與深度學(xué)習(xí)相比,傳統(tǒng)方法在給定問題上的開發(fā)和測試速度更快。
    的頭像 發(fā)表于 12-30 09:16 ?347次閱讀
    傳統(tǒng)機(jī)器<b class='flag-5'>學(xué)習(xí)方法</b>和應(yīng)用指導(dǎo)

    嵌入式系統(tǒng)開發(fā)中的測試方法 嵌入式系統(tǒng)開發(fā)與AI結(jié)合應(yīng)用

    嵌入式系統(tǒng)開發(fā)中的測試方法 嵌入式系統(tǒng)開發(fā)是一個(gè)復(fù)雜的過程,涉及到硬件和軟件的緊密結(jié)合。測試是確保系統(tǒng)可靠性和性能的關(guān)鍵步驟。以下是一些常用的測試
    的頭像 發(fā)表于 12-09 10:22 ?500次閱讀

    什么是機(jī)器學(xué)習(xí)?通過機(jī)器學(xué)習(xí)方法能解決哪些問題?

    來源:Master編程樹“機(jī)器學(xué)習(xí)”最初的研究動(dòng)機(jī)是讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以便實(shí)現(xiàn)人工智能。因?yàn)闆]有學(xué)習(xí)能力的系統(tǒng)很難被認(rèn)為是具有智能的。目前被廣泛采用的機(jī)器學(xué)習(xí)的定義是“利用經(jīng)
    的頭像 發(fā)表于 11-16 01:07 ?486次閱讀
    什么是機(jī)器<b class='flag-5'>學(xué)習(xí)</b>?通過機(jī)器<b class='flag-5'>學(xué)習(xí)方法</b>能解決哪些問題?

    時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列監(jiān)督預(yù)訓(xùn)練的文章,相比原來的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?312次閱讀
    時(shí)空引導(dǎo)下的時(shí)間序列自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    嵌入學(xué)習(xí)建議

    對廣大渴望學(xué)習(xí)嵌入式系統(tǒng)的學(xué)子提出幾點(diǎn)基礎(chǔ)階段的學(xué)習(xí)建議: ①嵌入式系統(tǒng)軟件硬件密切相關(guān),一定要打好軟硬件基礎(chǔ)。其實(shí),只要找到正確的方法
    發(fā)表于 10-22 11:41

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語法結(jié)構(gòu)的學(xué)習(xí),還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自監(jiān)督學(xué)習(xí)策略,在大量標(biāo)簽文本數(shù)據(jù)
    發(fā)表于 08-02 11:03

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    講解,包括偏置、權(quán)重、激活函數(shù);三要素包括網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和優(yōu)化方法。章節(jié)最后總結(jié)了神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的關(guān)鍵步驟。 1.4章節(jié)描述了自然語言處理的相關(guān)知識點(diǎn),包括什么是自然語言處理、文本的向量化和自監(jiān)督學(xué)習(xí)方法
    發(fā)表于 07-25 14:33

    神經(jīng)網(wǎng)絡(luò)如何用監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)、模
    的頭像 發(fā)表于 07-09 18:06 ?871次閱讀

    深度學(xué)習(xí)中的監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的監(jiān)督學(xué)
    的頭像 發(fā)表于 07-09 10:50 ?887次閱讀

    深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)對比

    在人工智能的浪潮中,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步,為眾多領(lǐng)域帶來了革命性的變化。然而,盡管它們都屬于機(jī)器學(xué)習(xí)的范疇,但深度學(xué)習(xí)和傳統(tǒng)機(jī)
    的頭像 發(fā)表于 07-01 11:40 ?1511次閱讀

    谷歌提出大規(guī)模ICL方法

    谷歌DeepMind團(tuán)隊(duì)近日取得了一項(xiàng)突破性的研究成果。他們提出了強(qiáng)化和監(jiān)督兩種新型的ICL(In-Context Learning)學(xué)習(xí)方法,這一創(chuàng)新技術(shù)能夠在多個(gè)領(lǐng)域顯著提升模型的性能。
    的頭像 發(fā)表于 05-14 14:17 ?387次閱讀

    QNX與Linux基礎(chǔ)差異對比

    對于QNX系統(tǒng)和Linux系統(tǒng)的內(nèi)核差異,我們拋開宏內(nèi)核、微內(nèi)核之類的爭議不談。單純從開發(fā)應(yīng)用的角度而言,QNX和Linux系統(tǒng)的差異到底有多大,在開發(fā)的時(shí)候需要注意哪些細(xì)節(jié)問題?
    發(fā)表于 04-17 10:52 ?881次閱讀

    OpenAI推出Sora:AI領(lǐng)域的革命性突破

    大模型的核心技術(shù)是自然語言處理(NLP)和深度學(xué)習(xí)。具體而言,它基于Transformer架構(gòu),使用了大規(guī)模監(jiān)督學(xué)習(xí)方法,例如自回歸語言建模和掩碼語言建模,來訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)模型。
    發(fā)表于 02-21 16:36 ?1045次閱讀
    OpenAI推出Sora:AI領(lǐng)域的革命性突破

    Meta發(fā)布新型監(jiān)督視頻預(yù)測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監(jiān)督視頻預(yù)測模型,名為“V-JEPA”。這一模型在視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗ㄟ^抽象性預(yù)測生成視頻中缺失或模糊的部分來進(jìn)行學(xué)習(xí),提供了一種全新的視頻處理
    的頭像 發(fā)表于 02-19 11:19 ?1062次閱讀
    主站蜘蛛池模板: 无码人妻精品一区二区蜜桃在线看 | 2021国产精品视频一区 | 久草热在线| 亚洲 日韩 国产 制服 在线 | 在线观看免费视频播放视频 | 无限资源网免费看 | 日本视频久久 | 免费被靠视频动漫 | 一本道的mv中文字幕 | 中文字幕乱码在线人视频 | 中文字幕在线视频在线看 | 熟女少妇内射日韩亚洲 | 中文字幕亚洲无限码 | 一个人的HD高清在线观看 | 色妺妺免费影院 | 免费国产精品视频 | caoporn超碰视频 | 伊人久久大香线蕉无码麻豆 | 月夜直播免费观看全集 | 两个人的视频免费 | 亚洲免费综合色视频 | 老牛天天晚上夜噜噜噜 | 一一本之道高清视频在线观看中文字幕 | 久久人妻少妇嫩草AV蜜桃35I | 久久久性色精品国产免费观看 | 久久re这里精品在线视频7 | 亚洲欧美一区二区三区蜜芽 | 奇米精品一区二区三区在线观看 | 国产激情视频在线播放 | 直插下身完整的欧美版 | 国产成人啪精品视频免费网 | 波多野结衣教师系列6 | 成年人视频免费在线观看 | 色欲无码国产喷水AV精品 | 亚洲精品一区二区在线看片 | 在线视频 亚洲 | 语文老师扒开胸罩喂我奶 | 青青草原在线新免费 | YELLOW视频直播在线观看高清 | a毛片基地免费全部视频 | 二级毛片免费观看全程 |