色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI最新突破性進展:語言模型可以解釋語言模型中的神經元

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 2023-05-12 11:35 ? 次閱讀

大家好,我是zenRRan。

OpenAI在昨天發布了一篇論文:《Language models can explain neurons in language models》,可謂是深度學習可解釋性又向前邁了一大步!誰又能想到,使用GPT-4來解釋模型的可解釋性,用魔法打敗魔法,666。

e77cb674-ef0f-11ed-90ce-dac502259ad0.png

大致內容

使用 GPT-4 自動編寫大型語言模型中神經元行為的解釋,并對這些解釋進行打分,并為 GPT-2 中的每個神經元發布了這些(不完美的)解釋和分數的數據集。

介紹一下

語言模型變得更強大,部署更廣泛,但我們對它們內部工作原理的理解仍然非常有限。例如,可能很難從它們的輸出中檢測到它們是使用有偏見的啟發式方法還是進行胡編亂造。可解釋性研究旨在通過查看模型內部來發現更多信息

可解釋性研究的一種簡單方法是首先了解各個組件(神經元和注意力頭)在做什么。傳統上,這需要人類手動檢查神經元,以確定它們代表數據的哪些特征。這個過程不能很好地擴展:很難將它應用于具有數百或數千億個參數神經網絡。OpenAI提出了一個自動化過程,該過程使用 GPT-4 來生成神經元行為的自然語言解釋并對其進行評分,并將其應用于另一種語言模型中的神經元。

這項工作是對齊研究方法的第三個支柱的一部分:希望使對齊研究工作本身自動化。這種方法的一個有前途的方面是它可以隨著人工智能發展的步伐而擴展。隨著未來的模型作為助手變得越來越智能和有用,我們會找到更好的解釋。

具體如何工作的呢

他們的方法包括在每個神經元上運行 3 個步驟。

第 1 步:使用 GPT-4 生成解釋

給定一個 GPT-2 神經元,通過向 GPT-4 顯示相關文本序列和激活來生成對其行為的解釋。

OpenAI一共舉了12個例子,這里我就隨便拿出幾個代表性的吧。

e793c9ae-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

模型生成的解釋:參考自電影、角色和娛樂。

e7bea372-ef0f-11ed-90ce-dac502259ad0.png

similes,相似

模型生成的解釋:比較和類比,常用“喜歡(like)”這個詞。

e7d9db4c-ef0f-11ed-90ce-dac502259ad0.png

shared last names,姓氏

模型生成的解釋:姓氏,它們一般跟在名字后面。

第 2 步:使用 GPT-4 進行模擬

再次使用 GPT-4 模擬為解釋而激活的神經元會做什么。

e7f7708a-ef0f-11ed-90ce-dac502259ad0.png

漫威漫畫的氛圍

第 3 步:比較

根據模擬激活與真實激活的匹配程度對解釋進行評分

e8209794-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

e849ba66-ef0f-11ed-90ce-dac502259ad0.png

舉例:漫威漫畫的氛圍

最終得出比較的分數為:0.34

發現了什么

使用OpenAI自己的評分方法,可以開始衡量技術對網絡不同部分的工作情況,并嘗試改進目前解釋不力的部分的技術。例如,我們的技術對于較大的模型效果不佳,可能是因為后面的層更難解釋。

e86d1420-ef0f-11ed-90ce-dac502259ad0.png

正在解釋的模型中的參數量

盡管我們的絕大多數解釋得分很低,但我們相信我們現在可以使用 ML 技術來進一步提高我們產生解釋的能力。例如,我們發現我們可以通過以下方式提高分數:

迭代解釋。我們可以通過要求 GPT-4 提出可能的反例,然后根據它們的激活修改解釋來提高分數。

使用更大的模型來給出解釋。隨著解釋器模型能力的提高,平均分數也會上升。然而,即使是 GPT-4 也給出了比人類更差的解釋,這表明還有改進的余地。

更改已解釋模型的架構。具有不同激活函數的訓練模型提高了解釋分數。

我們正在開源我們的數據集和可視化工具,用于 GPT-4 對 GPT-2 中所有 307,200 個神經元的書面解釋,以及使用 OpenAI API 上公開可用的模型[1]進行解釋和評分的代碼。我們希望研究界能夠開發新技術來生成更高分的解釋,并開發更好的工具來使用解釋來探索 GPT-2。

我們發現超過 1,000 個神經元的解釋得分至少為 0.8,這意味著根據 GPT-4,它們解釋了神經元的大部分頂級激活行為。大多數這些很好解釋的神經元都不是很有趣。然而,也發現了許多 GPT-4 不理解的有趣神經元。希望隨著解釋的改進,能夠快速發現對模型計算的有趣的定性理解。

神經元跨層激活,更高的層更抽象:

e87e391c-ef0f-11ed-90ce-dac502259ad0.png

以Kat舉例

展望

我們的方法目前有很多局限性[2],我們希望在未來的工作中能夠解決這些問題。

我們專注于簡短的自然語言解釋,但神經元可能具有非常復雜的行為,無法簡潔地描述。例如,神經元可以是高度多義的(代表許多不同的概念),或者可以代表人類不理解或無法用語言表達的單一概念。

我們希望最終自動找到并解釋實現復雜行為的整個神經回路,神經元和注意力頭一起工作。我們當前的方法僅將神經元行為解釋為原始文本輸入的函數,而沒有說明其下游影響。例如,一個在句號上激活的神經元可以指示下一個單詞應該以大寫字母開頭,或者遞增一個句子計數器。

我們解釋了神經元的行為,但沒有試圖解釋產生這種行為的機制。這意味著即使是高分解釋也可能在分布外的文本上表現很差,因為它們只是描述了相關性。

我們的整個過程是計算密集型的。

我們對我們方法的擴展和推廣感到興奮。最終,我們希望使用模型來形成、測試和迭代完全通用的假設,就像可解釋性研究人員所做的那樣。

最終,OpenAI希望將最大的模型解釋為一種在部署前后檢測對齊和安全問題的方法。然而,在這些技術能夠使不誠實等行為浮出水面之前,我們還有很長的路要走。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經元
    +關注

    關注

    1

    文章

    363

    瀏覽量

    18487
  • 語言模型
    +關注

    關注

    0

    文章

    536

    瀏覽量

    10311
  • OpenAI
    +關注

    關注

    9

    文章

    1116

    瀏覽量

    6625

原文標題:OpenAI最新突破性進展:語言模型可以解釋語言模型中的神經元

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    并捕捉長距離依賴關系的神經網絡結構。Transformer通過編碼器(Encoder)和解碼器(Decoder)兩部分實現語言的編碼和解碼。 注意力機制:Transformer的注意力機制使得
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    。首先結合ChatGPT的4次迭代升級介紹了什么是大語言模型,大語言模型的特點:參數多、通用強;之后用較大的篇幅詳細講解了自然
    發表于 07-25 14:33

    人工神經元模型的基本構成要素

    ,它能夠接收、處理和傳遞信息。在人工神經元模型神經元的基本結構包括輸入、輸出和激活函數。 1.1 輸入 神經元的輸入是一組數值,通常用向量表示。這些數值
    的頭像 發表于 07-11 11:28 ?1435次閱讀

    人工神經元模型的基本原理是什么

    人工神經元模型是人工智能領域中的一個重要概念,它模仿了生物神經系統神經元行為,為機器學習和深度學習提供了基礎。 一、人工神經元模型的歷史
    的頭像 發表于 07-11 11:26 ?857次閱讀

    人工神經元模型由哪兩部分組成

    人工神經元模型是深度學習、機器學習和人工智能領域的基礎,它模仿了生物神經元的工作原理,為構建復雜的神經網絡提供了基礎。 一、人工神經元模型的起源 生物
    的頭像 發表于 07-11 11:24 ?1041次閱讀

    人工神經元模型的基本原理及應用

    人工神經元模型是人工智能和機器學習領域的一個重要概念,它模仿了生物神經元的工作方式,為計算機提供了處理信息的能力。 一、人工神經元模型的基本原理 生物神經元的結構和功能 生物
    的頭像 發表于 07-11 11:15 ?1055次閱讀

    人工神經元模型的三要素是什么

    人工神經元模型是人工智能和機器學習領域中非常重要的概念之一。它模仿了生物神經元的工作方式,通過數學和算法來實現對數據的處理和學習。 一、人工神經元模型的基本概念 1.1 生物神經元與人
    的頭像 發表于 07-11 11:13 ?1027次閱讀

    基于神經網絡的語言模型有哪些

    文本或預測文本的下一個詞。隨著深度學習技術的飛速發展,涌現出了多種不同類型的神經網絡語言模型。以下將詳細介紹幾種主流的基于神經網絡的
    的頭像 發表于 07-10 11:15 ?834次閱讀

    名單公布!【書籍評測活動NO.34】大語言模型應用指南:以ChatGPT為起點,從入門到精通的AI實踐教程

    ,對使用者的技術要求更高,但具備更強的可定制。不管是開源模型還是閉源模型,都提供了模型微調的能力。OpenAI 甚至提供了
    發表于 06-03 11:39

    【大語言模型:原理與工程實踐】大語言模型的應用

    實際應用前需解決的挑戰。為提升大語言模型的性能,高級的提示詞技術可以促進大語言模型與環境進行動態交互,引導其生成和推理規劃。 檢索增強生成
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型的評測

    和安全。行業模型的評測則針對特定領域的能力,整體能力的評測則從宏觀角度評估模型的通用。在基座模型的評測
    發表于 05-07 17:12

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    向量可以隨著任務更新、調整。這類語言模型一般分為靜態詞向量語言模型(如Word2vec、GloVe)和動態詞向量
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    應用,需要考慮到性能、可擴展性和安全等因素。 大語言模型正在快速發展,新技術不斷涌現。未來的研究可能集中在提高模型效率、理解和可
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    能力,使其能夠應對更復雜和抽象的語言任務。神經網絡的前向傳播和反向傳播算法是其核心技術。前向傳播模型根據輸入文本的上下文和先前知識生成相關輸出;而在反向傳播
    發表于 05-04 23:55

    語言模型(LLMs)如何處理多語言輸入問題

    研究者們提出了一個框架來描述LLMs在處理多語言輸入時的內部處理過程,并探討了模型是否存在特定于語言神經元
    發表于 03-07 14:44 ?674次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLMs)如何處理多<b class='flag-5'>語言</b>輸入問題
    主站蜘蛛池模板: HEYZO无码中文字幕人妻| 美女脱了内裤张开腿让男人桶到爽 | 波多野结衣二区| 午夜伦理 第1页| 久久精品视频在线看| chinese帅哥gv在线看| 亚欧视频在线观看| 免费国产网站| 国产成年网站v片在线观看| 野花韩国在线观看| 日本美女搞基视频| 精品亚洲大全| 大桥未久电影在线观看| 亚洲野狼综合网站| 日本国产黄色片| 久久国产av偷拍在线| 穿着丝袜被男生强行啪啪| 野花日本手机观看大全免费3 | 成人免费看片45分钟| 亚洲欧美中文字幕网站大全| 免费国产成人手机在线观看 | 视频一区国产| 久久一er精这里有精品| 国产ts在线| 97精品少妇偷拍蜜桃AV| 亚洲国产欧美在线人成aaaa20| 欧美性动漫3d在线观看完整版| 九九精品久久| 国产乱色伦影片在线观看| vidosgratis tv少女| 在线中文字幕亚洲日韩| 偷拍 自怕 亚洲 在线| 免费果冻传媒2021在线看| 簧片高清在线观看| 国产AV电影区二区三区曰曰骚网 | 日欧一片内射VA在线影院| 老熟人老女人国产老太| 国产在线AV一区二区香蕉| 丰满大屁俄罗斯肥女| 国产成人免费观看在线视频| 亚洲精品免播放器在线观看|