色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探索ChatGPT的信息抽取能力

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2023-06-01 14:45 ? 次閱讀

信息抽取(IE)旨在從非結構化文本中抽取出結構化信息,該結果可以直接影響很多下游子任務,比如問答和知識圖譜構建。因此,探索ChatGPT的信息抽取能力在一定程度上能反映出ChatGPT生成回復時對任務指令理解的性能

c5df4f1c-0018-11ee-90ce-dac502259ad0.png

論文:Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors
地址:https://arxiv.org/pdf/2305.14450.pdf
代碼:https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction

本文將從性能、評估標準、魯棒性和錯誤類型四個角度對ChatGPT在信息抽取任務上的能力進行評估。

實驗

實驗設置

任務和數據集
本文的實驗采用4類常見的信息抽取任務,包括命名實體識別(NER),關系抽取(RE),事件抽取(EE)和基于方面的情感分析(ABSA),它們一共包含14類子任務。

對于NER任務,采用的數據集包括CoNLL03、FewNERD、ACE04、ACE05-Ent和GENIA。

對于RE任務,采用的數據集包括CCoNLL04、NYT-multi、TACRED和SemEval 2010。

對于EE任務,采用的數據集包括CACE05-Evt、ACE05+、CASIE和Commodity News EE。

對于ABSA任務,采用的數據集包括D17、D19、D20a和D20b,均從SemEval Challenges獲取。

實驗結果

1、性能

c5ea39f4-0018-11ee-90ce-dac502259ad0.png

從上圖結果可以明顯看出:
(1)ChatGPT和SOTA方法之間存在顯著的性能差距;
(2)任務的難度越大,性能差距越大;
(3)任務場景越復雜,性能差距越大;
(4)在一些簡單的情況下,ChatGPT可以達到或超過SOTA方法的性能;
(5)使用few-shot ICL提示通常有顯著提升(約3.0~13.0的F1值),但仍明顯落后于SOTA結果;
(6)與few-shot ICL提示相比,few-shot COT提示的使用不能保證進一步的增益,有時它比few-shot ICR提示的性能更差。

2、對性能gap的思考

c6074dd2-0018-11ee-90ce-dac502259ad0.png

通過人工檢查ChatGPT的回復,發現ChatGPT傾向于識別比標注的跨度更長的sapn,以更接近人類的偏好。因此,之前的硬匹配(hard-matching)策略可能不適合如ChatGPT的LLM,所以本文提出了一種軟匹配(soft-matching)策略,算法流程如下。

c6177252-0018-11ee-90ce-dac502259ad0.png

該算法表明,只要生成和span和標記的span存在包含關系且達到相似度的閾值,則認為結果正確。通過軟匹配策略,對重新評估ChatGPT的IE性能,得到的結果如下。

c62deb22-0018-11ee-90ce-dac502259ad0.png

從上圖可以看出,軟匹配策略帶來一致且顯著的性能增益(F1值高達14.53),簡單子任務的提升更明顯。同時,雖然軟匹配策略帶來性能提升,但仍然沒有達到SOTA水平。

3、魯棒性分析
(1)無效輸出

c645baf4-0018-11ee-90ce-dac502259ad0.png

在大多數情況下,ChatGPT很少輸出無效回復。然而在RE-Triplet子任務中,無效回復占比高達25.3%。一個原因可能這個子任務更加與眾不同。

(2)無關上下文
由于ChatGPT對不同的提示非常敏感,本文研究了無關上下文對ChatGPT在所有IE子任務上性能的影響。主要通過在輸入文本前后隨機插入一段無關文本來修改zero-shot提示的“輸入文本”部分,無關文本不包含要提取的目標信息span,結果如圖所示。

c666d4be-0018-11ee-90ce-dac502259ad0.png

可以看出,當隨機添加無關上下文時,大多數子任務的性能都會顯著下降(最高可達48.0%)。ABSA-ALSC和RE-RC子任務的性能下降較小,這是因為它們基于給定的方面項或實體對進行分類,受到無關上下文的影響較小。因此,ChatGPT對無關上下文非常敏感,這會顯著降低IE任務的性能。

(3)目標類型的頻率
真實世界的數據通常為長尾分布,導致模型在尾部類型上的表現比在頭部類型上差得多。本文研究了“目標類型的頻率”對ChatGPT在所有IE子任務中的性能的影響,結果如圖所示。

c67c5f8c-0018-11ee-90ce-dac502259ad0.png

可以看出,尾部類型的性能明顯不如頭部類型,僅高達頭部類型的75.9%。在一些子任務上,比如RE-RC和RE-Triplet,尾部類型的性能甚至低于頭部類型性能的15%,所以ChatGPT也面臨長尾問題的困擾。

(4)其他
本文探討了ChatGPT是否可以區分RE-RC子任務中兩個實體的主客觀順序。由于大多數關系類型都是非對稱的,因此兩個實體的順序非常關鍵。對于非對稱關系類型的每個實例,交換實體的順序并檢測預測結果的變化,結果如圖所示。

c69205d0-0018-11ee-90ce-dac502259ad0.png

可以看到,交換順序后大多數預測結果(超過70%)與交換前保持不變。因此對于RE-RC子任務,ChatGPT對實體的順序不敏感,而且無法準確理解實體的主客體關系。

4、錯誤類型分析

c69e1ffa-0018-11ee-90ce-dac502259ad0.png

從圖中可以看出,“Unannotated spans”、“Incorrect types”和“Missing spans”是三種主要的錯誤類型,占70%以上。特別是,幾乎三分之一的錯誤是“Unannotated spans”的錯誤,這也引發了對標注數據質量的擔憂。

總結

本文從性能、評估標準、魯棒性和錯誤類型四個角度評估了ChatGPT的信息抽取能力,結論如下:

性能 本文評估了ChatGPT在zero-shot、few-shot和chain-of-thought場景下的17個數據集和14個IE子任務上的性能,發現ChatGPT和SOTA結果之間存在巨大的性能差距。

評估標準 本文重新審視了性能差距,發現硬匹配策略不適合評估ChatGPT,因為ChatGPT會產生human-like的回復,并提出軟匹配策略,以更準確地評估ChatGPT的性能。

魯棒性 本文從四個角度分析了ChatGPT對14個子任務的魯棒性,包括無效輸出、無關上下文、目標類型的頻率和錯誤類型并得出以下結論:1)ChatGPT很少輸出無效響應;2)無關上下文和長尾目標類型極大地影響了ChatGPT的性能;3)ChatGPT不能很好地理解RE任務中的主客體關系。

錯誤類型 通過人工檢查,本文分析了ChatGPT的錯誤,總結出7種類型,包括Missing spans、Unmentioned spans、Unannotated spans、Incorrect span offsets、Undefined types、Incorrect types和other。發現“Unannotated spans”是最主要的錯誤類型。這引發了大家對之前標注數據質量的擔心,同時也表明利用ChatGPT標記數據的可能性。


審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31078

    瀏覽量

    269412
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24731
  • 深度學習
    +關注

    關注

    73

    文章

    5507

    瀏覽量

    121266
  • OpenAI
    +關注

    關注

    9

    文章

    1100

    瀏覽量

    6572
  • ChatGPT
    +關注

    關注

    29

    文章

    1564

    瀏覽量

    7800

原文標題:ChatGPT能解決信息抽取嗎?一份關于性能、評估標準、魯棒性和錯誤的分析

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    文本信息抽取的分階段詳細介紹

    文本信息是有具體的單元結構組成,包括句子,段落,篇章。文本信息抽取是指對現有文本數據進行信息抽取的過程,
    發表于 09-16 15:03

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    來看,國內大模型開發廠商一是布局以大模型為基礎的通用對話、生成等能力;二是將其能力整合到搜索引擎、智能客服、智能音箱等產品線中;三是通過能力調用為中小企業滿足具體場景落地需求。”董曉飛說。 隨著
    發表于 03-03 14:28

    基于子樹廣度的Web信息抽取

    提出一種新的網頁信息抽取方法,基于子樹的廣度可不加區分地對不同科技文獻網站的頁面信息進行自動抽取。對大量科技文獻網站進行信息
    發表于 03-28 10:03 ?14次下載

    基于重復模式的自動Web信息抽取

    互聯網上存在很多在線購物網站,抽取這類網站頁面里的商品信息可以為電子商務、Web查詢提供增值服務。該文針對這類網站提出一種自動的Web信息抽取方法,通過檢測網頁中的重
    發表于 04-10 09:33 ?11次下載

    基于XML的WEB信息抽取模型設計

    對現有的信息抽取技術和XML 技術加以研究,在此基礎上提出了適合XML 的通用的web 信息抽取模型,它能夠把Web 上的數據抽取出來整合到
    發表于 12-22 13:56 ?17次下載

    基于WebHarvest的健康領域Web信息抽取方法

    針對Web信息抽取(WIE)技術在健康領域應用的問題,提出了一種基于WebHarvest的健康領域Web信息抽取方法。通過對不同健康網站的結構分析設計健康實體的
    發表于 12-26 13:44 ?0次下載

    節點屬性的海量Web信息抽取方法

    為解決大數據場景下從海量Web頁面中抽取有價值的信息,提出了一種基于節點屬性與正文內容的海量Web信息抽取方法。將Web頁面轉化為DOM樹表示,并提出剪枝與融合算法,對DOM樹進行簡化
    發表于 02-06 14:36 ?0次下載

    了解信息抽取必須要知道關系抽取

    當我們拿到一個信息抽取的任務,需要明確我們抽取的是什么,”今天天氣真冷“,我們要抽的天氣的狀態天氣-狀態-冷,而非 今天-氣候-冷(雖然也可以這樣抽),因此一般會首先定義好我們要抽取
    的頭像 發表于 04-15 14:32 ?2074次閱讀
    了解<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>必須要知道關系<b class='flag-5'>抽取</b>

    基于篇章信息和Bi-GRU的事件抽取綜述

    事件抽取信息抽取中一個重要的研究方向,其中事件檢測是事件抽取的關鍵。目前,中文神經網絡事件檢測方法均是基于句子的方法,這種方法獲得的局部上下文的
    發表于 04-23 15:35 ?3次下載
    基于篇章<b class='flag-5'>信息</b>和Bi-GRU的事件<b class='flag-5'>抽取</b>綜述

    開放域信息抽取和文本知識結構化的3篇論文詳細解析

    開放域信息抽取信息抽取任務的另一個分支任務,其中抽取的謂語和實體并不是特定的領域,也并沒有提前定義好實體類別。
    的頭像 發表于 04-26 14:44 ?2755次閱讀
    開放域<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>和文本知識結構化的3篇論文詳細解析

    面向知識圖譜的信息抽取

    摘要: 隨著大數據時代的到來,海量數據不斷涌現,從中尋找有用信息抽取對應知識的需求變得越來越強烈。針對該需求,知識圖譜技術應運而生,并在實現知識互聯的過程中日益發揮重要作用。信息抽取
    發表于 03-22 16:59 ?929次閱讀
    面向知識圖譜的<b class='flag-5'>信息</b><b class='flag-5'>抽取</b>

    如何統一各種信息抽取任務的輸入和輸出

    信息抽取任務包括命名實體識別(NER)、關系抽取(RE)、事件抽取(EE)等各種各樣的任務。
    的頭像 發表于 09-20 15:25 ?1303次閱讀

    10分鐘教你如何ChatGPT最詳細注冊教程

    ChatGPT 以其強大的信息整合和對話能力驚艷了全球,在自然語言處理上面表現出了驚人的能力。這么強大的工具我們都想體驗一下,那么? ChatGPT
    發表于 02-08 14:46 ?109次下載

    微信接入ChatGPT 利用ChatGPT的對話能力

      當前ChatGPT是一個爆火的項目,近來瀏覽 Github 的時候,發現一個好玩的項目:微信接入ChatGPT,利用ChatGPT的對話能力,實現微信的自動聊天回復。   在
    發表于 02-13 10:31 ?3次下載
    微信接入<b class='flag-5'>ChatGPT</b> 利用<b class='flag-5'>ChatGPT</b>的對話<b class='flag-5'>能力</b>

    ChatGPT Plus怎么支付 開通ChatGPT plus有什么功能?

    ChatGPT Plus怎么支付?探索AI的未來——ChatGPT 4.0開通付費教程 在人工智能的世界里,OpenAI的ChatGPT 4.0就像一顆璀璨的星星?,以其卓越的自然語言
    的頭像 發表于 10-10 16:01 ?4800次閱讀
    <b class='flag-5'>ChatGPT</b> Plus怎么支付 開通<b class='flag-5'>ChatGPT</b> plus有什么功能?
    主站蜘蛛池模板: 亚洲 欧美 视频 手机在线| 日本福利片午夜免费观着| 潮 喷女王cytherea| 中文字幕伊人香蕉在线| 亚洲精品AV无码永久无码| 外女思春台湾三级| 日日摸天天添天天添无码蜜臀| 欧美人与动牲交ZOOZ特| 麻豆免费观看高清完整视频在线| 久久国产精品久久国产精品| 果冻传媒在线观看进入窗口| 国产午夜亚洲精品一区| 成人无码在线视频区| 69人体阴展网| 91精品一区二区综合在线 | 在线视频 日韩视频二区| 亚洲色欲色欲WWW在线成人网| 亚洲XXX午休国产熟女屁| 亚洲成色爱我久久| 亚洲欧美成人综合| 一级淫片bbbxxx| 中文字幕乱码在线人视频| 最近日本字幕免费高清| 91天仙tv嫩模福利| 99久久国产综合精品国| 被窝伦理电影午夜| 国产精品久久久精品a级小说| 国产精品青草久久福利不卡| 国产无遮挡又黄又爽在线视频| 好男人好资源在线观看| xx顶级欧美熟妞xxhd| 扒开她的黑森林让我添动态图| WWW国产无套内射久久| 德国黄色录像| 国产精人妻无码一区麻豆| 黑丝制服影院| 久青草国产97香蕉在线视频| 免费在线观看a视频| 日韩一区二区天海翼| 小伙无套内射老女人| 野花日本免费完整版高清版动漫|