色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知識圖譜自動化構建的探索與挑戰

恬靜簡樸1 ? 來源:恬靜簡樸1 ? 作者:恬靜簡樸1 ? 2022-09-05 09:36 ? 次閱讀

知識圖譜自動化構建的探索與挑戰|論文分享

達觀數據

知識圖譜的自動化構建是知識圖譜中具有極強挑戰性且巨大應用價值的技術方向。就實體抽取技術,達觀數據副總裁、上海市人工智能技術標準委員會委員王文廣提到“狹義的實體抽取,即命名實體識別(NER)技術發展至今已較為成熟,能夠很好地抽取出人名、地名、機構名等少數類型的實體。但在知識圖譜實際應用中,則需要抽取出各式各樣各不相同的廣義實體,比如金融業中的產品名稱、品牌名、業務名、風險提示、觀點等,制造業中的失效模式、失效現象、工藝、設備、零部件、物料、方法、故障原因、改善措施等,商業中的產品、功能、特點、適合人群、搭配方法等等。抽取出這些廣義實體的挑戰巨大?!标P系抽取技術也同樣問題多挑戰大,已有關系抽取大多基于實體對之間共現,而現實復雜的場景中,實體對共現既可能不存在任何關系,可能存在萬千種的關系,這就造成了關系抽取的難題。此外,在知識圖譜構建中,還涉及實體消歧、實體融合等方面的技術要求。

除了技術發展本身并不成熟之外,在實際場景中還遇到樣本少的問題。在真實落地的項目或產品中, 往往存在標注樣本少的問題,其原因即可能是標注成本高導致樣本少,也可能是本身樣本就少,無法獲得大規模的標注樣本。這方面王文廣深有體會,他提到“在很多場景下,總的文檔數量有幾千或幾萬份,對于具體某些類型的實體或關系來說則文檔數量更少。在這種情況下要做好知識圖譜的構建,是極大的挑戰,也是在實際落地中必須綜合使用十八般武器,逢山開路遇水搭橋,使用最新的技術結合業務經驗、專家規則等來解決這些問題?!?/p>

為了促進知識圖譜自動化構建技術的進一步發展,達觀數據在CCKS2020(2020全國知識圖譜與語義計算大會)組織了金融研報知識圖譜的自動化構建的算法競賽。競賽選擇了樣本豐富但復雜度較高的金融研報文檔作為知識的來源,根據金融投研領域常見的需求,設計了簡化版的知識圖譜模式,并標注了大規模的金融研報知識圖譜數據集FR2KG。競賽任務從預定義的知識圖譜模式和少量的種子知識圖譜開始,從非結構化的金融研報文本中抽取出符合知識圖譜模式的實體、關系和屬性值, 并進行適當的實體消歧和實體融合,構建出知識圖譜,并使用FR2KG來評估競賽參賽隊伍所提交的結果。

金融研報是各類金融研究結構對宏觀經濟、金融、行業、產業鏈以及公司的研究報告,是金融行業中最為復雜、多樣的文檔。報告通常是專業人員撰寫,對宏觀、行業和公司的數據信息搜集全面、研究深入,質量高,內容可靠。報告內容往往包含產業、經濟、金融、政策、社會等多領域的數據與知識,是構建行業知識圖譜非常關鍵的數據來源。另一方面,由于研報本身所容納的數據與知識涉及面廣泛,專業知識眾多,不同的研究結構和專業認識對相同的內容的表達方式也會略有差異。這些特點導致了從研報自動化構建知識圖譜困難重重,解決這些問題則能夠極大促進自動化構建知識圖譜方面的技術進步。同時所構建的圖譜在大金融行業、監管部門、政府、行業研究機構和行業公司等應用非常廣泛,如風險監測、智能投研、智能監管、智能風控等,具有巨大的學術價值和產業價值。

數據集

達觀數據所構建的大規模金融研報知識圖譜數據集FR2KG是用于評測知識圖譜自動化構建技術的專業數據集,是當前最大規模的中文金融研報知識圖譜。下圖是數據集構建過程示意圖

poYBAGMVUqSAB5vHAABSE5RNWVM330.jpg

FR2KG的知識圖譜模式包含10個實體類型,19個關系類型和6種屬性,如下圖所示。

pYYBAGMVUqWAUzxnAACkend7yiE077.jpg

構建好的金融研報知識圖譜數據集FR2KG包含17,799實體,26,798關系三元組,1,328屬性三元組,SeedKG和EvaluationKG的數據情況如下圖所示。

下圖是數據集的樣例,使用達觀數據淵海知識圖譜平臺可視化:

poYBAGMVUqWAU6wsAADVO-16R-c247.jpg

目前數據集已經發布在SCIDB和OpenKG上,歡迎大家前往下載。在使用數據集進行研究時請引用本論文。

文章:Data Set and Evaluation of Automated Construction of Financial Knowledge Graph

作者:王文廣,徐永林、杜春輝、陳運文、王逸捷、文輝

引用: Wang, W.G., et al.: Data set and evaluation of automated construction of financial knowledge graph. Data Intelligence 3(3), 418-443 (2021). doi: 10.1162/dint_a_00108

競賽技術回顧

本次評測一共有740個隊伍報名,其中F1分數最高的18支隊伍中,有3支隊伍來自企業,10支隊伍來自高校,3支隊伍高校和企業的組合,另外2支隊伍未透露相關信息。本次評測的top5隊伍都梳理并提交了他們所使用的方法的簡要說明,下文對這些方法和說明進行分析總結。

所有隊伍都使用了規則或者labelling function來生產訓練樣本,只有一個隊伍在自動生成樣本之外,又額外人工標注了20份的研報來作為補充和驗證的訓練樣本。

所有隊伍在實體抽取中都使用了基于BERT的模型,并且在模型之外也都使用了基于規則的方法來對特定的實體類型進行補充。

在關系和屬性抽取方面,所有的隊伍都使用了基于共現的方法,共現是遠程監督的基本假設,也就是說,當兩個實體共同出現在一個較短的一段文本時,即可假設它們存在符合相應的關系。在基于共現的假設之上,三支隊伍使用了規則來判斷是否真正存在這種關系,另外兩只隊伍使用了基于BERT的模型來對關系進行分類。

其中一支隊伍使用了聚類的方法來將相似或相同主題的研報給聚在一起,對研報進行了預處理。

知識圖譜自動化構建的挑戰

從本次基于知識圖譜模式的自動化構建知識圖譜評測的結果來看,單純使用算法來構建完全自動化地構建知識圖譜,尚存在較多挑戰,這里總結了一些具有相當挑戰性的課題和研究方向:

在給定知識圖譜模式和種子知識圖譜來自動化的構建知識圖譜上,現有的方法效果都不太好,如何實現端到端或者多步的框架實現知識圖譜的完全自動化構建是值得繼續探索的。

通過知識圖譜及其對應的Schema如何實現自動化標注語料是一個值得研究的課題,能夠實現高精度的自動化標注語料可以帶來更好的抽取模型。此外,自動化標注語料方面的評測也是一件非常有意義的事情。

實體抽取方面,評測的優秀選手都使用了基于BERT的模型,再加上基于規則的方法來實現,在這種真實的場景且計算力資源受限的情況下,如何在少量語料的情況下實現高精度的抽取。

關系和屬性抽取與識別上,目前集中在采用短文本內共現并過濾的方法來實現,這極大的依賴于實體抽取的F1分數,高precision和高recall的實體抽取決定了關系和屬性抽取有好的效果。那么如何在噪聲較多,即不那么高的情況下來實現好的關系和屬性抽取?

本次評測沒有看到使用端到端的實現實體和關系聯合抽取的模型,可能的原因是實體和關系類型較多且沒有大量的語料,那么在這種情況下如何開發出端到端的模型也是非常具有挑戰性的課題。

當Schema的規模進一步擴大時,比如50種實體類型,數百種的實體屬性和實體間的關系,對這樣的知識圖譜研究其自動化構建是一個兼具挑戰性與現實意義的課題。

多語言的知識圖譜自動化構建技術的研究。本次評測集中在中文,以及中文中存在的少量英文的情況,特別的,沒有涉及到多語言之間實體融合的情況。但在真實場景下,多語言語料以及構建多語言圖譜是非常重要的。這涉及了多方面的內容,包括多語言的實體、關系和屬性的抽取,多語言之間實體的融合等等方面技術的研究。同時,組織多語言知識圖譜自動化構建方面的評測也是非常有意義的事情。

本次評測中隱含著少量實體的消歧與融合,這塊沒有顯性的進行評測,未來可以將這塊明確的表達出來,以促進相關領域的研究。

審核編輯:湯梓紅
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自動化
    +關注

    關注

    29

    文章

    5598

    瀏覽量

    79430
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24742
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    7717
收藏 人收藏

    評論

    相關推薦

    基于 Docker 與 Jenkins 實現自動化部署

    優化,為 Docker 容器應用與 Jenkins 自動化流水線提供了理想的運行環境。無論是快速構建、測試還是部署,Flexus X 都能確保流程順暢無阻,大幅提升軟件開發與交付效率。立即擁抱華為云
    的頭像 發表于 01-07 17:25 ?159次閱讀
    基于 Docker 與 Jenkins 實現<b class='flag-5'>自動化</b>部署

    三星自主研發知識圖譜技術,強化Galaxy AI用戶體驗與數據安全

    據外媒11月7日報道,三星電子全球AI中心總監Kim Dae-hyun近日透露,公司正致力于自主研發知識圖譜技術,旨在進一步優化Galaxy AI的功能,提升其易用性,并加強用戶數據的隱私保護。
    的頭像 發表于 11-07 15:19 ?655次閱讀

    探索Playwright:前端自動化測試的新紀元

    作者:京東保險 張新磊 背景 在前端開發中,自動化測試是確保軟件質量和用戶體驗的關鍵環節。隨著Web應用的復雜性不斷增加,手動測試已經無法滿足快速迭代和持續交付的需求。自動化測試通過模擬用戶
    的頭像 發表于 10-22 14:27 ?216次閱讀

    探索工業自動化轉換網關:定義背后的功能密碼

    在當今物聯網(IoT)與工業自動化日益融合的時代背景下,自動化協議轉換網關作為連接不同設備與系統之間的橋梁,扮演著至關重要的角色。自動化協議轉換網關,作為這一領域內的佼佼者,以其靈活、可靠的性能
    的頭像 發表于 08-22 09:43 ?235次閱讀
    <b class='flag-5'>探索</b>工業<b class='flag-5'>自動化</b>轉換網關:定義背后的功能密碼

    三星電子將收購英國知識圖譜技術初創企業

    在人工智能技術日新月異的今天,三星電子公司再次展現了其前瞻性的戰略布局與技術創新實力。近日,三星正式宣布完成了對英國領先的人工智能(AI)與知識圖譜技術初創企業Oxford Semantic Technologies的收購,此舉標志著三星在提升設備端AI能力、深化個性化用戶體驗方面邁出了重要一步。
    的頭像 發表于 07-18 14:46 ?546次閱讀

    知識圖譜與大模型之間的關系

    在人工智能的廣闊領域中,知識圖譜與大模型是兩個至關重要的概念,它們各自擁有獨特的優勢和應用場景,同時又相互補充,共同推動著人工智能技術的發展。本文將從定義、特點、應用及相互關系等方面深入探討知識圖譜與大模型之間的關系。
    的頭像 發表于 07-10 11:39 ?1112次閱讀

    機械自動化和電氣自動化區別是什么

    機械自動化和電氣自動化是現代工業生產中兩個重要的領域,它們在許多方面有著密切的聯系,但也存在一些明顯的區別。 一、基本概念 機械自動化 機械自動化是指利用機械設備、傳感器、控制系統等技
    的頭像 發表于 07-01 09:33 ?4212次閱讀

    機械自動化自動化的一種嗎

    引言 自動化技術是指利用控制裝置對生產過程進行控制,以實現生產過程的自動化。機械自動化自動化技術的一種,它主要涉及到使用機械設備和控制系統來實現生產過程的
    的頭像 發表于 07-01 09:32 ?1717次閱讀

    蘋果加速iPhone組裝自動化,挑戰與機遇并存

    近日,據The Information報道,蘋果公司正積極推動其iPhone組裝過程的自動化,旨在顯著減少生產線上的員工數量。這一策略的實施,始于2022年年底,當iPhone 13系列的組裝面臨挑戰之際,蘋果的管理層便已開始考慮通過技術革新來優化生產流程。
    的頭像 發表于 06-26 14:34 ?671次閱讀

    自動化設備的伺服電機選型指南

    自動化設備的設計和構建過程中,伺服電機的選擇是至關重要的一個環節。伺服電機作為控制系統的執行機構,其性能直接影響到自動化設備的整體運行效率和精度。本文將詳細介紹自動化設備中伺服電機的
    的頭像 發表于 06-13 11:15 ?917次閱讀

    機械制造與自動化自動化類嗎

    機械制造與自動化自動化領域的一個重要分支,它涉及到機械設計、制造、檢測、控制等多個方面,是現代制造業的核心組成部分。 機械制造與自動化是指利用計算機、機器人、傳感器等自動化設備和技術
    的頭像 發表于 06-11 11:18 ?1567次閱讀

    工業自動化自動化區別是什么

    工業自動化自動化是兩個密切相關但又有所區別的概念。在這篇文章中,我們將詳細探討它們之間的區別,以及它們在現代工業生產中的應用。 一、自動化的定義 自動化是指通過使用機器、計算機和其他
    的頭像 發表于 06-11 11:13 ?1793次閱讀

    非標自動化設備

    1、非標自動化設備 2、根據需求設計和制造 3、完成代替人工的目標
    發表于 03-25 09:52

    利用知識圖譜與Llama-Index技術構建大模型驅動的RAG系統(下)

    對于語言模型(LLM)幻覺,知識圖譜被證明優于向量數據庫。知識圖譜提供更準確、多樣、有趣、邏輯和一致的信息,減少了LLM中出現幻覺的可能性。
    的頭像 發表于 02-22 14:13 ?1238次閱讀
    利用<b class='flag-5'>知識圖譜</b>與Llama-Index技術<b class='flag-5'>構建</b>大模型驅動的RAG系統(下)

    自動化構建環境在FPGA設計中的應用

    為了加快實現 FPGA 構建環境的自動化(如用于持續集成 (CI)),并確保在開發與生命周期后期階段完整重現設計結果,Missing Link Electronics 團隊已整合出一套腳本。
    發表于 02-20 11:05 ?442次閱讀
    <b class='flag-5'>自動化</b><b class='flag-5'>構建</b>環境在FPGA設計中的應用
    主站蜘蛛池模板: 亚洲精品久久久无码一区二区| 中文字幕乱码亚洲无线三区| 草神被爆漫画羞羞漫画| 人妻兽虐曲| 国产高清砖码区| 亚洲欧美综合在线中文| 免费精品美女久久久久久久久| 大胆国模一区二区三区伊人| 亚洲精品久久久久久蜜臀| 美女视频秀色福利视频| 国产成人一区二区三区在线观看| 亚洲色欲国产AV精品综合| 毛片内射久久久一区| 成电影人免费网站| 亚洲精品在线网址| 暖暖视频在线高清播放| 国产精品嫩草影院| 18禁止看的免费污网站| 特黄AAAAAAA片免费视频| 久久亚洲精品2017| 国产成人综合在线观看| 777久久人妻少妇嫩草AV| 无套内谢大学生A片| 摸董事长的裤裆恋老小说| 国产精品亚洲一区二区三区久久| 2021国产精品| 亚洲黄色高清| 日韩丰满少妇无码内射| 久久免费视频在线观看6| 囯产少妇BBBBBB高潮喷水一 | 少妇高潮久久久久7777| 久9青青cao精品视频在线| 超碰在线视频caoporn| 在线少女漫画| 性生交片免费无码看人| 欧美怡红院视频一区二区三区 | 亚州AV人片一区二区三区99久| 麻豆XXXX乱女少妇精品| 国产亚洲美女在线视频视频 | 国产精品人妻一区免费看8C0M| ai换脸在线全集观看 |