色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

深度學習自然語言處理 ? 來源:FudanNLP ? 2023-04-25 11:41 ? 次閱讀

為了助力大模型研究,復旦大學自然語言處理實驗室開源了中文圖書數據集合CBook-150K,包含15萬本中文圖書的下載和抽取方法,涵蓋人文、教育、科技、軍事、政治等眾多領域。

當前很多研究表明,高質量數據對于訓練大規模語言模型具有至關重要的作用。圖書中的內容在質量、專業水準、可靠性等方面遠高于互聯網數據。OpenAI在訓練GPT 3時,也使用了大量圖書資源。但是目前還缺乏大規模的中文圖書開放集合。此外,由于絕大多數電子書籍的保存方式為PDF格式,從其中抽取文本內容也需要分析工具支持。復旦大學自然語言處理實驗室結合此前自主開發的相關PDF分析工具,開源了中文語料圖書集合CBook-150K。

復旦大學自然語言處理實驗室,自2019年起,自研了PDF處理工具DocAI,針對非掃描件PDF,具有能夠處理復雜格式、高效、高準確率、可私有化部署等特點。DocAI在全CPU解決方案下,單核CPU處理100頁文檔僅需10秒。提取字符準確率100%,結構分析準確率95%。DocAI智能文檔解析系統支持對DOC、PDF等常見電子文檔進行智能解析,對文檔中的標題、段落、表格等半結構化數據進行結構化分析還原。該應用場景具有文件類型多,格式復雜,兼容性要求高等特點,特別是對于跨頁表格,多欄排版等復雜場景的支持。是目前支持段落、表格融合識別的為數不多的智能文檔解析工具之一。DodAI不依賴第三方資源,支持離線環境下的私有化部署和使用,確保文檔隱私與安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

結合DocAI工具以及搜索引擎,復旦大學自然語言處理實驗室從互聯網中篩選了大量中文圖書資源鏈接,并構造了內容抽取算法,助力廣大學者NLP大模型研究,同時也在實踐與操作中不斷迭代更新,完善大型語料庫的部署。

下載鏈接:

https://github.com/FudanNLPLAB/CBook-150K

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3398

    瀏覽量

    42649
  • 自然語言處理

    關注

    1

    文章

    619

    瀏覽量

    13616
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22074

原文標題:NLP大模型必備-FudanNLP開源中文圖書集合CBook-150K

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    開源模型在多個業務場景的應用案例

    在人工智能發展浪潮中,大模型開源與閉源之爭一直是業內的熱點話題。隨著技術的不斷進步和應用場景的日益豐富,如何降低大模型的使用門檻,讓更多人能夠便捷地應用于實際業務場景,成為了推動行業發展的關鍵所在。而
    的頭像 發表于 12-30 10:16 ?250次閱讀

    開源AI模型庫是干嘛的

    開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經過訓練,能夠執
    的頭像 發表于 12-14 10:33 ?241次閱讀

    阿里通義千問代碼模型全系列開源

    近日,阿里云通義大模型團隊宣布了一項重大決策:將通義千問代碼模型全系列正式開源。此次開源模型系列共包含6款Qwen2.5-Coder
    的頭像 發表于 11-14 15:26 ?409次閱讀

    科技云報到:假開源真噱頭?開源模型和你想的不一樣!

    查看、修改、分發。開源自此深刻影響了互聯網行業的每一個角落。 在大模型和GenAI崛起的當下,開源再次成為業界關注焦點,對于開源和閉源的爭論也久久未能平息。然而,大
    的頭像 發表于 11-03 10:46 ?260次閱讀

    搭建開源大語言模型服務的方法

    本文我們將總結5種搭建開源大語言模型服務的方法,每種都附帶詳細的操作步驟,以及各自的優缺點。
    的頭像 發表于 10-29 09:17 ?236次閱讀

    Llama 3 與開源AI模型的關系

    在人工智能(AI)的快速發展中,開源AI模型扮演著越來越重要的角色。它們不僅推動了技術的創新,還促進了全球開發者社區的合作。Llama 3,作為一個新興的AI項目,與開源AI模型的關系
    的頭像 發表于 10-27 14:42 ?414次閱讀

    nlp邏輯層次模型的特點

    NLP(自然語言處理)邏輯層次模型是一種用于理解和生成自然語言文本的計算模型。它將自然語言文本分解為不同的層次,以便于計算機更好地處理和理解。以下是對NLP邏輯層次
    的頭像 發表于 07-09 10:39 ?442次閱讀

    nlp神經語言和NLP自然語言的區別和聯系

    神經語言(Neuro-Linguistic Programming,NLP) 神經語言是一種心理學方法,它研究人類思維、語言和行為之間的關系。NLP的核心理念是,我們可以通過改變我們的思維方式和語言
    的頭像 發表于 07-09 10:35 ?829次閱讀

    nlp自然語言處理基本概念及關鍵技術

    、問答系統、文本摘要等眾多領域有著廣泛的應用。 1. NLP的基本概念 1.1 語言模型 語言模型NLP的基礎,它用于描述一個句子在自然語言中出現的概率。語言
    的頭像 發表于 07-09 10:32 ?713次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是一些常見的LLM
    的頭像 發表于 07-09 09:59 ?707次閱讀

    nlp自然語言處理模型怎么做

    的進展。本文將詳細介紹NLP模型的構建過程,包括數據預處理、模型選擇、訓練與優化等方面。 數據預處理 數據預處理是NLP模型構建的第一步,其
    的頭像 發表于 07-05 09:59 ?690次閱讀

    nlp自然語言處理模型有哪些

    自然語言處理(Natural Language Processing,NLP)是計算機科學和人工智能領域的一個重要分支,旨在使計算機能夠理解、解釋和生成人類語言。以下是對NLP領域一些模型的介紹
    的頭像 發表于 07-05 09:57 ?837次閱讀

    NLP模型中RNN與CNN的選擇

    在自然語言處理(NLP)領域,循環神經網絡(RNN)與卷積神經網絡(CNN)是兩種極為重要且廣泛應用的網絡結構。它們各自具有獨特的優勢,適用于處理不同類型的NLP任務。本文旨在深入探討RNN與CNN
    的頭像 發表于 07-03 15:59 ?622次閱讀

    通義千問推出1100億參數開源模型

    通義千問近日震撼發布1100億參數的開源模型Qwen1.5-110B,這一舉措標志著通義千問在AI領域邁出了重大步伐。該模型成為通義千問全系列首個千億級參數開源
    的頭像 發表于 05-06 10:49 ?615次閱讀

    模型開源開放評測體系司南正式發布

    近日,大模型開源開放評測體系司南(OpenCompass2.0)正式發布,旨在為大語言模型、多模態模型等各類模型提供一站式評測服務。Open
    的頭像 發表于 02-05 11:28 ?1127次閱讀
    主站蜘蛛池模板: 偷拍自怕亚洲在线第7页 | 打扑克床上视频不用下载免费观看 | 久久精品黄AA片一区二区三区 | 国产精品亚洲AV色欲在线观看 | 精精国产www视频在线观看免费 | 熟女人妻水多爽中文字幕 | 中国二级毛片 | 伊人久久中文字幕久久cm | 校园纯肉H教室第一次 | 狠狠色狠色综合曰曰 | 一一本之道高清视频在线观看中文字幕 | 日日噜噜夜夜狠狠视频 | 久久九九有精品国产23百花影院 | 超碰97人人做人人爱亚洲尤物 | 91久久精一区二区三区大全 | 看美女大腿中间的部分 | 重口味av | 亚洲国产三级在线观看 | 久久电影精品 | 亚洲成人黄色在线 | 日本护士性生活 | 人妻中文字幕无码久久AV爆 | caoporn 超碰在线视频 | 欧美亚洲高清国产 | 午夜国产免费视频亚洲 | 久久99精品国产自在自线 | 亚洲嫩草AV永久无码精品无码 | 国产无遮挡无码视频在线观看不卡 | 欧美gay69| 亚洲AV无码久久流水呻蜜桃久色 | 123超碰在线视频 | 久久一级片 | 国产网红主播精品福利大秀专区 | 秋霞在线观看视频一区二区三区 | 激情丛林电影完整在线 | yellow免费观看完整版直播 | 老师破女学生特级毛片 | 嘟嘟嘟在线视频免费观看高清中文 | 亚洲 欧美 中文 日韩 另类 | 久久久午夜精品福利内容 | 国产亚洲精品黑人粗大精选 |