色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

北大開源了一個中文分詞工具包,名為——PKUSeg

電子工程師 ? 來源:lq ? 2019-01-16 10:29 ? 次閱讀

分詞技術是一種比較基礎的模塊,就英文而言,詞與詞之間通常由空格分開,因此英文分詞則要簡單的多,但中文和英文的詞是有區別的,再加上中國文化的博大精深,分詞的時候要考慮的情況比英文分詞要復雜的多,如果處理不好就會直接影響到后續詞性標注、句法分析等的準確性,

目前,我們最常用的分詞工具大概有四種哈工大LTP、中科院計算所NLPIR、清華大學THULAC和jieba。

不過最近,北大開源了一個中文分詞工具包,名為 ——PKUSeg,基于Python。據介紹其準確率秒殺THULAC和結巴分詞等工具。

一經開源,pkuseg已經在GitHub上獲得1738個Star,244個Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下幾個特點:

多領域分詞:不同于以往的通用中文分詞工具,此工具包同時致力于為不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。 我們目前支持了新聞領域,網絡文本領域和混合領域的分詞預訓練模型,同時也擬在近期推出更多的細領域預訓練模型,比如醫藥、旅游、專利、小說等等。

更高的分詞準確率:相比于其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。

支持用戶自訓練模型:支持用戶使用全新的標注數據進行訓練。

各類分詞工具包的性能對比

前面有提到說pkuseg的準確率遠超其他分詞工具包,現在就是用數據說話的時候了,下面就是在 Linux 環境下,各工具在新聞數據 (MSRA) 和混合型文本 (CTB8) 數據上的準確率測試情況

測試使用的是第二屆國際漢語分詞評測比賽提供的分詞評價腳本,從上圖看出結巴分詞準確率最低,

跨領域測試結果

以下是在其它領域進行測試,以模擬模型在“黑盒數據”上的分詞效果。

默認模型在不同領域的測試效果

以下是各個工具包的默認模型在不同領域的測試效果

使用方式

代碼示例1:使用默認模型及默認詞典分詞

importpkusegseg=pkuseg.pkuseg()#以默認配置加載模型text=seg.cut('我愛北京***')#進行分詞print(text)

代碼示例2:設置用戶自定義詞典

importpkuseglexicon=['北京大學','北京***']#希望分詞時用戶詞典中的詞固定不分開seg=pkuseg.pkuseg(user_dict=lexicon)#加載模型,給定用戶詞典text=seg.cut('我愛北京***')#進行分詞print(text)

代碼示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假設用戶已經下載好了ctb8的模型#并放在了'./ctb8'目錄下,通過設置model_name加載該模型text=seg.cut('我愛北京***')#進行分詞print(text)

代碼示例4:對文件分詞

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#對input.txt的文件分詞輸出到output.txt中,#使用默認模型和詞典,開20個進程

代碼示例5:訓練新模型

importpkuseg#訓練文件為'msr_training.utf8'#測試文件為'msr_test_gold.utf8'#模型存到'./models'目錄下,開20個進程訓練模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三種在不同類型數據上訓練得到的模型,根據具體需要,用戶可以選擇不同的預訓練模型:

MSRA:在MSRA(新聞語料)上訓練的模型。

下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新聞文本及網絡文本的混合型語料)上訓練的模型。隨pip包附帶的是此模型。

下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(網絡文本語料)上訓練的模型。

下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分詞工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Linux
    +關注

    關注

    87

    文章

    11342

    瀏覽量

    210319
  • 開源
    +關注

    關注

    3

    文章

    3398

    瀏覽量

    42691
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    85017

原文標題:準確率秒殺結巴分詞,北大開源全新中文分詞工具包PKUSeg

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    deepin社區助力開源教育與生態發展

    大賽全國總決賽”近期在湖北大學圓滿落幕。 ? 本次大賽致力于利用開源工具集,鼓勵參賽者在開源數字生態的不同應用場景中開展創新實踐。大賽不僅為學生們提供
    的頭像 發表于 01-24 10:00 ?118次閱讀

    RT-Thread榮登2024開源創新榜單,躋身中國十大開源社區

    開源領域的卓越貢獻,榮登2024年開源創新榜單——2024年度開源社區,成為中國十大開源社區之。2024年度
    的頭像 發表于 01-08 19:06 ?254次閱讀
    RT-Thread榮登2024<b class='flag-5'>開源</b>創新榜單,躋身中國十<b class='flag-5'>大開源</b>社區

    Labview聲音和振動工具包示例文件Sound Level

    Labview 聲音和振動工具包示例文件,聲壓測試,有模擬和DAQ兩文件。
    發表于 01-05 09:15 ?0次下載

    TSP工具包軟件的應用說明

    需要快速開發測試的行業中,有效的自動化和便捷代碼的開發需求比以往任何時候都顯得更加突出。企業在努力提高產品質量的同時,更需要尋求更短的上市時間,合適的工具正是實現這目標的關鍵
    的頭像 發表于 01-03 15:53 ?1354次閱讀
    TSP<b class='flag-5'>工具包</b>軟件的應用說明

    最新Simplicity SDK軟件開發工具包發布

    最新的SimplicitySDK軟件開發工具包已經發布!此次更新針對SiliconLabs(芯科科技)第二代無線開發平臺帶來了包括藍牙6.0的信道探測(Channel Sounding
    的頭像 發表于 12-24 09:47 ?268次閱讀

    基于EasyGo Vs工具包和Nl veristand軟件進行的永磁同步電機實時仿真

    EasyGo Vs Addon是款領先的FPGA仿真工具包軟件,它強大地連接了VeriStand軟件與Matlab/Simulink,為實時測試和驗證領域帶來了前所未有的便利和效率,特別適用于汽車
    的頭像 發表于 11-27 11:28 ?392次閱讀
    基于EasyGo Vs<b class='flag-5'>工具包</b>和Nl veristand軟件進行的永磁同步電機實時仿真

    FPGA仿真工具包軟件EasyGo Vs Addon介紹

    EasyGo Vs Addon是款領先的FPGA仿真工具包軟件,它強大地連接了VeriStand軟件與Matlab/Simulink,為實時測試和驗證領域帶來了前所未有的便利和效率,特別適用于汽車、航空航天和能源電力等實時測試和驗證至關重要的行業。
    的頭像 發表于 10-24 15:55 ?502次閱讀
    FPGA仿真<b class='flag-5'>工具包</b>軟件EasyGo Vs Addon介紹

    采用德州儀器 (TI) 工具包進行模擬前端設計應用說明

    電子發燒友網站提供《采用德州儀器 (TI) 工具包進行模擬前端設計應用說明.pdf》資料免費下載
    發表于 09-09 11:21 ?0次下載
    采用德州儀器 (TI) <b class='flag-5'>工具包</b>進行模擬前端設計應用說明

    蘋果推出全新開源Swift軟件

    七月三十一日,蘋果企業總部對外正式發表公告,宣布昨日(即七月二十九日)成功推出全新的開源 Swift 軟件—— (喚名為 swift-homomorphic-encryption)。此舉旨在為 Swift 編程語言帶來應用便利
    的頭像 發表于 07-31 15:17 ?556次閱讀

    使用freeRTOS開發工具包時,在哪里可以找到freeRTOS的版本?

    作為主題,當我使用 freeRTOS 開發工具包時,在哪里可以找到 freeRTOS 的版本?
    發表于 07-09 07:17

    新加坡推出Project Moonshot -- 這是款生成式人工智能測試工具包,用于應對LLM安全和安保挑戰

    新加坡2024年6月3日?/美通社/ -- 新加坡通訊及新聞部部長Josephine Teo 女士推出了AI Verify- Project Moonshot,這是易于使用的測試工具包,旨在
    的頭像 發表于 06-03 19:59 ?280次閱讀
    新加坡推出Project Moonshot -- 這是<b class='flag-5'>一</b>款生成式人工智能測試<b class='flag-5'>工具包</b>,用于應對LLM安全和安保挑戰

    艾體寶方案 | 管理開源軟件更新,提升開源安全性

    基于“合并信心”值來管理更新,這個值反映Mend.io對特定更新能夠成功合并到應用程序的信心。這個信心值是通過監測大量開發者使用Mend Renovate(自動化依賴更新工具)時
    的頭像 發表于 05-31 17:03 ?350次閱讀

    Hugging Face推出開源機器人代碼庫LeRobot

    AI領域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機器人工具包——LeRobot。這創新工具包基于史上最大規模的眾包機器人數據集,為開發者提供
    的頭像 發表于 05-09 10:32 ?627次閱讀

    Microchip宣布推出種低成本PolarFire? SoC Discovery工具包

    嵌入式行業對基于RISC-V?的開源處理器架構的需求日益增長,但在商用芯片或硬件方面的選擇仍然有限。
    的頭像 發表于 02-22 15:30 ?510次閱讀
    Microchip宣布推出<b class='flag-5'>一</b>種低成本PolarFire? SoC Discovery<b class='flag-5'>工具包</b>

    QE for Motor V1.3.0:汽車開發輔助工具解決方案工具包

    電子發燒友網站提供《QE for Motor V1.3.0:汽車開發輔助工具解決方案工具包.pdf》資料免費下載
    發表于 02-19 10:44 ?0次下載
    QE for Motor V1.3.0:汽車開發輔助<b class='flag-5'>工具</b>解決方案<b class='flag-5'>工具包</b>
    主站蜘蛛池模板: 国产午夜精AV在线麻豆 | 一本色道久久88综合日韩精品 | 亚洲午夜精品AV无码少妇 | 情欲.美女高潮 | 国产成人刺激视频在线观看 | 久久久免费观成人影院 | 果冻传媒视频在线观看完整版免费 | 亚洲一级毛片免费在线观看 | 日本毛片久久国产精品 | 我要色色网 | 中文字幕A片视频一区二区 中文字幕AV在线一二三区 | 日本一区二区三区在线观看网站 | 亚洲中文久久久久久国产精品 | 一个人看www| 国产免费高清mv视频在线观看 | 麻豆国产人妻欲求不满 | 久久高清一级毛片 | 国产 交换 丝雨 巅峰 | 日日噜噜噜夜夜爽爽狠狠图片 | 中文字幕在线播放 | 小玲被公扒开腿 | 青柠在线观看免费全集 | 在线观看免费毛片 | 国产3级在线 | 亚洲国产综合人成综合网站00 | 高清一区二区亚洲欧美日韩 | 国产精品毛片在线视频 | 看80后操 | 欧美另类老女人 | 国产在线视频分类精品 | 依人在线观看 | 亚洲国产成人在线视频 | 亚洲精品国产国语 | 国产九九九九九九九A片 | 两个奶被男人揉了一个晚上 | 亚洲精品成人久久久影院 | 秘密教学93话恩爱久等了免费 | 一本色道久久综合亚洲精品 | 成人网18免费韩国 | 国产精品亚洲欧美一区麻豆 | 美女黄图大全 |