色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

糾錯技術的背景

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2020-10-10 11:01 ? 次閱讀

糾錯是搜索引擎中一個非常有特色的模塊,對用戶輸入的內容進行改寫從而讓用戶得到正確的結果,有的時候也會帶有一些驚喜度,所以糾錯技術是一個搜索體驗的加分項,近期突然對這塊有興趣,所以就了解了一下。

糾錯技術的背景

人非圣賢,孰能無過,別說是搜索的時候,哪怕是我們打字、寫作文的時候,都會出現錯字,一般的錯別字不會對最終目標帶來很大影響,且出現頻率很低,不拘小節的我們常常會忽略這樣的小問題,但是,在搜索場景下,錯別字意味著可能就搜不到內容了,對于用戶而言,就是需求無法滿足,造成了很差的體驗,因此在搜索場景中,就很有必要去糾錯。

錯誤是如何產生的

要去糾錯,先要去看看錯誤是怎么產生的。

首先是誤操作類型,這種類型可以從輸入法角度去看。

拼音輸入法。常會出現同音異形字,例如周節倫等。

筆畫輸入法或者手寫輸入法。常會出現形似字,例如博和傅。

然后是用戶的主觀理解,有的時候用戶只是聽說過而沒見過,或者就是理解問題,導致主動地出入了錯誤的內容,例如飛揚拔(跋)扈,然后有一些名詞,例如小說、音樂、電影等,寫錯字是非常容易的。

當然,也有用戶圖方便,或者輸入問題,導致直接輸入拼音或者拼音前綴,或者就是因為記憶的原因,輸錯了。

當然這里也要補充一些常見的問題舉例:

諧音。深圳-森圳。

別字。師傅-師博。

中英文。Taylor swift-泰勒斯威夫特。

近義詞。愛情呼叫轉移-戀愛呼叫轉移。

形近字。高粱-高梁。

全拼。深圳-shenzhen。

拼音前綴。北京-bj。

內容不完整。唐人街探案-唐人。

總之錯誤千奇百怪。理解錯誤產生的機理,我們就可以嘗試去處理這些問題。

詞典與規則方法

詞典是搜索系統中非常常用的方法,詞典具有高速、高準的優點,如果詞典的覆蓋度高,甚至可以達到高召回的效果,因此詞典基本是搜索系統中的核心存在,我們不應該小看他,而是盡可能挖掘他的潛能。

詞典方法,說白了就是對query找對應詞典里有沒有,如果有就改寫過去,這種方法的優點在于速度快,而難點在于怎么去挖掘這個詞典。

至于怎么挖掘這個詞典,方法有很多底層數據庫抽取,用戶日志等,都有很多構建起這樣的詞典,能夠大大降低耗時,復雜度至于query和單詞長度有關。那么一般都有什么詞典呢,我們來一個一個看看。

拼音和拼音前綴詞典。先將query或者單詞轉為拼音,然后通過通過拼音召回對應的結果,完成糾錯。

別字詞典,記錄一些常見的錯別字,例如百度的形近詞表就很不錯(就在百度百科里面)。

其他改寫字典。一般基于具體業務來改寫,例如用戶輸入唐人街探案,其實唐人街探案有3部,我們應該給那個,需要基于熱度等方面去改寫到具體最合適的一部。

詞典只是能夠匹配到合適的結果,但是我們需要知道的是,改寫的內容不能和原來差距太遠,否則會出現很多意料之外的結果,因此改寫不能大改,只能改微調,否則出來的結果會讓用戶感到很懵逼。控制的方法主要是編輯距離。

所謂的編輯距離,就是改寫前到改寫后,需要經過的操作多少,說人話就是兩句話的不同點有幾個,精確到字級別。深圳-森圳的編輯距離就是1。通過編輯距離的約束,一般能夠讓兩者的差距不是很大。

我知道很多人熱衷于用語義相似度之類的操作,不管別的什么方法,編輯距離一定要約束,用戶強調的是直觀感受,語義相近與否不是他們第一個關心的,只有當字相近的結果不好的時候考慮語義相近才是用戶的實際反映,且錯別字帶來的語義變化非常大,此處用予以相似度其實不完全合適。

模型類方法

說是詞典和規則好處很多,但是在泛化能力上,模型還是很強的。那么在模型視角下,其實會分為下面3個步驟進行分析處理。

錯誤診斷。即判斷有沒有錯。

修正召回。召回可能的修改項。保證召回率

修正確認。判斷最終需要的修改項。保證準確率。

當然,如果模型足夠強力,召回和確認兩個步驟也可以合并,具體看準招和耗時了。

其實這個思路最廣泛的應用就是推薦系統,召回和排序分離,這個我在大概是去年很早的一篇文章里談到在這個,這是推薦系統里面非常重要的思想,這個思想其實在很多地方可以遷移下面的一條公眾號文章。

至于模型層面,有下面的思路。

kenlm統計語言工具。運用統計學方法進行語言建模從而檢測和修正錯誤。

rnn_attention。RNN加上attention還是一個非常有意思的方法。

rnn_crf模型:說起來你們可能不信,這個思路來自阿里2016參賽中文語法糾錯比賽的第一名的方法。

seq2seq_attention模型:比RNN強一些,長文本效果不錯,但是容易過擬合。

transformer:線性優秀的序列表征模型,大家懂的。

bert:中文微調,最妙的是mask可協助糾正錯別字。

conv_seq2seq模型:基于Facebook出品的fairseq,在NLPCC-2018的中文語法糾錯比賽中,是唯一使用單模型并取得第三名的成績。

小結

怎么說呢,目前我還只是在探索,深度不是很夠,后面有所補充,再和大家交流,參考文獻放這里吧:

中文文本糾錯算法--錯別字糾正的二三事:https://zhuanlan.zhihu.com/p/40806718

pycorrector:https://github.com/shibing624/pycorrector

中文文本糾錯算法走到多遠了?:https://blog.csdn.net/sinat_26917383/article/details/86737361

責任編輯:lq
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 搜索引擎
    +關注

    關注

    0

    文章

    119

    瀏覽量

    13383
  • 模型
    +關注

    關注

    1

    文章

    3298

    瀏覽量

    49187
  • 語言建模
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6276

原文標題:搜索系統中的糾錯問題

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    背景抑制光電開關的設計及應用

    進行統計分析,采用數字信號處理技術等,進一步提高背景抑制效果和檢測精度。比如在生產線上檢測微小零件時,通過對多次采集的信號進行統計分析,能更準確地判斷零件的有無和位置。 輸出與接口功能 ·開關量輸出
    發表于 01-11 13:43

    接近感應單片機在背景抑制光電開關上的應用

    反射光,否則視為背景反射光并進行抑制。還可以結合更復雜的算法,如對多次采集信號進行統計分析、采用數字信號處理技術等,進一步提高背景抑制效果和檢測精度。 ·輸出控制 :根據背景抑制算法的
    發表于 12-27 15:38

    基于 XD08M3232 接近感應單片機的背景抑制光電開關設計與應用

    為目標物體反射光,否則視為背景反射光并進行抑制。還可以結合更復雜的算法,如對多次采集信號進行統計分析、采用數字信號處理技術等,進一步提高背景抑制的效果和檢測精度。 輸出控制程序 :根據背景
    發表于 12-16 18:56

    探討大模型時代背景下數據存儲的變革之道

    在當今數字化浪潮洶涌澎湃的時代背景下,大模型技術猶如一顆璀璨的明星,照亮了科技發展的廣闊蒼穹,而存儲技術的變革,作為這一進程中的堅實基石,正日益成為產業界與學術界共同矚目的核心焦點。
    的頭像 發表于 12-16 14:05 ?299次閱讀

    友思特方案 瞬時糾錯的智慧算法:鋰電與半導體多類型視覺檢測助力高效高質生產

    為新能源鋰電行業賦能第三站:豐富智慧的多類型視覺檢測系統!鋰電行業產線檢測效率和準確性決定了生產的投產比與產品的出貨質量。友思特針對多種需求開發了針對性的相機&AI視覺檢測方案,助力新能源產線瞬時糾錯、保證品質。
    的頭像 發表于 12-05 13:41 ?209次閱讀
    友思特方案 瞬時<b class='flag-5'>糾錯</b>的智慧算法:鋰電與半導體多類型視覺檢測助力高效高質生產

    無人機巡檢技術背景及多重優勢

    無人機巡檢技術背景及多重優勢 近年來,隨著無人機技術的不斷革新和普及,無人機巡檢系統應運而生并迅速發展。傳統的巡檢手段,如人工巡查或靜態監控設備,已難以滿足現代社會對于高效、智能巡檢的需求。無人機
    的頭像 發表于 11-27 17:21 ?710次閱讀

    TMS320C64x+和TMS320C674x的檢錯糾錯機制

    電子發燒友網站提供《TMS320C64x+和TMS320C674x的檢錯糾錯機制.pdf》資料免費下載
    發表于 10-12 11:27 ?0次下載
    TMS320C64x+和TMS320C674x的檢錯<b class='flag-5'>糾錯</b>機制

    DaVinci技術背景和規格

    電子發燒友網站提供《DaVinci技術背景和規格.pdf》資料免費下載
    發表于 10-09 09:29 ?0次下載
    DaVinci<b class='flag-5'>技術</b><b class='flag-5'>背景</b>和規格

    華怡豐開發出背景抑制系列傳感器產品

    英文全稱background suppression 即背景抑制的意思,背景抑制光電開關指的是一種檢測距離不受背景顏色影響的光電傳感器。
    的頭像 發表于 09-09 14:15 ?506次閱讀

    SDV的發展背景背景與功能

    SDV技術不僅是對傳統車輛功能的增強,更是對汽車性能、安全性及可定制性的一種全新定義。本文將深入探討SDV技術背景、功能。 1. SDV技術的發展
    的頭像 發表于 08-29 10:23 ?497次閱讀

    探討數字化背景下PMC的挑戰和機遇

    亟待解決的問題。 ? 一、數字化背景下的PMC挑戰 在數字化時代,信息的爆炸式增長和快速傳播給PMC管理帶來了前所未有的挑戰。傳統的PMC管理往往依賴于人工統計和經驗判斷,難以做到精確預測和及時響應。而數字化技術以其強大的數據處理
    的頭像 發表于 07-05 11:03 ?526次閱讀

    國內首顆,精準糾錯!德明利TWSC2985系列:支持4K LDPC技術的存儲芯片

    TWSC 2985 系列SD6.0存儲芯片 國內首顆支持4K LDPC糾錯技術 增強糾錯、耐久可靠、性能升級 ? 隨著移動計算和AI技術對數據存儲需求的增加,德明利憑借在閃存
    發表于 04-26 13:44 ?1111次閱讀
    國內首顆,精準<b class='flag-5'>糾錯</b>!德明利TWSC2985系列:支持4K LDPC<b class='flag-5'>技術</b>的存儲芯片

    背景音樂和藍牙進來的音樂,如何共享一個功放和喇叭?

    準備設計一個電路,包含用作背景音樂的芯片,和藍牙芯片,兩路音樂共用功放和喇叭。上電后默認由背景音樂芯片發出聲音,如果藍牙芯片連接上之后,播放 切換到藍牙輸出的音樂(不一定要立體聲)。 現在的問題是
    發表于 04-12 21:15

    LoRa調制解調器的優勢 LoRa調制解調器和Wi-Fi的區別

    LoRa調制解調器采用專利擴頻調制和前向糾錯技術,它融合了數字擴頻、數字信號處理和前向糾錯編碼技術
    的頭像 發表于 03-15 18:08 ?2138次閱讀
    LoRa調制解調器的優勢 LoRa調制解調器和Wi-Fi的區別

    黑白通吃的BGS背景抑制光電是如何做出來的?

    BGS英文全稱backgroundsuppression即背景抑制的意思,背景抑制光電開關指的是一種檢測距離不受背景顏色影響的光電傳感器。傳統的漫反型光電傳感器根據反射的光亮值進行檢測,由于光亮值
    的頭像 發表于 02-19 12:48 ?2000次閱讀
    黑白通吃的BGS<b class='flag-5'>背景</b>抑制光電是如何做出來的?
    主站蜘蛛池模板: 亚色九九九全国免费视频 | 超大BBWWW| 国自产拍 高清精品 | 秋霞成人午夜鲁丝一区二区三区 | 日韩精品免费一区二区 | 亚洲日韩欧美国产专区 | 主播蜜汁丝袜精品自拍 | 良家人妻无码专区九色颜射 | av在线观看地址 | 色欲久久综合亚洲精品蜜桃 | 青娱乐极品视觉盛宴av | 四川老师边上网课边被啪视频 | 国产精品成人自拍 | 欧洲vs美洲完整视频 | 成人国产精品视频频 | 岳打开双腿开始配合日韩视频 | 91国偷自产一区二区三区 | 欧美国产日韩久久久 | 敌伦小芳的第一次 | 久久精品亚洲热综合一本 | 精品无码久久久久久国产百度 | 午夜免费福利 | 肉动漫无码无删减在线观看 | 国产精品一区二区资源 | 一边摸一边桶一边脱免费 | 成人精品视频在线观看播放 | 丰满的大白屁股ass 丰满大屁俄罗斯肥女 | 色婷婷综合久久久久中文一区二区 | 亚洲精品无码不卡在线播放he | 91麻豆久久 | 三级在线观看网站 | 日本久久网站 | 无码人妻精品一区二区蜜桃色欲 | 国产在线观看免费观看 | 好大好爽CAO死我了BL | 国产成人在线小视频 | 亚洲成年人影院 | 被黑人群jian又粗又大H | 伊人久综合 | 最新国自产拍天天更新 | 亚洲精品一二三 |