色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

搜索出生的百川智能大模型RAG爬坑之路總結

深度學習自然語言處理 ? 來源:NLP PaperWeekly ? 2024-01-05 15:02 ? 次閱讀

今天對百川的RAG方法進行解讀,百川智能具有深厚的搜索背景,來看看他們是怎么爬RAG的坑的吧~

總的來說,百川通過長上下文模型(192k)+搜索增強結合的方法來解決知識更新,降低模型幻覺的問題,使得其在5000萬tokens的數據集中取得95%的精度。其主要在以下幾個方面做優化:

1) Query拓展:這是我自己取的名字,可能不太準確,其主要參考Meta的CoVe[1]以及百川自研的Think Step-Further方法對原始用戶輸入的復雜問題進行拆解、拓展,挖掘用戶更深層次的子問題,借助子問題檢索效果更高的特點來解決復雜問題檢索質量偏差的問題。

2) 優化檢索鏈路:采用稀疏檢索+向量檢索+Rerank結合的方法,來提高檢索的召回率和準確率。并且其自研的Baichuan-Text-Embedding向量模型也登頂了C-MTEB語義向量評測標準。

3) 自我反省機制:百川智能通過self-Critique大模型自省機制來篩選更優質、知識密度更高的內容。

一、概述

1Motivation

1.1 當前檢索增強RAG方法痛點

成本高、召回偏低:擴展上下文窗口+引入向量數據庫能以非常低的成本提高模型對新知識的接入能力,但是擴展上下文窗口容量有限(128k最多容納23萬漢字,相當于658kb文檔),成本比較高,性能下降明顯。向量數據庫也存在召回率偏低、開發門檻高等缺點。

用戶輸入變復雜:與傳統關鍵詞或者短語搜索邏輯不太一致,用戶輸入問題不再是詞或者短句,而是轉變成自然對話聲知識多輪對話數據,問題形式更加多元,緊密關聯上下文,輸入風格更加口語化。

1.2 RAG是當前大模型落地降低幻覺、更新數據的有效方法之一

行業大模型解決方案有后訓練(Post-Train)和有監督微調(SFT),但是仍然無法解決大模型落地的幻覺和實效性問題。

后訓練(Post-Train)和有監督微調(SFT)每次需要更新數據,重新訓練,還可能會帶來其他問題,成本比較大。

2Methods

省流版總結:

百川將長窗口與搜索/RAG(檢索增強生成)相結合,形成長窗口模型+搜索的完整技術棧。

百川RAG方案總結:Query 擴展(參考Meta CoVe + 自研Think Step-Further) + 自研Baichuan-Text-Embedding向量模型 + 稀疏檢索(BM25、ES) + rerank模型 + 自研Self-Critique技術(過濾檢索結果)。

2.1 Query擴展

背景:與傳統關鍵詞或者短語搜索邏輯不太一致,用戶輸入問題不再是詞或者短句,而是轉變成自然對話聲知識多輪對話數據,問題形式更加多元,緊密關聯上下文,輸入風格更加口語化。

目的:拆解復雜的prompt,檢索相關子問題,并深度挖掘用于口語化表達中深層次含義,借助子問題檢索效果更高的特點來解決復雜問題檢索質量偏差的問題。

方法:參考Meta CoVe[1]以及Think Step-Further的方法,對用戶原始的Query進行擴展,拓展出多個相關問題,然后通過相關問題去檢索相關內容,提高召回率。

百川Query擴展方案:

9a30d1cc-ab6e-11ee-8b88-92fbcf53809c.png

Meta CoVe方案:

9a3626ea-ab6e-11ee-8b88-92fbcf53809c.png

2.2 自研Embedding模型

數據:在超過1.5T tokens(看著訓練百川模型的數據都來訓embedding模型了?)。

方法:采用無監督方法(估計類似SimCSE[2]系列),通過自研損失函數解決對比學習方式依賴batchsize問題。

效果:登頂C-MTEB,在分類、聚類、排序、檢索和文本相似度5個任務評分取得領先。

9a3a141c-ab6e-11ee-8b88-92fbcf53809c.png

2.3 多路召回+rerank

方法:稀疏檢索+向量檢索 + rerank模型。其中稀疏檢索應該是指BM25、ES等傳統檢索的方法,rerank模型百川沒有提到,不確定是用大模型來做rerank還是直接訓練相關rerank模型來對檢索結果排序。

效果:召回率95%,對比其他開源向量模型召回率低于80%。

2.4 self-Critique

方法:讓大模型基于 Prompt、從相關性和可用性等角度對檢索回來的內容自省,進行二次查看,從中篩選出與 Prompt 最匹配、最優質的候選內容。

目的:提升檢索結果的知識密度和廣度,降低檢索結果中的知識噪聲。

9a3f13fe-ab6e-11ee-8b88-92fbcf53809c.png

3 Conclusion

百川192K上下文模型表現不錯,實現了100%的回答精度。

9a51553c-ab6e-11ee-8b88-92fbcf53809c.png

長上下文窗口模型+搜索增強技術使5000萬Tokens數據集達到95%的回答精度。

9a56555a-ab6e-11ee-8b88-92fbcf53809c.png

二、總結

多輪問答等場景的召回和傳統搜索引擎的召回分布還不太一樣。百川借助子問題檢索效果更高的特點,對原始復雜問題進行拆解、拓展來解決復雜問題檢索質量偏差的問題。

對于沒見過的語料直接用向量檢索的結果可能不太理想。百川在大量語料上利用無監督方法訓練embedding模型來優化效果。而行業大模型更傾向于私有的數據,要提升私有數據的訓練效果還得繼續在私有化數據上訓練效果會更佳。

Query拓展 + 多路召回 + Rerank + self-Critique可能是現階段比較好的一種RAG方式,但是其也會帶來更多成本。總體思路有點像ReAct[3]系列的進階版本,其在搜索側和答案修正側都做了更多的一些工作來優化實際效果。其缺點是需要多次調用大模型,會帶來額外的成本,真實線上是否采用這種策略還有待驗證。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SFT
    SFT
    +關注

    關注

    0

    文章

    9

    瀏覽量

    6821

原文標題:百川智能RAG方案總結:搜索出生的百川智能大模型RAG爬坑之路

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    白海科技與百川智能順勢而為、攜手共進,助力領域大模型應用快速落地

    (2023年08月08日,中國北京訊)近日,AI基礎軟件服務商白海科技與國內領先的AGI服務企業百川智能宣布達成戰略合作協議。這次合作旨在加速大語言模型在各行各業的應用,并為客戶提供智能
    的頭像 發表于 08-08 14:23 ?1092次閱讀

    百川ESD產品簡介 2017版

    百川ESD產品簡介
    發表于 10-09 16:26 ?0次下載

    海基新能源再獲百川股份資金加持

    海基新能源為百川股份參股公司,此次增資前,百川股份合計持股26.55%。百川股份表示,本次增資有利于擴大海基新能源鋰電項目產能規模,滿足其未來發展對資金的需求。
    的頭像 發表于 12-28 10:11 ?3716次閱讀

    百川的大模型KnowHow介紹

    模型是一個實驗工程,涉及數據清洗、底層框架、算法策略等多個工序,每個環節都有很多,因此知道如何避和技術選型非常重要,可以節省很多算力和時間。
    的頭像 發表于 09-18 10:28 ?1325次閱讀

    百川智能獲阿里騰訊小米等3億美元投資

    百川智能推出了4款開源baichuan-7b/13b、baichuan 2-7b/13b的免費商用產品和baichuan-53b、baichuan 2-53b的閉源大模型,平均每28天推出一次新的大
    的頭像 發表于 10-17 10:15 ?773次閱讀

    百川智能發布Baichuan2 Turbo系列API,或將替代行業大模型

    在當天的媒體溝通會上,百川智能創始人、CEO王小百川智能聯合創始人、聯席總裁洪濤,百川
    的頭像 發表于 12-20 16:54 ?996次閱讀

    百川智能發布超千億大模型Baichuan 3

    百川智能近日發布了超千億參數的大語言模型Baichuan 3,引發了業界的廣泛關注。這款模型在多個權威通用能力評測中表現卓越,展現了其強大的語義理解和生成能力。
    的頭像 發表于 01-31 14:58 ?873次閱讀

    數勢聯動百川,發布首批大模型聯合解決方案,推動中國大模型價值落地

    近日,行業領先的數據智能產品提供商北京數勢云創科技有限公司(以下簡稱“數勢科技”)和國內通用大模型廠商北京百川智能科技有限公司(以下簡稱“百川
    的頭像 發表于 02-28 11:40 ?493次閱讀
    數勢聯動<b class='flag-5'>百川</b>,發布首批大<b class='flag-5'>模型</b>聯合解決方案,推動中國大<b class='flag-5'>模型</b>價值落地

    百川智能與北京大學將共建通用人工智能聯合實驗室

    近日,百川智能與北京大學攜手合作,共同簽署了“北大——百川通用人工智能聯合實驗室”的共建協議,標志著雙方在人工智能領域邁出了堅實的合作步伐。
    的頭像 發表于 03-21 11:45 ?920次閱讀

    百川智能發布Baichuan 4大模型及首款AI助手“小應”

    百川智能近日發布了其新一代基座大模型Baichuan 4,并同步推出了首款AI助手“小應”。這款AI助手是在Baichuan 4強大能力的基礎上,結合先進的
    的頭像 發表于 05-23 14:15 ?633次閱讀

    亞馬遜云科技接入百川智能和零一萬物基礎模型

    近日,亞馬遜云科技在中國峰會上宣布,兩大中文基礎模型——百川智能的Baichuan2-7B和零一萬物的Yi-1.5 6B/9B/34B,即將或已正式登陸中國區域的SageMaker JumpStart。這一舉措為中國企業提供了豐
    的頭像 發表于 06-04 11:53 ?585次閱讀

    百川智能完成50億元A輪融資

    近日,國內領先的醫療AI大模型企業——百川智能,正式宣布完成了高達50億元人民幣的A輪融資,這一里程碑式的融資不僅彰顯了市場對其技術實力與未來發展潛力的高度認可,也為公司的后續發展奠定了堅實的資金基礎。
    的頭像 發表于 07-26 16:42 ?479次閱讀

    模型廠商“輸血”不斷,百川智能完成50億元A輪融資!

    有重磅消息曝出:知名大模型公司百川智能已經成功收獲了價值50億元的A輪融資。由此,我們不禁感嘆,大模型廠商們的“輸血”和“續命”之戰,還在激烈的上演著。
    的頭像 發表于 07-31 14:47 ?641次閱讀
    大<b class='flag-5'>模型</b>廠商“輸血”不斷,<b class='flag-5'>百川</b><b class='flag-5'>智能</b>完成50億元A輪融資!

    百川智能發布一站式大模型商業化解決方案

    近日,百川智能正式推出了一站式大模型商業化解決方案,旨在為企業提供更加全面、高效的大模型應用服務。該解決方案以1+3產品矩陣為核心,包括全鏈路優質通用訓練數據、Baichuan4-Tu
    的頭像 發表于 11-01 18:01 ?844次閱讀

    百川智能發布Baichuan4-Finance金融大模型

    近日,百川智能正式推出了其全鏈路領域增強的金融大模型——Baichuan4-Finance。這一創新產品的發布,標志著百川智能在金融
    的頭像 發表于 12-25 10:11 ?203次閱讀
    主站蜘蛛池模板: 天天躁人人躁人人躁狂躁| xiao77唯美清纯| 久久www成人看片| mxgs-877痉挛媚药按摩| 亚洲精品动漫免费二区| 强开少妇嫩苞又嫩又紧九色| 黑人巨摘花破女处| 动漫美女无衣| 4399日本电影完整版在线观看免费 | 3344永久在线观看视频免费| 玩弄放荡人妻一区二区三区| 女人高潮久久久叫人喷水| 九九热在线视频| 国产精品自在在线午夜精品| 扒开老师大腿猛进AAA片软件| 一品道门免费视频韩国| 小sao货ji巴cao死你视频| 日本午夜福利无码高清| 美女伊人网| 久久亚洲午夜牛牛影视| 护士日本xx厕所| 国产人妻精品无码AV在线五十路| 抽插内射高潮呻吟V杜V| 99在线免费| 94色94色永久网站| 中文字幕福利视频在线一区| 妖精视频在线观看高清| 亚洲国产成人精品青青草原100| 我就去色色| 午夜福利免费0948视频| 三叶草未满十八岁| 日本50人群体交乱| 欧美性最猛xxxx在线观看视频| 麻豆AV久久AV盛宴AV| 快穿之诱受双性被灌满h| 久久视频这里只精品99热在线观看| 狠狠色狠狠色综合日日91app| 国模孕妇模特季玥之粉红| 国产在线精品视频二区| 国产麻豆AV伦| 国产一区在线观看免费|