色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

內部業務支撐&前瞻技術布局 One4All下一代生成式推薦系統

京東云 ? 來源:京東零售 申磊 ? 作者:京東零售 申磊 ? 2025-03-19 11:34 ? 次閱讀

作者:京東零售 申磊

自LLM在自然語言處理等領域取得了矚目成就之后,學術界積極探索生成式模型對搜廣推系統的增強或改進方式[1],現有工作大體可以分為兩類[2]:(1)用大模型做數據和知識增強、提取表征、通過prompt將推薦轉成對話驅動的任務等,本質上沒有修改LLM,屬于信息增強和補充方法,無法直接建模海量協同信號。 (2)修改LLM直接建模搜廣推海量數據中的協同信號,對輸入輸出范式改造,通過預訓練/微調等過程建模海量數據,讓模型同時擁有通用的世界知識和垂直領域海量協同信息。是能實現搜廣推大模型scaling的前提,需要更復雜的工程架構支持。第一類工作層出不窮,第二類工作是搜廣推值得探索的前沿方向之一。2024年至今,業界在第二類工作中也有一些相關進展和成果,例如,GR(Meta)[3]、HLLM(字節)[4]、NoteLLM(小紅書)[5]、NoteLLM-2(小紅書)[6]、OneRec(快手)[7]。

CPS算法組也在生成式推薦方向上進行了一系列工作,在探索前沿技術的同時提升業務效果。關于生成式推薦系統、CPS聯盟廣告、以及第一階段的工作內容介紹可以參考我之前撰寫的文章: 生成式推薦系統與京東聯盟廣告-綜述與應用。下面,我將介紹在此文章發布之后的近期工作進展。本文進一步梳理了業務需求,并以此總結出核心技術點,針對CPS廣告的特點,對前鏈路的用戶意圖和后鏈路的多目標進行感知和建模,從而進行推薦全鏈路優化。


二、業務需求&核心技術點

CPS廣告推薦主要針對站外用戶進行多場景推薦。業務需求包括精準感知用戶意圖、進行多目標優化以兼顧收益與用戶活躍度,以及利用和兼容多種場景和任務數據。圍繞這些需求,我聚焦于顯式意圖感知的可控商品推薦、推薦效果的多目標優化、One4All生成式推薦框架這三項核心技術,分別對應生成式模型的指令遵循微調階段、偏好對齊階段以及數據到模型的全流程范式。

wKgZO2faOxOADxG-AALNoGNPVXw503.png

CPS廣告推薦業務需求與核心技術點的關系

wKgZPGfaOxWAGJBnAATmgFgYxLY077.png

CPS廣告推薦的核心技術點與生成式推薦框架


三、顯式意圖感知的可控商品推薦

wKgZO2faOxaAULpZAAK8aL5Qh44936.png

顯式意圖感知的可控商品推薦示意圖

背景介紹

現有方案匯總

落地頁商品推薦是站外廣告很重要的一種形式,對應的研究課題是觸發誘導推薦(Trigger-Induced Recommendation, TIR),現有方案包含如下三類:

?基于歷史行為序列隱式建模用戶意圖;

?利用觸發項進行I2I召回或通過sku2query生成搜索詞再進行商品檢索;

?通過三個網絡來分別表示觸發項、建模用戶歷史行為和預估權重來融合前兩者,例如,DIHN、DIAN、DEI2N和DUIN[8、9、10、11]。

wKgZPGfaOxiAcXc4ABNA1GIWkss407.png

一些觸發誘導推薦方案


業務需求&現有方案局限性

wKgZO2faOxmAdwk7AAI99cJXZrQ167.png

顯式意圖感知的可控商品推薦業務需求與現有方案局限性


解決方案

(1) 通過傳統推薦數據自動化地生成豐富的意圖描述,以意圖文本+歷史商品語義ID序列作為輸入,目標商品語義ID作為輸出的方式 (2)重構觸發誘導推薦的任務范式,利用 (3)生成式指令遵循微調的方式實現對歷史行為和觸發項的感知和動態調控。


自動化意圖生成和評估

?輸入“用戶行為數據+目標商品”;

?基于Few-shot Prompting和CoT策略,通過言犀-81B模型對用戶行為數據進行總結、推理,并預測當前意圖;

?輸出“總結-推理-預測”的三元組數據;

?利用Self-Verification的方式對生成的顯性意圖進行評估。

wKgZPGfaOxqAEfzRAAOG5HhsgnQ495.png


輸入輸出范式+指令遵循微調

?將數據組織成“Input: [Prompt]. Output: [Response]”的形式,在序列推薦的基礎上增加三類任務,其輸入輸出數據定義如下:

wKgZO2faOxyAIfXEAAaLWjYZwZI105.png

顯式意圖感知的可控商品推薦任務定義及輸入輸出示例


方案效果

?離線效果:意圖感知的可控模型在HitRate和NDCG指標上,相比非意圖感知的模型可提升2~3倍,并且表現出較好的可控能力。

?線上效果:SKUCTR提升3%+,SKUCVR、同店訂單和同店傭金也獲得顯著提升。

wKgZPGfaOx2AN_4IAATKkdf11pI913.png

樣例展示1

wKgZO2faOx-AVqcNAAeQH-WTd7w038.png

樣例展示2

四、推薦效果的多目標優化

wKgZPGfaOyCAS4QaAAKYbgozGEo126.png

推薦效果的多目標優化示意圖


背景介紹

現有方案匯總

非LLM方法

?Shared Bottom、MMOE、PLE:通過共享和獨立網絡平衡多個任務[12、13];

?ESMM:通過全空間建模解決樣本選擇偏差問題[14]。

wKgZO2faOyKACROeAAi65H2bT5E610.png

一些多目標優化的非LLM方法

LLM方法

?MORLHF和MODPO:基于RLHF和DPO改進,對多個獎勵函數的線性加權[15、16];

?Reward Soups:對多個LLM的權重進行插值[17]。

?

wKgZO2faOyOADgduAARTnIu-dok977.png

?

一些多目標優化的LLM方法


業務需求&現有方案局限性

wKgZPGfaOyWAcCXBAAJVy765PFk634.png

推薦效果的多目標優化業務需求與現有方案局限性


解決方案

整合行為和價格數據,提高點擊到購買的轉化率,并最終提升廣告收益。


基于DPO的偏好對齊算法

?基于點擊商品預測模型,對“購買”偏好進行建模f(點擊->購買);

?以“點擊且購買”商品作為正例,“點擊未購買”商品作為負例,將數據組織成“Input: [Prompt]. Output1: [Response+]. Output2:[Response-]”的形式。

wKgZPGfaOyaARqf-AADLSO1mHMc062.png

?劣勢:DPO[18、19]僅考慮了f(點擊->購買),且是正負例間的相對關系,需要將數據組成三元組的形式,沒有利用到獎勵值。


基于RiC (Rewards-in-Context) 的偏好對齊算法

wKgZO2faOyiABtaLAAh-7Fg8D4A473.png

RiC框架圖

?離線訓練:把行為和收益相關的多種獎勵融入數據進行監督微調,讓模型學習不同獎勵組合下的策略

?數據形式:“Input: [Prompt]r1r2 ...rN”;

?獎勵設計:針對點擊、購買、價格、傭金獎勵進行設計,并歸一化。

?在線訓練:通過在帕累托前沿上的增強數據來改善數據稀疏問題

?產生隨機提示:在帕累托前沿附近分配獎勵,即除一維度外均賦最大值;

?離線SFT模型生成結果,獎勵模型評分,多目標拒絕采樣過濾樣本。

?推理階段:利用偏好到獎勵的映射,自由適應多樣化的用戶偏好

?優勢:(1) 僅通過監督微調就能實現LLM策略的對齊;(2) 同時利用正面和負面反饋,提升對獎勵機制的理解;(3) 擴展性非常強,覆蓋多種獎勵組合下的多樣化表現[20、21、22]。

wKgZPGfaOymAN7AaAAFM2IZ-S10995.png

RiC獎勵設計方案

wKgZO2faOyuAR1LpAACQCqqYDrE186.png

偏好到獎勵的映射函數

方案效果

?離線效果:HitRate@1在多個數據集上提升10%+;

?線上效果:SKUCTR提升1.5%+,SKUCVR提升7%+,同店訂單和同店傭金也獲得顯著提升。


五、One4All生成式推薦框架

背景介紹

業務需求

?CPS廣告推薦涉及多樣的業務場景,需要強化系統的跨場景適應性;

?需要優化框架中的模型更新策略,提升系統實時性與靈活性。


解決方案

設計可擴展框架兼顧行為和語義的理解與生成,提升推薦系統的泛化能力;同時優化模型更新策略,確保系統能夠靈活適用于不同任務和場景。


可擴展框架設計

wKgZPGfaOy-AKFU7AAYfdnjrxiw972.png

One4All生成式推薦框架示意圖


線上模型更新策略

wKgZO2faOzCAK1BHAAHF1_vIoHU209.png

線上模型更新策略


wKgZPGfaOzKAeLObAAVJOChd2T4453.png

線上模型更新策略示意圖


wKgZO2faOzSAJWMGAADCxurR-6g456.png

線上例行化更新信息

方案效果

?完成了線上例行化的開發,支撐CPS廣告每天1000w+UV的在線實時推理;

?基于One4All生成式推薦框架,在現有序列推薦主任務的基礎上兼容更多的行為和語言理解的任務,推動召排一體化、搜推聯合建模、用戶行為總結、個性化意圖推斷等技術的探索。


六、總結和未來展望

?交互式推薦系統(搜索推薦聯合)

?現有方案仍未更大限度激發生成式模型的效果和能力,交互式應用是值得嘗試的方向,同時需要配合上下游進行產品形式的重構。

?多模態信息理解與生成

?前鏈路中有豐富的圖片和視頻信息,對多模態信息進行高效地理解和內容組織,可以增強推薦效果和提升展示形式的豐富程度。

最后打個小廣告:

歡迎對生成式推薦系統感興趣的同學聯系我(erp: shenlei20)一起交流討論,也歡迎加入我們CPS算法組共同探索下一代交互式搜廣推系統!


七、參考文獻

1.Xu L, Zhang J, Li B, et al. Prompting large language models for recommender systems: A comprehensive framework and empirical analysis[J]. arXiv preprint arXiv:2401.04997, 2024.

2.知乎《一文梳理工業界大模型推薦實戰經驗》. 2024

3.Zhai J, Liao L, Liu X, et al. Actions speak louder than words: trillion-parameter sequential transducers for generative recommendations[C]//Proceedings of the 41st International Conference on Machine Learning. 2024: 58484-58509.

4.Chen J, Chi L, Peng B, et al. Hllm: Enhancing sequential recommendations via hierarchical large language models for item and user modeling[J]. arXiv preprint arXiv:2409.12740, 2024.

5.Zhang C, Wu S, Zhang H, et al. Notellm: A retrievable large language model for note recommendation[C]//Companion Proceedings of the ACM Web Conference 2024. 2024: 170-179.

6.Zhang C, Zhang H, Wu S, et al. NoteLLM-2: multimodal large representation models for recommendation[J]. arXiv preprint arXiv:2405.16789, 2024.

7.Deng J, Wang S, Cai K, et al. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment[J]. arXiv preprint arXiv:2502.18965, 2025.

8.Ma J, Xiao Z, Yang L, et al. Modeling User Intent Beyond Trigger: Incorporating Uncertainty for Trigger-Induced Recommendation[C]//Proceedings of the 33rd ACM International Conference on Information and Knowledge Management. 2024: 4743-4751.

9.Shen Q, Wen H, Tao W, et al. Deep interest highlight network for click-through rate prediction in trigger-induced recommendation[C]//Proceedings of the ACM web conference 2022. 2022: 422-430.

10.Xia Y, Cao Y, Hu S, et al. Deep intention-aware network for click-through rate prediction[C]//Companion Proceedings of the ACM Web Conference 2023. 2023: 533-537.

11.Xiao Z, Yang L, Zhang T, et al. Deep evolutional instant interest network for ctr prediction in trigger-induced recommendation[C]//Proceedings of the 17th ACM International Conference on Web Search and Data Mining. 2024: 846-854.

12.Ma J, Zhao Z, Yi X, et al. Modeling task relationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining. 2018: 1930-1939.

13.Tang H, Liu J, Zhao M, et al. Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations[C]//Proceedings of the 14th ACM conference on recommender systems. 2020: 269-278.

14.Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 1137-1140.

15.Zhou Z, Liu J, Shao J, et al. Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 10586-10613.

16.Li K, Zhang T, Wang R. Deep reinforcement learning for multi-objective optimization[J]. IEEE transactions on cybernetics, 2020, 51(6): 3103-3114.

17.Rame A, Couairon G, Dancette C, et al. Rewarded soups: towards pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards[J]. Advances in Neural Information Processing Systems, 2023, 36: 71095-71134.

18.Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model[J]. Advances in Neural Information Processing Systems, 2023, 36: 53728-53741.

19.Wu J, Xie Y, Yang Z, et al. beta-DPO: Direct Preference Optimization with Dynamic beta[J]. Advances in Neural Information Processing Systems, 2025, 37: 129944-129966.

20.Lin X, Chen H, Pei C, et al. A pareto-efficient algorithm for multiple objective optimization in e-commerce recommendation[C]//Proceedings of the 13th ACM Conference on recommender systems. 2019: 20-28.

21.Hu J, Tao L, Yang J, et al. Aligning language models with offline learning from human feedback[J]. arXiv preprint arXiv:2308.12050, 2023.

22.Yang R, Pan X, Luo F, et al. Rewards-in-context: multi-objective alignment of foundation models with dynamic preference adjustment[C]//Proceedings of the 41st International Conference on Machine Learning. 2024: 56276-56297.

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    33443

    瀏覽量

    274013
  • 大模型
    +關注

    關注

    2

    文章

    2925

    瀏覽量

    3673
  • LLM
    LLM
    +關注

    關注

    1

    文章

    316

    瀏覽量

    628
收藏 0人收藏

    評論

    相關推薦

    下一代廣電綜合業務網上營業廳的特點與功能

    政策的出臺,面向下一代廣播電視網(NGB)的業務及其運營成為各廣電運營商的核心工作內容,廣電運營商提供的業務類型開始增多,從“單一業務”向“多業務
    發表于 04-23 11:33

    下一代定位與導航系統

    下一代定位與導航系統
    發表于 08-18 10:37

    2016CES:Atmel下一代觸摸傳感技術亮相

     2016年1月7日——全球微控制器(MCU)及觸控技術解決方案領域的領導者Atmel公司今日宣布,將把下一代壓力傳感技術應用于最新面向智能手機應用的maXTouchU系列。Atmel的壓力傳感
    發表于 01-13 15:39

    下一代自動測試系統體系結構

    本帖最后由 sinap_zhj 于 2016-4-16 14:52 編輯 下一代自動測試系統體系結構首先是信息共享和交互的結構,能夠滿足測試系統
    發表于 04-16 14:47

    如何利用新型Linux開發工具應對下一代嵌入系統設計挑戰?

    增添工程能力。這兩種模式都已被證明是成功的,但是每種做法都需各自的成本。那么我們該如何利用新型Linux開發工具應對下一代嵌入系統設計挑戰呢?
    發表于 07-30 06:05

    下一代SONET SDH設備

    下一代SONET/SDH設備
    發表于 09-05 07:05

    單片光學實現下一代設計

    單片光學 - 實現下一代設計
    發表于 09-20 10:40

    下一代測試系統:用LXI拓展視野

    下一代測試系統:用LXI拓展視野
    發表于 09-26 14:24

    下一代測試系統:用LXI推進愿景

    下一代測試系統:用LXI推進愿景(AN 1465-16)
    發表于 10-09 09:47

    請問Ultrascale FPGA中單片和下一代堆疊硅互連技術是什么意思?

    大家好, 在Ultrascale FPGA中,使用單片和下一代堆疊硅互連(SSI)技術編寫。 “單片和下一代堆疊硅互連(SSI)技術”是什么意思?謝謝娜文G K.
    發表于 04-27 09:29

    下一代超快I-V測試系統關鍵的技術挑戰有哪些?

    如何進行超快I-V測量?下一代超快I-V測試系統關鍵的技術挑戰有哪些?
    發表于 04-15 06:33

    用Java開發下一代嵌入產品

    ,進行了優化,還有簡潔的開發文檔。如果你是名Java程序員,并且準備好和我同加入機器間技術的潮流,或者說開發下一代改變世界的設備,那么就讓我們開始學習物聯網(IoT)把。在你開始嵌
    發表于 11-05 09:12

    面向下一代網絡的開放API技術研究

    開放API技術是在多網絡融合、多協議的下一代網絡中構筑開放的業務開發和運營環境的基礎。首先,從現有網絡的業務開發運營環境的缺陷出發,介紹了
    發表于 03-30 20:57 ?16次下載

    UltraScale如何支持下一代Ultra系統

    了解UltraScale如何支持下一代Ultra系統
    的頭像 發表于 01-08 07:13 ?2765次閱讀

    羅德與施瓦茨新一代示波器R&S MXO業界最快的波形捕獲率

    羅德與施瓦茨推出的全新R&S MXO 4系是下一代示波器的首個系列。R&S MXO 4示波器具備四通道,提供200 MHz、
    發表于 09-29 11:25 ?1309次閱讀
    主站蜘蛛池模板: 久 久 亚洲 少 妇 无 码 | 先锋影音av无码第1页 | 暖暖日本手机免费完整版在线观看 | 亚洲精品久久久无码一区二区 | 免费一级特黄欧美大片久久网 | a国产成人免费视频 | 人C交ZZZ0OOZZZ000 热综合一本伊人久久精品 热中文热国产热综合 | 伊人久久综合影院首页 | 野花香HD免费高清版6高清版 | 啦啦啦视频在线观看WWW | 成人性生交大片 | 久色乳综合思思在线视频 | 日韩av片无码一区二区不卡电影 | 精品国产在天天线在线麻豆 | 小学生偷拍妈妈视频遭性教育 | 直插下身完整的欧美版 | 国产精品欧美亚洲 | 东京热百度影音 | 久久精品国产免费播放 | 日本三级按摩推拿按摩 | 2022久久精品国产色蜜蜜麻豆 | 国产精品久久久亚洲偷窥女厕 | 久久9精品区-无套内射无码 | 熟妇少妇任你躁在线无码 | 尤蜜网站在线进入免费 | 一本久道视频无线视频 | 国产精品青青草原app大全 | 青娱乐极品视觉盛宴国产视频 | 人人射人人插 | 久草在线草a免费线看 | 99精品国产自在自线 | 日韩一区精品视频一区二区 | 久久国产高清字幕中文 | 在线观看视频中文字幕 | 无码任你躁久久久久久久 | 免费被靠视频动漫 | japanese幼儿videos | 特污兔午夜影视院 | 国产 有码 无码 电影 | 日本888 xxxx| 永久免费在线观看视频 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品