作者:京東零售 高繼航
1 前言
2024年,京東零售技術自研的京點點AIGC內容生成平臺(以下簡稱“京點點”)已覆蓋電商運營涉及的20+核心場景,AI能力單日調用超1000萬次。“京點點”致力于電商場景下商品內容、營銷素材的智能化、自動化生產和運營,已幫助京東35萬+第三方商家一鍵AI生成店鋪運營所需的商品圖片、運營與營銷文案,提升內容制作效率和效果,降低商家內容制作成本。
“京點點”融合了電商內容生成、可控生成技術和多智能體協作等多種技術的融合創新,代表了AI技術在電商領域應用的最新突破,實現了高效、可控、智能的多模態內容生成和優化,榮獲“infoQ 2024中國技術力量年度榜單-2024 年度 AI 最佳實踐案例/方案”獎項。本文將對京點點實現高效、可控、智能的多模態內容生成和優化的創新實踐進行介紹。
2 背景介紹
2.1業務場景
“京點點” https://ai.jd.com/是一款專為電商人打造的AI設計工具,平臺基于大模型+AI能力改變傳統的零售、電商內容生產模式,覆蓋AI圖片設計、AI文案寫作,無需專業人員,小白點一點就能生產專業的電商內容素材。
“京點點”已上線了三大AIGC能力:一是AI商品圖生成,用戶上傳商品普通拍攝圖或白底圖,系統可自動摳圖并結合電商數據推薦合適的場景模板,生成高質量商品場景圖,還能AI添加商品核心賣點文案、營銷利益點等變為商品主圖、商品詳情圖、商品營銷圖等素材;二是AI營銷文案生成,用戶輸入京東商品SKU編號或名稱,系統能從相關商品中提取賣點信息,按用戶需求的文章風格生成營銷文案;三是面向所有設計師的風格模型訓練平臺,可根據設計師的風格傾向需求,對商品場景圖、營銷設計元素、營銷海報圖等進行云端自助lora訓練,實現精準控制和快速出圖。
目前,“京點點”面向京東商家、集團員工、京東生態伙伴進行全量開放,同時能力接入到京東各個核心B端產品中,包括智能摳圖、智能文案、商品場景圖/模特圖生成、AI搭配購等功能,提升商家內容制作效率和效果,降低商家內容制作成本。
2.2技術挑戰
在“京點點”打造與業務實際應用過程中,AI內容生成技術面臨著以下幾個方面的技術問題:
(1)數據處理難度大
電商行業涉及海量的商品信息和用戶數據,如何有效地收集、整理和分析這些數據,以訓練出準確的文生圖基底模型,是一個巨大的挑戰。海量的零售圖片數據需要進行高效處理和分析,這不僅需要強大的計算能力,還需要先進的數據處理技術和算法,以確保數據的質量和準確性。
(2)圖像生成精準控制困難
在電商領域,商品圖像的質量和效果直接影響消費者的購買決策。因此,如何精確控制圖像的輪廓、風格、視角和布局,同時確保商品的一致性,是一個亟待解決的問題。傳統的圖像生成技術往往難以實現對圖像的精細控制,導致生成的圖像無法滿足電商企業的個性化需求。
(3)營銷文案生成的準確性和風格問題
營銷文案是電商內容的重要組成部分,它不僅需要準確地傳達商品的信息和特點,還需要具備吸引消費者的語言風格。然而,大模型幻覺問題導致營銷文案的準確性和語言風格難以滿足實際需求,這使得電商用戶在營銷推廣方面面臨著一定的困難。
(4)模型優化與適應性
電商市場變化迅速,消費者的需求和喜好也在不斷變化。因此,如何根據用戶反饋和市場趨勢不斷優化生成模型,使其更好地適應電商業務的實際需求,是一個持續的挑戰。傳統的模型往往缺乏靈活性和適應性,難以快速響應市場的變化。
3 技術實踐
3.1 技術創新和實踐
為了解決上述問題,“京點點”進行了一系列的技術創新和實踐,致力于為電商行業提供高質量、高效率的內容生成解決方案。
(1)先進的文生圖基底
?海量數據訓練:“京點點”通過使用海量的零售圖片數據訓練京東的文生圖基底模型。這些數據涵蓋了各種商品類型、風格和場景,使模型能夠對商品和銷售有更深入的理解。為了提高數據處理效率,平臺自研了高效海量數據處理平臺,能夠快速生產和迭代基底訓練數據。
?先進技術框架:基底模型采用了 DiT 框架和 Flow Matching 技術,實現了快速進化。DiT 框架是一種基于深度學習的圖像生成框架,它能夠有效地捕捉圖像的特征和結構,生成更加真實、自然的圖像。Flow Matching 技術則是一種用于圖像生成的概率模型,它能夠提高生成圖像的多樣性和準確性。通過這些先進技術的應用,“京點點”能夠在商品主圖、商品詳情、營銷、廣告等場景中生成更加真實、合理的圖片資產,為電商企業提供更具吸引力的視覺內容。
(2)Zero-Shot 可控生成框架
?圖像特征一致性注入:自主研發的 ReferenceNet 能夠實現對圖像特征一致性的零樣本注入。這意味著在不需要大量標注數據的情況下,平臺可以以極低的成本確保商品的一致性。通過 ReferenceNet,平臺能夠提取商品的關鍵特征,并將其應用于圖像生成過程中,從而保證生成的圖像能夠準確地反映商品的特點和屬性。
?精確圖像控制:自研的 ControlNet 可以對圖像的輪廓、風格和布局進行精確控制。與傳統的圖像控制技術不同,京點點 的 ControlNet 解決了業內 ControlNet 對基礎模型的負面影響,在良好控制下不會降低基礎模型的生成效果。這使得平臺能夠根據商品的特征和風格需求,生成高度真實且富有創意的圖像,為商品展示提供更加生動、吸引人的視覺效果。
(3)多技術融合創新
?多模態商品理解模型:在營銷文案生成方面,“京點點”自研了多模態商品理解模型。該模型能夠綜合分析商品的圖像、文字描述、用戶評價等多模態信息,構建商品的 FAB(Feature, Advantage, Benefit)知識庫。這個知識庫涵蓋了商品的規格參數、優勢、用戶使用場景等多維度信息,為營銷文案的生成提供了豐富的素材和依據。
?RAG 方案與知識融合:平臺使用 RAG(Retrieval-Augmented Generation)方案結合商品知識與大語言模型能力,撰寫事實準確且語言風格接地氣的營銷文案。RAG 方案通過在生成過程中引入相關的知識和信息,有效地改善了大模型幻覺問題,提升了營銷文案的寫作效果。生成的營銷文案不僅能夠準確地傳達商品的信息和特點,還能夠以生動、有趣的語言風格吸引消費者的注意力,提高商品的銷售轉化率。
(4)強化學習與優化
?用戶反饋與數據驅動優化:“京點點”引入了強化學習機制,根據用戶反饋和京東商品數據,不斷優化生成模型的參數和策略。通過收集用戶的行為數據、評價數據和購買數據等,平臺能夠深入了解用戶的需求和喜好,從而針對性地調整生成模型的參數和策略,使生成的內容更加符合用戶的期望。
?緊密結合電商業務:平臺與實際電商業務緊密結合,實時調整生成策略。根據市場趨勢、商品銷售情況和用戶需求的變化,平臺能夠及時調整內容生成的方向和重點,為電商用戶提供更加具有針對性和時效性的內容。例如,在促銷活動期間,平臺可以生成更多與促銷相關的營銷文案和圖片,以提高活動的效果和影響力。
3.2 技術實踐效果
“京點點”面向京東商家、集團員工、京東生態伙伴進行全量開放,同時能力接入到京東各個核心B端產品中,包括智能摳圖、智能文案、商品場景圖/模特圖生成、AI搭配購等功能。幫助用戶在商品圖、商品營銷文案等內容制作的效率提升高達95%以上,從原來的天級降低到秒級。成本由原來單張商品圖50-2000元降低99%以上。
以AI生圖為例:
在圖片生產人力與時間、生產成本、生產效果等方面,“京點點”AI生圖相較傳統人工生產有顯著優勢。如在家裝 2D 場景圖場景和時尚穿搭試衣場景中:
AI生圖相比傳統人工作圖具有顯著優勢。從人力與時間方面看,傳統人工制作家裝 2D 場景圖和時尚穿搭試衣圖均為 10 張/人/天,而京點點AI生圖分別可達 5000 張/0.1 人/天,內容制作的效率提升高達95%以上。在成本上,傳統人工制作家裝場景圖 500 元/張,時尚場景圖 2000 元/張,而京點點AI生圖的內容制作成本降低超過99%。此外,京點點 AI生圖無需物理空間和專業設計師,實習生即可完成符合業務質量需求的圖片,這進一步減少了對內容生產專業資源的依賴,為家裝和時尚領域帶來了新的可能性。
3.3技術與資源投入性價比
除了要達到最佳的生成質量,還需要盡可能減少資源投入,實現業務應用的最佳投入產出。“京點點”創新性地采用了大模型加速方案和大小模型聯合推理技術算法,針對電商領域的特定需求,顯著提升了資源利用效率,相較于傳統的單一大模型方案,在內容生成質量效果一致的情況下,資源投入度減少高達90%。以下是對兩種技術方案的詳細對比分析:
類型 | 單一通用大模型方案 | 京點點方案 |
---|---|---|
模型推理方面 | 通用大模型方案針對場景更廣最零售場景不會做特意的優化,很難做大性能和效果的平衡。 | 我們基于零售用戶信息,分析用戶生成商品圖片的習慣、品類分布和場景分布,動態調整模型調用策略。通過大小模型聯合推理,極大降低了生成成本;并采用模型加速方案,將推理成本降低了60%以上。 |
模型應用方面 | 缺乏針對性傳統模型應用:在應用于電商領域時,可能由于缺乏對電商特定需求的深入理解,導致生成的內容不夠精準和實用,從而多次生產導致資源浪費。 | 多模態融合的先進性:利用多模態技術,將圖像生成、文本生成、數據挖掘等多種智能體有機結合,提升了內容生成的多樣性和創意性,滿足電商場景下對高質量商品圖和營銷文案的需求,生成次數從8-10次減少到1-2次即可達到應用效果,降低75%以上。 |
服務擴展方面 | 服務擴展的低效性:當某一垂類請求量激增時,單一大模型需整體擴展服務資源,導致不必要的硬件投入和運維成本增加,資源利用率低下。 | 按需擴展的靈活性:針對高請求量的垂類應用,平臺僅需擴展相應智能體的服務資源,避免了整體服務的冗余擴展。這種按需擴展的策略不僅提高了資源利用率,通過動態資源調度,減少了GPU的數量,提升了約50%使用率,還降低了運維成本。 |
平臺建設方面 | 高成本傳統建設:需要構建龐大的硬件基礎設施和復雜的軟件架構,導致建設成本高、維護難度大。 | 模塊化迭代的高效性:將不同功能模塊化為獨立的智能體,如商品圖生成智能體、文案生成智能體等,實現了針對特定場景的輕量化迭代。各智能體可根據實際需求獨立更新,無需全局重訓練,大幅節約計算資源。 |
3.4技術實踐突破原因
“京點點”能夠取得這些技術實踐突破,主要得益于以下幾個方面:
(1)業務引領用戶為先:“京點點”始終以業務發展為引領,和京東家部、京東時尚、京東大商超、京麥、京準通等兄弟業務部門緊密合作,圍繞電商行業的需求和趨勢,不斷探索新的技術應用和業務模式。通過精準的行業洞察和業務規劃,“京點點”AI生成能力實現業務的快速增長。
(2)專業的技術團隊:“京點點”擁有一批專業的算法、技術人才,他們具備豐富的人工智能和電商領域的經驗。這些技術人才不斷探索和創新,深入研究電商行業的需求和痛點,致力于解決技術難題,推動平臺的技術發展和應用。
(3)平臺數據優勢:依托京東豐富的電商數據資源,“京點點”能夠為模型訓練提供大量的高質量數據。這些數據涵蓋了商品信息、用戶行為、市場趨勢等多個方面,為模型的準確性和泛化能力提供了有力的支持。通過對這些數據的深入分析和挖掘,平臺能夠更好地理解用戶需求和市場動態,從而為電商用戶提供更加精準和有效的內容生成服務。
(4)持續投入和研發:公司對“京點點”的研發給予了高度重視,不斷投入資源進行技術改進和優化。這種持續的投入和研發使得平臺能夠始終保持領先的技術水平,不斷推出新的功能和服務,滿足電商行業不斷變化的需求。
4、未來展望
通過“京點點”探索電商領域中 AI 技術與內容生產協同的前沿應用,解決了行業中電商內容生成效率低下、內容生產成本高、內容生產質量參差不齊的問題,提供了寶貴的實踐經驗和可復制的模式。未來我們也將在以下幾方面繼續投入資源打造提升:
(1)生成式技術優化與升級,用戶一鍵出“好”圖
“京點點”將繼續致力于生成式技術的優化與升級,通過模型改進、效率提升、多模態融合、多智能體協同等技術優化,提升AI生成內容結果的質量、效率,從而生成更加高質量、符合用戶需求的內容。從用戶一鍵出圖到一鍵出“好”圖的提升。
(2)融入業務數據的AI生成,工具到經營助手進化
當“京點點”生成內容的質量達到基礎要求后,通過融入業務客觀的數據反饋,如商品主圖分析關注、點擊、轉化效果好的內容所具有的特征,以此反哺大模型,使其能夠進行持續的自學習和訓練進化。這樣一來,京點點生成的內容就能更好地適應市場需求的變化,能夠及時幫助用戶調整自己經營策略,提高市場反應速度,激發創新活力,從而推動用戶經營提升。
(3)加強與業務的深度融合,拓展更多AI+應用場景
“京點點”團隊更加緊密地與業務團隊合作,深入了解業務需求,不斷優化內容生成策略,以提高商品的銷售效果和用戶體驗。除了現有業務領域家裝2D搭配場景圖、時尚AI穿搭、京麥商家AI提效等聯合共建AI+業務場景外,我們將探索將AI+應用于更多的業務領域,為更多業務領域提供高效、智能的內容創作解決方案。
(4)打造更多普適性與可復制性的AI生成技術解決方案
“京點點”采用了電商場景的文生圖基底、Zero-Shot 可控生成框架、多智能體協同、強化學習與優化深度整合的技術路線,有效克服了通用大模型在特定產業應用中的能力瓶頸,包括專業領域知識精準度不足、復雜任務處理能力有限,以及單一模型難以實現高效多模態協同等問題。通過模塊化設計、可插拔的智能體架構以及靈活的領域知識注入機制,確保了系統在不同電商場景中的高度適應性和可擴展性,將來將打造更多普適性與可復制性AI生成技術解決方案,如AI生成視頻、AI生成音頻等,為其它行業、京東其它產品在面對類似挑戰時提供了系統化的解決方案和可借鑒的技術框架。
審核編輯 黃宇
-
模態
+關注
關注
0文章
9瀏覽量
6273 -
AIGC
+關注
關注
1文章
367瀏覽量
1580
發布評論請先 登錄
相關推薦
評論