隨著互聯網逐漸步入大數據時代,運營商和用戶的行為不可避免的發(fā)生了改變和重塑。最為突出的變化是,大數據使得用戶行為“可視化”。利用海量數據精準生成的“用戶畫像”,可以使營銷推廣更加的精準、高效,這也成為了視頻營銷不可或缺的技術手段之一。
相較于傳統(tǒng)的用戶畫像,視達科用戶畫像基于用戶行為軌跡的實時追蹤和模型計算生成,用戶畫像更加細致,更注重細節(jié)拆分,進一步提高特征描繪的精準度,能夠精準定位不同用戶的觀影需求,從而提升服務質量。
(視達科用戶畫像系統(tǒng)架構)
在TF-IDF的基礎上,考慮了不同行為有不同的權重,且標簽會隨著時間而變化衰減。為了提高用戶標簽的準確度,視達科用戶畫像采用改進的IF-IDF算法計算標簽權重。
標簽值上的weights字段值,代表著2層意義:這個用戶的某標簽,其多個標簽值之間的重要程度;對于某標簽的一個標簽值,所有用戶之間的重要程度。
例如:用戶喜歡的影片類型這個標簽來說,會有多個標簽值:喜劇片、愛情片、恐怖片、科幻片...某用戶A,這標簽的幾個值:科幻片的權重是0.5,喜劇片的權重是0.3,則說明這用戶更喜歡“科幻片”。另一用戶B,這標簽的幾個值:科幻片的權重是0.7,恐怖片的權重是0.1,則說明用戶B比用戶A更喜歡科幻片。
TF-IDF權重函數:
w(u, t, T) = TF(u, t, T) * IDF(t, T) * degree(u, t, T) * (1 / (1 + decay(T) ) ) + w(u, t, T-1) * (decay(T) / (1 + decay(T)))
一、 多重召回策略,對海量數據進行篩選過濾
如何在海量的視頻內容中,篩選出一個模型組成內容庫。視達科采用了多種召回策略,綜合考慮視頻的熱度、相似度、動作等,根據用戶興趣標簽對視頻內容做截斷,高效從龐大的內容庫中篩選符合用戶喜好的一小部分內容。
(1)協同過濾召回
包括基于視頻、基于用戶的協同過濾推薦,前者依照視頻之間的相似性,將相似影片推薦給同一位用戶。例如:影片A與影片B相似,用戶喜歡影片A,則將影片B也推薦給用戶;后者依照用戶之間的相似性,將同一影片推薦給相似用戶,例如用戶A與用戶B相似,用戶A喜歡影片A,則將影片A也推薦給用戶B。
(2)熱榜召回
基于視頻播放頻率,形成視頻熱播榜單,將熱門影片推薦給其他用戶。例如:影片A在本時段內播放次數增多,成為熱播榜影片,則將影片A推薦給其他用戶。
(3)其他召回
除了上述兩種常規(guī)召回策略,我們還使用了喜好召回、人工規(guī)則召回等多重召回策略,把一個海量、無法把握的內容庫,變成一個相對小、可以把握的內容庫,再進入推薦模型。這樣能夠有效平衡計算成本和效果。
三、精準排序模型,實現個性化推薦
在用戶意圖明確時,我們用搜索引擎來解決視頻內容庫太大的問題,但當用戶的意圖不明確或者很難用清晰的語義表達,搜索引擎就無能為力。視達科通過精準的排序模型,將篩選后的小型內容庫進行重新排序,在用戶完全沒有需求目標的情況下給出的全局推薦,為其推送個性化的視頻內容。
(1)GBDT+LR
GBDT(Gradient Boost Decision Tree)是非線性模型,會建立多棵決策樹,但每棵樹擬合的是上一棵樹的殘差。
LR是廣義線性模型,速率快,對特征和特征組合要求高,在傳統(tǒng)效果預測方面使用廣泛。
使用GBDT結合LR進行推薦預測,facebook在2014年就進行了實踐,取得了很好的效果。
我們使用用戶畫像出來的興趣愛好、年齡、時段、時長等特征與用戶實際播放的影片的標簽屬性、演員、導演等特征作為輸入GBDT的輸入,GBDT的葉子結點作為LR的輸入進行訓練。推薦時使用該模型對被推薦用戶的召回集影片做預測排序,將靠前的推薦出去。
(2)深寬度模型
寬深度(Wide and deep)模型是谷歌2016年發(fā)布的,并在Google Play的應用推薦中實際使用,是經過檢驗的模型。
寬度模型用的是邏輯回歸,形式如下:
,其中X是特征向量,W是特征權重,b是偏置。
深度模型通過DNN來提供泛化能力,每個隱層激活方式表示如下:
其中l(wèi)表示第l個隱藏層,f是激活函數 。
深寬度模型最后的輸出過程公式表示就是:
是sigmoid函數 ,是組合特征,是深度模型輸出的權重,
寬深度模型結合傳統(tǒng)線性模型和深度模型,能兼顧記憶和歸納。寬度模型能根據歷史播放、瀏覽等行為相關性,推薦關聯產品;深度模型用于發(fā)現歷史行為中出現很少或未出現的特征組合。
四、智能調優(yōu),提高推薦準確度
采用智能調優(yōu)技術,將推薦效果進行評估,系統(tǒng)根據評估結果自動對各種推薦算法進行比例調優(yōu),不斷自動迭代,實現推薦準確度優(yōu)化提高的技術。
通過調整各類推薦算法間的分配比例,每次推薦任務會將任務分配給不同的推薦引擎,最終通過結果評估觀測哪種推薦引擎推薦效果更好,效果更好的下次自動分配更高比例任務。
基于改進的TF-IDF算法計算標簽權重,采取多重召回策略并進行精準排序,利用智能調優(yōu)技術,對用戶畫像進行精準刻畫,我們得以實時、精確、全面的了解用戶訴求,為用戶的個性化服務提供及時有效的數據支撐,全方位提升用戶體驗,進一步提高視頻運營服務質量。
企業(yè)簡介
視達科,初靈信息(股票代碼:300250)全資子公司,以“創(chuàng)造一流視頻體驗”為愿景,通過數據推動決策與運營,助力合作伙伴的視頻業(yè)務不斷增長。
-
互聯網
+關注
關注
54文章
11170瀏覽量
103511 -
大數據
+關注
關注
64文章
8897瀏覽量
137550 -
用戶畫像
+關注
關注
0文章
7瀏覽量
2424
原文標題:【深度】基于視達科用戶畫像,精準定位用戶需求
文章出處:【微信號:iptvott,微信公眾號:流媒體網】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論