一点资讯王元元:追着效率跑的算法,如何把好内容关?
【CSDN現(xiàn)場報(bào)道】2016 年 11 月 18 日- 20 日,由 CSDN 重磅打造的年終技術(shù)盛會 —— “2016 中國軟件開發(fā)者大會”(Software Developer Conference China 2016,簡稱 SDCC 2016)在北京京都信苑飯店隆重舉行。本屆大會云集了100多位國內(nèi)外頂尖專家和技術(shù)大牛,共設(shè)新趨勢和新實(shí)踐2大主題會場,14個技術(shù)專題。面向國內(nèi)外的中高端技術(shù)人員,聚焦最前沿技術(shù)及一線的實(shí)踐經(jīng)驗(yàn),助力企業(yè)的技術(shù)升級和改造、全面提升技術(shù)人員的綜合實(shí)力。
ThoughtWorks中國區(qū)CTO徐昊、Erlang之父JoeArmstrong、華為PaaS首席系統(tǒng)工程師俞岳、一點(diǎn)資訊算法總監(jiān)王元元等參會并做主題演講。
一點(diǎn)資訊算法總監(jiān)王元元現(xiàn)場發(fā)表演講大會現(xiàn)場,王元元詳細(xì)闡述了算法對個性化內(nèi)容分發(fā)帶來的強(qiáng)大助力及其存在的瓶頸,并以一點(diǎn)資訊為案例為在座嘉賓解讀了興趣引擎如何在流量主題不變的情況下,使效率與價(jià)值并行。
他表示,個性化分發(fā)時代,基于海量數(shù)據(jù)的機(jī)器學(xué)習(xí)算法讓分發(fā)效率顯著提高,但往往算法提供的內(nèi)容對用戶的價(jià)值并沒有相應(yīng)的提高,一點(diǎn)資訊通過全球首創(chuàng)的“搜索+推薦”興趣引擎沉淀高質(zhì)量內(nèi)容,并使用機(jī)器+人工的“人機(jī)智能”技術(shù)引領(lǐng)價(jià)值閱讀,從而實(shí)現(xiàn)用戶體驗(yàn)的提升。
以下為演講的節(jié)選:
大家好,今天很高興能夠站在這里跟大家分享一點(diǎn)資訊對內(nèi)容分發(fā)的一些想法。人工智能在整個內(nèi)容分發(fā)行業(yè),正在發(fā)揮越來越重要的作用。目前,一點(diǎn)資訊的DAU日活達(dá)到4800萬,用戶日均閱讀20萬的文章。在這如此大規(guī)模的日活和用戶操作行為下,我們收集了海量的用戶數(shù)據(jù)。這些數(shù)據(jù)也構(gòu)成了利用人工智能技術(shù)提升內(nèi)容分發(fā)效率的重要的數(shù)據(jù)基礎(chǔ)。
流量時代追求效率背后隱藏著價(jià)值危機(jī)
從傳統(tǒng)門戶時代演變到現(xiàn)在算法驅(qū)動的個性化分發(fā)時代,流量是不變的主題。無論是流量獲取,還是流量變現(xiàn),效率始終是這場流量戰(zhàn)爭中的關(guān)健。
從過去的實(shí)踐中可以看到,隨著用戶規(guī)模的不斷增加,我們使用的算法,包括特征和模型的復(fù)雜度不斷地提升,可以明顯地看到一點(diǎn):用戶的使用時長,包括次日留存率,都有一個非常穩(wěn)定的上升過程。效率可以被我們定義的各種各樣的數(shù)據(jù)指標(biāo)來描述,比如點(diǎn)擊率、停留時長。這些指標(biāo)在一定程度上反映了用戶的滿意度,但是這些指標(biāo)與也經(jīng)常與用戶體驗(yàn)背離。事實(shí)上,我們很難去獲取用戶對當(dāng)前向其分發(fā)的內(nèi)容的全面感受,這是算法需要優(yōu)化但又看不到的目標(biāo)。
迎合人性弱點(diǎn)的算法推薦不利于內(nèi)容價(jià)值延伸及用戶留存
我們選擇了某個月里面的所有新增用戶作為數(shù)據(jù)采集目標(biāo)。經(jīng)過充分的冷啟動之后,根據(jù)這些用戶在月末的畫像將他們分為普通和高端兩個用戶群體,在第一個月里面,那些更傾向于關(guān)注“原配打小三”“車禍現(xiàn)場”等熱點(diǎn)、娛樂八卦資訊的普通用戶在停留時長上高于高端用戶,也就是說,這些社會、娛樂、熱點(diǎn)等內(nèi)容在短期內(nèi)吸引力遠(yuǎn)高于長尾內(nèi)容但如果我們再把時間放長一點(diǎn),在接下來一個月的第一天開始,普通用戶在不斷的流失。在第30-60日之間,留存率方面高端用戶已經(jīng)反超普通用戶,長期來看,高端內(nèi)容用戶的忠誠度更高。
這個給我們的啟示就是,我們需要做一個更有價(jià)值,對于用戶來說更容易滿足它多元化需求的產(chǎn)品,不僅包括有趣、有料的爆點(diǎn)內(nèi)容,也包括有用、有品的細(xì)分內(nèi)容平臺。
那么是什么原因?qū)е滤惴ㄔ讷@得效率的時候巨大提升,同時帶來了價(jià)值的降低?
影響算法結(jié)果的最根本的兩個要素是數(shù)據(jù)和目標(biāo)。
先從數(shù)據(jù)談起,海量數(shù)據(jù)來源于用戶與內(nèi)容的交互行為,海量數(shù)據(jù)不一定意味著特別高的價(jià)值,如果我們每天僅提供幾十篇最熱門的文章,基于一點(diǎn)資訊上的2.9億用戶,這也會產(chǎn)生海量的數(shù)據(jù)。但僅基于這些數(shù)據(jù),效率提升的天花板非常明顯,再怎么優(yōu)化,用戶關(guān)心的就那么幾條內(nèi)容。在整個優(yōu)化過程中,我們需要不斷引入各個領(lǐng)域的專家、專業(yè)知識,引導(dǎo)用戶生成更具價(jià)值的數(shù)據(jù),再通過算法或者模型學(xué)習(xí)到這些價(jià)值,再提供給用戶。除了專家知識,也需要積極引導(dǎo)用戶表達(dá)興趣,完全基于人性弱點(diǎn)的被動反饋往往很慢也很獲取到用戶真正的興趣,綜合考慮了短期成本和長期收益的滿足和試探機(jī)制,是增加海量數(shù)據(jù)價(jià)值的又一關(guān)鍵。
算法的第二個要素是它學(xué)習(xí)的目標(biāo)。算法特別擅長優(yōu)化單一指標(biāo),比如點(diǎn)擊率,但事實(shí)上用戶對內(nèi)容有多種反饋,比如停留、分享、收藏等,當(dāng)然還有一些負(fù)向的反饋,比如“不喜歡”、“踩”,甚至投訴。一個標(biāo)題黨的文章往往有很高的點(diǎn)擊率,但它的不喜歡,踩也很多,只優(yōu)化點(diǎn)擊很容易讓標(biāo)題黨泛濫,結(jié)合多種目標(biāo)同時優(yōu)化可以顯著降低標(biāo)題黨的流行程度。
另外,算法容易預(yù)測短期指標(biāo),難以預(yù)測長期指標(biāo)。長期留存率是個特別好的優(yōu)化目標(biāo),但基于當(dāng)前數(shù)據(jù)你很難預(yù)測準(zhǔn)。單純優(yōu)化短期指標(biāo),會帶來短期流量的顯著增加,但用戶的次日或者7日留存不一定能有相應(yīng)幅度的提升。而將長期的指標(biāo)拆解成一些可優(yōu)化的目標(biāo)或者目標(biāo)序列則是解決長期指標(biāo)優(yōu)化的關(guān)鍵。還有,現(xiàn)在大部分情況下,業(yè)績追求的是用戶指標(biāo)的優(yōu)化,但是內(nèi)容平臺是一個非常龐大的生態(tài)系統(tǒng),尤其在自媒體的加入并參與后。如果只考慮用戶,忽略了自媒體作者的話,很容易造成劣幣驅(qū)良幣,好的寫手不再發(fā)文,伴隨而至的,是有多元化需求的用戶也會慢慢流失,最終系統(tǒng)留下的可能就是一些忠誠度較低的用戶。
充分利用海量數(shù)據(jù)和專家知識提升效率和價(jià)值
一次推薦一般需要經(jīng)過召回,排序,策略幾個階段,召回是指從特別大的一個內(nèi)容候選集合中挑選出用戶可能感興趣的文章,排序需要對這些用戶感興趣的文章做精確的估計(jì),判斷用戶的點(diǎn)擊可能性,策略階段更多從用戶的體驗(yàn)出發(fā)進(jìn)行的一些規(guī)則控制,在排序階段我們更多的關(guān)注是提升我們的效率,在召回階段需要更多的考慮價(jià)值。
一點(diǎn)的排序模型最早使用的是基于海量動態(tài)特征的GBDT,GBDT沒有特別好的實(shí)時更新方法,我們使用了實(shí)時的動態(tài)特征來彌補(bǔ)這一點(diǎn),動態(tài)特征更新非常容易并行,使用也非常的方便。除了更新慢以外,GBDT的特征維度不能太高,這對GBDT的特征工程有了更高的要求,在GBDT里面實(shí)現(xiàn)的特征大部分都是一些基于動態(tài)特征組合而來的超級特征,不能使用大量的ID特征,這非常不利用精確捕捉和區(qū)分一些長尾信號。
為了解決這些問題,我們開始使用了基于大規(guī)模離散特征的在線邏輯回歸,之前放在動態(tài)特征里面的組合特征直接作為模型的特征實(shí)時進(jìn)行更新,從效果上看,尤其在點(diǎn)擊率這塊,提升還是非常顯著的。這兩個模型或者說原始的特征最終被我們?nèi)诤显谝黄鹗褂?#xff0c;融合的方法我們也經(jīng)過了一些的摸索,從簡單的線性組合,到將GBDT的葉子節(jié)點(diǎn)特征加入在線線性模型,再到利用DNN直接將GBDT使用的超級特征,一些重要的ID特征embedding表示,和海量的交叉特征一塊使用,超級特征和一些embedding特征先經(jīng)過幾層的神經(jīng)網(wǎng)絡(luò)充分交叉,最后再與海量的交叉特征放在一塊做出最后的預(yù)測。
在召回階段,我們更多的是以價(jià)值為導(dǎo)向,我們把問題分解成興趣定義、興趣發(fā)現(xiàn)和興趣滿足。以興趣為核心,每個問題我們都積極引入專家和知識庫知識,包括產(chǎn)品上鼓勵用戶的主動表達(dá),這些高質(zhì)量的先驗(yàn)知識和用戶主動表達(dá)形成的高質(zhì)量特征直接參與到了內(nèi)容的召回和排序。
算法還需被動反饋和主動引導(dǎo)相結(jié)合
上圖可以看到用戶畫像的強(qiáng)度和點(diǎn)擊的關(guān)系。用戶表達(dá)的興趣越多,最后停留時長、點(diǎn)擊數(shù)越多,它們兩個之間有非常強(qiáng)的正相關(guān)的關(guān)系。快速發(fā)現(xiàn)用戶興趣意義重大,這里面有三個問題要解決,第一個是當(dāng)前要試探什么,第二個是拿什么試探,第三個是如何控制試探的成本。
第一個問題,我們需要試探的的興趣一定是目前不確定性最大,確定以后又對用戶的收益最大的興趣,我們結(jié)合了自頂向下和順藤摸瓜的策略,根據(jù)整體人群畫像的特點(diǎn)訓(xùn)練了這樣的一個試探模型;第二個問題,我們優(yōu)先選擇了在興趣區(qū)分上信息增益比較大的內(nèi)容;第三個問題,我們用經(jīng)典的linUCB來平衡試探的收益和代價(jià),事實(shí)上,我們可以按照用戶切分流量,使用所有的用戶行為,獨(dú)立更新每個用戶的興趣偏好。
今天我的演講就在這里,現(xiàn)在我們整個內(nèi)容分發(fā)行業(yè),很多公司都在做同樣的事情,有很多的方法和技巧。在現(xiàn)階段,我們在關(guān)注流量本身的同時,需要更多的關(guān)注流量的構(gòu)成,思考如何能夠提供給用戶更多元,更有價(jià)值的內(nèi)容。謝謝大家!
更多精彩內(nèi)容,請關(guān)注圖文直播專題:SDCC 2016中國軟件開發(fā)者大會,微博:@CSDN研發(fā)頻道,訂閱 CSDN 官方微信公眾號(ID:CSDNnews),即時獲取大會動態(tài)。
總結(jié)
以上是生活随笔為你收集整理的一点资讯王元元:追着效率跑的算法,如何把好内容关?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java-net-php-python-
- 下一篇: 玩转MallBuilder多用户商城