一点资讯王元元:追着效率跑的算法,如何把好内容关?
【CSDN現(xiàn)場(chǎng)報(bào)道】2016 年 11 月 18 日- 20 日,由 CSDN 重磅打造的年終技術(shù)盛會(huì) —— “2016 中國(guó)軟件開(kāi)發(fā)者大會(huì)”(Software Developer Conference China 2016,簡(jiǎn)稱(chēng) SDCC 2016)在北京京都信苑飯店隆重舉行。本屆大會(huì)云集了100多位國(guó)內(nèi)外頂尖專(zhuān)家和技術(shù)大牛,共設(shè)新趨勢(shì)和新實(shí)踐2大主題會(huì)場(chǎng),14個(gè)技術(shù)專(zhuān)題。面向國(guó)內(nèi)外的中高端技術(shù)人員,聚焦最前沿技術(shù)及一線的實(shí)踐經(jīng)驗(yàn),助力企業(yè)的技術(shù)升級(jí)和改造、全面提升技術(shù)人員的綜合實(shí)力。
ThoughtWorks中國(guó)區(qū)CTO徐昊、Erlang之父JoeArmstrong、華為PaaS首席系統(tǒng)工程師俞岳、一點(diǎn)資訊算法總監(jiān)王元元等參會(huì)并做主題演講。
一點(diǎn)資訊算法總監(jiān)王元元現(xiàn)場(chǎng)發(fā)表演講大會(huì)現(xiàn)場(chǎng),王元元詳細(xì)闡述了算法對(duì)個(gè)性化內(nèi)容分發(fā)帶來(lái)的強(qiáng)大助力及其存在的瓶頸,并以一點(diǎn)資訊為案例為在座嘉賓解讀了興趣引擎如何在流量主題不變的情況下,使效率與價(jià)值并行。
他表示,個(gè)性化分發(fā)時(shí)代,基于海量數(shù)據(jù)的機(jī)器學(xué)習(xí)算法讓分發(fā)效率顯著提高,但往往算法提供的內(nèi)容對(duì)用戶(hù)的價(jià)值并沒(méi)有相應(yīng)的提高,一點(diǎn)資訊通過(guò)全球首創(chuàng)的“搜索+推薦”興趣引擎沉淀高質(zhì)量?jī)?nèi)容,并使用機(jī)器+人工的“人機(jī)智能”技術(shù)引領(lǐng)價(jià)值閱讀,從而實(shí)現(xiàn)用戶(hù)體驗(yàn)的提升。
以下為演講的節(jié)選:
大家好,今天很高興能夠站在這里跟大家分享一點(diǎn)資訊對(duì)內(nèi)容分發(fā)的一些想法。人工智能在整個(gè)內(nèi)容分發(fā)行業(yè),正在發(fā)揮越來(lái)越重要的作用。目前,一點(diǎn)資訊的DAU日活達(dá)到4800萬(wàn),用戶(hù)日均閱讀20萬(wàn)的文章。在這如此大規(guī)模的日活和用戶(hù)操作行為下,我們收集了海量的用戶(hù)數(shù)據(jù)。這些數(shù)據(jù)也構(gòu)成了利用人工智能技術(shù)提升內(nèi)容分發(fā)效率的重要的數(shù)據(jù)基礎(chǔ)。
流量時(shí)代追求效率背后隱藏著價(jià)值危機(jī)
從傳統(tǒng)門(mén)戶(hù)時(shí)代演變到現(xiàn)在算法驅(qū)動(dòng)的個(gè)性化分發(fā)時(shí)代,流量是不變的主題。無(wú)論是流量獲取,還是流量變現(xiàn),效率始終是這場(chǎng)流量戰(zhàn)爭(zhēng)中的關(guān)健。
從過(guò)去的實(shí)踐中可以看到,隨著用戶(hù)規(guī)模的不斷增加,我們使用的算法,包括特征和模型的復(fù)雜度不斷地提升,可以明顯地看到一點(diǎn):用戶(hù)的使用時(shí)長(zhǎng),包括次日留存率,都有一個(gè)非常穩(wěn)定的上升過(guò)程。效率可以被我們定義的各種各樣的數(shù)據(jù)指標(biāo)來(lái)描述,比如點(diǎn)擊率、停留時(shí)長(zhǎng)。這些指標(biāo)在一定程度上反映了用戶(hù)的滿(mǎn)意度,但是這些指標(biāo)與也經(jīng)常與用戶(hù)體驗(yàn)背離。事實(shí)上,我們很難去獲取用戶(hù)對(duì)當(dāng)前向其分發(fā)的內(nèi)容的全面感受,這是算法需要優(yōu)化但又看不到的目標(biāo)。
迎合人性弱點(diǎn)的算法推薦不利于內(nèi)容價(jià)值延伸及用戶(hù)留存
我們選擇了某個(gè)月里面的所有新增用戶(hù)作為數(shù)據(jù)采集目標(biāo)。經(jīng)過(guò)充分的冷啟動(dòng)之后,根據(jù)這些用戶(hù)在月末的畫(huà)像將他們分為普通和高端兩個(gè)用戶(hù)群體,在第一個(gè)月里面,那些更傾向于關(guān)注“原配打小三”“車(chē)禍現(xiàn)場(chǎng)”等熱點(diǎn)、娛樂(lè)八卦資訊的普通用戶(hù)在停留時(shí)長(zhǎng)上高于高端用戶(hù),也就是說(shuō),這些社會(huì)、娛樂(lè)、熱點(diǎn)等內(nèi)容在短期內(nèi)吸引力遠(yuǎn)高于長(zhǎng)尾內(nèi)容但如果我們?cè)侔褧r(shí)間放長(zhǎng)一點(diǎn),在接下來(lái)一個(gè)月的第一天開(kāi)始,普通用戶(hù)在不斷的流失。在第30-60日之間,留存率方面高端用戶(hù)已經(jīng)反超普通用戶(hù),長(zhǎng)期來(lái)看,高端內(nèi)容用戶(hù)的忠誠(chéng)度更高。
這個(gè)給我們的啟示就是,我們需要做一個(gè)更有價(jià)值,對(duì)于用戶(hù)來(lái)說(shuō)更容易滿(mǎn)足它多元化需求的產(chǎn)品,不僅包括有趣、有料的爆點(diǎn)內(nèi)容,也包括有用、有品的細(xì)分內(nèi)容平臺(tái)。
那么是什么原因?qū)е滤惴ㄔ讷@得效率的時(shí)候巨大提升,同時(shí)帶來(lái)了價(jià)值的降低?
影響算法結(jié)果的最根本的兩個(gè)要素是數(shù)據(jù)和目標(biāo)。
先從數(shù)據(jù)談起,海量數(shù)據(jù)來(lái)源于用戶(hù)與內(nèi)容的交互行為,海量數(shù)據(jù)不一定意味著特別高的價(jià)值,如果我們每天僅提供幾十篇最熱門(mén)的文章,基于一點(diǎn)資訊上的2.9億用戶(hù),這也會(huì)產(chǎn)生海量的數(shù)據(jù)。但僅基于這些數(shù)據(jù),效率提升的天花板非常明顯,再怎么優(yōu)化,用戶(hù)關(guān)心的就那么幾條內(nèi)容。在整個(gè)優(yōu)化過(guò)程中,我們需要不斷引入各個(gè)領(lǐng)域的專(zhuān)家、專(zhuān)業(yè)知識(shí),引導(dǎo)用戶(hù)生成更具價(jià)值的數(shù)據(jù),再通過(guò)算法或者模型學(xué)習(xí)到這些價(jià)值,再提供給用戶(hù)。除了專(zhuān)家知識(shí),也需要積極引導(dǎo)用戶(hù)表達(dá)興趣,完全基于人性弱點(diǎn)的被動(dòng)反饋往往很慢也很獲取到用戶(hù)真正的興趣,綜合考慮了短期成本和長(zhǎng)期收益的滿(mǎn)足和試探機(jī)制,是增加海量數(shù)據(jù)價(jià)值的又一關(guān)鍵。
算法的第二個(gè)要素是它學(xué)習(xí)的目標(biāo)。算法特別擅長(zhǎng)優(yōu)化單一指標(biāo),比如點(diǎn)擊率,但事實(shí)上用戶(hù)對(duì)內(nèi)容有多種反饋,比如停留、分享、收藏等,當(dāng)然還有一些負(fù)向的反饋,比如“不喜歡”、“踩”,甚至投訴。一個(gè)標(biāo)題黨的文章往往有很高的點(diǎn)擊率,但它的不喜歡,踩也很多,只優(yōu)化點(diǎn)擊很容易讓標(biāo)題黨泛濫,結(jié)合多種目標(biāo)同時(shí)優(yōu)化可以顯著降低標(biāo)題黨的流行程度。
另外,算法容易預(yù)測(cè)短期指標(biāo),難以預(yù)測(cè)長(zhǎng)期指標(biāo)。長(zhǎng)期留存率是個(gè)特別好的優(yōu)化目標(biāo),但基于當(dāng)前數(shù)據(jù)你很難預(yù)測(cè)準(zhǔn)。單純優(yōu)化短期指標(biāo),會(huì)帶來(lái)短期流量的顯著增加,但用戶(hù)的次日或者7日留存不一定能有相應(yīng)幅度的提升。而將長(zhǎng)期的指標(biāo)拆解成一些可優(yōu)化的目標(biāo)或者目標(biāo)序列則是解決長(zhǎng)期指標(biāo)優(yōu)化的關(guān)鍵。還有,現(xiàn)在大部分情況下,業(yè)績(jī)追求的是用戶(hù)指標(biāo)的優(yōu)化,但是內(nèi)容平臺(tái)是一個(gè)非常龐大的生態(tài)系統(tǒng),尤其在自媒體的加入并參與后。如果只考慮用戶(hù),忽略了自媒體作者的話,很容易造成劣幣驅(qū)良幣,好的寫(xiě)手不再發(fā)文,伴隨而至的,是有多元化需求的用戶(hù)也會(huì)慢慢流失,最終系統(tǒng)留下的可能就是一些忠誠(chéng)度較低的用戶(hù)。
充分利用海量數(shù)據(jù)和專(zhuān)家知識(shí)提升效率和價(jià)值
一次推薦一般需要經(jīng)過(guò)召回,排序,策略幾個(gè)階段,召回是指從特別大的一個(gè)內(nèi)容候選集合中挑選出用戶(hù)可能感興趣的文章,排序需要對(duì)這些用戶(hù)感興趣的文章做精確的估計(jì),判斷用戶(hù)的點(diǎn)擊可能性,策略階段更多從用戶(hù)的體驗(yàn)出發(fā)進(jìn)行的一些規(guī)則控制,在排序階段我們更多的關(guān)注是提升我們的效率,在召回階段需要更多的考慮價(jià)值。
一點(diǎn)的排序模型最早使用的是基于海量動(dòng)態(tài)特征的GBDT,GBDT沒(méi)有特別好的實(shí)時(shí)更新方法,我們使用了實(shí)時(shí)的動(dòng)態(tài)特征來(lái)彌補(bǔ)這一點(diǎn),動(dòng)態(tài)特征更新非常容易并行,使用也非常的方便。除了更新慢以外,GBDT的特征維度不能太高,這對(duì)GBDT的特征工程有了更高的要求,在GBDT里面實(shí)現(xiàn)的特征大部分都是一些基于動(dòng)態(tài)特征組合而來(lái)的超級(jí)特征,不能使用大量的ID特征,這非常不利用精確捕捉和區(qū)分一些長(zhǎng)尾信號(hào)。
為了解決這些問(wèn)題,我們開(kāi)始使用了基于大規(guī)模離散特征的在線邏輯回歸,之前放在動(dòng)態(tài)特征里面的組合特征直接作為模型的特征實(shí)時(shí)進(jìn)行更新,從效果上看,尤其在點(diǎn)擊率這塊,提升還是非常顯著的。這兩個(gè)模型或者說(shuō)原始的特征最終被我們?nèi)诤显谝黄鹗褂?#xff0c;融合的方法我們也經(jīng)過(guò)了一些的摸索,從簡(jiǎn)單的線性組合,到將GBDT的葉子節(jié)點(diǎn)特征加入在線線性模型,再到利用DNN直接將GBDT使用的超級(jí)特征,一些重要的ID特征embedding表示,和海量的交叉特征一塊使用,超級(jí)特征和一些embedding特征先經(jīng)過(guò)幾層的神經(jīng)網(wǎng)絡(luò)充分交叉,最后再與海量的交叉特征放在一塊做出最后的預(yù)測(cè)。
在召回階段,我們更多的是以?xún)r(jià)值為導(dǎo)向,我們把問(wèn)題分解成興趣定義、興趣發(fā)現(xiàn)和興趣滿(mǎn)足。以興趣為核心,每個(gè)問(wèn)題我們都積極引入專(zhuān)家和知識(shí)庫(kù)知識(shí),包括產(chǎn)品上鼓勵(lì)用戶(hù)的主動(dòng)表達(dá),這些高質(zhì)量的先驗(yàn)知識(shí)和用戶(hù)主動(dòng)表達(dá)形成的高質(zhì)量特征直接參與到了內(nèi)容的召回和排序。
算法還需被動(dòng)反饋和主動(dòng)引導(dǎo)相結(jié)合
上圖可以看到用戶(hù)畫(huà)像的強(qiáng)度和點(diǎn)擊的關(guān)系。用戶(hù)表達(dá)的興趣越多,最后停留時(shí)長(zhǎng)、點(diǎn)擊數(shù)越多,它們兩個(gè)之間有非常強(qiáng)的正相關(guān)的關(guān)系。快速發(fā)現(xiàn)用戶(hù)興趣意義重大,這里面有三個(gè)問(wèn)題要解決,第一個(gè)是當(dāng)前要試探什么,第二個(gè)是拿什么試探,第三個(gè)是如何控制試探的成本。
第一個(gè)問(wèn)題,我們需要試探的的興趣一定是目前不確定性最大,確定以后又對(duì)用戶(hù)的收益最大的興趣,我們結(jié)合了自頂向下和順藤摸瓜的策略,根據(jù)整體人群畫(huà)像的特點(diǎn)訓(xùn)練了這樣的一個(gè)試探模型;第二個(gè)問(wèn)題,我們優(yōu)先選擇了在興趣區(qū)分上信息增益比較大的內(nèi)容;第三個(gè)問(wèn)題,我們用經(jīng)典的linUCB來(lái)平衡試探的收益和代價(jià),事實(shí)上,我們可以按照用戶(hù)切分流量,使用所有的用戶(hù)行為,獨(dú)立更新每個(gè)用戶(hù)的興趣偏好。
今天我的演講就在這里,現(xiàn)在我們整個(gè)內(nèi)容分發(fā)行業(yè),很多公司都在做同樣的事情,有很多的方法和技巧。在現(xiàn)階段,我們?cè)陉P(guān)注流量本身的同時(shí),需要更多的關(guān)注流量的構(gòu)成,思考如何能夠提供給用戶(hù)更多元,更有價(jià)值的內(nèi)容。謝謝大家!
更多精彩內(nèi)容,請(qǐng)關(guān)注圖文直播專(zhuān)題:SDCC 2016中國(guó)軟件開(kāi)發(fā)者大會(huì),微博:@CSDN研發(fā)頻道,訂閱 CSDN 官方微信公眾號(hào)(ID:CSDNnews),即時(shí)獲取大會(huì)動(dòng)態(tài)。
總結(jié)
以上是生活随笔為你收集整理的一点资讯王元元:追着效率跑的算法,如何把好内容关?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java-net-php-python-
- 下一篇: 玩转MallBuilder多用户商城