抖音推荐机制与算法探讨
通過數(shù)據(jù)的分析,我們發(fā)現(xiàn)在傳播效果方面,抖音>小紅書>微信朋友圈>新浪微博。究其原因是內(nèi)容分發(fā)的邏輯存在非常大的差異。
-
微信朋友圈、新浪微博:訂閱模式,用戶僅能看到好友或關(guān)注者的信息
-
抖音、小紅書:非訂閱模式,用戶可以看到個除關(guān)注用戶以外的其他內(nèi)容
微信雖然可以通過轉(zhuǎn)發(fā)傳播,但是在轉(zhuǎn)發(fā)意愿度層面會消弱傳播效果。朋友圈轉(zhuǎn)發(fā)困難度較大,很難進(jìn)行二次傳播。而非訂閱模式的抖音模式通過算法機制,可以將內(nèi)容一次次的推送給潛在感興趣用戶,致使內(nèi)容可以大面積的廣泛傳播。
-
從創(chuàng)作者角度:只需內(nèi)容足夠“優(yōu)秀”,就能獲得很好的分發(fā)機會
-
從普通用戶角度:無需尋找信息源也能獲取“優(yōu)質(zhì)”的內(nèi)容
關(guān)于抖音的分發(fā)推薦機制參考字節(jié)跳動旗下的“中視頻平臺”西瓜視頻的推薦機制介紹。
西瓜視頻的推薦機制
要了解推薦機制,首先我們要了解觀眾。每個觀眾的觀看興趣都是大不相同的,個性化推薦機制要做的事情就是讓每位用戶看到可能感興趣的內(nèi)容。這種精準(zhǔn)推薦,是建立在機器對每位用戶都有充分認(rèn)知的前提下的。在機器中,每位用戶實際是由大量數(shù)據(jù)構(gòu)成的,用戶的觀看興趣就藏在這些數(shù)據(jù)中。不同數(shù)據(jù)對用戶興趣計算所占權(quán)重不同,數(shù)據(jù)包括:
-
性別、年齡、所處城市;
-
關(guān)注的帳號、常瀏覽的頻道、關(guān)注的話題;
-
觀看過的視頻分類和關(guān)鍵詞;
-
相似類型的其他用戶還喜歡觀看的其他視頻類型;
-
….
推薦系統(tǒng)的本質(zhì),就是從一個海量的內(nèi)容池里,為觀眾匹配出少量感興趣內(nèi)容。為了給用戶提供他們喜歡的內(nèi)容,或者理解用戶的需求,平臺有很多角度可以去刻畫一個用戶的畫像,比如,年齡、性別、歷史瀏覽的文章、環(huán)境特征等;同時,利用先進(jìn)的AI技術(shù)對內(nèi)容進(jìn)行分門別類。緊接著,推薦機制就像一座“橋梁”,連接觀眾和內(nèi)容,將內(nèi)容源源不斷地推送到感興趣的用戶面前。這座“橋梁”有兩個特點:
-
興趣匹配:觀眾的觀看類型與內(nèi)容分類重合度最高,被系統(tǒng)認(rèn)定最可能對該內(nèi)容感興趣。
-
分批次推薦:首先會被推薦給一批對其最可能感興趣的觀眾,這批觀眾產(chǎn)生的數(shù)據(jù),將對內(nèi)容下一次的推薦起到重要作用。
視頻的首次推薦,如果點擊率低,轉(zhuǎn)評贊不高,系統(tǒng)認(rèn)為視頻不適合推薦給更多的用戶,會減少二次推薦的推薦量;如果點擊率等數(shù)據(jù)高,系統(tǒng)則認(rèn)為視頻受用戶喜歡,將進(jìn)一步增加推薦量。以此類推,視頻新一次的推薦量都以上一次推薦的點擊率等數(shù)據(jù)為依據(jù)。例如,一個視頻首次推薦給了1000個用戶,如果這批用戶的點擊率、完播率等較高,系統(tǒng)判定用戶非常喜歡這篇視頻,將其擴大推薦給10000個用戶,如果這輪推薦用戶的點擊率、完播率等仍然維持在較高水平,那么系統(tǒng)會將視頻再次擴大推薦給30000個用戶、50000個用戶、100000個用戶……推薦量和播放量便如滾雪球一般節(jié)節(jié)攀升。因為這種擴大推薦的機制,創(chuàng)作人想獲得更多的播放量,就必須努力把各維度閱讀數(shù)據(jù)(點擊率、用戶播放時長、收藏數(shù)、評論數(shù)、轉(zhuǎn)發(fā)數(shù)等)維持在高位水平。這就要求視頻:
-
標(biāo)題和封面圖具有足夠的吸引力、表意清晰,提高點擊率;
-
視頻內(nèi)容優(yōu)質(zhì),剪輯解說俱佳,提高用戶播放時長和播放完成度;
-
內(nèi)容詳實,給觀眾干貨般的充實感,提高收藏數(shù)和用戶播放時長;
-
觀點鮮明,引發(fā)觀眾討論,增加評論數(shù)和轉(zhuǎn)發(fā)數(shù)。
其中,至關(guān)重要的當(dāng)然是點擊率,完播率,轉(zhuǎn)評贊等,也因此,標(biāo)題和封面圖的重要性便不言而喻。這也是今天注意力稀缺時代,播放獲得好的傳播的關(guān)鍵要素。有吸引力的標(biāo)題能帶來更多點擊,但這不意味創(chuàng)作人要成為慣用夸張標(biāo)題的標(biāo)題黨。恰恰相反,標(biāo)題黨反而會被平臺通過技術(shù)手段識別和打壓,限制推薦量。除了標(biāo)題夸張,用戶舉報密集、負(fù)面評論過多都是限制播放推薦量的因素。歸根結(jié)底,一個作品能否獲得更多推薦最終取決于內(nèi)容質(zhì)量,好的內(nèi)容才能帶來流量的長效增長。
從西瓜視頻到抖音短視頻
關(guān)于抖音的分發(fā)機制完善流傳著這樣一份的流程圖,整體流程和上面的西瓜視頻的介紹的推薦邏輯類似。后續(xù)我們就根據(jù)下面的流程進(jìn)行深入的研究與分析。
檢測機制
在抖音,每天有數(shù)量龐大的新作品上傳,需要對一些內(nèi)容進(jìn)行過濾,從目前公布的內(nèi)容看,檢測主要集中在:
-
去重檢測:抽幀檢查視頻是否存在搬運、抄襲問題
-
違禁檢測:字幕、標(biāo)題中是否涵蓋違禁詞匯,有無裸露
-
版權(quán)檢測:音樂版權(quán)是否侵權(quán),大陸有無版權(quán)問題
如果純靠機器可能存在一些誤判,人工一一確認(rèn)又不太現(xiàn)實。所以采用機器檢測和人工檢測的結(jié)合。
機器審核:一般是通過提前設(shè)置好的人工智能模型來識別你的視頻畫面和關(guān)鍵詞,它主要有兩個關(guān)鍵作用:
-
審核作品、文案中是否存在違規(guī)行為,如果疑似存在,就會被機器攔截,通過飄黃、標(biāo)紅等提示人工注意;
-
通過抽取視頻中的畫面、關(guān)鍵幀,與抖音大數(shù)據(jù)庫中已存在的海量作品進(jìn)行匹配消重,內(nèi)容重復(fù)的作品進(jìn)行低流量推薦,或者降權(quán)推薦(僅粉絲可見、僅自己可見)。
-
有沒有出現(xiàn)廣告、有沒有帶水印或者LOGO、內(nèi)容是否裸露、不雅、血腥等
人工審核:主要集中在3塊:視頻標(biāo)題、封面截圖和視頻關(guān)鍵幀。
-
針對機器審核篩選出疑似違規(guī)作品,以及容易出現(xiàn)違規(guī)領(lǐng)域的作品,抖音審核人員進(jìn)行逐個審核。
-
如果確定違規(guī),將根據(jù)違規(guī)賬號進(jìn)行刪除視頻、降權(quán)通告、封禁賬號等處罰。
通過檢測是邁向內(nèi)容分發(fā)的第一步,如果第一步?jīng)]通過則相當(dāng)于被關(guān)進(jìn)了小黑屋。違規(guī)檢測相對來說比較容易規(guī)避。版權(quán)檢測,特別是音樂版權(quán)有時不清楚自己使用的音樂是否合規(guī),保守方案是使用抖音上目前熱門視頻所使用的音樂。去重檢測其實是一個很容易誤觸的機制,特別是一些模仿性質(zhì)的內(nèi)容,可采取的方案是更換不同的背景、角度、服裝等。錄屏性質(zhì)的視頻非常的特別特別容易觸發(fā)去重檢測,取而代之的是攝屏的方式,攝屏是可以采取不同的背景和角度,但需要注意的是保證攝屏?xí)r的清晰度。
賽馬機制
抖音的算法其實是一個賽馬機制。簡單的說就是先將視頻推薦給小部分人群,收集這部分?jǐn)?shù)據(jù)的表現(xiàn)情況,再將表現(xiàn)好的視頻分發(fā)到更大的范圍。
所以抖音流量的增長方式并不是線性的,增長曲線更多類似:
從目前了解的資料看,抖音的賽馬機制總共有三種方式:
-
初級分發(fā):通過機制確認(rèn)無違規(guī)后由附近的人/關(guān)注/好友/標(biāo)簽組成的初級分發(fā)流量池
-
通訊錄好友:提取你的手機電話通信錄中的手機號碼,將電話號碼上傳到抖音服務(wù)器,匹配好友。
-
共同聯(lián)系人:類似QQ共同聯(lián)系人推薦,抖音也會使用共同聯(lián)系人進(jìn)行關(guān)系綁定
-
以前還有通過抓取微信好友關(guān)系鏈的,后來好像被騰訊告了
-
-
多級推薦:根據(jù)初級流量回饋評分達(dá)到算法設(shè)定的分值進(jìn)入下一級流量池推送
-
熱門推薦:根據(jù)熱門推薦算法結(jié)合先前流量回饋評分選取優(yōu)秀視頻進(jìn)行人工審核,做精熱門推薦,審核的范圍可能包括
-
搬運、非原創(chuàng)視頻:含有其他平臺水印、視頻ID與上傳ID不符、明顯盜錄內(nèi)容
-
低質(zhì)量視頻:內(nèi)容物故事性、完整度差、視線模糊
-
廣告營銷:明顯的廣告營銷類型信息
-
隱性風(fēng)險:出現(xiàn)標(biāo)題黨、危險動作、令人不適元素等高危內(nèi)容
-
未授權(quán)明星/影視賽事類視頻:視頻內(nèi)容侵權(quán)
-
以下是網(wǎng)友通過數(shù)據(jù)的整理的大致抖音流量池分級情況:
-
首次曝光,300左右播放量
-
二次曝光,3000左右播放量
-
三次曝光,2~1.5W左右播放量
-
四次曝光,10~12W左右播放量
-
五次曝光,40~60W左右播放量
-
六次曝光,200~300W左右播放量
-
七次曝光,700~1100W左右播放量
-
八次曝光,3000W+播放量
流量觸頂
抖音作品經(jīng)過雙重審核、初始推薦、疊加推薦層層引爆之后,通常會給賬號帶來大量的曝光、互動和粉絲。而這種高推薦曝光的時間,一般不會超過一周。之后,爆款視頻乃至整個賬號會迅速冷卻下來,甚至后續(xù)之后發(fā)布的一些作品也很難有較高的推薦量。主要原因:
-
抖音每天的日活是有限的,也就是說總的推薦量是基本固定的,需要把機會盡可能的給到更的創(chuàng)作者
-
與你內(nèi)容相關(guān)標(biāo)簽的人群基本完成推薦,其他非精準(zhǔn)標(biāo)簽人群反饋效果差,所以停止推薦
-
抖音也不希望某個賬號僅通過一個視頻就大火,而是期望你能持續(xù)不斷的輸出優(yōu)質(zhì)內(nèi)容
推薦機制
單有賽馬機制對于抖音來說還不夠,抖音想要的提升的用戶的觀看體驗,最重要的是將合適的內(nèi)容推薦給合適的用戶。想了解抖音的個性化推薦算法先從數(shù)據(jù)角度進(jìn)行分析,以下是抖音前端返回的數(shù)據(jù):
視頻信息:
-
aweme_id:視頻ID
-
desc:視頻描述
-
create_time:創(chuàng)建時間
-
height:視頻高度
-
width:視頻寬度
-
dynamic_cover:動態(tài)封面
-
ratio:清晰度
-
has_watermark:是否有水印
-
bit_rate_gear_name:碼率清晰度(視頻清晰度可能影響視頻評分?)
-
quality_type:質(zhì)量類型
-
bit_rate:視頻比率
-
is_h265:是否為H265視頻
-
duration:時長
-
user_digged:作者自己點贊
-
allow_share:是否允許分享
-
allow_comment:是否允許評論
-
with_goods:包含商品
-
is_top:是否置頂
-
is_vr:是否VR視頻
-
is_ads:是否廣告視頻
-
risk_infos:風(fēng)險信息
-
position:位置
-
is_pgcshow:是否PGC內(nèi)容
-
interaction_stickers:互動貼紙
音樂信息:
-
id:音樂id
-
title:音樂標(biāo)題
-
author:音樂作者
-
album:音樂專輯
-
cover:音樂封面
-
duration:音樂時長
-
has_edited:音樂是否被編輯過
-
user_count:使用人數(shù)
-
collect_stat:收藏人數(shù)
-
owner_id:作者id
-
owner_nickname:作者昵稱
-
is_original:是否原創(chuàng)
-
binded_challenge_id:綁定挑戰(zhàn)賽
-
strong_beat:節(jié)拍數(shù)據(jù)(可繪制波形圖)
-
is_commerce_music:是否商業(yè)音樂
-
is_original_sound:是否原聲
-
shoot_duration:視頻使用時長
用戶信息:
-
nickname:創(chuàng)作者昵稱
-
avatar:頭像
-
signature:簽名
-
total_favorited:總獲贊
-
fans_count:粉絲數(shù)
-
following_count:關(guān)注數(shù)
-
dongtai_count:動態(tài)數(shù)
除了這些基礎(chǔ)的信息外,針對推薦系統(tǒng),通常最需要獲取的是用戶的行為數(shù)據(jù):
-
who,唯一的用戶標(biāo)識
-
when,具體時間
-
where,地理位置
-
what,交互的內(nèi)容(包括上面的使用、音樂和創(chuàng)作人)
-
which ,用戶的行為(上滑、下滑,左滑、右滑、點贊,關(guān)注,點評……)
-
environment,網(wǎng)絡(luò)環(huán)境、運營商畫像、設(shè)備品牌型號…
推薦系統(tǒng)一般有以下四個部分組成:
-
用戶畫像,系統(tǒng)根據(jù)用戶基本屬性(比如:性別、年齡、學(xué)歷等)、興趣愛好(比如:科技、娛樂、體育、金融等)等數(shù)據(jù)集,然后給用戶定義相關(guān)的標(biāo)簽。
-
內(nèi)容畫像,系統(tǒng)根據(jù)內(nèi)容的層級分類、關(guān)鍵詞、實體詞等分析出特點,給各類內(nèi)容打上相關(guān)的標(biāo)簽。
-
用戶與內(nèi)容匹配,有了用戶標(biāo)簽和內(nèi)容標(biāo)簽之后,系統(tǒng)根據(jù)用戶畫像、內(nèi)容畫像,在內(nèi)容池里面匹配出用戶喜歡的內(nèi)容然后展示出來。
-
推薦排序,系統(tǒng)要面對數(shù)億級的用戶和內(nèi)容,同時還要考慮用戶的喜歡會不斷的發(fā)生改變,為了讓挑選的內(nèi)容更加的貼近用戶想要的、更加符合用戶喜歡,系統(tǒng)需要對內(nèi)容進(jìn)行排序。
做常見的推薦算法為協(xié)同過濾,協(xié)同過濾算法通常會被分為兩大類:
-
基于物品的協(xié)同過濾:分析用戶喜歡過的內(nèi)容;找到與該內(nèi)容相似的內(nèi)容,推薦給用戶。
-
基于用戶的協(xié)同過濾:找到這個用戶相似的目標(biāo)群體;把該群體用戶喜歡過的內(nèi)容推薦給這個用戶。
對于抖音來說,每天產(chǎn)生的視頻非常的多,如果抖音使用基于物品的協(xié)同過濾算法做推薦,則需要對平臺的每條內(nèi)容做相似度計算,除了需要識別視頻畫面中出現(xiàn)的物品以及他們之間的關(guān)系外,還要識別視頻的背景音樂、臺詞。顯然,對于以視頻為主要內(nèi)容的抖音來說,選擇這種推薦算法是極其不明智的。如果使用基于用戶的系統(tǒng)過濾算法取推薦算法就不必知道某條內(nèi)容是什么,只需要看到某一群人都喜歡這條內(nèi)容就可以把這群人歸到同一類人里。嚴(yán)格意義上說,抖音給用戶的打的并不是具體的屬性標(biāo)簽,而是類似聚類出來的一個ID。
以上介紹的知識最初級的推薦算法的邏輯。抖音的多級流量池,實際是基于上一級流量池的響應(yīng)數(shù)據(jù)利用類似Lookalike 算法去擴大用戶群。
抖音的算法并不會僅僅像上面介紹的一樣,中間還需要考慮非常多的其他場景和因素。比如初級分發(fā),其實就是推薦算法中的冷啟動問題。對于一個全新的視頻無法通過系統(tǒng)過濾的方式給推薦出去。退而求其次的方式是給視頻和用戶打上標(biāo)簽屬性,再通過標(biāo)簽的匹配篩選做可能的用戶做打樣。中間又涉及到兩個問題:
-
如何給視頻打標(biāo)簽
-
如何給用戶打標(biāo)簽
如何給視頻打標(biāo)簽?
-
視頻添加的標(biāo)簽hashtag
-
視頻的標(biāo)題內(nèi)容,通過對視頻標(biāo)簽進(jìn)行文本分析確定。
-
視頻內(nèi)容中可能出現(xiàn)的字幕、語言內(nèi)容轉(zhuǎn)化成文字后的文本提取?(這個實現(xiàn)起來較難,不確定)
-
視頻發(fā)布者歷史發(fā)布的內(nèi)容類別
-
…
基于以上大概能給一個視頻初步的分類。
一般推薦系統(tǒng)的分類都要按照層級進(jìn)行劃分的,如下圖:
如何給用戶打標(biāo)簽?
-
通過歷史用戶操作反饋的,基于歷史反饋的視頻的標(biāo)簽統(tǒng)計匯總用戶信息
-
通過閾值篩選用戶感興趣的標(biāo)簽
引申話題:如何讓冷啟動更有效?
-
發(fā)布賬號盡可能的有明確的定位
-
視頻標(biāo)題有出現(xiàn)關(guān)鍵字,而不僅僅是一些吸引眼球的無關(guān)內(nèi)容或文青式的話術(shù)
-
給視頻打上合適的hashtag
-
超過300以上的活躍關(guān)注者(粉絲多更容易拉高互動數(shù))
二次引爆
除了以上正常的流量池流程外,抖音還有兩種額外的情況:
-
再發(fā)一遍就會火:出現(xiàn)這種情況的可能原因是冷啟動階段,你的視頻內(nèi)容被推薦給了錯誤的目標(biāo)用戶,這部分用戶對視頻的反饋比較低,導(dǎo)致沒有進(jìn)入多級推薦。再次上傳后目標(biāo)用戶得到修正。
-
老視頻莫名奇妙火:可能你的視頻前期匹配的用戶群不夠精準(zhǔn),導(dǎo)致未達(dá)到推薦閾值。但隨著時間推移,視頻點贊率等都突破了一定之觸發(fā)了重新推薦機制。
考核機制
短視頻想要進(jìn)入下級流量必須滿足一定的指標(biāo)要求,并且由于流量池越開越大,響應(yīng)的匹配精度越低,平臺想要控制整體內(nèi)容的滿意度,對于指標(biāo)的要求也會越來越高。抖音推薦算法中的賽馬機制主要看中的視頻指標(biāo)由以下部分組成:
-
賬號分值:
-
完成度:頭像、昵稱、簽名、性別、其他資料
-
健康度:內(nèi)容質(zhì)量、話題專業(yè)度(歷史視頻表現(xiàn)?)
-
認(rèn)證:是否達(dá)人認(rèn)證
-
-
視頻分值:通過算法加權(quán)?
-
完播率
-
點贊率
-
評論率
-
分享率
-
轉(zhuǎn)粉率
-
如何評級視頻質(zhì)量的好、中、差?
-
完播率:盡量控制15-40秒,太短抖音嫌棄,太長用戶耐心不夠劃走。選擇優(yōu)秀的歌曲可能保證完播率(用戶想把歌聽完)
-
0-10%——較低
-
10%-30%—— 一般
-
30%以上——較好
-
-
作品平均播放時長:前3秒是關(guān)鍵!抓人眼球,多留懸念、反轉(zhuǎn)、梗。讓粉絲帶著期待堅持看完。
-
3秒以下——較低
-
3-7秒—— 一般
-
7-15秒——較好
-
15秒以上——很好
-
-
互動率:開頭和結(jié)尾的設(shè)計很關(guān)鍵,打造獨特的”記憶點”,可以引導(dǎo)粉絲點贊留言。
-
點贊率:5%以上
-
評論率:1%以上
-
轉(zhuǎn)發(fā)率:5%以上
-
-
吸粉率:有趣又有用的內(nèi)容,是吸粉關(guān)鍵。
-
1%以上
-
什么樣的視頻有爆款潛質(zhì)?
通過數(shù)據(jù)統(tǒng)計得到的結(jié)論:
-
完播率:30%以上
-
點贊率:10%以上
-
評論率:5%以上
-
分享率:1%以上
所以,一個作品發(fā)出后,基本前面一兩個小時,或者30分鐘左右,就能預(yù)測到是否會火了。如果1小時之內(nèi),播放量突破5000,而點贊量能大于100,評論數(shù)大于10,那么,得到系統(tǒng)推薦的機率就大很多了,基本上離熱門也不遠(yuǎn)了。
總結(jié)
以上是生活随笔為你收集整理的抖音推荐机制与算法探讨的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MATLAB-M文件
- 下一篇: MATLAB-向量相关计算