深度学习核心技术精讲100篇(三)-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用
前言
需要源碼的小伙伴參見:
Contextual Bandits 算法在推薦場景中的應用源碼
https://download.csdn.net/download/wenyusuran/15578470
滴滴 AI Labs 提出了一種基于強化學習的層次自適應的多臂老虎機的資源限制下的個性化推薦方法 ( HATCH ),該方法將資源限制下的用戶推薦問題建模成一個資源限制下的上下文老虎機問題,并使用層次結構同時達到資源分配策略和個性化推薦策略同時優化的目的。
01 研究背景
多臂老虎機是一個非常典型的決策方法,被廣泛的應用于推薦系統中。一般情況下,當多臂老虎機算法觀察到系統當中的狀態 ( state ) 時,會從候選的多個動作 ( action ) 當中選擇一個在環境當中執行,之后得到環境的反饋回報 ( reward )。算法的目標是最大化累計回報,在推薦系統當中,state 一般對應用戶上下文,比如用戶特征等,action 對應于可供推薦的項目,比如廣告,商品等等。reward 一般為用戶在得到推薦結果之后的反饋,通常情況下會使用點擊率等。多臂老虎機作為一種決策方法,其最重要的就是提供探索 ( exploration ) - 開發 ( exploitation ) 功能。開發是指策略 ( policy ) 采用當前預估出的最佳推薦,探索則是選擇更多非最佳策略從而為深入挖掘用戶喜好提供了可能性。
本文所考慮的問題是,有些時候推薦行為會在系統中產生資源消耗,該資源消耗會影響策略的表現。比如對于一個成熟的電商網站,一般情況下其每天的流量可以被看作一個定值,如果將流量看作
總結
以上是生活随笔為你收集整理的深度学习核心技术精讲100篇(三)-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeetCode上稀缺的四道shell编
- 下一篇: 基于 Kafka 与 Debezium