日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

深度学习核心技术精讲100篇(三)-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用

發(fā)布時間:2025/4/5 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习核心技术精讲100篇(三)-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

需要源碼的小伙伴參見:

Contextual Bandits 算法在推薦場景中的應用源碼

https://download.csdn.net/download/wenyusuran/15578470

滴滴 AI Labs 提出了一種基于強化學習的層次自適應的多臂老虎機的資源限制下的個性化推薦方法 ( HATCH ),該方法將資源限制下的用戶推薦問題建模成一個資源限制下的上下文老虎機問題,并使用層次結構同時達到資源分配策略和個性化推薦策略同時優(yōu)化的目的。

01 研究背景

多臂老虎機是一個非常典型的決策方法,被廣泛的應用于推薦系統(tǒng)中。一般情況下,當多臂老虎機算法觀察到系統(tǒng)當中的狀態(tài) ( state ) 時,會從候選的多個動作 ( action ) 當中選擇一個在環(huán)境當中執(zhí)行,之后得到環(huán)境的反饋回報 ( reward )。算法的目標是最大化累計回報,在推薦系統(tǒng)當中,state 一般對應用戶上下文,比如用戶特征等,action 對應于可供推薦的項目,比如廣告,商品等等。reward 一般為用戶在得到推薦結果之后的反饋,通常情況下會使用點擊率等。多臂老虎機作為一種決策方法,其最重要的就是提供探索 ( exploration ) - 開發(fā) ( exploitation ) 功能。開發(fā)是指策略 ( policy ) 采用當前預估出的最佳推薦,探索則是選擇更多非最佳策略從而為深入挖掘用戶喜好提供了可能性。

本文所考慮的問題是,有些時候推薦行為會在系統(tǒng)中產(chǎn)生資源消耗,該資源消耗會影響策略的表現(xiàn)。比如對于一個成熟的電商網(wǎng)站,一般情況下其每天的流量可以被看作一個定值,如果將流量看作

總結

以上是生活随笔為你收集整理的深度学习核心技术精讲100篇(三)-层次自适应的多臂老虎机决策算法 ( HATCH )在滴滴中的应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。