日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

针对连续动作的DQN

發布時間:2025/4/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 针对连续动作的DQN 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 前言

????????跟基于策略梯度的方法比起來,DQN在處理連續狀態的問題中 是比較好的。(因為前者是計算Q-table,后者是計算Q-function。前者在狀態空間連續的時候是很難計算的)。

? ? ? ? 同時,DQN是比較容易訓練的:在 DQN 里面,你只要能夠估計出Q函數,就保證你一定可以找到一個比較好的策略。也就是你只要能夠估計出Q函數,就保證你可以改進策略。而估計Q函數這件事情,是比較容易的,因為它就是一個回歸問題。在回歸問題里面, 你可以輕易地知道模型學習得是不是越來越好,只要看那個回歸的損失有沒有下降,你就知道說模型學習得好不好,所以估計Q函數相較于學習一個策略是比較容易的。

? ? ? ? 但是,DQN也存在一些問題,最大的問題是它不太容易處理連續動作。假設動作是連續的,做 DQN 就會有困難。因為在做 DQN 里面一個很重要的一步是你要能夠解這個優化問題。估計出 Q函數Q(s,a)?以后,必須要找到一個?a,它可以讓?Q(s,a)最大

????????假如a是連續的,你無法窮舉所有可能的連續動作,來看哪一個連續動作可以讓 Q 的值最大。

?

????????那么,怎么解決這個問題呢?第八章 DQN (連續動作) (datawhalechina.github.io)?提出了四種方案:

2 方案1

????????采樣出?N?個可能的?a:,一個一個帶到 Q函數里面,看那個最大。

????????當然這不是一個非常精確的做法,因為你沒有辦法做太多的采樣, 所以你估計出來的 Q 值,最后決定的動作可能不是非常的精確

3 方案2

????????既然要解的是一個優化問題,那么我們要做的其實就是要最大化目標函數Q。

????????要最大化一個東西, 就可以用梯度上升。

????????我們就把a當作是參數,然后要找一組a去最大化Q函數,就用梯度上升去更新?a?的值,最后看看能不能找到一個a去最大化Q函數,也就是目標函數。

? ? ? ? 但這種方案會遇到兩個問題:

1)全局最大值的問題,我們可能會停在局部最大值, 就不見得能夠真的找到最優的結果。

2)這個運算量會很大,因為我們需要迭代地訓練Q函數和a的值。我們訓練一個Q函數網絡就很花時間了。如果你用梯度上升的方法來計算當前最優的a, 等于是你每次要決定采取哪一個動作的時候,都還要做一次訓練網絡的過程,顯然運算量是很大的。

4 方案3

? ? ? ? 第三個方案是特別設計一個網絡的架構,或者說是特別設計Q函數,使得解 arg max 的問題變得非常容易。

????????也就是說,這邊的Q函數不是一個一般的Q函數,特別設計一下這個Q函數,是的Q函數最大的時候,a比較容易去求得。

? ? ? ? 怎么去設計這個Q函數,是一個學問。(有些問題可能找不到這樣的Q函數,或者Q函數不好找,這也是這一方案的局限性)下面舉一個例子:

????????輸入?s,Q函數會輸出 3 個東西。向量μ(s),矩陣Σ(s),標量V(s)。

? ? ? ? 我們知道Q函數是需要輸入一個狀態s和一個動作a,然后決定一個值。我們現在只輸入了s,還沒有將a加進來。【這個例子里面a是機器人各個關節的旋轉角度,也是一個向量】

? ? ? ? 于是之后我們處理Q(s,a),用a和μ(s),Σ(s),V一起計算最終的Q

????????把向量?a?減掉向量μ,取轉置,所以它是一個行向量。Σ?是一個矩陣。然后a減掉 μ(s)?,是一個列向量。所以是一個標量,這個數值就是 這個例子里面的Q(s,a)。

????????假設?Q(s,a)?定義成這個樣子,我們要怎么找到一個a去最大化這個 Q 值呢?這個方案非常簡單。

? ? ? ? 我們人為令Σ是一個正定矩陣(這個由的設計決定,它直接輸出的不是正定矩陣,然后這個矩陣通過一些操作使它變成正定矩陣輸入,稱為Σ(s))

? ? ? ? 因而此時一定是正的,它前面乘上一個負號。所以第一項假設我們不看這個負號的話,第一項的值越小,最終的 Q 值就越大。

????????怎么讓第一項的值最小呢?直接把a代入?μ?的值,讓它變成 0,就會讓第一項的值最小。

5 方案4?

????????第 4 種方案就是不要用 DQN。用 DQN 處理連續動作還是比較麻煩。 基于策略的方法 PPO 和基于價值的方法 DQN,這兩者其實是可以結合在一起的,如下圖所示,也就是演員-評論員的方法。

?

總結

以上是生活随笔為你收集整理的针对连续动作的DQN的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 污污视频在线看 | 欧洲精品无码一区二区 | 国产a视频精品免费观看 | 色婷婷av一区二区三区软件 | 欧美精选一区 | 日韩欧美在线观看免费 | 亚洲精品白浆高清久久久久久 | 天天舔天天摸 | 欧美网站在线 | 日本视频网站在线观看 | 国产精品5区 | 国产在线一二区 | 久久avav | 国产91区| 亚洲国产一区视频 | 日本伊人影院 | 女人性做爰24姿势视频 | 婷婷网址| 色婷婷av一区二区三区在线观看 | 欧美视频网站 | 亚洲视频在线观看免费视频 | 亚洲人成影视 | 婷婷色在线播放 | 欧美色第一页 | 亚洲精品一区二区三区新线路 | 又大又粗欧美黑人aaaaa片 | 美女自拍偷拍 | 亚洲成a人片77777kkkk | 大尺度做爰无遮挡露器官 | 2023毛片| 永久免费看片在线观看 | 91视频美女| 少妇全黄性生交片 | 亚洲一区二区三区在线视频观看 | 精品免费久久久 | 涩涩五月天| 欧美性受xxxx黑人猛交88 | 在线播放国产一区 | 99九九精品视频 | 欧美又粗又大xxxxbbbb疯狂 | 岛国av免费观看 | 久久亚洲精 | 亚洲精品乱码久久久久久久久久久久 | 在线观看欧美一区二区三区 | 好了av在线 | 亚洲19p| 可以免费看黄的网站 | 国产在线网址 | 精彩视频一区二区 | 国产chinesehd精品露脸 | 日本久久久久久久久久 | 黄色一级大片在线免费看国产一 | 日韩精品在线观看一区二区 | 伊人激情影院 | 丰满人妻一区二区三区免费视频棣 | 日韩激情在线 | 欧美在线一区视频 | avwww| 欧美另类人妖 | 国产初高中真实精品视频 | 国产99在线 | 亚洲 | 狼人综合视频 | 九九爱国产| 婷婷丁香综合网 | 黄色片在哪里看 | 92久久精品一区二区 | 欧美在线网站 | 一级网站在线观看 | 姐姐的秘密韩剧免费观看全集中文 | 日韩av片在线免费观看 | 成人午夜免费视频 | 久久色在线视频 | 中国少妇色 | 亚洲国产日韩在线 | 波多野结衣人妻 | 日日夜夜天天干 | 精品人妻码一区二区三区红楼视频 | 2018av| 欧美青青草 | 91网站永久免费看nba视频 | 色一情一交一乱一区二区三区 | 无码人妻丰满熟妇奶水区码 | 性av网站 | 国产精品一区二区在线看 | wwwsss在线观看 | 超能一家人电影免费喜剧在线观看 | 日本在线中文字幕专区 | 中文字幕系列 | 国产精品久久久久久久久久久久久久久久 | 午夜美女福利 | 高清成人免费视频 | 亚洲无限av | 不卡国产视频 | 国产探花一区 | 亚洲永久无码7777kkk | 午夜视频在线播放 | 亚洲视频区 | 秋霞在线视频 | 中文字幕欧美日韩 |