日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

增强学习Q-learning分析与演示(入门)

發(fā)布時間:2025/3/15 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 增强学习Q-learning分析与演示(入门) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一些說明、參閱

https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/1_command_line_reinforcement_learning/treasure_on_right.py

https://github.com/simoninithomas/Deep_reinforcement_learning_Course/blob/master/Q%20learning/FrozenLake/Q%20Learning%20with%20FrozenLake.ipynb

https://www.cnblogs.com/hhh5460/p/10134018.html

http://baijiahao.baidu.com/s?id=1597978859962737001&wfr=spider&for=pc

https://www.jianshu.com/p/29db50000e3f

問題提出

為了實現(xiàn)自走的路徑,并盡量避免障礙,設計一個路徑。

如圖所示,當機器人在圖中的任意網(wǎng)格中時,怎樣讓它明白周圍環(huán)境,最終到達目標位置。

?

?

這里給出一個運行結果:

首先給他們編號如下:作為位置的標識。

?

然后利用Q-Learning的獎賞機制,完成數(shù)據(jù)表單更新,最終更新如下:

?

?

?在機器人實際選擇路徑時,按照該表中的最大值選擇,最終走到24號位置,并避開了紅色方塊。

如初始位置在4時候,首先選擇了最大值向左到3,然后在3處選擇了最大值向下,然后到8處選擇了向下,等等,最終完成路徑的選擇。而這種選擇正是使用Q-Learning實現(xiàn)的。

Q-learning的想法

獎賞機制

在一個陌生的環(huán)境中,機器人首先的方向是隨機選擇的,當它從起點開始出發(fā)時,選擇了各種各樣的方法,完成路徑。

但是在機器人碰到紅色方塊后,給予懲罰,則經(jīng)過多次后,機器人會避開懲罰位置。

當機器人碰到藍色方塊時,給予獎賞,經(jīng)過多次后,機器人傾向于跑向藍色方塊的位置。

具體公式

完成獎賞和懲罰的過程表達,就是用值表示吧。

首先建立的表是空表的,就是說,如下這樣的表是空的,所有值都為0:

?

?

?

?

?在每次行動后,根據(jù)獎懲情況,更新該表,完成學習過程。在實現(xiàn)過程中,將獎懲情況也編制成一張表。表格式如上圖類似。

而獎懲更新公式為:

貝爾曼方程:

其中的表示當前的Q表,就是上圖25行4列的表單。表示學習率,表示下一次行為會得到的獎懲情況,表示一個貪婪系數(shù),在這里的公式中,就是說,如果它的數(shù)值比較大,則更傾向于對遠方的未來獎賞。

(該式子在很多網(wǎng)頁文本中并沒有固定的格式,如貪婪系數(shù),在有些時候是隨著步數(shù)的增加而遞減的(可能)。

?

?推薦閱讀:

https://www.jianshu.com/p/29db50000e3f

?

?等,其中包括了更新Q表中的一些過程。

代碼實現(xiàn)-準備過程

?

?

不得不說的是該代碼參閱了:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/1_command_line_reinforcement_learning/treasure_on_right.py

他的代碼講解:https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-1-general-rl/

?

他設計了一種方案實現(xiàn)了機器人在一維空間中如何移動,但是不涉及障礙物的問題,并使用了較高的編程能力,有顯示路徑過程。

而本文側重于如何表示出路徑,完成思路示例。

導入對應的庫函數(shù),并建立問題模型:

import numpy as np import pandas as pd import time

?

N_STATES = 25 # the length of the 2 dimensional world ACTIONS = ['left', 'right','up','down'] # available actions EPSILON = 0.3 # greedy police ALPHA = 0.8 # learning rate GAMMA = 0.9 # discount factor MAX_EPISODES = 100 # maximum episodes FRESH_TIME = 0.00001 # fresh time for one move

?

創(chuàng)建Q表的函數(shù):

def build_q_table(n_states, actions):table = pd.DataFrame(np.zeros((n_states, len(actions))), # q_table initial valuescolumns=actions, # actions's name)return table

行為選擇的函數(shù):

行為選擇過程中,使用這樣長的表示也就是為了表達:在邊界時候,機器人的路徑有些不能選的,要不就超出索引的表格了。。

當貪婪系數(shù)更小時,更傾向于使用隨機方案,或者當表初始時所有數(shù)據(jù)都為0,則使用隨機方案進行行為選擇。

當np.random.uniform()< =EPSILON時,則使用已經(jīng)選擇過的最優(yōu)方案完成Qlearning的行為選擇,也就是說,機器人并不會對遠方的未知目標表示貪婪。(這里的表達是和上述公式的貪婪系數(shù)大小的作用是相反過來的)

def choose_action(state, q_table):state_actions = q_table.iloc[state, :]if (np.random.uniform() > EPSILON) or ((state_actions == 0).all()): # act non-greedy or state-action have no valueif state==0:action_name=np.random.choice(['right','down'])elif state>0 and state<4:action_name=np.random.choice(['right','down','left'])elif state==4:action_name=np.random.choice(['left','down'])elif state==5 or state==15 or state==10 :action_name=np.random.choice(['right','up','down'])elif state==9 or state==14 or state==19 :action_name=np.random.choice(['left','up','down'])elif state==20:action_name=np.random.choice(['right','up'])elif state>20 and state<24: action_name=np.random.choice(['right','up','left'])elif state==24:action_name=np.random.choice(['left','up'])else:action_name=np.random.choice(ACTIONS)else: # act greedyaction_name = state_actions.idxmax() # replace argmax to idxmax as argmax means a different function in newer version of pandasreturn action_name

獎賞表達:

函數(shù)中參數(shù)S,表示state(狀態(tài)),a表示action(行為),行為0到3分別表示左右上下。該表中,給出了在當前狀態(tài)下,下一個方向會導致的獎懲情況。

def get_init_feedback_table(S,a):tab=np.ones((25,4))tab[8][1]=-10;tab[4][3]=-10;tab[14][2]=-10tab[11][1]=-10;tab[13][0]=-10;tab[7][3]=-10;tab[17][2]=-10tab[16][0]=-10;tab[20][2]=-10;tab[10][3]=-10;tab[18][0]=-10;tab[16][1]=-10;tab[22][2]=-10;tab[12][3]=-10tab[23][1]=50;tab[19][3]=50return tab[S,a]

獲取獎懲:

該函數(shù)調用了上一個獎懲表示的函數(shù),獲得獎懲信息,其中的參數(shù)S,A,同上。

當狀態(tài)S,A符合了下一步獲得最終的結果時,則結束(終止),表示完成了目標任務。否則更新位置S

def get_env_feedback(S, A):action={'left':0,'right':1,'up':2,'down':3};R=get_init_feedback_table(S,action[A])if (S==19 and action[A]==3) or (S==23 and action[A]==1):S = 'terminal'return S,Rif action[A]==0:S-=1elif action[A]==1:S+=1elif action[A]==2:S-=5else:S+=5 return S, R

代碼實現(xiàn)-開始訓練

首先初始化Q表,然后設定初始路徑就是在0位置(也就是說每次機器人,從位置0開始出發(fā))

訓練迭代次數(shù)MAX_EPISODES已經(jīng)在之前設置。

在每一代的訓練過程中,選擇行為(隨機或者使用Q表原有),然后根據(jù)選擇的行為和當前的位置,獲得獎懲情況:S_, R

當沒有即將發(fā)生的行為不會到達最終目的地時候,使用:

q_target = R + GAMMA * q_table.iloc[S_, :].max() q_table.loc[S, A] += ALPHA * (q_target - q_table.loc[S, A])

 這兩行完成q表的更新。(對照貝爾曼方程)

當完成時候,即終止,開始下一代的訓練。

?

def rl():# main part of RL loopq_table = build_q_table(N_STATES, ACTIONS)for episode in range(MAX_EPISODES):S = 0is_terminated = Falsewhile not is_terminated:A = choose_action(S, q_table)S_, R = get_env_feedback(S, A) # take action & get next state and rewardif S_ != 'terminal':q_target = R + GAMMA * q_table.iloc[S_, :].max() # next state is not terminalelse:print(1)q_target = R # next state is terminalis_terminated = True # terminate this episodeq_table.loc[S, A] += ALPHA * (q_target - q_table.loc[S, A]) # updateS = S_ # move to next statereturn q_tableif __name__ == "__main__":q_table = rl()print('\r\nQ-table:\n')print(q_table)

效果-總結

效果其實和開頭一樣,調整合適的參數(shù),最終輸出的q表自然有對應的影響。

明顯可以得到的是,貪婪系數(shù)會影響訓練時間等。

所有代碼就是以上。可以使用eclipse的pydev下進行運行,調試。并觀察沒一步對表格的影響

?

轉載于:https://www.cnblogs.com/bai2018/p/11517584.html

總結

以上是生活随笔為你收集整理的增强学习Q-learning分析与演示(入门)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。