日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SeqGAN——对抗思想与增强学习的碰撞

發布時間:2025/3/15 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SeqGAN——对抗思想与增强学习的碰撞 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SeqGAN這篇paper從大半年之前就開始看,斷斷續續看到現在,接下來的工作或許會與GAN + RL有關,因此又把它翻出來,又一次仔細拜讀了一番。接下來就記錄下我的一點理解。

paper鏈接

1. 背景

GAN在之前發的文章里已經說過了,不了解的同學點我,雖然現在GAN的變種越來越多,用途廣泛,但是它們的對抗思想都是沒有變化的。簡單來說,就是在生成的過程中加入一個可以鑒別真實數據和生成數據的鑒別器,使生成器G和鑒別器D相互對抗,D的作用是努力地分辨真實數據和生成數據,G的作用是努力改進自己從而生成可以迷惑D的數據。當D無法再分別出真假數據,則認為此時的G已經達到了一個很優的效果。?
它的諸多優點是它如今可以這么火爆的原因:?
- 可以生成更好的樣本?
- 模型只用到了反向傳播,而不需要馬爾科夫鏈?
- 訓練時不需要對隱變量做推斷?
- G的參數更新不是直接來自數據樣本,而是使用來自D的反向傳播?
- 理論上,只要是可微分函數都可以用于構建D和G,因為能夠與深度神經網絡結合做深度生成式模型

它的最后一條優點也恰恰就是它的局限,之前我發過的文章中也有涉及到,點點點點點我,在NLP中,數據不像圖片處理時是連續的,可以微分,我們在優化生成器的過程中不能找到“中國 + 0.1”這樣的東西代表什么,因此對于離散的數據,普通的GAN是無法work的。

2. 大體思路

這位還在讀本科的作者想到了使用RL來解決這個問題。

如上圖(左)所示,仍然是對抗的思想,真實數據加上G的生成數據來訓練D。但是從前邊背景章節所述的內容中,我們可以知道G的離散輸出,讓D很難回傳一個梯度用來更新G,因此需要做一些改變,看上圖(右),paper中將policy network當做G,已經存在的紅色圓點稱為現在的狀態(state),要生成的下一個紅色圓點稱作動作(action),因為D需要對一個完整的序列評分,所以就是用MCTS(蒙特卡洛樹搜索)將每一個動作的各種可能性補全,D對這些完整的序列產生reward,回傳給G,通過增強學習更新G。這樣就是用Reinforcement learning的方式,訓練出一個可以產生下一個最優的action的生成網絡。

3. 主要內容

不論怎么對抗,目的都是為了更好的生成,因此我們可以把生成作為切入點。生成器G的目標是生成sequence來最大化reward的期望。

在這里把這個reward的期望叫做J(θ)。就是在s0和θ的條件下,產生某個完全的sequence的reward的期望。其中Gθ()部分可以輕易地看出就是Generator Model。而QDφGθ()(我在這里叫它Q值)在文中被叫做一個sequence的action-value function 。因此,我們可以這樣理解這個式子:G生成某一個y1的概率乘以這個y1的Q值,這樣求出所有y1的概率乘Q值,再求和,則得到了這個J(θ),也就是我們生成模型想要最大化的函數。

所以問題來了,這個Q值怎么求??
paper中使用的是REINFORCE algorithm 并且就把這個Q值看作是鑒別器D的返回值。

因為不完整的軌跡產生的reward沒有實際意義,因此在原有y_1到y_t-1的情況下,產生的y_t的Q值并不能在y_t產生后直接計算,除非y_t就是整個序列的最后一個。paper中想了一個辦法,使用蒙特卡洛搜索(就我所知“蒙特卡洛”這四個字可以等同于“隨意”)將y_t后的內容進行補全。既然是隨意補全就說明會產生多種情況,paper中將同一個y_t后使用蒙特卡洛搜索補全的所有可能的sequence全都計算reward,然后求平均。如下圖所示。

就這樣,我們生成了一些逼真的sequence。我們就要用如下方式訓練D。

這個式子很容易理解,最大化D判斷真實數據為真加上D判斷生成數據為假,也就是最小化它們的相反數。

D訓練了一輪或者多輪(因為GAN的訓練一直是個難題,找好G和D的訓練輪數比例是關鍵)之后,就得到了一個更優秀的D,此時要用D去更新G。G的更新可以看做是梯度下降。

其中,

αh代表學習率。

以上就是大概的seqGAN的原理。

4. 算法

首先隨機初始化G網絡和D網絡參數。

通過MLE預訓練G網絡,目的是提高G網絡的搜索效率。

使用預訓練的G生成一些數據,用來通過最小化交叉熵來預訓練D。

  • 開始生成sequence,并使用方程(4)計算reward(這個reward來自于G生成的sequence與D產生的Q值)。

  • 使用方程(8)更新G的參數。

  • 更優的G生成更好的sequence,和真實數據一起通過方程(5)訓練D。

  • 以上1,2,3循環訓練直到收斂。

    5. 實驗

    論文的實驗部分就不是本文的重點了,有興趣的話看一下paper就可以了。

    后邊說的比較敷衍了,那…就這樣吧。

    原文地址:?http://blog.csdn.net/yinruiyang94/article/details/77675586

    總結

    以上是生活随笔為你收集整理的SeqGAN——对抗思想与增强学习的碰撞的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 9久久9毛片又大又硬又粗 | 日韩a级黄色片 | 国产91久久精品一区二区 | 免费在线观看毛片视频 | 日本夜夜操 | 日本五十路在线 | 国产精品偷乱一区二区三区 | 老司机在线免费视频 | v99av| 成人午夜网 | 夜噜噜 | 91网址入口 | 国产精品午夜福利视频234区 | 欧美激情伊人 | 日日夜夜天天 | jizzjizz在线观看 | 秋霞网一区二区 | 操出白浆视频 | 亚洲精品午夜 | 亚洲精品免费观看 | 日美一级片 | 成人a网| www.久久爱 | 神马午夜电影一区二区三区在线观看 | 亚洲视频小说 | av手机在线免费观看 | 韩日中文字幕 | 欧美激情影音先锋 | 91久久精品日日躁夜夜躁国产 | 琪琪伦伦影院理论片 | 国产在线观看免费视频今夜 | 黄色的视频网站 | 天天干天天插 | 亚洲欧美经典 | 中国美女囗交视频 | 国产成人精品av久久 | 91免费国产在线 | 人妻少妇精品无码专区 | 黄色性情网站 | 波多野结衣中文一区 | 欧美色图一区二区三区 | 欧美视频在线免费看 | 午夜精品久久久内射近拍高清 | 打白嫩屁屁网站视频短裙 | 日韩欧美成人一区二区 | 日韩av在线网址 | 绿帽av | 小黄网站在线观看 | 北条麻妃一区二区三区免费 | 日韩久久久久 | 日本aaaa| 老司机精品视频在线播放 | 中文字幕亚洲乱码熟女1区2区 | 黄色免费av网站 | 中文字幕乱轮 | 中文字幕精品久久久久人妻红杏1 | 男人天堂2019| 美女av片| 欧美日韩激情视频 | 国产夫妻性爱视频 | 欧美性做爰猛烈叫床潮 | 性猛交xxxx乱大交孕妇印度 | 蜜桃综合网 | 欧美久久久久久又粗又大 | 美女被c出水 | 日韩和一区二区 | 高h视频在线播放 | av电影免费在线播放 | 伊人免费 | 超碰在线人人干 | 精品久久中文字幕 | 日日夜夜狠狠 | 午夜啪视频| 色呦呦一区二区三区 | 国产精品欧美激情在线播放 | 成人午夜淫片免费观看 | 中文字幕人妻互换av久久 | 国产成人精品av在线观 | 五月婷婷激情在线 | 亚洲涩涩爱| 超碰97自拍 | 日韩一级片免费观看 | 久久成年| 综合色在线| 精品国产一区二区三区性色 | 亚洲精品福利视频 | 人妖videosex高潮另类 | 日本特黄一级 | 四虎影| 97香蕉超级碰碰久久免费软件 | 国产一线天粉嫩馒头极品av | 欧美激情视频一区二区 | 亚洲精品久久久久久一区二区 | 高h喷汁呻吟3p | 在线成人毛片 | 精品婷婷| 日本99视频 | 都市激情亚洲一区 | 久久综合一区二区 |