當前位置：首頁 >

结构体实验报告总结_解读！清华、谷歌等10篇强化学习论文总结

發布時間：2024/9/19 32 豆豆

生活随笔收集整理的這篇文章主要介紹了结构体实验报告总结_解读！清华、谷歌等10篇强化学习论文总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

強化學習（Reinforcement Learning，RL）正成為當下機器學習中最熱門的研究領域之一。與常見的監督學習和非監督學習不同，強化學習強調智能體（agent）與環境（environment）的交互，交互過程中智能體需要根據自身所處的狀態（state）選擇接下來采取的動作（action），執行動作后，智能體會進入下一個狀態，同時從環境中得到這次狀態轉移的獎勵（reward）。

強化學習的目標就是從智能體與環境的交互過程中獲取信息，學習狀態與動作之間的映射，指導智能體根據狀態做出最佳決策，最大化獲得的獎勵。

在強化學習系統中，除了智能體和環境，重要元素還包括價值函數（value function）、策略（policy）以及獎勵信號（reward signal）。Value-based 和 Policy-based 是強化學習算法設計的兩大思路。在智能體與環境交互過程中，獎勵是智能體在某個狀態執行動作后立即得到的反饋，而價值函數則反映了智能體考慮未來的行動之后對所有可能狀態的評估。

本文對近兩年來發表在ICLR、ICML等AI頂會上有關強化學習的論文進行了解讀，以饗讀者。

Ask the Right Questions：Active Question Reformulation with Reinforcement Learning

論文作者：Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby, Wei Wang（谷歌）

論文地址：https://arxiv.org/pdf/1705.07830v2.pdf

總結：本文將問答看做一個強化學習任務，主要思想是在用戶和問答系統之間增加一個問題重構模塊。該模塊可以將用戶問題改寫成不同形式，這些改寫后的問題可以通過問答系統得到多個答案，該模塊再從這些答案中選擇質量最高的回答返回給用戶。問題重構模塊的核心是一個類似機器翻譯的sequence-to-sequence模型，該模型首先通過單語語料預訓練，之后使用Policy Gradient進行強化學習的訓練過程，目標是使問答系統得到最佳回答的獎勵。

Go for a Walk and Arrive at the Answer：Reasoning over Paths in Knowledge Bases using Reinforcement Learning

論文作者：Rajarshi Das, Shehzaad Dhuliawala, Manzil Zaheer, Luke Vilnis, Ishan Durugkar, Akshay Krishnamurthy, Alex Smola, Andrew McCallum（馬薩諸塞大學，卡內基梅隆大學，德克薩斯大學奧斯汀分校，亞馬遜）

論文地址：https://arxiv.org/pdf/1711.05851.pdf

總結：本文提出了MINERVA算法解決知識圖譜中的自動推理問題。MINERVA算法主要用于基于知識圖譜的自動問答：給定三元組中的關系和其中一個實體，補全另一個實體。作者采用基于路徑搜索的方法，從已知的實體節點出發，根據問題選擇合適的路徑到達答案節點。作者將問題形式化為一個部分可觀察的馬爾可夫決策過程，將觀察序列和歷史決策序列用基于LSTM的策略網絡表示。LSTM的訓練使用了Policy Gradient方法。

Active Neural Localization

論文作者：Devendra Singh Chaplot, Emilio Parisotto, Ruslan Salakhutdinov（卡內基梅隆大學）

論文地址：https://www.aminer.cn/pub/5a9cb66717c44a376ffb8b95/active-neural-localization

總結：本文介紹了Active Neural Localization模型，根據給定的環境地圖和智能體的觀察，可以估計出智能體的位置。該方法可以直接從數據學習，并主動預測智能體行動來獲得精確和高效的定位。該方法結合了傳統的filter-based定位方法和策略模型，可以使用強化學習進行end-to-end訓練。模型包括一個感知模型和一個策略模型，感知模型根據當前智能體的觀測計算可能位置的信念（Belief），策略模型基于這些信念估計下一步行動并進行精確定位。

The Reactor：A fast and sample-efficient Actor-Critic agent for Reinforcement Learning

論文作者：Audrunas Gruslys, Mohammad Gheshlaghi Azar, Marc G. Bellemare, Remi Munos（DeepMind）

論文地址：https://arxiv.org/pdf/1704.04651.pdf

總結：本文提出了Reactor模型，該模型結合了off-policy經驗回放的低樣本復雜度和異步算法的高訓練效率兩方面優點，比Prioritized Dueling DQN和Categorical DQN有更低的樣本復雜度，同時比A3C有更低的運行時間。作者在模型中使用了多個技術，包括：新的策略梯度算法beta-LOO，多步off-policy分布式強化學習算法Retrace，prioritized replay方法以及分布式訓練框架。

Reinforcement Learning for Relation Classification from Noisy Data

論文作者：Jun Feng,Minlie Huang,Li Zhao,Yang Yang,Xiaoyan Zhu（清華大學，微軟亞洲研究院，浙江大學）

論文地址：https://www.aminer.cn/pub/5b1642388fbcbf6e5a9b54be/reinforcement-learning-for-relation-classification-from-noisy-data

總結：現有的關系分類方法主要有兩個局限性：無法進行sentece-level的關系分類；依賴遠程監督（distant supervision）標注的數據，但標注數據中存在較大誤差。本文介紹了一個sentence-level的關系分類算法。算法由兩個部分組成，分別是“instance selector”和“relation classifier”。Instance selector用于選取質量高的句子作為relation classifier的訓練數據，該過程可以看做一個強化學習問題。作者分別定義了Instance selector的動作空間，狀態空間和獎勵函數，并給出了基于Policy Gradient的優化方法。

Learning Structured Representation for Text Classification via Reinforcement Learning

論文作者：Tianyang Zhang, Minlie Huang,Li Zhao（清華大學，微軟亞洲研究院）

論文地址：https://www.microsoft.com/en-us/research/wp-content/uploads/2017/11/zhang.pdf

總結：本文提出了一個基于深度學習的句子表示算法，可以針對任務學習句子的結構化表示。該算法不需要解析樹或其他顯示的結構化表示標注作為輸入，而是通過訓練數據自動效識別與任務相關的句子結構。作者使用強化學習的方法構建任務相關的句子結構表示，模型由三部分組成，分別是Policy Network （PNet），Structured Representation Model和Classification Network （CNet），PNet為句子產生一個動作序列，Structured Representation Model將動作序列轉化為結構化表示，CNet提供獎勵信號，模型參數可以使用Policy Gradient方法優化。

Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning

論文作者：Anusha Nagabandi， Gregory Kahn， Ronald S. Fearing， Sergey Levine（加州大學伯克利分校）

論文地址：https://www.aminer.cn/pub/5a260c8417c44a4ba8a31564/neural-network-dynamics-for-model-based-deep-reinforcement-learning-with-model-free

總結：本文提出了一種新的model-based的強化學習學法，并可以用于初始化model-free的算法。作者提出的model-based算法使用神經網絡擬合動力學模型，并結合了MPC（model predictive control）。作者使用model-based優化得到的動力學模型作為model-free算法的初始化，可以同時保留model-based算法樣本復雜度小，model-free算法泛化能力強兩方面的優勢。

Learning to Collaborate：Multi-ScenarioRanking via Multi-Agent Reinforcement Learning

論文作者：Jun Feng, Heng Li, Minlie Huang, Shichen Liu, Wenwu Ou, Zhirong Wang, Xiaoyan Zhu（清華大學，阿里巴巴）

論文地址：https://arxiv.org/pdf/1809.06260v1.pdf

總結：本文提出了一個多場景聯合排序算法，目標是提高多場景的整體效果。多場景之間存在博弈關系，單個場景提升無法保證整體提升。本文將多場景排序看做一個完全合作，部分可觀測的多智能體序列決策問題，并采用多智能體強化學習的框架建模。作者提出了MA-RDPG（Multi-Agent Recurrent Deterministic Policy Gradient）算法，利用DRQN對用戶的歷史信息建模，同時用DPG對連續狀態和連續動作空間進行探索。

Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning

論文作者：Meng Qu，Jian Tang，Jiawei Han（伊利諾伊大學香檳分校）

論文地址：https://www.aminer.cn/pub/5a9cb60d17c44a376ffb3c89/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning

總結：本文將深度強化學習應用到了異構星型網絡的表示學習中。在異構星型網絡表示的學習過程中通常需要采樣一系列的邊來得到點之間的相似性，作者發現這些邊的順序會顯著影響表示學習的效果。作者借鑒了課程學習（Curriculum Learning）的思想，研究如何在網絡表示學習中學習這些邊的采樣順序。該問題可以形式化為馬爾可夫決策過程，作者提出了一個基于深度強化學習的解決方法。

Soft Actor-Critic：Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

論文作者：Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine（加州大學伯克利分校）

論文地址：https://arxiv.org/pdf/1801.01290.pdf

總結：本文提出了soft actor-critic算法。該算法是一個基于最大熵強化學習的off-policy actor-critic算法，在最大化獎勵的同時最大化熵，讓動作盡可能隨機。作者證明了算法的收斂性，并在多個benchmark上超越了已有的on-policy或off-policy的算法。

總結

以上是生活随笔為你收集整理的结构体实验报告总结_解读！清华、谷歌等10篇强化学习论文总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。