基于模型的强化学习(RL)帮助机器人学习技能。Agent获得了一个预测模型,该模型代表了世界如何运作并得出有效的策略。但是,在复杂环境(例如图像)的情况下会出现挑战。
最近发表在arXiv.org上的一篇论文试图设计一种非重构表示学习方法,该方法明确优先考虑最有可能与代理功能相关的信息。
研究人员通过互信息最大化和授权将表示学习相结合,推导出基于模型的RL算法。基于授权的术语可以对最有可能具有功能相关性的信息进行优先排序。
这种方法显着提高了存在时间相关干扰物(例如,背景视频)的性能,并在奖励信号较弱时加速了环境中的探索。
为处理复杂的视觉观察而设计的基于模型的强化学习(RL)算法通常会显式或隐式地学习某种潜在状态表示。这种标准方法不区分状态的功能相关方面和不相关的干扰因素,而是旨在平等地表示所有可用信息。我们为基于模型的RL提出了一个修改后的目标,结合互信息最大化,允许我们学习基于视觉模型的RL的表示和动态,而无需以明确优先考虑功能相关因素的方式进行重建。我们设计背后的关键原则是将受变分授权启发的术语集成到基于互信息的状态空间模型中。该术语优先考虑与行动相关的信息,从而确保首先捕获功能相关的因素。此外,相同的授权项还促进了RL过程中更快的探索,特别是对于奖励信号不足以在学习早期阶段推动探索的稀疏奖励任务。我们评估了一套具有自然视频背景的基于视觉的机器人控制任务的方法,并表明所提出的优先信息目标优于基于最新模型的RL方法,具有更高的样本效率和情景回报。特别是对于奖励信号不足以在学习早期阶段推动探索的稀疏奖励任务。我们评估了一套具有自然视频背景的基于视觉的机器人控制任务的方法,并表明所提出的优先信息目标优于基于最新模型的RL方法,具有更高的样本效率和情景回报。特别是对于奖励信号不足以在学习早期阶段推动探索的稀疏奖励任务。我们评估了一套具有自然视频背景的基于视觉的机器人控制任务的方法,并表明所提出的优先信息目标优于基于最新模型的RL方法,具有更高的样本效率和情景回报。