IT思维

文章页右侧顶部广告

UC伯克利ICLR论文:论如何教强化学习模型骑自行车去金门大桥?

2018-05-03 17:05:33 0 人工智能 | , ,

公众号:AI 科技评论

本文的作者是来自加州大学伯克利分校人工智能实验室(BAIR)的博士生 Vitchyr Pong,他的主研方向为深度强化学习。在本篇博客中作者介绍了自己发表于正在进行的 ICLR 2018 的一项最新工作——时间差分模型(Temporal Difference Models),该模型属于强化学习中的一种,并且很好地综合了无模型方法与基于模型方法两种策略各自的优点,雷锋网 AI 科技评论根据原文进行了编译。

假设你想从伯克利加州大学旁的房子骑行前往金门大桥。虽然这将会是一段风景优美的 20 英里骑行,但是却存在一个严重的问题:你从来没有骑过自行车!更糟糕的是,你刚搬来湾区所以你对这里一点都不熟悉,而你所能依赖的唯一工具就是一份制作精良的最新地图。那么你该如何开始这趟旅程?

首先我们需要弄清楚自行车是怎么骑的。其中一种策略是进行大量的学习和规划,阅读关于如何骑自行车的书籍,以及学习物理学和人体结构,规划好你为了应对每种扰动而做出的所有不同的肌肉运动。这种方法尽管乍看之下非常系统和高级,但是对于任何学过自行车的人来说,他们都知道这种策略注定是要失败的。事实上学习如何骑自行车只有唯一一种方法:尝试和犯错。因为像骑自行车这样的任务实在是太过于复杂了,它远远超出了你所能规划的范围。

而一旦你学会了如何骑自行车,你又将如何前往金门大桥?你可以再次使用尝试和犯错策略(Trial-and-error strategy)。你开始尝试着漫无目的地在周围瞎转了几圈,看看是否能碰巧找到金门大桥。可是不幸的是,采取这一策略会消耗你大量的时间。对于这样的问题,规划(Planning)就是一种来得更快的策略,并且只需要相当少的现实世界的经验(Real-world experience)和试错(Trial-and-error)次数。在强化学习的术语中,这就是具有更好的采样效率(Sample-efficient)。