人工智能“想象力”再升级 Deepmind 是如何做到的？

在行动之前去预想后果，这是人类认知能力中一种独一无二的强大能力。

举个例子，当我们将一个玻璃杯子放在桌子边缘的时候，我们都会习惯性的担心一下杯子放的稳不稳、会不会被碰下来打碎。这就是对放杯子这件事的后果的思考。为了避免不好的结果的出现，我们就会随着调节杯子的位置，避免杯子被摔碎。

而上述提到的这种慎重性的思维方式，其实是在运用人类的“想象力”。研究表明，这种“想象力”是人类的一种本能，我们的生活中处处存在这种“想象力”。

同样，如果我们希望人工智能算法也可以像人类一样实现这种“想象力”，进行慎重性的前瞻思考，那么算法也必须能够“想象”，对未来进行预测和推理。另外，算法还必须利用这些知识去调节行动计划。

截至目前，在这个研究领域，人类已经取得了丰富的成果，例如AlphaGo这样的程序，利用“内部模型”，分析每步操作会在未来带来什么样的结果，从而进行推理并实施行动。这些内部模型非常强大，围棋是一种有着明确规则定义的活动，因此要想在几乎任何情况下都准确地预测结果并不难。

但是，现实生活中的情况比围棋比赛复杂的多，生活中往往没有明确的规则，常常还会伴随意外的出现。即使是最聪明的人工智能系统，在这种复杂环境中展开想象都有很长的路要走，而且成本昂贵。

最近，在两篇最新论文中，人类找到了一种新的方法，让人工智能建立以想象力为基础的计划能力。我们还提出一种新的方式让人工智能系统去学习并构建计划，实现效率最优化。而对于不完美的模型，这些架构高效而稳固，可以利用灵活的策略去发挥想象力。

人工智能系统想象力的增强

“想象编码器”这种神经网络学习方式可以提取有用信息，用于未来决策，同时自动剔除不相关信息。

这种人工智能系统有以下优缺点：

一，表达内部模拟结果。学会表达内部模拟结果也就意味着人工智能可以通过模型的构建，发现周围环境的变化，但这种捕获变化的精准度还有待提高。

二，高效利用想象力。人工智能可以同时开启多个想象力轨迹以解决合理适配问题。同时编码器也提高了效率，还可以提取额外信息。但这种想象轨迹并不一定会带来收益最大化，但一定会带来有用的信息。

三，权衡不同策略构建计划。人工智能可以继续当前的想象轨迹，也可以重新开始一个新的想象轨迹。或者说，它们可以同时可进行多个策略的构建，并从中选择最优方案，而不会仅仅局限于一种单一的方法。这些模型拥有不同的精准度和计算陈本，进而带来广泛而高效的规划策略，避免对周围环境信息的不完全提取。

构架的测试

我们通过各种不同的任务去测试所提出的架构是否可行，其中包括推箱子游戏，以及一款太空飞船导航游戏。这两款游戏都需要前瞻性的规划和推理，因此是测试人工智能系统的绝佳方式。

在推箱子游戏中，人工智能系统成功将盒子推到目标之上。由于盒子只能向前推，因此许多操作是不可逆的，这就体现了其前瞻性。

在太空飞船游戏中，人工智能系统必须按照固定次数去启动推进器，使飞船保持稳定。这种操作需要适应不同星球的引力。因此，这是一种非线性的复杂持续控制任务，也可以检测该系统的架构是否合理。

为了限制这两种任务中的试错次数，每一关卡都用程序生成，而人工智能系统只有一次尝试的机会，这就鼓励人工智能系统在现实环境测试之前，进行多种不同策略的前瞻性分析，进而选择最优策略。

在以上两种任务当中，增加版的人工智能所表现出来的“想象力”比之前的人工智能都要表现的好，都目前仍无法企及人类的水平。增强版的想象力可以根据较少的经验进行学习，并且有能力处理建模环境中的不完美之处。人工智能系统可以从内部模拟中提取更多有效信息，因此相较于传统搜索方法，可以更高效地完成任务。

当人工智能系统面对多种不同环境的模型，每种环境模型的情况和优势各不相同时，它可以学会权衡进而做出最优选择。最后，如果每步行动会导致想象的计算成本上升，那么人工智能系统就会前瞻性地想象多个连锁行为产生的后果，随后基于这样的计划，而不会再次展开想象。

IT思维