让神经网络给符号AI“打工”,MIT和IBM联合解决深度学习痛点,未来将用于自动驾驶

  • 时间: 2020-12-23 03:49:41

  来源:量子位

  晓查发自凹非寺 

  量子位报道公众号 QbitAI

  现在的 AI 是神经网络的天下,但科学家们正在尝试将神经网络与“老式 AI”结合。

  这里说的“老式 AI”是上世纪 70 年代流行的“符号主义”。在几十年前遭遇失败后,“连接主义”取代其成为主流。

  但是,越来越多的科学家注意到,将二者结合才会让 AI 发挥出更强大的威力。

  让连接主义给符号主义“打工”

  几年前,科学家从小鸭子身上学到了一样不寻常的东西。如果小鸭子出生后先看到的是两个相似的物体,那么之后会对相似物体产生更多的偏好。

  小鸭毫不费力地做的事情对于人工智能来说是很难的,尤其是深度神经网络这一 AI 分支。

  如果交给符号 AI,它会怎么做?符号 AI 会处理物体的名称作为知识库,并给“相似”做出定义作为命题。

  凭借其知识库和命题,符号 AI 采用推理引擎的逻辑规则来回答问题。

  但符号 AI 缺点在于,要实现更复杂的推理需要庞大的知识库(人工构建),如果 AI 遇到知识库中没有的形状将无法处理。

  连接主义利用知识进行训练,让神经网络具有学习能力,但容易受到对抗攻击。

  于是将符号主义和连接主义结合起来的混合式神经-符号 AI(neurosymbolic AI)应运而生。

  科学家用深度神经网络来构建符号 AI 所需的知识库和命题,省去了人工预设的难题,然后使用符号 AI 对任务进行推理。

  解决李飞飞 2016 年难题

  2016 年,李飞飞等人提出了组合语言和基本视觉推理(CLEVR)数据集,要求 AI 回答由计算机生成的简单 3D 形状图像相关问题。

  使用复杂的深度神经网络可以解决此问题。但是,IBM、MIT 和 DeepMind 的研究人员提出了一种截然不同的解决方案,显示出符号 AI 的强大能力。该方法相关论文已经被 ICLR 2019 收录。

  在这篇论文中,他们将问题分解为符号 AI 熟悉的较小部分。

  这套系统首先查看图像并表征 3D 形状及其属性,由此生成知识库。然后,它将问题变成一个可以在知识库上运行并产生答案的符号程序。

  过去,在符号 AI 中,需要让人类程序员去手动输入知识库,现在研究人员希望由神经网络代替人类这项工作。

  他们先通过使用卷积神经网络(CNN)解决了第一个问题,识别目标的颜色、形状、材质等属性。

  然后使用递归神经网络(RNN)发现顺序输入中的模式。这个模块负责接收自然语言问题并将其转换为符号程序形式的问题。

  整个过程类似于按需生成知识库,并让推理引擎在知识库上回答问题。

  最终,这种混合 AI 在从未见过的问题和图像上进行测试,准确率达 98.9%,击败了人类。人类只能回答正确 92.6% 的问题。

  更好的是,混合 AI 只需要纯粹深度神经网络训练数据的 10%。混合 AI 还具有可解释性,如果发生错误,则更容易发现问题所在。

  挑战更高难度

  搞定 CLEVR 数据集后,现在神经-符号 AI 正在解决更为棘手的问题。

  2019 年,在李飞飞 CLEVR 数据集的基础上,DeepMind、MIT、哈佛大学和 IBM 设计了一个更加复杂的挑战 CLEVRER:让 AI 基于视频而不是图像来回答问题。

  视频中会出现 CLEVR 数据集中的目标类型,但是这些目标会移动甚至发生碰撞,而且问题更加棘手。

  有些问题是描述性的,比如:视频结束时有多少金属物体在移动?

  有些问题则需要预测,比如:接下来将发生哪个事件?[a]绿色圆柱体和球体碰撞,[b]绿色圆柱体与正方体碰撞。

  甚至还有些问题是视频中没有发生的(反事实),比如:没有青色圆柱体,将不会发生什么?[a]球体和立方体碰撞, [b]球体和青色圆柱体碰撞, [c]立方体和青色圆柱体碰撞。

  对于当今的深度神经网络来说,这种随时间变化的因果关系是非常困难的,这主要表现在发现数据的静态模式方面。

  为了解决这个问题,团队扩充了之前解决 CLEVR 的方案。

  首先,神经网络学习将视频片段分解为目标的逐帧表示,然后被馈送到另一个神经网络,学习分析这些目标的运动以及它们如何相互影响,并可以预测目标的运动和碰撞。

  这两个模块共同构成了知识库。其他两个模块处理问题并将其应用于生成的知识库。

  该团队的解决方案在回答描述性问题方面的准确性约为 88%,对于预测性问题的准确性约为 83%,对于反事实问题的准确性约为 74%。

  让 AI 学会提问

  提出好问题是机器在人类的另一项技能。这是一种不断学习世界的方式,而不必等待大量的样本。没有任何一种机器可以接近人类提问的能力。

  而神经-符号 AI 展现出了这方面的能力。

  纽约大学 Brenden Lake 助理教授和他的学生 Wang Ziyun 构建了一种混合 AI,来玩一种需要主动提问的游戏——海战棋(Battleship)。

  海战棋是一种猜谜式的攻防游戏,一方在棋盘上隐藏自己的“战舰”(长度不等),另一方负责攻击。

  攻击方可以翻看某个方块下是否有“战舰”的一部分,或者直接向对方提问:“船有多长”、“所有三艘船的尺寸都一样吗”,诸如此类的问题 。以此来猜测船只的位置。

  Lake 和 Wang 分别用两种不同方式来训练游戏 AI。

  一种是监督学习,向神经网络展示棋盘和人类提出的好问题。最终神经网络学会了提问,但是很少有创造力。

  另一种是强化学习。在这种训练中,每当神经网络提出一个有助于找到战舰的问题时,就会得到奖励。

  神经网络最终学会了提出正确的问题,既有用又富有创造力。

  Lake 以前曾使用纯粹的符号方法解决了该问题,对于给定的棋盘状态,符号 AI 必须在巨大空间中搜索一个好问题,这让它变得极其缓慢。

  但是,神经-符号 AI 的速度非常快。经过训练后,深度神经网络在产生问题方面远远胜过纯粹的符号 AI。

  下一步:自动驾驶

  MIT-IBM Watson AI 实验室的 David Cox 团队希望将这种混合 AI 用于自动驾驶技术。

  自动驾驶 AI 需要神经网络经过训练来识别其环境中的物体,并采取适当的措施。如果神经网络在训练中做错了什么,例如撞到行人,就会受到惩罚。

  另一位小组成员 Nathan Fulton 解释这种机制:“为了学会不做坏事,它必须做坏事,体验过那些坏事,然后在做坏事之前找出 30 个步骤,防止自己陷入困境。”

  因此,AI 学习安全驾驶需要大量的训练数据,而这些“坏事”让 AI 很难在现实世界中训练出来。

  Fulton 和他的同事正在研究一种神经-符号 AI 方法,克服这种局限性。AI 的符号部分对现实世界的某些危险行为做出限制,来约束深度网络的行为。

  从一开始就排除某些选择,这种简单的符号干预大大减少了训练 AI 所需的数据量。

  “如果智能体不需要遇到一堆坏状态,那么它就只需要更少的数据,”Fulton 说。

  尽管该项目仍未准备好在实验室外使用,但 Cox 设想了一个未来,具有神经-符号 AI 的汽车将可以在现实世界中学习,而符号组件将成为防止不良驾驶的保障。