学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

时间：2018-07-19 00:00:43 栏目：科技

来源：机器之心

摘要：人工智能顶会 IJCAI 2018 的主要议程于昨日在瑞典首都斯德哥尔摩开始。昨天上午，Facebook 首席人工智能科学家、纽约大学教授 Yann LeCun 在会上发表了近一个小时，以《Learning World Models: the Next Step towards AI》为主题的演讲，引起了人们的广泛关注。本文将对 LeCun 的演讲进行简要介绍。

完整演讲视频：

Yann LeCun 开场介绍说，当前几乎所有的机器学习从业者在实践中使用的都是监督式学习：向机器展示大量的样本，然后告诉机器正确的答案与内部参数，然后就能做图像识别之类的任务。而过去几年，监督式学习有了极大的成功，应用也非常广泛。下图对比了传统机器学习与深度学习各自的特点。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

深度学习的演讲回溯到 20 世纪 50 年代，当时 AI 社区尝试构建神经网络。建立这样略为复杂的系统，你需要两个基础的运算：线性的加权和与非线性的激活函数。这里，Yann LeCun 回顾了他们在 80 年代末期提出的用来识别数字的卷积神经网络 LeNet5，从最初的识别单个目标发展到了识别多个目标。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

很快，他们就建立了一个识别手写文件的系统。在 1995 年，他们在 AT&T 完成了一个商业系统来读取支票账号。经历了如下图展示的过程。Yann LeCun 介绍了，这是上一波人工智能浪潮下的极大成功示例。之后，人们就对神经网络的研究失去了兴趣。一方面是准确率的原因，还因为很多领域当时没有足够多的数据来训练学习系统。

接着，Yann LeCun 介绍说，实际上在 1996-2001 年这段时间内，他并没有研究机器学习，而是在研究其它东西，尤其是图像压缩。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

下图是在 21 世纪初加入 NYU 之后用模仿学习做的研究。这个研究激发了 DARPA 的 LAGR 项目。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

Yann LeCun 随后回顾了卷积神经网络在不同任务中的应用，包括用于自动驾驶汽车的目标检测与语义分割等。这些基于视觉的任务绝大部分都需要卷积神经网络的支持，当然也离不开并行计算设备的支持。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

第一个得到广泛关注与应用的卷积神经网络是 2012 年提出来的 AlexNet，它相比于 LeNet-5 最大的特点是使用更深的卷积网络和 GPU 进行并行运算。AlexNet 还应用了非常多的方法来提升模型性能，包括第一次使用 ReLU 非线性激活函数、第一次使用 Dropout 以及大量数据增强而实现网络的正则化。除此之外，AlexNet 还使用了带动量的随机梯度下降、L2 权重衰减以及 CNN 的集成方法，这些方法现在都成为了卷积网络不可或缺的模块。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

随后在 ImageNet 挑战赛中，卷积网络的深度与性能都逐年提升。从 12 年到 16 年，参赛者使用的卷积神经网络不断加深，错误率也逐年下降。

如下所示，牛津大学 2014 年提出了另一种深度卷积网络 VGG-Net，与 AlexNet 相比，它的卷积核更小，层级更深。谷歌同年提出了 GoogLeNet（或 Inception-v1），该网络共有 22 层，且包含了非常高效的 Inception 模块。后来到了 15 年，何恺明等人提出的深度残差网络骤然将网络深度由十几二十层提升到 152 层，且性能大幅提高。

此外，去年提出的 DenseNet 进一步解决了 ResNet 遗留下的梯度问题，并获得了 CVPR 2017 的最佳论文。DenseNet 的目标是提升网络层级间信息流与梯度流的效率，并提高参数效率。它也如同 ResNet 那样连接前层特征图与后层特征图，但 DenseNet 并不会像 ResNet 那样对两个特征图求和，而是直接将特征图按深度相互拼接在一起。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

那么为什么卷积神经网络在计算机视觉任务上如此高效？Yann LeCun 随后就对深度卷积网络的表征方式做了介绍。他表明对于图像数据来说，数据的信息与结构在语义层面上都是组合性的，整体图像的语义是由局部抽象特征组合而成。因此深度网络这种层级表征结构能依次从简单特征组合成复杂的抽象特征，如下我们可以用线段等简单特征组合成简单形状，再进一步组合成图像各部位的特征。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲

卷积神经网络在目标识别、目标检测、语义分割和图像描述等领域都有非常多的应用，而这些实现很多都依赖于深度学习框架。LeCun 随后重点介绍了 PyTorch 与 Detectron，其中 PyTorch 因为采用了动态计算图而受到了广泛的关注，它也是当前发展最快的框架之一。

如下所示，Facebook AI 研究院开源的 Detectron 基本上是业内最佳水平的目标检测..。据 LeCun 介绍，该项目自 2016 年 7 月启动，构建于 Caffe2 之上，目前支持目标检测与语义分割算法，其中包括 Mask R-CNN（何恺明的研究，ICCV 2017 最佳论文）和 Focal Loss for Dense Object Detection（ICCV 2017 最佳学生论文）等优秀的模型。

学习世界模型，通向AI的下一步：Yann LeCun在IJCAI 2018上的演讲