【87技术课】DeepMind一纸论文又带着AI研究往前迈了一步

haixia005 阅读：35073 2017-03-07 17:42:21 评论：0

在人工智能和神经网络的研究领域，迁移学习(Transfer Learning)一直是一大难题。DeepMind 近期的一篇论文带我们初探了通用 AI 的模样。

　　DeepMind 近期的一篇论文带我们初探了通用 AI 的模样。在人工智能和神经网络的研究领域，迁移学习(Transfer Learning)一直是一大难题。迁移学习是什么?实际上它来源于一个 1901 年提出的教育心理学概念，其探究的是个体一个概念的学习如何对具有类似特征的另一个概念的学习产生迁移，而放在人工智能领域就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练数据集。举个例子：如果一个神经网络能够识别小型轿车，那将它所学习到的知识运用到相差不大但并不一样的卡车身上就是学习的迁移。 DeepMind 发布的论文(全文在此)用了他们称为 PathNet 的方法来研究迁移学习。简单讲 PathNet 就是一批神经网络组成的神经网络，DeepMind 使用了随机梯度下降法(Stochastic gradient descent)和遗传选育(Selection)的方法。 PathNet 将一层层的神经网络单元组合起来，每一层可以是不同的神经网络：卷积、前馈、递归等等诸如此类的。【87技术课】DeepMind一纸论文又带着AI研究往前迈了一步

　　DeepMind 的训练使用了 Pong 和 Alien 两个小游戏，上图分为两部分，上半部分的九块图展示的是 PathNet 在九个不同阶段的成果，下半部分是 PathNet 的游戏分数变化，可以看到 PathNet 拿到的游戏分数趋势是很乐观的。在这个实验中，他们使用的是 Advantage Actor-critic 及 A3C 两种算法。所以 DeepMind 是怎么做的呢? 首先，我们需要一些定义：L 代表 PathNet 的层数，N 是每层神经网络最大的单元数(论文中 DeepMind 的 N 最大是 3 或 4)。其中最后的一层神经网络的密度很大，但不和其他部分进行分工。因为使用 A3C，最后这层代表的是价值功能和评估。定义完成之后，PathNet 会生成 P 型基因(P 代表 pathway，即路径)。由于 A3C 算法的异步性，神经网络中多个部分会对其它部分生成的基因型进行评估。经过一段时间之后，神经网络会挑选一些 P 进行对比，其中更好效果的 P 会被留下继续训练。而 P 被训练的方式是反向传播(Backpropagation)结合随机梯度下降，每次的每条都是如此，这保证了时间不会过长。在使用旧的任务训练完成神经网络后，就要开始新的任务，迁移学习开始了。在掌握一项任务后，神经网络会调整参数到最优路径，其他参数都会被重置，否则 PathNet 在新任务中的表现会很糟糕。使用 A3C 之后，旧任务的最优路径在运用到新任务的时候不会被反向传播算法影响，以此来确保神经网络学习的知识不被清除。【87技术课】DeepMind一纸论文又带着AI研究往前迈了一步

　　上图的最左一列是 PathNet 完成的任务，最上面一行是新的任务，相交的蓝色框部分是 PathNet 在完成旧任务之后将知识运用到新任务所得到的结果。简单来说蓝色的部分是不理想的，颜色越深效果越差;绿色代表积极的分数，颜色越深结果越好。可以看到不是每次训练都能得到好的结果，但绿色仍然是远多于蓝色的。

0 收藏关注

本文中视在线原创，转载保留链接！网址：http://51569.com/a/49881.html

可以去百度分享获取分享代码输入这里。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。