当前训练神经网络最快的方式：AdamW优化算法+超级收敛-灵宝信息网

　　中非常重要的部分，也是学习过程的核心算法。而 Adam 自 14 年提出以来就受到广泛关注，目前该论文的引用量已经达到了 10047。不过自去年以来，很多研究者发现 Adam 优化算法的库的 Adam 实现都有一些问题，并在 fastai 库中实现了一种新型 AdamW 算法。根据一些实验，作者表示该算法是目前训练

　　Adam优化器之旅可以说是过山车（roller-coaster）式的。该优化器于 2014 年推出，本质上是一个出于直觉的简单想法：既然我们明确地知道某些参数需要移动得更快、更远，那么为什么每个参数还要遵循相同的学习率？因为最近梯度的平方告诉我们每一个权重可以得到多少信号，所以我们可以除以这个，以确保即使是最迟钝的权重也有机会发光。Adam 接受了这个想法，在过程中加入了标准方法，就这样产生了 Adam优化器（稍加调整以避免早期批次出现偏差）！

　　训练速度提高 200%！「总体来看，我们发现 Adam 非常鲁棒，而且广泛适用于机器学习领域的各种非凸优化问题」论文结尾这样写道。那是三年前，深度学习的黄金时期。然而，事情并没有按照我们期望的方向发展。使用 Adam 训练模型的研究文章少之又少，新的研究开始明显地抑制了它的应用，并在几个实验中表明，SGD+momentum 可能比复杂的 Adam 表现更好。2018 fast.ai 课程开课之际，可怜的 Adam 被从早期课程中删除。

　　但是到了 2017 年末，Adam 似乎又重获新生。Ilya Loshchilov 和Frank Hutter在他们的论文《FixingWeightDecayRegularizationin Adam》中指出，每个库在 Adam 上实施的权重衰减似乎都是错误的，并提出了一种简单的方法（他们称之为 AdamW）来修复它。尽管结果略有不同，但他们确实给出了一些类似下图的令人鼓舞的图表：

　　我们希望人们恢复对 Adam 的热情，因为该优化器的一些早期结果似乎可以复现。但事与愿违。实际上，应用它的唯一一个深度学习框架就是使用 Sylvain 编码的 fastai。由于缺乏可用的广泛框架，日常实践者就只能固守又旧又不好用的 Adam。

　　但这不是唯一的问题。前面还有很多阻碍。两篇论文指出了 Adam 在收敛性证明方面的明显问题，尽管其中一篇提出了名为 AMSGrad 的修正（并在享有盛誉的 ICLR 大会上赢得了「最佳论文」奖）。但是，如果说我们从这种最戏剧化的生活（至少按照优化器的标准来说是戏剧化的）简史中学到了什么，那就是，没有什么是它表面看起来的样子。的确，博士生 Jeremy Bernstein 指出，所谓的收敛问题其实只是选择不当的超参数的迹象，也许 AMSGrad 也解决不了问题。另一名博士生 Filip Korzeniowski 展示了一些早期成果，似乎支持了 AMSGrad 这种令人沮丧的观点。

　　那么我们这些只希望快速训练精确模型的人该做些什么呢？我们选择用数百年来解决科学辩论的方式科学实验来解决这一争议！稍后将呈现所有细节，但首先让我们来看一下大致结果：

　　适当调参之后，Adam 真的可以用！我们在以下几个任务中得到了训练时间方面的最新结果：

　　对 Resnet50 进行调参，直至其在斯坦福汽车数据集上的准确率达到 90%，只需训练 60 个 epoch（之前达到相同的准确率需要 600 个 epoch）；

　　这意味着我们已经看到使用 Adam 的超收敛！超收敛是训练学习率高的神经网络时出现的一种现象，它表示节省了一半训练过程。在 AdamW 之前，训练 CIFAR10 至 94 % 的准确率需要大约 100 个 epoch。

　　与之前的工作相比，我们发现只要调整得当，Adam 在我们尝试过的每一个 CNN 图像问题上都可以获得与 SGD+Momentum一样好的准确率，而且几乎总是快一点。

主页 > 法制 >

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

最火资讯

热门频道推荐

相关功能