让神经网络训练速度加快4倍！谷歌大脑团队提出“数据回送”算法

发布时间：2019-07-23 11:13:30 所属栏目：建站来源：AI前线小组译

导读：副标题#e# 在摩尔定律的暮色中，GPU 和其他硬件加速器极大地加速了神经网络的训练。但是，训练过程的前期阶段（如磁盘读写和数据预处理）并不在加速器上运行。随着加速器的不断改进，这些前期阶段所花费的时间将逐渐成为训练速度的瓶颈。谷歌大脑团队提出了

作者在两个语言建模任务、两个图像分类任务和一个目标检测任务上验证了数据回送的效果。对于语言建模任务，作者在 LM1B 和 Common Crawl 数据集上训练了 Transformer 模型。对于图像分类任务，作者在 CIFAR-10 数据集上训练了 ResNet-32 模型，在 ImageNet 数据集上训练了 ResNet-50 模型。对于目标检测任务，作者在 COCO 数据集上训练了 SSD 模型。

论文研究的主要问题是数据回送是否能够加速训练。作者用达到训练目标所需的“新鲜”样本数量衡量训练时间。因为新样本的数量与训练流程中上游步骤的数量成正比，因此，在回送因子小于或等于 r 时，新样本的数量与实际时间亦成正比。

表 1 任务总结

对于任务，作者运行了一组没有数据回送的初始实验，并且调整参数以在实际计算预算内获得最佳的性能。作者选择了比初始实验中观察到的最佳值稍差的目标值。目标的微小变化并不会影响结论。表 1 总结了实验中使用的模型和目标值。

对每个实验，作者独立调整学习速率、动量和其它控制学习速率的参数。作者使用准随机搜索来调整元参数。然后选择使用最少的新样本达到目标值的试验。作者在每个搜索空间重复这个元参数搜索 5 次。实验结果中的所有图都显示了这 5 次实验所需的新样本的平均数，用误差条表示最小和最大值。

实验评估了在标准神经网络训练流程中添加数据回送的效果。作者实验了三种不同的数据回送：数据增强前的样本回送，增强后的样本回送，以及批回送。

3.1 数据回送可减少训练所需的新样本数量

图 3 显示了表 1 中所有任务的数据回送效果，回送因子为 2。除一种情况外，所有情况下数据回送达到目标性能所需要的新样本数更少。唯一的例外（ResNet-50 上的批回送）需要与基线相同数量的新样本——说明数据回送虽然没有带来好处，但也不会损害训练。在训练中插入回送越早，所需的新样本就越少：与批回送相比，样本回送需要的新样本更少，并且数据增强之前的回送需要的新样本比增强之后回送需要的新样本更少。对于 ResNet-50 或 SSD，没有观察到数据回送和批归一化之间的任何负交互作用。

让神经网络训练速度加快4倍！谷歌大脑团队提出“数据回送”算法

图 3 回送因子为 2 时，数据回送降低或不改变需要达到目标性能的新样本数量。点划线表示重复样本与新样本价值相同时的期望值。

3.2 数据回送可以缩短训练时间

图 4 显示了不同的 R 值（上下游处理时间的比例）对应不同的回送因子 e 的训练时间变化。如果 R=1，数据回送会增加，或不像预期的那样显著缩短训练时间。如果 R>1，e≤r 的任何设置都能缩短训练时间，设置 e=R 可以最大程度地缩短训练时间。设置 e>R 不会缩短 LM1B 数据集上 Transformer 的训练时间，但它确实为 ImageNet 上的 ResNet-50 提供了加速。这些结果表明，围绕 e=R 的最佳值附近的回送因子，数据回送可以缩短训练时间，尤其是 e≤R 的设置。

让神经网络训练速度加快4倍！谷歌大脑团队提出“数据回送”算法

图 4 不同 R 值对训练时间变化的影响

3.3 在回送因子的合理上限内，数据回送是有效的

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/5

首页

尾页