让神经网络训练速度加快4倍！谷歌大脑团队提出“数据回送”算法

发布时间：2019-07-23 11:13:30 所属栏目：建站来源：AI前线小组译

导读：副标题#e# 在摩尔定律的暮色中，GPU 和其他硬件加速器极大地加速了神经网络的训练。但是，训练过程的前期阶段（如磁盘读写和数据预处理）并不在加速器上运行。随着加速器的不断改进，这些前期阶段所花费的时间将逐渐成为训练速度的瓶颈。谷歌大脑团队提出了

图 5 显示了 Transformer 在 LM1B 上训练时，回送因子高达 16 的影响。批尺寸为 1024 时，最大有效回送因子介于 4 和 8 之间；超过此值，所需新样本的数量就会大于较小回送因子所需的样本数量。随着回送因子的增加，所需的新样本数量最终会超过基线，但即使是一个大于 16 的回送因子，所需的新样本仍然比基线少得多。批尺寸为 4096 时，最大有效回送因子甚至大于 16，这表明较大的批尺寸支持更大的回送因子。

图 5 回送因子上限为 16 时，样本回送减少了所需新样本的数量。点划线表示重复样本与新样本价值相同时的期望值。

3.4 批尺寸的增加对数据回送的影响

对于较大的批尺寸，批回送的性能更好，但样本回送有时需要更多的 shuffle 操作。图 6 显示了回送因子为 2 时，不同批尺寸的效果。随着批尺寸的增加，批回送的性能相对于基线保持不变或有所提高。这种影响是有道理的，因为随着批尺寸接近训练集的大小，重复的批数据会接近新的批数据，因此，在限制范围内，批回送必须通过回送因子减少所需的新样本数量。另一方面，图 6 显示了随着批尺寸增加，样本回送的性能相对于基线的要么保持不变，要么变差。这是由于随着批尺寸的增加，每批中重复样本的比例也随之增加，因此实际中，批尺寸较大的样本回送的表现可能更像较小的批尺寸的表现。较小的批尺寸可能会增加所需的 SGD 更新步数，这可以解释图 6 中的样本回送结果。增加重复样本的乱序数量（以增加内存为代价）可以提升较大批尺寸时样本回送的性能，因为降低了每批中重复样本的概率。

让神经网络训练速度加快4倍！谷歌大脑团队提出“数据回送”算法

图 6 随批尺寸增加，批回送的表现相对于基线保持不变或有所提升，而样本回送的表现相对于基线保持不变或有所降低。点划线表示重复样本与新样本价值相同时的期望值。

3.5 Shuffle 程度越高，数据回送表现更好

图 7 显示了增加数据回送的 shuffle 缓冲区大小（以增加内存为代价）的效果。虽然之前的所有批回送实验中没有 shuffle 操作，但如果重复批处理被打乱，批回送的性能会提高，而更多的乱序数量会带来更好的性能。同样，样本回送的性能也随着 shuffle 缓冲区大小的增加而提高，即使它对基线没有帮助。这是因为如第 3.4 节所述，更多的乱序数量降低了每批数据中重复样本的可能性。

让神经网络训练速度加快4倍！谷歌大脑团队提出“数据回送”算法

图 7 shuffle 程度越高，数据回送的效果越好

3.6 数据回送不损害表现性能

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/5

首页

尾页