干货：如何从系统层面优化深度学习计算？

发布时间：2018-06-04 23:43:22 所属栏目：教程来源：伍鸣

导读：副标题#e# 【资讯】编者按：在图像、语音识别、自然语言处理、强化学习等许多技术领域中，深度学习已经被证明是非常有效的，并且在某些问题上已经达到甚至超越了人类的水平。然而，深度学习对于计算能力有着很大的依赖，除了改变模型和算法，是否可以从系统

　　目前在学术界和工业界已经存在一些系统采用编译的方法生成融合的内核代码，比如TVM、Halide和Taco等。这些系统使用Tensor Algebra作为前端表示方法，每个Tensor Algebra表达式进而可以被编译成相应的内核代码。而Tensor Algebra可以作为更低一层的中间表达被集成到深度学习系统中，也就是说高层的数据流图可以先转换成由Tensor Algebra表达式组成的代码块，再被编译成可执行的代码。然而，这些系统对于可以进行融合的操作节点有很多限制，不能很好地融合多个非pointwise的操作，例如多个矩阵乘操作。然而，我们发现如果打破这一限制从而融合更多操作节点是可以带来更多显著的性能提升的。

　　在GPU的运行环境下融合多个非pointwise的操作具有一定的挑战性，因为非pointwise的操作中输入矩阵的每个元素都可能依赖于前一个操作的输出矩阵中的许多不同位置的元素值，所以在这两个操作之间需要插入Barrier同步原语。而在GPU中实现Barrier需要保证该内核的所有线程块在运行时都是保持活动状态的，这意味着我们必须要求融合后的内核采用有限个数的线程块，但同时又能够处理远超过线程块数量的数据块。

　　为了解决这一问题，我们尝试采用persistent-thread的线程块模型，也就是说在融合后的内核的整个生命周期启动固定数目的线程块并让它们保持活动状态。我们的优化系统在产生融合的内核代码的过程中类似于解决一个装箱(bin-pack)问题，即把待融合的子数据流图中的每一个操作节点所要处理的数据块分派给适当的活动线程块，从而使得每个线程块的负载尽可能均衡，并且保持操作节点的运算在原数据流图中的并行性。

　　为了生成优化的GPU内核函数，一个重要的考虑因素是线程块和数据块的合理划分。然而这又依赖于一些非常复杂的因素，比如操作节点运算中计算和访存复杂度的比率、GPU的shared memory的大小、寄存器文件的大小及分配方法等等。因此一个最优的选择是很难通过静态的方法决定的。幸运的是，深度学习的迭代性以及需要相当多的迭代才能收敛的特性使得我们可以利用早期的迭代过程来收集运行时的动态信息以帮助优化系统做更明智的决定。

　　克服设备内存资源限制

　　设备内存的大小往往限制了可以处理的模型规模，解决这一问题的一个思路是对模型进行压缩和量化。如今学术界和工业界已经有大量的研究工作提出不同的压缩和量化的方法，然而，在实际的应用场景中使用压缩和量化仍然是个繁琐的迭代过程。在这个过程中，用户可能会进行以下几个方面的尝试。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/5

首页

尾页