加入收藏 | 设为首页 | 会员中心 | 我要投稿西安站长网（https://www.029zz.com.cn/）- 科技、建站、经验、云计算、5G、大数据,站长网!

当前位置：首页 > 业界 > 正文

【干货】腾讯云FPGA的深度学习算法

发布时间：2017-01-26 10:02:29 所属栏目：业界来源：站长之家用户

导读：副标题#e# 由腾讯云基础产品中心、腾讯架构平台部组成的腾讯云FPGA联合团队，在这里介绍国内首款FPGA云服务器的工程实现深度学习算法（AlexNet），讨论深度学习算法FPGA硬件加速平台的架构。背景是这样的：在1 月 20 日，腾讯云推出国内首款高性能异构计算

(1) Layer并行模式：如图3.2所示，按照每个layer的计算量分配不同的硬件资源，在FPGA内同时完成所有layer的计算，计算完成之后将计算结果返回CPU。优点是所有的计算在FPGA中一次完成，不需要再FPGA和DDR DRAM直接来回读写中间结果，节省了的DDR带宽。缺点就是不同layer使用的资源比较难平衡，且layer之间的数据在FPGA内部进行缓冲和格式调整也比较难。另外，这种模式当模型参数稍微调整一下(比如说层数增加)就能重新设计，灵活性较差。

【干货】腾讯云FPGA的深度学习算法

图3.2 layer并行模式下资源和时间分配示意图

(2) Layer串行模式：如图3.3所示，在FPGA中只实现完成单个layer的实现，不同layer通过时间上的复用来完成。优点是在实现时只要考虑一层的实现，数据都是从DDR读出，计算结果都写回DDR，数据控制比较简单。缺点就是因为中间结果需要存储在DDR中，提高了对DDR带宽的要求。

【干货】腾讯云FPGA的深度学习算法

图3.3 layer并行模式下资源和时间分配示意图

我们的设计采用了是Layer串行的模式，数据在CPU、FPGA和DDR直接的交互过程如图3.4所示。

【干货】腾讯云FPGA的深度学习算法

图3.4 计算流程图

3.2.3 计算单个Layer的PM（Processing Module）设计

如图3.5所示，数据处理过程如下，所有过程都流水线进行：

(1) Kernel和Data通过两个独立通道加载到CONV模块中；

(2) CONV完成计算，并将结果存在Reduce RAM中；

(3) (可选)如果当前layer需要做ReLU/Norm，将ReLU/Norm做完之后写回Reduce RAM中；

(4) (可选)如果当前layer需要做Max Pooling，将Max做完之后写回Reduce RAM中；

(5) 将计算结果进行格式重排之后写回DDR中。

【干货】腾讯云FPGA的深度学习算法

图3.5 Processing Module的结构框图

3.2.4 CONV模块的设计

在整个PM模块中，最主要的模块是CONV模块，CONV模块完成数据的卷积。

由图3.6所示，卷积计算可以分解成两个过程：kernel及Data的展开和矩阵乘法。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2

相关内容

推荐文章

PTC要在工业SaaS领域拔	Analog Devices完成对
诺辉健康发布2021年中	顺丰控股半年报：上半

站长推荐

热点阅读