加入收藏 | 设为首页 | 会员中心 | 我要投稿 西安站长网 (https://www.029zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

范承工:谈基于持续性内存的分布式融合数据平台

发布时间:2019-09-23 03:07:37 所属栏目:创业 来源:DOIT
导读:副标题#e# 8月22日-8月23日,2019全球闪存峰会(Flash Memory World)在杭州召开。在8月23日下午举行的全闪存应用论坛上,MemVerge公司CEO、联合创始人范承工应邀出席并发表了《基于持续性内存的分布式融合数据平台》的演讲,就基于持久性内存和非易失性内存

分布式文件系统很多,市场上无论是开源的还是闭源的,无论是美国还是中国有很多成熟的分布式文件系统,但没有一个分布式文件系统是专门为SCM设计的,因为SCM的延迟和传统的SSD和HDD延迟有几个数量级的差别,所以过去的分布式文件系统直接拿来跑在memory上软件本身会成为瓶颈,本身不是为了这个速率所设计的。基于新的硬件原生在上设置出了新的分布式文件系统,能够在内存速度来进行内容的复制和管理,其中有了一些新的想法在分布式文件系统里得到实现。

分布式内存系统,除了提供更快的存储接口之外,我们也想提供更大的内存接口,首先SCM本身提供一个更大的内存,本身有6个T,但是现在有的应用6个T内存都不够,需要有更大的内存,在内存里完成主要的工作。

我们通过分布式的方式让第一代产品可以有128个节点,在128个节点内存整个变成一个池子,在里面做成三层的分阶的分布式内存系统,首先是本地DRAM作为第一层,第二层是本地SCM,第三层是旁边节点SCM。

通过这三层智能的管理,我们可以提供高达700个T的内存。

在这个环境之上,我们就能够充分发挥SCM硬件的优势,使得上面不需要改动就可以有以前不可能获得的容量内存、不可能获得的速度存储,同时提供了更大的内存和更快的存储。

这是我们技术大概的介绍。

这三个是我们技术主要的核心模块,我们整个架构把它叫做MCI,我们认为这个是未来数据中心重要的架构前移。

这个是对我们技术稍微更详细模块的解释,主要是给大家展示一下软件在系统里处在什么样的位置。底下是硬件一个一个服务器,把它叫做计算节点,这里面第一步会支持128个节点,中间我们推荐用RDMA这种快速的网络,把这些节点联络在一起。

在每个节点里除了CPU之外有三种介质,为什么有三种介质呢?内存的服务用DRAM+SCM两层的模式来提供内存的服务,就像我刚才说的有DRAM、SCM以及远方的SCM一起来提供大内存的服务。

SCM和SSD两层合在一起提供存储层的服务,SCM是我们第一层存储,SSD是第二层存储。通过SSD可以增大存储服务的容量,而且降低成本。在我们硬件、软件的上面是主要目标应用场景。现在我们对准的是三种场景,都是以数据为中心的应用。

第一种是机器学习、AI,尤其是AI训练的场景;第二种大数据分析常见的应用平台;第三种搜索查询应用。我们现在也将这几个应用与合作伙伴客户进行POC的工作,但产品还没有正式发布,主要在三个工业领域和早期客户合作,第一个是互联网服务的领域,包括云服务商,包括互联网的服务商,第二个领域主要是金融,包括银行、基金、市场。第三个HPC高性能计算,以及AI专门的服务,这三个是主要的客户领域,这些是主要的应用场景在产品上进行部署和尝试。

下面给大家举两个例子,客户如何使用技术提高效率减少成本。

第一个例子是社交网络,是美国非常大的社交网络服务商有几个亿用户,有几百亿互相的连接,在服务平台上非常重要的服务就是向大家推荐认识的人连起来,或者有什么工作想要找去找,这是一个非常重要而核心的推荐引擎。。

这个推荐引擎背后是有机器学习的模型支持的,现在用的是Google 2016年推出的模型,这是非常扁平而大的模型,训练数据又很大,数以亿计的节点,以及百亿计的连接,这些数据要跑1000多次,整个是非常长时间的分布式的训练工作。

现有的瓶颈在哪里呢?一方面用的HDFS的存储系统,还有很多存储是落到本地的SSD盘上。这是一个跑的时间非常长,要跑两个星期,中间如果有节点坏了,需要从头重新跑起来。如果打开Checkpoint,要每次写到盘上,整个工作又慢了。所以非常纠结,到底Checkpoint应该开还是不开,开出来又不能够做的非常高频。我们的解决方案使用我们的产品把所有的SSD全都取代了,无论是训练数据的存放点,还是中间数据的存放点全由我们的分布式文件系统来承受。

这个做的效果使AI速度提成了6倍,原先数据导入来自各个地方,本来非常慢,现在提高了350倍,效率得到很大的提高。这是第一个在机器学习训练场景上对我们场景的应用。

第二个例子在大数据分析,这个是和腾讯云的合作云数仓的服务,背后不是一个传统的数据库。

(编辑:西安站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读