中科院院士梅宏：大数据对计算体系带来的挑战以及应对策略

发布时间：2019-05-29 17:33:49 所属栏目：教程来源：王刚

导读：副标题#e# 在贵州举办的2019年数博会吸引了国内外各界目光，围绕大数据最新技术创新与成就，诸多学界、产业界、政界人士纷纷参与交流。在5月25日的5G+大数据推动智慧社会数字化转型论坛上，中科院院士梅宏发表了精彩演讲，重点谈到了大数据对计算体系带来的

我举一个例子，比如说双十一成交数据的一个实时分析。当天处理的时候，它是实时的用户数据和商品数据，通过实时数据采集去弄。但实际上这两个东西对实时数据、兴趣模型到用户的行为预测有局限，如果没有离线数据支撑的话，它的准确率和效果不会那么好。所以要完成个性化推荐，必须要用到离线的数据，这就是我们的流处理和批处理同时会出现的一种场景。

现有的大数据处理系统没办法处理这种混合的处理。比如按照传统的一些实例，要统计实时销量排名前50的店铺，按照阿里的做法，对供应商表、店铺表是需要完成批处理的，而现在新流进来的实时的数据，需要进行流处理。现在比如说Flink单一作业运行的时候，只能启动批处理环境或者流处理环境其中的一个，在多任务运行的时候就需要启动相对独立的批处理和流处理环境，它的交互就出了问题，就没有办法对这种业务需求完成批和流的混合任务。

挑战二：现有的大数据带来的好处就是开源，但是HaDoop的生态系统、Spark的生态系统、Flink的生态系统都有各自的开源生态，甚至有自己的开源许可证协议。

我曾经问很多做数据的人：为什么这些东西都诞生在国际上，而不诞生在中国?如果大家现在去使用，那我们创新的机遇在哪里?

我们重点研发云计算和大数据专项的时候，就面临一个很大问题：要不要布大数据处理这样的系统?布单一的系统，它到开源东西的时候抄一个对付我怎么办?而且再拿开源的东西做一个过去的套路，也没有意思。所以我一直在琢磨有没有创新的机会。

挑战三：针对图数据，传统应用计算密集，而图应用，有较低的计算访存比，有大量随机的访存，有复杂数据的依赖，还有非结构化的分布，这是图数据的问题，和传统应用所面临的东西是不一样的。所以我们能不能探讨另一种新型的架构来提高它的高并行的处理?这就是我们谈到的各种大数据类型和计算结构匹配起来之后的一些挑战。

完成四个任务课题

针对这些挑战性的问题，国家重点研发专项里面有一个云计算和大数据。整体的布局，大体上分成四项任务，现在已经连续三年发布指南了，已经做完了三批课题。

任务一：做云计算、大数据等基础设施的关键装备。
任务二：做一些核心软件，基于云模式和数据驱动的新型软件。
任务三：做大数据分析应用和内容智能。
任务四：云端交互，人机交互。

我们在云计算平台之上，要进行各种大数据处理，而大数据的类型、存储是迥然不同的，访问模式有图数据、KV的、列的、文档的，各种各样的东西。现在，我们要构成一个处理平台是支持批处理的，也支持流处理的，还可以支持混合处理的，要完成这些任务，多种处理模式混存。混存之后，我们要支持人工智能应用，要支持交互式的数据分析，进一步支持各种应用。

传统的定制问题、系统选型难，不同处理系统融合难，系统调优难，维护难、多系统之间数据传输也导致它的效率是比较低的——这就是我们的大环境面临的问题。

所以我们想做一件事，就是希望通过软件定义的方式，通过大数据处理管理平台，让它的功能实现可编程，可以面向不同的需求进行定制。

做“最厉害”的武器：原创的技术

多少年前，古龙小说里面有一个最厉害的武器。有一个穿长衫的黑衣人，走到哪里都拎着一个箱子，他离开这个场景的时候，不管多厉害的武器，多高的武功，最后就败在他的手下。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/4

首页

尾页