大数据架构如何做到流批一体？

发布时间：2019-07-02 10:21:32 所属栏目：教程来源：技术小能手

导读：副标题#e# 阿里妹导读：大数据与现有的科技手段结合，对大多数产业而言都能产生巨大的经济及社会价值。这也是当下许多企业，在大数据上深耕的原因。大数据分析场景需要解决哪些技术挑战?目前，有哪些主流大数据架构模式及其发展?今天，我们都会一一解读，并

Tablestore 直接作为 master dataset，支持用户直读，配合 Tablestore 多元索引，用户的线上服务直读、ad-hoc 查询 master dataset 并将结果返回给用户;Blink 批处理任务向 Tablestore 下推 SQL 的查询条件，直读 Tablestore master dataset，计算 batch view，并将 batch view 重新写回 Tablestore;

Streaming 层：

Blink 流处理任务通过表格存储 TunnelService API 直读 master dataset 中的实时数据，持续产生 stream view;Kappa 架构的 backfill任务，可以通过建立全量类型数据通道，流式消费 master dataset 的存量数据，从新计算;

Serving 层：

为存储 batch view 和 stream view 的 Tablestore 结果表建立全局二级索引和多元索引，业务可以低延迟、ad-hoc方式查询;

大数据架构如何做到流批一体？

图6 Lambda plus的数据链路

针对上述 Lambda 架构1-4的技术问题，Lambda plus 的解决思路：

针对数据写入的问题，Lambda plus 数据只需要写入表格存储，Blink 流计算框架通过通道服务 API 直读表格存储的实时数据，不需要用户双写队列或者自己实现数据同步;
存储上，Lambda plus 直接使用表格存储作为 master dataset，表格存储支持用户 tp 系统低延迟读写更新，同时也提供了索引功能 ad-hoc 查询分析，数据利用率高，容量型表格存储实例也可以保证数据存储成本可控;
计算上，Lambda plus 利用 Blink 流批一体计算引擎，统一流批代码;
展示层，表格存储提供了多元索引和全局二级索引功能，用户可以根据解决视图的查询需求和存储体量，合理选择索引方式。

总结，表格存储实现了 batch view、master dataset 直接查询、stream view 的功能全集，Blink 实现流批统一，Tablestore 加 Blink 的 Lambda plus 模式可以明显简化 Lambda 架构的组件数量，降低搭建和运维难度，拓展用户数据价值。

表格存储是如何实现支持上述功能全集的

存储引擎的高并发、低延迟特性：表格存储面向在线业务提供高并发、低延迟的访问，并且 tps 按分区水平扩展，可以有效支持批处理和 Kappa backfill 的高吞吐数据扫描和流计算按分区粒度并发实时处理;

使用通道服务精简架构：Tablestore 数据通道支持用户以按序、流式地方式消费写入表格存储的存量数据和实时数据，避免 Lambda 架构引入消息队列系统以及master dataset 和队列的数据一致性问题;

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/5

首页

尾页