基于大数据的舆情分析系统架构(架构篇)
在支持流计算和批计算的同时,让计算逻辑可以复用,实现“一套代码两类需求”。 统一历史数据全量和在线实时增量数据的存储,实现“一份存储两类计算”。 为了方便舆情结果查询需求,“batch view”和“real-time view”存储在既可以支持高吞吐的实时写入,也可以支持多字段组合搜索和全文检索。 总结起来就是整套新架构的核心是解决存储的问题,以及如何灵活的对接计算。我们希望整套方案是类似下面的架构: 图 4 Lambda Plus 架构 数据流实时写入一个分布式的数据库,借助于数据库查询能力,全量数据可以轻松的对接批量计算系统进行离线处理。 数据库通过数据库日志接口,支持增量读取,实现对接流计算引擎进行实时计算。 批计算和流计算的结果写回分布式数据库,分布式数据库提供丰富的查询语意,实现计算结果的交互式查询。 整套架构中,存储层面通过结合数据库主表数据和数据库日志来取代大数据架构中的队列服务,计算系统选取天然支持批和流的计算引擎例如 Flink 或者 Spark。这样一来,我们既可以像 Lambda 进行无限制的历史数据回溯,又可以像 Kappa 架构一样一套逻辑,存储处理两类计算任务。这样的一套架构我们取名为“Lambda plus”,下面就详细展开如何在阿里云上打造这样的一套大数据架构。 云上舆情系统架构 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |