****大数据平台技术架构设计实践与应用
为了能更好的实现大数据平台的业务功能和预期的目标,我们采用了自顶向下的方式对大数据平台进行功能设计,同时在业务应用过程中不断优化调整大数据平台业务功能,形成了满足离线处理及数据消费、实时运算及决策两类应用场景,多个物理集群的平台技术架构。 平台总体技术架构设计 技术架构上从下至上分别为数据源层、数据采集交换层、数据存储与计算层、数据能力层、数据服务层以及配套的数据管理能力和批次管理能力等。 数据源包含了行内与大数据平台进行实时对接的系统、或者为业务系统提供业务数据来源的系统。主要由账务类系统、渠道类系统、决策支持类系统等。 数据交换层,分为应用系统实时接口对接采集、实时旁路数据采集、离线批量数据采集等三个部分。实时接口对接采集需要业务系统配合改造将需要采集的业务信息存放在消息队列中,为了实时业务场景提供事件输入;实时的旁路采集在网络通讯层面进行数据数据旁路采集,相对实时接口采集来讲,业务系统不需要配合改造,是一种业务系统无感知的采集方式,比较适用于基于事件的准实时营销和推荐类的场景;离线批量数据采集在****系统中比较成熟,传统BI系统以及建设了比较完备的数据采集工具,直接复用现有数据采集工具进行行内数据的采集,对于已有工具未采集的数据,采用自定义开发程序采集的方式,业务空闲时段定时生成数据文件,供数到大数据平台。三类数据采集方式基本上能覆盖大数据平台相关业务应用场景。 数据存储与计算层的主要工作是将采集的数据进行存储和计算,根据大数据平台的业务应用场景,这一层按照业务特点的差异划分了三个不同的区域,离线数据存储与计算区、实时计算区、数据应用区。 离线数据存储与计算区将批量采集的数据加载Hadoop集群进行集中存储,同时通过Hive和Spark程序进行批量数据处理工作,主要进行数据清洗、标准化、指标标签加工等。实时计算区进行基于事件的实时指标计算以及实时决策,能够满足事中风控决策、个性化推荐、事后营销等业务场景需求。数据应用区有几项功能定位: 一是同步离线处理的结果数据,通过接口提供给行内业务系统进行数据访问,主要提供用户的360°画像数据的消费。 二是将大数据平台数据的加工结果进行数据展示,便于业务应用,比如客户之间的关系的查询和展示,比如用户的画像展示和客群筛选等。 三是提供基于大数据平台加工结果进行自助化报表分析等。 数据服务能力输出设计 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |