面向大数据的分布式调度
发布时间:2018-04-04 17:35:04 所属栏目:大数据 来源:站长网
导读:副标题#e# 前言:大数据的分布式调度是在进行数据ETL过程中起到了总体的承上启下的角色,整个数据的生产、交付、消费都会贯穿其中,本文从调度、分布式调度的特征展开,再对大数据调度个性化特征的一些阐述,由满足大数据使用的架构和业务场景的需求上娓娓
开放式SQL是大数据在做数据ETL的一个规范标准,目的在数据的交换和流动是通过配置的范式来完成,并非是通过硬编码或者单纯组件化的方式。编码更多的是要提供丰富的解析函数,更优秀的中间大结果集的Cache和复用。开放式SQL提供了数据从哪里来,到哪里去的哲学问题,同时也可以进行对外阐述对数据做何种操作,这是在为后期数据血缘关系提供最基础的指导,在发展过程中,百度外卖大数据平台也经历了如下的不同阶段。 图3 分布式调度的演进过程 3.2 协作参数一致性 调度策略除了有之前提到的上下游关系外,在大数据场景下还需保证数据处理的统筹协作,更为重要的是精细参数的上传下达。上下游使用系统默认的参数Key定义,也可以自定义Key的参数;系统参数比如说起止时间戳、机器IP、执行任务实例等。对于全局系统默认的Key,由调度系统进行赋值。 (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |