面向大数据的分布式调度

发布时间：2018-04-04 17:35:04 所属栏目：大数据来源：站长网

导读：副标题#e# 前言：大数据的分布式调度是在进行数据ETL过程中起到了总体的承上启下的角色，整个数据的生产、交付、消费都会贯穿其中，本文从调度、分布式调度的特征展开，再对大数据调度个性化特征的一些阐述，由满足大数据使用的架构和业务场景的需求上娓娓

开放式SQL是大数据在做数据ETL的一个规范标准，目的在数据的交换和流动是通过配置的范式来完成，并非是通过硬编码或者单纯组件化的方式。编码更多的是要提供丰富的解析函数，更优秀的中间大结果集的Cache和复用。开放式SQL提供了数据从哪里来，到哪里去的哲学问题，同时也可以进行对外阐述对数据做何种操作，这是在为后期数据血缘关系提供最基础的指导，在发展过程中，百度外卖大数据平台也经历了如下的不同阶段。

面向大数据的分布式调度

图3 分布式调度的演进过程

3.2 协作参数一致性

调度策略除了有之前提到的上下游关系外，在大数据场景下还需保证数据处理的统筹协作，更为重要的是精细参数的上传下达。上下游使用系统默认的参数Key定义，也可以自定义Key的参数;系统参数比如说起止时间戳、机器IP、执行任务实例等。对于全局系统默认的Key，由调度系统进行赋值。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/8

首页

尾页