基于Spark的数据分析实践

发布时间：2019-06-20 16:48:45 所属栏目：教程来源：EAWorld

导读：副标题#e# 引言： Spark是在借鉴了MapReduce之上发展而来的，继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件。本文主要分析了 Spark RDD 以及 RDD 作为开发的不

Transform 支持 cached 属性，默认为 false;如果设置为 true，相当于把该结果缓存到内存中，缓存到内存中的数据在后续其它 Transform 中使用能提高计算效率。但是需使用大量内存，开发者需要评估该数据集能否放到内存中，防止出现 OutofMemory 的异常。

SparkSQL Flow Targets

SparkSQL Flow Targets 支持输出数据到一个或者多个目标。这些目标，基本覆盖了 Source 包含的外部系统。下面以 Hive 举例说明：

<target type="hive" 
 table_name="cust_id_agmt_id_t"  
 savemode=”append” 
target_table_name="cust_id_agmt_id_h"/>

table_name 为 source 或者 Transform 定义的表名称;
target_table_name 为 hive 中的表结果，Hive 表可不存在也可存在，sparksql 会根据 DataFrame 的数据类型自动创建表;
savemode 默认为 overwrite 覆盖写入，当写入目标已存在时删除源表再写入;支持 append 模式，可增量写入。

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

6/9

首页

尾页