基于Spark的数据分析实践
在需要执行 Hive 表时,只需要在 SparkSession.Builder 中开启 Hive 支持即可(enableHiveSupport())。
// db 指 Hive 库中的数据库名,如果不写默认为 default // tableName 指 hive 库的数据表名
SparkSQL ThriftServer //首先打开 Hive 的 Metastore服务
//把 Spark 的相关 jar 上传到hadoophdfs指定目录,用于指定sparkonyarn的依赖 jar
// 启动 spark thriftserver 服务
当hdfs 上传了spark 依赖 jar 时,通过spark.yarn.jars 可看到日志 spark 无须每个job 都上传jar,可节省启动时间
//通过 spark bin 下的 beeline 工具,可以连接到 spark ThriftServer(SparkOnHive)
Beeline 还支持传入-e 可传入一行 SQL,
也可通过 –f 指定一个 SQL File,内部可用逗号分隔的多个 SQL(存储过程)
SparkSQL Beeline 的执行效果展示 ![]() SparkSQL ThriftServer ![]() 对于 SparkSQL ThriftServer 服务,每个登陆的用户都有创建的 SparkSession,并且执行的对个 SQL 会通过时间顺序列表展示。 SparkSQL ThriftServer 服务可用于其他支持的数据库工具创建查询,也用于第三方的 BI 工具,如 tableau。 四、SparkSQL Flow SparkSQL Flow 是以 SparkSQL 为基础,开发的统一的基于 XML 配置化的可执行一连串的 SQL 操作,这一连串的 SQL 操作定义为一个 Flow。下文开始 SparkSQL Flow 的介绍: (编辑:西安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |