Spark LLAP库安装与使用指南

吴旭华 · 2024-10-1 00:20:05

Spark LLAP库安装与使用指南

spark-llap项目所在:https://gitcode.com/gh_mirrors/sp/spark-llap
一、项目目录结构及先容

Apache Spark社区中的spark-llap项目位于https://github.com/hortonworks-spark/spark-llap.git，它提供了一种高效的方式从Hive使用LLAP（Live Long And Prosper）服务加载数据到Spark SQL的DataFrame中。虽然详细的目录结构在不同版本间可能会有所变化，但通常的开源项目结构大致如下：

src: 包含了项目的源代码，分为main和test目录。
- main: 涵盖了主要的应用步调逻辑，包括Scala或Java源代码文件。
  - scala: 存放Scala编写的业务逻辑代码。
  - java: 若有Java实现，则存放对应的Java代码。
- test: 包含单元测试和集成测试代码。
resources: 存放项目的设置文件，例如日记设置或特定情况所需的资源文件。
docs: 可能包含项目的一些分析文档或者API文档。
pom.xml 或 build.sbt: 依靠管理和构建脚本，这里是Maven或SBT项目的核心设置文件。
README.md: 项目简介、快速入门等重要信息。

二、项目的启动文件先容

对于spark-llap这样的库项目，通常没有一个直接的“启动文件”像传统的应用步调那样运行。使用场景主要是通过Spark应用集成这个库来间接启动功能。因此，关键不是启动单一文件，而是如何在你的Spark应用步调中引入并使用此库。这通常涉及添加依靠项到你的构建文件中（如Maven的pom.xml或SBT的build.sbt），然后在Spark作业中实例化相干类，比如HiveWarehouseSession，来进行操纵。
引入依靠示例（假设是Maven项目）

在你的pom.xml中加入以下依靠（请注意版本号可能需更新以匹配最新稳定版）：

<dependency>
<groupId>com.hortonworks.spark</groupId>
<artifactId>spark-llap</artifactId>
<version>1.0.0</version>
</dependency>

复制代码

三、项目的设置文件先容

使用spark-llap时，有几个重要的Spark设置属性需要设置以确保能够精确连接到LLAP服务：

spark.sql.hive.hiveserver2.jdbc.url: LLAP的Thrift JDBC URL，例如jdbc:hive2://localhost:10000。
spark.datasource.hive.warehouse.load.staging.dir: 批量写入Hive时使用的临时目录，如/tmp。
spark.hadoop.hive.llap.daemon.service.hosts: LLAP服务的主机名，例如@llap0。
spark.hadoop.hive.zookeeper.quorum: LLAP使用的Zookeeper集群所在，如host1:2181,host2:2181,host3:2181。

这些设置可以通过spark-defaults.conf文件、命令行参数(--conf)或其他Spark设置方式设定。
在整合进Spark应用时，还需考虑安全性设置（如Kerberos认证）以及确保将该库的jar包通过--jars选项添加到Spark使命提交中，若为Python使用还需添加Python包。
请注意，实际的设置细节可能会随着版本更新而变化，务必参照最新的项目文档或其GitHub页面上的指引进行设置。
spark-llap项目所在:https://gitcode.com/gh_mirrors/sp/spark-llap

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Spark LLAP库安装与使用指南

0 个回复

快速回复

楼主热帖

标签云