马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
Spark-SQL连接Hive
Apache Hive 是 Hadoop 上的 SQL 引擎,Spark SQL 编译时可以包含 Hive 支持,也可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自界说函数)、Hive 查询语言(HQL)等。需要强调的一点是,如果要在 Spark SQL 中包含Hive 的库,并不需要事先安装 Hive。一样平常来说,最好还是在编译 Spark SQL 时引入 Hive支持,这样就可以使用这些特性了。
使用方式分为内嵌Hive、外部Hive、Spark-SQL CLI、Spark beeline 以及代码操作。
内嵌的 HIVE
如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可。但是在现实生产运动当中,几乎没有人去使用内嵌Hive这一模式。
数据加载与生存:
通用方式:
SparkSQL 提供了通用的生存数据和数据加载的方式。这里的通用指的是使用相同的API,根据差别的参数读取和生存差别格式的数据,SparkSQL 默认读取和生存的文件格式为parquet
df.write.save 是生存数据的通用方法。如果生存差别格式的数据,可以对差别的数据格式进行设定。
df.write.format("…")[.option("…")].save("…")
➢ format("…"):指定生存的数据范例,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和
"textFile"。
➢ save ("…"):在"csv"、"orc"、"parquet"和"textFile"格式下需要传入生存数据的路径。
➢ option("…"):在"jdbc"格式下需要传入 JDBC 相应参数,url、user、password 和 dbtable
生存操作可以使用 SaveMode, 用来指明如那边理数据,使用 mode()方法来设置。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |