Spark实训

打印 上一主题 下一主题

主题 1044|帖子 1044|积分 3132

实训目的:

介绍本实训的根本内容,描述知识目标、,以及本实训的预期效果等。
1、知识目标
(1)了解spark概念、基础知识、spark处置处罚的全周期,了解spark技能是新时代对人才的新要求。
(2)把握Linux、hadoop、spark、hive集群环境的搭建、HDFS分布文件体系的基础知识与应用。
(3)了解 RDD原理,把握Scala的编程语言。
(4)了解Hive,学习Hive集群的搭建。
(5)了解spark SQL布局,搭建集群,纯熟利用HiveQL语句
2、技能目标
(1)把握spark、Scala的基础知识及在大数据技能的应用。
(2)把握hadoop、spark、hive集群环境的搭建与HDFS分布式文件体系的机动应用。
(3)把握数据存储与管理,数据处置处罚与分析等根本方法。。
(4)通过现实案例的开发,了解spark、Scala的根本开发技能。
(5)把握Hive集群的搭建和根本利用方法。
3、素质目标
(1)熟悉spark在新时代对企业的重要性。
(2)具备Scala思维,熟悉Scala是新时代对人才的新要求,具备从编程角度分析将来的发展趋势,主动适应社会发展,做对社会对国家有用之人。
(3)通过综合案例实践,把握spark、Scala以及相关框架的利用。
(4)通过项目的团队实践,把握利用spark大数据处置处罚的能力及办理问题的创新能力,造就门生实践开发能力及团队合作能力。
实训条件:

1、教学根本设施条件

本次实训利用思源楼1211机房,根本可以大概包管运行Hadoop、spark、hive集群,可以大概进行根本的大数据开发调试,计算机硬件根本满足以下的最低设置:内存至少8GB,硬盘可用容量至少100GB,CPU为Intel i5以上的多核(发起八核及以上)处置处罚器。
相关软件安装包及其版本阐明:
spark-3.2.1-bin-hadoop2.7.tar
Hadoop-3.1.4.tar
apache-hive-3.1.2-bin
course score student teacher word online_retail avgTemperature Volleyball_Players.csv文档
IDEA软件
Hadoop环境设置

修改设置start-dfs.sh和stop-dfs.sh文件

修改设置start-yarn.sh和stop-yarn.sh文件

修改设置文件/etc/hosts

克隆虚拟机






免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

汕尾海湾

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表