Spark on YARN

[复制链接]
发表于 2024-7-19 09:35:48 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
Spark on YARN 基本概念


  • YARN(Yet Another Resource Negotiator): 是 Hadoop 生态体系的一部门,用于集群资源管理和作业调理。
  • Spark on YARN: 是指在 YARN 上运行 Spark 应用步伐,利用 YARN 来管理资源和调理任务。
Spark on YARN 的运行模式


  • Cluster 模式: 在这种模式下,Spark Driver 运行在 YARN 集群的一个节点上,适合长时间运行的作业。
  • Client 模式: 在这种模式下,Spark Driver 运行在提交应用步伐的客户端机器上,适合开发和调试。
Spark on YARN 的配置

为了在 YARN 上运行 Spark,必要举行一些配置

  • yarn-site.xml: 这是 YARN 的配置文件,通常位于 Hadoop 配置目录中。你必要确保这个文件在 Spark 配置中可以访问。
  • spark-env.sh: 这是 Spark 的环境配置文件。你必要设置一些环境变量,比如 SPARK_HOME, HADOOP_CONF_DIR 等。
  • spark-defaults.conf: 这是 Spark 的默认配置文件,可以在这里设置 Spark 作业的一些默认参数,比如 master URL(yarn)、deploy mode(client 或 cluster)、executor 内存等。
提交 Spark 作业到 YARN

可以使用 spark-submit 下令将 Spark 作业提交到 YARN 上运行:
  1. spark-submit \
  2.   --class <main-class> \
  3.   --master yarn \
  4.   --deploy-mode cluster \
  5.   --executor-memory 4g \
  6.   --executor-cores 2 \
  7.   <application-jar> \
  8.   [application-arguments]
复制代码
注意事项


  • 资源配置: 根据作业的需求合理配置 executor 内存和核心数量,避免资源浪费或不敷。
  • 日记查看: 在 YARN 上运行的 Spark 作业的日记可以通过 YARN ResourceManager 或 YARN History Server 查看,帮助你调试和优化作业。
  • 依赖管理: 如果你的 Spark 作业有外部依赖库,必要确保这些库可以被 YARN 节点访问,可以通过 --jars 参数指定依赖库路径。
例子

假设你有一个 Spark 应用步伐,主类是 com.example.MyApp,打包后的 jar 文件名是 myapp.jar,你可以用以下下令提交到 YARN 上运行:
  1. spark-submit \
  2.   --class com.example.MyApp \
  3.   --master yarn \
  4.   --deploy-mode cluster \
  5.   --executor-memory 4g \
  6.   --executor-cores 2 \
  7.   myapp.jar
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复

使用道具 举报

© 2001-2025 Discuz! Team. Powered by Discuz! X3.5

GMT+8, 2025-7-9 04:51 , Processed in 0.077647 second(s), 29 queries 手机版|qidao123.com技术社区-IT企服评测▪应用市场 ( 浙ICP备20004199 )|网站地图

快速回复 返回顶部 返回列表