立山 发表于 2025-1-5 03:07:07

AWS EMR底子知识

EMR Overview


[*]知识点:EMR是可简化大数据框架运行的托管集群平台,能以可扩展且具本钱效益的方式处理和分析大量数据,应用于大数据分析、数据处理、机器学习、数据湖和数据仓库等场景。
[*]注意事项:根据业务需求选择合适的利用场景,评估是否得当用EMR处理大数据。
EMR Components


[*]知识点:包含负责协调集群等的主节点、运行HDFS并能处理数据的核心节点、仅处理数据的任务节点、可访问S3数据的EMRFS,以及支持分布式数据处理的Apache Spark/Hadoop等框架。
[*]注意事项:相识各节点功能,合理配置节点以满意业务需求,注意差异框架的特点和适用场景。
EMR Cluster Creation


[*]知识点:集群范例有手动配置和终止的按需集群、可降低本钱的利用Spot实例的集群、可长期处理作业的长期集群。可通过AWS管理控制台、CLI或SDK启动集群,并需指定软件应用、实例范例等配置。
[*]注意事项:根据业务需求和预算选择合适的集群范例,过细配置启动参数,制止因配置不当导致资源浪费或性能问题。
Data Storage and Access


[*]知识点:EMR可通过EMRFS与S3集成读写数据,S3常作为存储各种格式数据集的数据湖,传统Hadoop设置中虽用HDFS存储数据,但EMR中常用S3替代。
[*]注意事项:合理规划数据存储位置,考虑数据格式和访问频率等因素,确保数据在S3和EMR之间的安全传输和高效访问。
Security


[*]知识点:EMR通过IAM角色访问AWS资源,需为实例和用户配置角色,还支持数据静态加密和传输加密,可利用Kerberos认证,可在VPC中运行增强网络安全。
[*]注意事项:严格按照最小权限原则配置IAM角色和策略,根据数据敏感性选择合适的加密方式,精确配置Kerberos和VPC。
Scaling and Performance


[*]知识点:EMR支持基于工作负载的自动扩展,可指定节点数量举行扩展,应根据工作负载选择合适的EC2实例范例,可利用Spot实例降低非关键工作负载本钱,需根据作业需求和资源利用率确定集群规模。
[*]注意事项:准确评估工作负载,设置合理的自动扩展策略,制止因过度扩展或扩展不实时影响性能或增加本钱。
EMR Monitoring & Logging


[*]知识点:可利用CloudWatch监控集群性能和康健,EMR集成CloudWatch Logs捕获应用日记,Ganglia可提供集群范围指标。
[*]注意事项:设置合理的监控指标和告警阈值,定期检察日记以排查问题,实时发现息争决集群性能瓶颈。
EMR and Data Processing Frameworks


[*]知识点:支持Apache Spark、Apache Hive、Apache HBase、Presto和Apache Drill等大数据处理框架,各框架有差异特点和适用场景。
[*]注意事项:根据业务需求选择合适的框架,相识框架间的兼容性和集成方式,合理配置框架参数以提高性能。
Cost Optimization


[*]知识点:利用Spot实例、实例舰队可优化本钱,实例舰队可定义按需实例和Spot实例的组合。
[*]注意事项:考虑Spot实例的停止风险,合理配置实例舰队比例,均衡本钱和可用性。
Integration with Other AWS Services


[*]知识点:可与AWS Glue、Amazon Redshift、Amazon RDS/DynamoDB、AWS Lambda等服务集成,实现数据预处理、数据仓库、读写数据库、事件驱动架构等功能。
[*]注意事项:相识各服务的集成方式和数据交互流程,确保数据在差异服务间的同等性和安全性。
Best Practices for AWS EMR


[*]知识点:应根据工作负载和性能选择合适的实例范例和巨细,联合按需实例和Spot实例优化本钱,自动终止不消的集群制止本钱浪费。
[*]注意事项:连续监控和评估集群利用情况,实时调整资源配置和优化策略。
Advanced Topics


[*]知识点:EMR Studio是数据科学家和分析师创建和运行条记本的开发环境,EMR Notebooks支持PySpark、SparkSQL等,方便数据探索和分析。
[*]注意事项:把握条记本的利用方法和本领,注意数据安全和权限管理。
Cluster Management


[*]知识点:可通过AWS管理控制台、CLI或SDK来创建EMR集群,配置节点范例、数量、实例范例等参数,还能举行启动、停止、重启等操作,并可利用EMR自动引导操作举行自定义配置。
[*]注意事项:要根据工作负载需求合理配置集群资源,制止资源浪费或不足;记录集群的配置信息,便于后续维护和故障排查。
Applications


[*]知识点:EMR支持多种大数据应用框架,如Apache Hadoop用于分布式存储和处理大规模数据,Apache Spark用于内存计算等。
[*]注意事项:要根据具体业务需求选择合适的应用框架,差异框架版本大概存在兼容性问题,需关注官方文档和升级说明。
Pricing


[*]知识点:EMR订价基于EC2实例利用量、数据存储(如Amazon S3)和数据处理量。可选择差异实例范例和购买方式,如按需实例、预留实例、Spot实例等。
[*]注意事项:根据工作负载的特点和预算选择合适的实例范例和购买方式;要监控资源利用情况,制止超出预算。
Security


[*]知识点:可通过IAM角色为EMR集群和相关服务授予最小权限;支持SSL加密、AWS KMS加密数据,还可利用Kerberos实现身份验证和授权。
[*]注意事项:定期更新加密密钥,确保密钥安全;要遵循最小权限原则,合理配置权限。
Scaling


[*]知识点:可手动或自动扩展EMR集群,自动扩展可基于CloudWatch指标或自定义策略,还可配置动态扩展策略,根据集群负载自动调整节点数量。
[*]注意事项:要设置合理的扩展阈值和冷却时间,制止频仍扩展;监控集群的性能指标,确保扩展策略有用。
Integration


[*]知识点:EMR可与S3无缝集成,作为数据存储;与Redshift可举行数据迁徙和分析;与RDS可存储元数据等;与DynamoDB可举行实时数据读写。
[*]注意事项:要确保各服务之间的网络连接和权限配置精确;考虑数据传输的性能和本钱。
Data Storage


[*]知识点:EMR可直接读写S3数据,HDFS用于集群本地存储,DynamoDB可用于存储结构化或半结构化数据。
[*]注意事项:要根据数据访问模式和性能需求选择合适的存储方式;注意数据的同等性和完整性。
Monitoring and Logging


[*]知识点:可利用CloudWatch监控EMR集群的资源利用、任务执行等指标,通过CloudTrail记录API调用,还可配置应用级别的日记。
[*]注意事项:要合理设置监控指标和告警阈值,实时发现问题;定期清理和备份日记。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AWS EMR底子知识