傲渊山岳 发表于 2024-6-14 21:50:38

云计算积年题整理

目次
第一大题
第一大题HA计算
给出计算连接到EC2节点的EBS的高可用性(HA)的数学公式,如场景中所述;计算EC2节点上的EBS的高可用性(HA);场景中80%的AWS EC2节点用于并行处置惩罚,总共有100个虚拟中央处置惩罚单位(vCPUs)用于处置惩罚数据,使用固定工作负载和缩放工作负载来计算AWS EC2系统的系统服从(固定和缩放服从)。
一个Amazon AWS EC2 集群包罗300个vCPUs。假如这些处置惩罚器的80%用于并行执行计算和处置惩罚运动,计算:使用“固定工作负载”和“扩展工作负载”的AWS EC2集群的系统服从(两个单独的计算);上面描述的AWS EC2集群还有一个为集群提供HA的AWS S3,假如集群的总均匀故障间隔时间(MTTF)为500天,均匀均匀修复时间(MTTR)为2.5天,则计算集群的系统可用性
第一大题n个xx(只答多少个短语)
列出四种云部署模型(该题出现2次)
描述管理虚拟集群的四种方法(W1D2)
讨论四种范例的云计算部署模型,并在每种情况下描述Security和Trust的问题
描述私有云和公共云部署模型之间的三个区别(W1D1)
描述两种范例的可伸缩性度量,以及在此场景中大概出现的问题:一家银行决定在其现有的银行应用程序中添加一个新的客户关系管理(CRM)功能,还在两个国家开设了新的分行,这些新分行将使用相同的应用程序。
第一大题子网掩码计算
 AWS VPC的公网子网CIDR为20.0.2.0/20,计算IP数量地址,写出子网可以拥有的最大EC2实例。
利用您在云计算方面的知识,在下述场景中,表明您认为办理方案架构师决定使用伦敦区域和两个可用区(az)的原因;描述办理方案架构师决定将Web应用程序部署在公共子网中,而将DynamoDB数据库部署在私有子网中的原因;计算Amazon VPC中可创建的最大IP地址个数和公网子网中可创建的最大虚拟机个数。
第一、二大题描述名词
第一大题描述名词
描述计算机网络中的数据完备性和数据机密性(该题出现2次)
描述 AWS CloudFront
描述AWS Regions和AWS Zones
描述AWS可信顾问(W1D3)
 第二大题描述名词
描述Amazon CloudWatch和AWS CloudTrail
描述模型视图控制器(MVC)和前端控制器计划模式,为这两种计划模式在实际应用中的应用分别举出一个例子
第二大题
第二大题CUDA代码
关于GPU和CUDA:简要说明在CUDA C编程模型中使用的五个主要步骤,以办理基于主机和设备组件的GPU编程架构的异构性子;编写一个简单的CUDA C程序,打印“欢迎来到GPU编程世界!”使用myGPUKernel()作为CUDA C程序的内核名称,并使用<<< >>>分隔符启动它,以打印消息“欢迎来到GPU编程世界!”并行五次(不要使用任何C迭代循环下令)。
编写一个GPU CUDA C程序,内核名为“add”,添加两个整数变量a和显示程序将与主机(CPU)和设备(GPU)通信的所有步骤,包罗内存管理运动(可以随意使用更多变量)。(该题出现2次)
关于GPU和CUDA:描述使用CUDA平台编写GPU的三种方法;描述GPU CUDA计算或编程中异构计算的两个特性。
第二大题经济计算
根据上述公司收支的描述,计算资本付出(CAPEX)和运营费用;假设公司可以通过在AWS市场上向客户出租资产来收回所有的资本付出,估算一下假如公司将其底子设施迁移到云端可以节省多少本钱。
关于云经济的:用图表分别描述计算传统IT本钱和云计算本钱的两种算法/数学模型;假如一个传统IT系统的总本钱为50万英镑,那么它的前期资本本钱为30万英镑,用云计算取代传统IT模式的本钱是多少?
第三大题
第三大题Map/Reduce项目涉及代码
下列Map/Reduce伪代码的效果是什么?表明它并举例说明映射器/还原器之间的信息交换(出现两次)
根据下列场景,如何使用 MapReduce 计算模型组织计算?请提供算法伪代码。您可以编写实用于给定输入的 Map/Reduce 程序,计算每个供应商提供的商品的均匀销售价格,或者使用伪代码编写规范。
编写一个Map/Reduce Java程序来计算每个变乱类别中最受欢迎的变乱(即最常预订的古典音乐会,爵士音乐会,盛行音乐会等)。包罗解释来表明代码的作用。您还可以使用伪代码来编写规范,或者用图表来说明输入、映射、淘汰和输出块之间的数据流。
第三大题阿姆达尔定律计算
关于Map/Reduce的性能:定义并行计算中的加快概念;使用Amdahl定律,计算用10个处置惩罚器运行此作业时可实现的最大加快,留意8%的计算作业必须顺序执行。
关于Map/Reduce的性能:描述阿姆达尔定律,以及顺序计算和并行计算之间的区别。说出Hadoop中必须按顺序执行的一个阶段;假如95%的计算作业必须顺序执行,那么在跨8个处置惩罚器运行该作业时可实现的最大加快是多少?同样,对于同一个作业,当跨1000个处置惩罚器运行该作业时,可实现的最大加快是多少?用阿姆达尔定律往返答
描述Flynn对计算机体系结构的四种分类。(W1D1)用阿姆达尔定律计算提高使用10个处置惩罚器并行运行20%应用程序的系统的性能速度
第三大题键值对计算
假设作业是针对600万张图片的数据集执行的。Hadoop为作业分配了20个mapper和6个Reducers,一张照片中出现的汽车的均匀数量是0.5:估计Mapper将发出多少个键值对;假设数据集有3000个独特的汽车型号,每个Reducer有多少个key?留意,您可以假设在reducer之间实现均衡的分区。 
在该场景中,Hadoop使用10个mapper和2个reducer来完成计算,每个Mapper发出多少中间键:值对?有多少唯一的键被馈送到每个Reducer?
第三大题也与map有关但不是代码和计算
涉及到Map/Reduce的Combiner:什么是Combiner,用处?它和减速器有什么差别?使用组合器是可选的照旧强制的;简要说明组合器必须遵守的两条规则。
表明在MapReduce作业的shuffle和sort阶段,由谁运行Combiner函数以及在哪个时间点执行Combiner函数。
关于Map-Reduce的数据过滤:Map-Reduce作业中数据过滤的目的是什么?给出一个数据过滤的例子;为什么数据过滤是“Mapper唯一的工作”?
第三大题HDFS描述
涉及Hadoop计算作业执行:用箭头(→)连接Hadoop计算使命对应负责的守护进程
关于Hadoop分布式文件系统的:NameNode在HDFS中的职责是什么;用合适的图表表明HDFS的写操纵(比方,如何创建一个新文件并将数据写入HDFS);为什么HDFS默认为每个块存储三个单独的副本?为什么在大型集群中将三个副天职散到差别的物理机架上是有用的?
定义分布式系统和底子设施的高可用性。
在分布式系统的配景下,什么是“五九可用性”?请表明这与“单点故障”的概念之间的关系,以及这大概对分布式系统产生的负面影响(该题出现2次)
HDFS (Hadoop Distributed File System)如何检测数据块损坏
假如Map使掷中的一个失败,Map/Reduce作业是否会完成?应用程序主机和节点管理器如何检测Map使命的失败并对其作出反应?
第四大题
第四大题DNS描述
什么是内容交付网络(CDN)中的DNS缓存?DNS缓存的两个利益。
关于内容分发网络(CDN):为什么网站要使用CDN?为什么CDN在世界各地放置服务器?
与内容交付网络(CDN)有关:什么是内容分发网络(CDN)?表明CDN是如何工作的;CDN中的DNS重定向是什么?简要表明差别的DNS重定向范例及其优缺点;点对点(P2P)网络是什么?表明P2P网络相对于客户机-服务器网络的三个利益。
第四大题数据库描述
关于Map/Reduce之外的大数据平台:什么是内存处置惩罚?讨论Hadoop Map/Reduce与当代内存处置惩罚系统(如Apache Spark)相比的的主要性能限定,用一个例子说明两者的区别;在Apache Spark的配景下,什么是弹性分布式数据集(RDD) ?表明两种范例的RDD操纵,并为每种操纵提供一个示例,比方,如何通过编程操纵创建和修改RDD。
与云数据库有关:表明以下这些用于实现数据分区和复制的技术:内存缓存、读写分离、高可用性集群、数据分片;SQL数据库以捐躯分区为代价提供了强同等性和可用性,而差别的NoSQL数据库采用差别的基于cap的权衡,那么Dynamo做了哪些权衡?
与云数据库有关:为什么在云数据库中使用数据分区和复制很紧张;在数据访问上下文中表明强同等性和最终同等性之间的区别,用例子来表明
关于分布式云数据库的:表明NoSQL数据库与传统关系数据库的区别,请在ACID事务属性上下文中表明这一点;使用NoSQL数据库的利益是什么;说出使用NoSQL数据库(比方Cassandra)而不是使用传统SQL关系数据库的两个原因;什么是布鲁尔CAP定理?表明CAP的三个特性;NoSQL数据库是否满足CAP的所有三个支柱?假如没有,表明为什么没有,以及放松这些限定的利益是什么。
这个问题是关于云数据库的:列出ACID事务属性;大多数云数据库都有ACID事务属性吗?假如不是,为什么;什么是memcached?它的功能与关系数据库(比方SQL)有什么差别?假如在没有可用存储空间的情况下,尝试在memcached中存储对象,会发生什么情况?
关于Casandra的(一个NoSQL数据库):表明卡桑德拉戒指上的复制因子是指什么,这对Cassandra数据存储的弹性有什么影响;假设你管理一个Cassandra数据库,你面对着可伸缩性问题,即当前的Cassandra节点集不足以处置惩罚你的应用程序的需求,如何增加Cassandra数据库的容量?用弹性来表明这一点,以及它对性能的影响;Cassandra有单点故障吗?
第四大题其它描述
关于Apache Spark框架计算的,它基于RDD:定义Spark RDD,表明为什么Spark是一个使用rdd概念的内存处置惩罚平台;通过答复以下问题来描述RDD的生命周期:Spark程序如何创建新的RDD?何时创建rdd?如何修改rdd?Spark框架如何以及何时烧毁rdd;给出一个利用Spark作为内存处置惩罚系统的算法示例。
传统的流处置惩罚系统和微批流处置惩罚系统有什么区别?
关于分布式图处置惩罚的:表明Pregel在并行图计算时使用“像顶点一样思考”模型的方式,给出一个适合这个模型的图算法的例子;什么是图分区?为什么有必要?讨论图划分在分布式图处置惩罚系统中的作用;图分区和性能之间的关系是什么?错误的分区决议会导致更差的性能吗?假如是,为什么?
关于分布式图处置惩罚:描述谷歌Pregel背后的主要概念。它是如何并行化图计算的?它如何最小化节点之间发送消息的需求?

第一大题

第一大题HA计算

给出计算连接到EC2节点的EBS的高可用性(HA)的数学公式,如场景中所述;计算EC2节点上的EBS的高可用性(HA);场景中80%的AWS EC2节点用于并行处置惩罚,总共有100个虚拟中央处置惩罚单位(vCPUs)用于处置惩罚数据,使用固定工作负载和缩放工作负载来计算AWS EC2系统的系统服从(固定和缩放服从)。

 用上述资料,分别以“固定工作量”和“扩展工作量”计算该电子商务集群的两个系统服从;假如该电子商务公司使用的集群均匀均匀恢复时间(MTTR)为96小时,总均匀故障时间(MTTF)为900天,计算集群的高可用性(HA)
https://img-blog.csdnimg.cn/direct/b756c37eef6d4dd4bf1832c8d5a45af6.png
一个Amazon AWS EC2 集群包罗300个vCPUs。假如这些处置惩罚器的80%用于并行执行计算和处置惩罚运动,计算:使用“固定工作负载”和“扩展工作负载”的AWS EC2集群的系统服从(两个单独的计算);上面描述的AWS EC2集群还有一个为集群提供HA的AWS S3,假如集群的总均匀故障间隔时间(MTTF)为500天,均匀均匀修复时间(MTTR)为2.5天,则计算集群的系统可用性

https://img-blog.csdnimg.cn/direct/920d881b680b40cb97b6ae94eca70a22.png
不写答案了,和前题差不多

第一大题n个xx(只答多少个短语)

列出四种云部署模型(该题出现2次)

https://img-blog.csdnimg.cn/direct/4bc34cf457204896bef8249ad95b1902.png
描述管理虚拟集群的四种方法(W1D2)

https://img-blog.csdnimg.cn/direct/69e159ed95bc4cfaa4824029f166c00d.png
https://img-blog.csdnimg.cn/direct/6501c0a162914e6e900c50d1f85dec15.png
讨论四种范例的云计算部署模型,并在每种情况下描述Security和Trust的问题

https://img-blog.csdnimg.cn/direct/c9381987687f414f9232bcf70c5ae739.png
https://img-blog.csdnimg.cn/direct/a22f5c1938844f30814612e785167021.png
描述私有云和公共云部署模型之间的三个区别(W1D1)

https://img-blog.csdnimg.cn/direct/546f962f66bf4e68ac3082380564f3ec.png
https://img-blog.csdnimg.cn/direct/ea92066dea8f45279eaec9a4c83cb67f.png
描述两种范例的可伸缩性度量,以及在此场景中大概出现的问题:一家银行决定在其现有的银行应用程序中添加一个新的客户关系管理(CRM)功能,还在两个国家开设了新的分行,这些新分行将使用相同的应用程序。

https://img-blog.csdnimg.cn/direct/20a9c022e882405c91bfcae188d6d171.png
https://img-blog.csdnimg.cn/direct/fc2787ff46b64d9bbe896cd9405b9617.png
https://img-blog.csdnimg.cn/direct/aa3f1f8294bc45cbae05f2e9a7c3d616.png
https://img-blog.csdnimg.cn/direct/8367b40d36ad493eaf51c6fee2e76bf6.png

第一大题子网掩码计算

 AWS VPC的公网子网CIDR为20.0.2.0/20,计算IP数量地址,写出子网可以拥有的最大EC2实例。

https://img-blog.csdnimg.cn/direct/d3acb42fa3354209af462453123edca1.png
利用您在云计算方面的知识,在下述场景中,表明您认为办理方案架构师决定使用伦敦区域和两个可用区(az)的原因;描述办理方案架构师决定将Web应用程序部署在公共子网中,而将DynamoDB数据库部署在私有子网中的原因;计算Amazon VPC中可创建的最大IP地址个数和公网子网中可创建的最大虚拟机个数。

一家客户主要在伦敦的公司正在将其内部部署(私有云)服务迁移到亚马逊网络服务(AWS),他们已经约请了一位办理方案架构师来计划他们将用于部署的AWS架构。该架构包罗:Amazon VPC (Amazon Virtual Private Cloud), CIDR为10.0.0.0/16;位于伦敦地域(eu-west-2)的eu-west-2a可用区(AZ)的公网子网CIDR为10.0.1.0/20;位于伦敦地域(AZ)的eu-west-2b可用区(AZ)的私有子网CIDR为10.0.2.0/20。Web应用程序将驻留在公共子网中,DynamoDB数据库将驻留在私有子网中
https://img-blog.csdnimg.cn/direct/80294b7a1f154502b106613ca28f801d.png
https://img-blog.csdnimg.cn/direct/4d540f3ee546415ab6d5dbeca8816714.png
https://img-blog.csdnimg.cn/direct/b74ad430b7d4454a976fb9f2e3c4b56e.png


第一、二大题描述名词

第一大题和第二大题的描述名词雷同以是放一起,但第三、四大题也有很多泉源于前两周
第一大题描述名词

描述计算机网络中的数据完备性和数据机密性(该题出现2次)

https://img-blog.csdnimg.cn/direct/b913fe3f79714fcb8d73f818dea9ce8a.png
https://img-blog.csdnimg.cn/direct/4f60d553208940dcada1a62085643d3a.png
数据机密性还可以这么写
https://img-blog.csdnimg.cn/direct/90e798f8a54f4e6697b7e019fa6fd85d.png
描述 AWS CloudFront

https://img-blog.csdnimg.cn/direct/9bacf2be2f0141c08e1651da1e377159.png
描述AWS Regions和AWS Zones

https://img-blog.csdnimg.cn/direct/4e50bfe72fc74c0d8b70c3c17361df0b.png
描述AWS可信顾问(W1D3)

https://img-blog.csdnimg.cn/direct/2d701fd3af8c456595db444d44c56dd3.png
https://img-blog.csdnimg.cn/direct/34aee00fe496453e82e1b84d6d2830cc.png
 第二大题描述名词

描述Amazon CloudWatch和AWS CloudTrail

https://img-blog.csdnimg.cn/direct/54f1e3faf16c4920b07ba337682a5051.png
描述模型视图控制器(MVC)和前端控制器计划模式,为这两种计划模式在实际应用中的应用分别举出一个例子

https://img-blog.csdnimg.cn/direct/2b29b7fd62114f03980c2569e7aeaed9.png



第二大题

第二大题CUDA代码

关于GPU和CUDA:简要说明在CUDA C编程模型中使用的五个主要步骤,以办理基于主机和设备组件的GPU编程架构的异构性子;编写一个简单的CUDA C程序,打印“欢迎来到GPU编程世界!”使用myGPUKernel()作为CUDA C程序的内核名称,并使用<<< >>>分隔符启动它,以打印消息“欢迎来到GPU编程世界!”并行五次(不要使用任何C迭代循环下令)。

https://img-blog.csdnimg.cn/direct/45509961448d4ab59941c7177c58e750.png
https://img-blog.csdnimg.cn/direct/0f0ab3d672924ee59443fc5e77b78077.png
编写一个GPU CUDA C程序,内核名为“add”,添加两个整数变量a和显示程序将与主机(CPU)和设备(GPU)通信的所有步骤,包罗内存管理运动(可以随意使用更多变量)。(该题出现2次)

https://img-blog.csdnimg.cn/direct/7953446808cc4ff480001f40e1159140.png
https://img-blog.csdnimg.cn/direct/7c1b2eea2bcc46769cb694ccb63ee877.png
https://img-blog.csdnimg.cn/direct/9b7a437da0e84d5b91e97cf0f9312337.png

上述代码增补解说
https://img-blog.csdnimg.cn/direct/808d168873a64aae8361bbe2a2f231a4.png
关于GPU和CUDA:描述使用CUDA平台编写GPU的三种方法;描述GPU CUDA计算或编程中异构计算的两个特性。

https://img-blog.csdnimg.cn/direct/6cafbe795b9146e7a3b839b03558acd1.png
https://img-blog.csdnimg.cn/direct/75f224b0e48041ab910e1eb375de7056.png
两个特性找不到原文,下面三选一吧
https://img-blog.csdnimg.cn/direct/77fb5d339c6143bda8a1e5bccc29e82c.png


第二大题经济计算

根据传统IT本钱模型和云计算本钱模型表明CAPEX和OPEX,并给出两个CAPEX下的本钱例子和两个OPEX下的本钱例子。在你的答案中使用数学本钱模型作为例证。
https://img-blog.csdnimg.cn/direct/4cbff48d02ca4a72a1be3161e74b2eb7.png
https://img-blog.csdnimg.cn/direct/c2fa1165ad2e4b7d929609800cc6021a.png
根据上述公司收支的描述,计算资本付出(CAPEX)和运营费用;假设公司可以通过在AWS市场上向客户出租资产来收回所有的资本付出,估算一下假如公司将其底子设施迁移到云端可以节省多少本钱。

https://img-blog.csdnimg.cn/direct/751acfd594f44ec08928fcee39f0fa07.png
关于云经济的:用图表分别描述计算传统IT本钱和云计算本钱的两种算法/数学模型;假如一个传统IT系统的总本钱为50万英镑,那么它的前期资本本钱为30万英镑,用云计算取代传统IT模式的本钱是多少?

https://img-blog.csdnimg.cn/direct/a3992df65a1c471b87cc244ec717af4c.png

第三大题

第三大题Map/Reduce项目涉及代码

下列Map/Reduce伪代码的效果是什么?表明它并举例说明映射器/还原器之间的信息交换(出现两次)

https://img-blog.csdnimg.cn/direct/dd4f6499a91f4fe59b647f95a96b354f.png
根据下列场景,如何使用 MapReduce 计算模型组织计算?请提供算法伪代码。您可以编写实用于给定输入的 Map/Reduce 程序,计算每个供应商提供的商品的均匀销售价格,或者使用伪代码编写规范。

        大型超市连锁店的收银柜台,对于每个售出的商品,它天生一个记载,格式如下 [方括号中为范例]
        ProductId ,Supplier ,Price
        在这里,ProductId 是产品的唯一标识符,Supplier 是产品的供应商名称,而 Price 是产品的销售价格。假设超市连锁店在数个月的时间里积累了数千兆字节的数据。这些数据可以作为输入提供给 MapReduce 作业,格式为一组键/值对(String ProductId,ProductRecord record)。键是字符串,表示超市连锁店产品的唯一标识符,而值是 ProductRecord 对象,包罗产品的全部详细信息(以及用于访问每个字段的方法)。比方,ProductRecord.getPrice() 和 ProductRecord.getSupplier() 分别返回输入行的 Price 和 Supplier 字段。
        留意:可以假设存在一个名为 computeAvg(List<Pair> values) 的方法,它返回列表中商品的均匀销售价格。应该在 reduce 方法中使用这个方法。
        超市连锁店的首席执行官想要一个供应商列表,列出每个供应商提供的商品的均匀销售价格。
https://img-blog.csdnimg.cn/direct/f20b8f217d0344a79b81e83b3a7e6330.png
Map(String key, ProductRecord value):
    // key 是产品ID,value 是产品记录对象
    supplier = value.getSupplier()// 获取供应商
    price = value.getPrice()      // 获取销售价格
    emitIntermediate(supplier, price)// 输出中间键/值对

Reduce(String key, List<Double> values):
    // key 是供应商名称,values 是该供应商的所有销售价格列表
    avgPrice = computeAvg(values)// 调用computeAvg方法计算平均销售价格
    emit(key, avgPrice)            // 输出最终键/值对,键为供应商,值为平均销售价格

编写一个Map/Reduce Java程序来计算每个变乱类别中最受欢迎的变乱(即最常预订的古典音乐会,爵士音乐会,盛行音乐会等)。包罗解释来表明代码的作用。您还可以使用伪代码来编写规范,或者用图表来说明输入、映射、淘汰和输出块之间的数据流。

https://img-blog.csdnimg.cn/direct/9d6d60aba4db46969fb66b3ba218ff4d.png

第三大题阿姆达尔定律计算

关于Map/Reduce的性能:定义并行计算中的加快概念;使用Amdahl定律,计算用10个处置惩罚器运行此作业时可实现的最大加快,留意8%的计算作业必须顺序执行。

https://img-blog.csdnimg.cn/direct/348ce4a911c149d39e943f152d5456ff.png
关于Map/Reduce的性能:描述阿姆达尔定律,以及顺序计算和并行计算之间的区别。说出Hadoop中必须按顺序执行的一个阶段;假如95%的计算作业必须顺序执行,那么在跨8个处置惩罚器运行该作业时可实现的最大加快是多少?同样,对于同一个作业,当跨1000个处置惩罚器运行该作业时,可实现的最大加快是多少?用阿姆达尔定律往返答

https://img-blog.csdnimg.cn/direct/ef598d20fb544f79ade0f05db8a953db.png
https://img-blog.csdnimg.cn/direct/bee794c4c354453388164c6c24d3d6e2.png
描述Flynn对计算机体系结构的四种分类。(W1D1)用阿姆达尔定律计算提高使用10个处置惩罚器并行运行20%应用程序的系统的性能速度

https://img-blog.csdnimg.cn/direct/e67de6f9619c4618b4333c89e1634c9a.png
https://img-blog.csdnimg.cn/direct/9eef1fb68d7a4633a80abd5fee0232a9.png
第三大题键值对计算

假设作业是针对600万张图片的数据集执行的。Hadoop为作业分配了20个mapper和6个Reducers,一张照片中出现的汽车的均匀数量是0.5:估计Mapper将发出多少个键值对;假设数据集有3000个独特的汽车型号,每个Reducer有多少个key?留意,您可以假设在reducer之间实现均衡的分区。 

https://img-blog.csdnimg.cn/direct/e02d7ba6953d40249d7ab4685587f457.png
分析:
第一题的300万个键值对是由(600万张图片)*(一张照片中出现的汽车的均匀数量是0.5)得来
第二题的500个keys是由(3000个独特的汽车型号)/(6个Reducers)得来
https://img-blog.csdnimg.cn/direct/9b98f7a765cd43be98dca129f590fcf5.png
在该场景中,Hadoop使用10个mapper和2个reducer来完成计算,每个Mapper发出多少中间键:值对?有多少唯一的键被馈送到每个Reducer?

https://img-blog.csdnimg.cn/direct/81e0fdd1ad8d4f13ae14dd5c9ae47c05.png


第三大题也与map有关但不是代码和计算

涉及到Map/Reduce的Combiner:什么是Combiner,用处?它和减速器有什么差别?使用组合器是可选的照旧强制的;简要说明组合器必须遵守的两条规则。

https://img-blog.csdnimg.cn/direct/a3552396a8b143e0a8cf1c23316356e3.png
https://img-blog.csdnimg.cn/direct/7dfd6ea039124084b7cfe0c74e271cf6.png
表明在MapReduce作业的shuffle和sort阶段,由谁运行Combiner函数以及在哪个时间点执行Combiner函数。

https://img-blog.csdnimg.cn/direct/90cb6751226445028212ef99a410eec3.png
关于Map-Reduce的数据过滤:Map-Reduce作业中数据过滤的目的是什么?给出一个数据过滤的例子;为什么数据过滤是“Mapper唯一的工作”?

https://img-blog.csdnimg.cn/direct/6d32f95dab814a84b34d08825e728836.png

第三大题HDFS描述

涉及Hadoop计算作业执行:用箭头(→)连接Hadoop计算使命对应负责的守护进程

https://img-blog.csdnimg.cn/direct/4c0b281f6b1e439e86b8fe76f8d04b34.png
https://img-blog.csdnimg.cn/direct/6622e9d0a8bf4decb371c5778d1893ae.png
关于Hadoop分布式文件系统的:NameNode在HDFS中的职责是什么;用合适的图表表明HDFS的写操纵(比方,如何创建一个新文件并将数据写入HDFS);为什么HDFS默认为每个块存储三个单独的副本?为什么在大型集群中将三个副天职散到差别的物理机架上是有用的?

https://img-blog.csdnimg.cn/direct/20b2ba98b14142c6ac58fdb40ac5246a.png
https://img-blog.csdnimg.cn/direct/b9a8144f6f2548858b3ab2fa3fc68e2e.png
定义分布式系统和底子设施的高可用性。

https://img-blog.csdnimg.cn/direct/9473d4856e7d4044922528446d93243c.png
https://img-blog.csdnimg.cn/direct/dda93f4cb2124326a7f9c36989fd1e7f.png
在分布式系统的配景下,什么是“五九可用性”?请表明这与“单点故障”的概念之间的关系,以及这大概对分布式系统产生的负面影响(该题出现2次)

https://img-blog.csdnimg.cn/direct/7624a205bcf24c79953e4120c24aa79b.png
        “五九可用性”是指系统的可用性达到99.999%。这意味着系统每年最多只能停机5.26分钟,忍受少数错误,不能有单点误差。这是对分布式系统高可用性的极度要求,通常在必要持续运行且不容忍长时间停机的关键应用中使用。 
HDFS (Hadoop Distributed File System)如何检测数据块损坏

https://img-blog.csdnimg.cn/direct/94cd760ff11e4bc89c3852a76cb9193d.png

https://img-blog.csdnimg.cn/direct/14d678aedc3844d78706984f61b1272c.png
假如Map使掷中的一个失败,Map/Reduce作业是否会完成?应用程序主机和节点管理器如何检测Map使命的失败并对其作出反应?

https://img-blog.csdnimg.cn/direct/935a146868ae483cb81d9fa6d73381e3.png
https://img-blog.csdnimg.cn/direct/0d897ba6931349aa954088e2848c1755.png


第四大题

第四大题DNS描述

什么是内容交付网络(CDN)中的DNS缓存?DNS缓存的两个利益。

https://img-blog.csdnimg.cn/direct/3dbc50fd9091405d8651970604d5199c.png
关于内容分发网络(CDN):为什么网站要使用CDN?为什么CDN在世界各地放置服务器?

https://img-blog.csdnimg.cn/direct/cff1e034dacd4e9db8f3621e9850d686.png
https://img-blog.csdnimg.cn/direct/057baab854144253b20030ab06114d51.png
与内容交付网络(CDN)有关:什么是内容分发网络(CDN)?表明CDN是如何工作的;CDN中的DNS重定向是什么?简要表明差别的DNS重定向范例及其优缺点;点对点(P2P)网络是什么?表明P2P网络相对于客户机-服务器网络的三个利益。

https://img-blog.csdnimg.cn/direct/ed268621fe624bf29511ed2b61a30002.png
https://img-blog.csdnimg.cn/direct/392cf6e6cdaa44f8a6aefca36f459b56.png
https://img-blog.csdnimg.cn/direct/df85125f108d4dd191a7ee2e7c055300.png


第四大题数据库描述

关于Map/Reduce之外的大数据平台:什么是内存处置惩罚?讨论Hadoop Map/Reduce与当代内存处置惩罚系统(如Apache Spark)相比的的主要性能限定,用一个例子说明两者的区别;在Apache Spark的配景下,什么是弹性分布式数据集(RDD) ?表明两种范例的RDD操纵,并为每种操纵提供一个示例,比方,如何通过编程操纵创建和修改RDD。

https://img-blog.csdnimg.cn/direct/cc3f3b6eb8a5474181fd4ecc23981bed.png
与云数据库有关:表明以下这些用于实现数据分区和复制的技术:内存缓存、读写分离、高可用性集群、数据分片;SQL数据库以捐躯分区为代价提供了强同等性和可用性,而差别的NoSQL数据库采用差别的基于cap的权衡,那么Dynamo做了哪些权衡?

https://img-blog.csdnimg.cn/direct/74deed5733324c7681c3cc624d06d1eb.png
        关于读写分离:所有的写操纵都发生在主数据库上,确保数据的同等性。读操纵可以分发到任意一个从数据库上,实现了负载均衡,提高了并发能力。优点:提高了系统的并发读能力,降低了读操纵对主数据库的压力。增加了系统的可伸缩性,可以通过添加从数据库来扩展读能力。缺点:数据同步延迟:从数据库复制数据的过程是异步的,大概导致读到的数据并不是最新的。同等性问题:在某些情况下,主数据库和从数据库之间大概存在数据不同等的情况,必要采取一些步调来处置惩罚这种情况。
https://img-blog.csdnimg.cn/direct/2c5fa99c256044288884f32e2a4c7afe.png
        高可用性集群是指由多个节点构成的数据库集群,旨在提高系统的可用性和容错能力。假如一个节点出现故障,其他节点可以接受其工作,从而保持系统的正常运行。实用于读写操纵都较为频繁的场景。
        数据分片是为了应对大规模数据存储和处置惩罚的需求,将数据分散存储在多个节点上,每个节点负责一部分数据。数据分片的实现方式例子:垂直分片: 将差别表或列的数据存储在差别的节点上,可以根据数据的关系举行垂直拆分。水中分片: 将同一表中的差别行数据存储在差别的节点上,可以根据某个字段值的范围或哈希值举行水平拆分。
与云数据库有关:为什么在云数据库中使用数据分区和复制很紧张;在数据访问上下文中表明强同等性和最终同等性之间的区别,用例子来表明

https://img-blog.csdnimg.cn/direct/bbae4109bb7944fa94ce4aa696d2765e.png
https://img-blog.csdnimg.cn/direct/7dd07351097f4934966cf2311e14e826.png
关于分布式云数据库的:表明NoSQL数据库与传统关系数据库的区别,请在ACID事务属性上下文中表明这一点;使用NoSQL数据库的利益是什么;说出使用NoSQL数据库(比方Cassandra)而不是使用传统SQL关系数据库的两个原因;什么是布鲁尔CAP定理?表明CAP的三个特性;NoSQL数据库是否满足CAP的所有三个支柱?假如没有,表明为什么没有,以及放松这些限定的利益是什么。

https://img-blog.csdnimg.cn/direct/36be98537c6844e79d10b0819a9a134c.png
https://img-blog.csdnimg.cn/direct/2f302c99ca6b4696ad7e48bdfd56ff2d.png
https://img-blog.csdnimg.cn/direct/1ea0c590b6914241ae8a510ab1c2df80.png
这个问题是关于云数据库的:列出ACID事务属性;大多数云数据库都有ACID事务属性吗?假如不是,为什么;什么是memcached?它的功能与关系数据库(比方SQL)有什么差别?假如在没有可用存储空间的情况下,尝试在memcached中存储对象,会发生什么情况?

https://img-blog.csdnimg.cn/direct/0368bce43f42459294509a74acb11798.png

https://img-blog.csdnimg.cn/direct/9eac3d0368f740a6b8e84ffcbf85c888.png
关于Casandra的(一个NoSQL数据库):表明卡桑德拉戒指上的复制因子是指什么,这对Cassandra数据存储的弹性有什么影响;假设你管理一个Cassandra数据库,你面对着可伸缩性问题,即当前的Cassandra节点集不足以处置惩罚你的应用程序的需求,如何增加Cassandra数据库的容量?用弹性来表明这一点,以及它对性能的影响;Cassandra有单点故障吗?


https://img-blog.csdnimg.cn/direct/200261785319411a9a6b2742e22547a7.png
或用chatgpt
https://img-blog.csdnimg.cn/direct/dff7cc0dc1bf47ca9ae983a916cca3e7.png
https://img-blog.csdnimg.cn/direct/a36c22056de749acac2c2ee838af8c3d.png
https://img-blog.csdnimg.cn/direct/391b0d19dacf4089b209c2d8ff52a68e.png
第四大题其它描述

关于Apache Spark框架计算的,它基于RDD:定义Spark RDD,表明为什么Spark是一个使用rdd概念的内存处置惩罚平台;通过答复以下问题来描述RDD的生命周期:Spark程序如何创建新的RDD?何时创建rdd?如何修改rdd?Spark框架如何以及何时烧毁rdd;给出一个利用Spark作为内存处置惩罚系统的算法示例。

https://img-blog.csdnimg.cn/direct/dba2966ad58c49c8a71734a016e12a41.png

传统的流处置惩罚系统和微批流处置惩罚系统有什么区别?

https://img-blog.csdnimg.cn/direct/c682f35bb27a4bb48feffc5f2bbc3865.png
关于分布式图处置惩罚的:表明Pregel在并行图计算时使用“像顶点一样思考”模型的方式,给出一个适合这个模型的图算法的例子;什么是图分区?为什么有必要?讨论图划分在分布式图处置惩罚系统中的作用;图分区和性能之间的关系是什么?错误的分区决议会导致更差的性能吗?假如是,为什么?

https://img-blog.csdnimg.cn/direct/1ece39b4b3e04c27af09ca48772e98cc.png
https://img-blog.csdnimg.cn/direct/8221fe3b29984a5cbfe0d45300a65ee5.png
https://img-blog.csdnimg.cn/direct/5e6480ce1ad24d7abc7b7af4d00dd512.png
https://img-blog.csdnimg.cn/direct/4878fee220ec43e595ab73d9d204072d.png
关于分布式图处置惩罚:描述谷歌Pregel背后的主要概念。它是如何并行化图计算的?它如何最小化节点之间发送消息的需求?

https://img-blog.csdnimg.cn/direct/6199becac5f64a5490b24ea9d45590f7.png
https://img-blog.csdnimg.cn/direct/7bb1040c13cd4f858ec696be6bab217f.png
https://img-blog.csdnimg.cn/direct/5e3a6a99a53148358704b933884ba0d7.png



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 云计算积年题整理