云计算与大数据期末考点

打印 上一主题 下一主题

主题 573|帖子 573|积分 1719

第一章 云计算概述


  • 云计算的定义:云计算是一种无处不在的、便捷的、通过互联网访问的、可定制的IT 资源共享池,是一种按使用量付费的模式。它能够通过最少量的管理或与服务供应商的互动实现计算资源的迅速供给和释放。
  • 云计算多层含义:1)用户的公共性。2)装备的多样性。3)商业模式的服务性。4)提供方式的机动性。
  • 云计算的特点:1)具有大规模并行计算本事。2)资源虚拟化和弹性调度。3)数据量巨大并且增速迅猛。4)高可靠性,通用性,高性价比。
  • 云计算技能发展背景:1)飞速发展的互联网2)万维网的发明与发展3)信息产业的发展演进4)云计算的提出。
  • 典范的云计算基础架构(相识):1)GFS是创建在集群之上的分布式文件系统2)MapReduce是分布式并行编程模子3)BigTable是分布式大规模数据看管理系统。
  • 云计算的主要服务模式:1)基础办法即服务(IaaS)2)平台即服务(Paas)3)软件即服务(SaaS)。【写英文即可】
  • 三种服务模式之间的关系:1)从用户体验角度分析:从用户体验角度而言,他们之间关系是独立的,因为其各自面对的是不同类型的用户。2)从技能角度分析:某一条理可以单独完成一项用户的哀求而不需要其他条理为其提供须要的服务和支持。
  • 云计算的主要摆设模式:(简答)1)公有云:面向互联网大众的云计算服务2)私有云:面向企业内部的云计算平台3)肴杂云:肴杂了私有云和公有云4)团结云:团结多个云计算服务提供商的云基础办法,向用户提供更加可靠、优惠的云服务,主要针对公有云平台。
  • 云计算是工业化摆设、商业化运作的大规模计算本事,是一种新的、可商业化的计算和服务模式,即计算本事像水、电、煤气一样,按需分配使用。
  • 典范的云计算产物:Amazon的AWS、Windows Azure Platform、IBM蓝云解决方案、阿里云
  • 安全性成为关键:云计算安全或云安全是指一系列用于掩护云计算数据、应用和相关结构的策略、技能和控制的集合,属于计算机安全、网络安全的子范畴,或更广泛地说属于信息安全的子范畴。

第二章 大数据技能概述


  • 大数据的根本概念:大数据是现有数据库管理工具和传统数据处理应用方法很难处理的大型、复杂的数据集,大数据技能的范畴包括大数据的收罗、存储、搜索、共享、传输、分析和可视化等。
  • 大数据产生的原因:互联网、视频网站、移动互联网、物联网、车联网、GPS、医学影像、安全监控、金融、电信等众多范畴都在疯狂产生着大量的数据,这些数据不仅使世界充斥着比以往更多的信息,而且由这些数据产生出了“大数据”这个现在尽人皆知的概念。
  • 大数据奇数产生的原因:起首源于互联网企业对于日益增长的网络数据分析的需求。
  • 第四范式:第一范式是实验;第二范式是理论;第三范式是计算;第四范式是数据。
  • 云计算与大数据的关系:云过算与天数据是一对相辅相成的概念,它们描述了面向数据期间信息技能的两个方面;云计算偏重于提供资源和应用的网络化交付方法;大数据偏重于应对巨大的数据量所带来的技能挑战。
  • 大数据的4V特性:(简答)


  • 规模性:大数据需要收罗、处理、传输的数据量大;处理 PB级的数据是比力常态的情况。企业内部的经营交易信息,网络世界中的商品、物流信息,人与人的交互信息、位置信息等都是大数据的主要来源。
  • 多样性:大数据的种类多、复杂性高;大数据有不同格式,有结构化的关系型数据,有半结构化的网页数据,还有非结构化的视频音频数据。而且这些非结构化数据广泛存在于交际网络、物联网、电子商务之中,其增长速度比结构化数据快数十倍。
  • 高速性:大数据需要频繁地收罗、处理并输出;因为数据会存在时效性,需要快速处理并得到结果。如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策。要到达立竿见影而非事后见效,实现实时获取需要的信息,1秒是临界点,即对于很多实时大数据应用而言,数据必须要在1秒钟内进行处理,否则处理结果就是过时和无效的。
  • 代价密度低:大数据不经过相应的处理则代价较低。挖掘大数据的代价雷同手沙里淘金。以视频为例,一个一小时的监控视频数据,可能有用的数据只有一两秒。怎样通过强大的算法更迅速地完成数据的代价 “提纯” 是目前大数据技能研究的紧张课题。

  • 大数据的主要应用:通过用户举动分析实现精准营销是大数据的典范应用。 1)互联网企业可以应用大数据技能 ;2)智能电网可通过大数据技能对用户的用电数据进行监测;3)车联网应用大数据技能; 4)医疗大数据。
  • 大数据的关键技能:(简答)


  • 大数据预处理技能:a.数据收罗:ETL是利用某种装置,从系统外部收罗数据并输入到系统内部的一个接口;b.数据存取:关系数据库,NoSQL, SQL 等;c.基础架构支持:云存储,分布式文件系统等;d.计算结果展现:云计算,标签云,关系图等。
  • 大数据存储技能:应同时满足以下三点要求:a.存储基础办法应能持久和可靠地存储数据;b.提供可伸缩的访问接供词用户查询和分析海量数据;c.对于结构化数据和非结构化的海量数据要能够提供高效的查询、统计、更新等操纵。
  • 大数据分析技能:a.数据处理:自然语言处理技能;多媒体内容辨认技能;图文转换技能;地理信息技能等。b.统计和分析:A/B test;top N 排行榜,地域占比,文本情绪分析技能,语义分析技能等。c.数据挖掘:关联规则分析,分类,聚类等。d.模子预测:预测模子;呆板学习;建模拟真;模式辨认技能等。
  • 大数据计算技能:大数据计算技能可分为批处理计算和流处理计算。a.批处理计算主要操纵大容量、静态的数据集,并在计算过程完成后返回结果,适用于需要计算全部数据后才能完成的计算工作;b.流处理计算会对随时进入的数据进行计算,流处理计算无须对整个数据集执行操纵,而是对通过传输的每个数据项执行操纵,处理结果立刻可用,并会随着新数据的抵达继续更新结果。
第三章 虚拟化技能


  • 虚拟化的概念:虚拟化是指通过虚拟化技能将一台计算机虚拟为多台逻辑计算机。
  • 虚拟化技能的概念:虚拟化技能是模拟真正的计算机资源。
  • 虚拟化技能的作用:虚拟化技能可以实现大容量、高负载或者高流量装备的多用户共享,每个用户可以分配到一部门独立的、相互不受影响的资源。每个用户使用的资源是虚拟的,相互之间都是独立的,虽然这些数据有可能存放在同在一台物理装备中。使用虚拟化技能可以将很多零星的资源集中到一处,而使用的用户则感觉这些资源是一个整体。使用虚拟化技能可以动态维护资源的分配,动态扩展或减少某个用户所使用的资源。
  • 虚拟化技能的分类:(简答)


  • 网络虚拟化:网络虚拟化将网络资源进行整合,简朴来说,就是将硬件与软件的网络装备资源,以及网络功能整合为一个统一的、基于软件可管理的虚拟网络。网络虚拟化是一种 包含至少部门是虚拟网络连接的计算机网络。
  • 存储虚拟化 :存储虚拟化,即整合全部存储资源为一个存储池,对外提供逻辑存储接口,用户通过逻辑接口进行数据的读写,不论有多少个硬件存储装备,对外看到的只有一个。
  • 服务器虚拟化 :也称为平台虚拟化,是将服务器物理资源抽象成逻辑资源,让一台服务器变成几台乃至上百台相互隔离的虚拟服务器,用户不再受限于物理上的界限,实现CPU、内存、磁盘、VO 等硬件变成可以动态管理的 “资源池”。
  • 操纵系统虚拟化:操纵系统虚拟化是指在同一操纵系统上,同时运行单个或者多个独立的用户,他们都有自己的运行空间。每个用户都只能运行自己权限范围内的应用,每个用户都相互不受影响。每个用户可以通过长途桌面访问自己的资源,但共享同一个操纵系统。
  • 服务虚拟化:服务虚拟化是一种虚拟的应用,它与硬件无关,为软件实现。服务虚拟化对终端用户来说是隐蔽的,简朴来说就是通过虚拟化提供相应的服务。
  • 桌面虚拟化:桌面虚拟化是指将计算机的终端系统(也称为桌面)进行虚拟化,以到达桌面使用的安全性和机动性。
  • 应用虚拟化:应用虚拟化是指同一个应用可以在不同的 CPU 体系架构、不同的操纵系统上正常地运行。
  • 用户体验虚拟化 :用户体验虚拟化,偶然也称用户虚拟化,是指在不同的装备中,如条记本、平板电脑或手机,用户所看到的内容或者界面都是一样的,在此中一台装备中的修改,在另一台装备上看到的设置或修改结果是划一的。用户的相关信息与应用的设置都会被同步到相应的用户装备中。

  • 虚拟化技能的优势 :


  • 减少物理资源的投入,节约本钱。当用户需要不同的操纵系统或更多的计算机装备资源时,直接通过 VMM 添加几个不同的操纵系统即可,不再需要使用时可直接关闭或者删除相应的资源。
  • 虚拟数据资源迁移方便。可以很方便地将虚拟数据资源(一样平常为虚拟机生成的数据)迁移到其他数据中央,而虚拟数据资源不受影响。
  • 提高物理资源的使用率。使用虚拟化技能,可以使多台服务器摆设到同一台物理装备上,如允许以提高这台物理装备的使用率,明显减少本钱开销。
  • 更加环保,节省能源。通过应用虚拟化技能,可以减少物理硬件的投入,从而降低物理硬件所使用的电能以及占地空间,从而更加的环保。
  • 易于自动化维护与操纵,减少维护本钱。虚拟化技能通过软件的方式来模拟物理装备,只要是软件的方式实现的虚拟资源,就可以通过相应的接口进行自动地维护与管理,可以提高工作效率,减少维护本钱。
  • 数据安全更有保障。每个虚拟化出来的装备在物理装备中都会有相应的文件产生,管理员只需要对数据进行相应的备份,并定期管理,就可以包管这些数据的安全。

  • 虚拟化技能的劣势:1)目前业界没有统一的虚拟化技能尺度与平台,没有开放的协议。2)如果没有对数据进行备份,应用虚拟化技能会存在肯定的风险。3)虚拟数据中央的迁移,特别是对在线服务的迁移,对用户影响巨大。
  • 虚拟化技能与云计算关系:云计算提供服务,虚拟化技能是云计算的技能支持。1)云计算是基于互联网的相关服务的增加、使用和交付模式,在云计算中,通过互联网提供动态、易扩展的虚拟化资源。2)虚拟化的主要功能是把单个资源抽象成多个给用户使用,而云计算则是资助不同部门(通过私有云)或公司(通过公共云)访问一个自动置备的资源池。
  • 虚拟化技能的原理:虚拟机的原理、CPU虚拟化原理、内存虚拟化原理以及网络虚拟化原理。
  • 虚拟化情况的搭建:(简答)1)启动VMware Workstation。2)创建虚拟机并选择已经准备好的ISO镜像(在Windows平台中,以.iso末了的镜像一样平常称为ISO镜像。3)启动后出现的安装界面,选中默认的图形化安装选项“Graphical install”。
  • 克隆虚拟机:1)启动虚拟机。在VMware Workstation管理窗口中,选择:VM(虚拟机)->Manage(管理)->Clone(克隆)。2)选择Clone(克隆)之后,选择进行全克隆。3)选择Create a full clone(全克隆模式)后单击“下一步”按钮。4)克隆完成后就可以对克隆情况进行测试了。这时会发现克隆的虚拟机的全部设置与克隆之前的版本是一模一样的。如果在克隆之前的IP所在是固定的,请对克隆后的IP所在进行更新,否则可能会导致无法正常通信的情况。
  • 虚拟机做快照:1)启动虚拟机,选择虚拟机->VM(虚拟机)->Snapshot(快照)->Take Snapshot(拍照)。2)在“Take Snapshot”对话框中,将快照名称设置为“Snapshotl”,单击“TakeSnapshot”按钮进行拍照。3)选择VM(虚拟机)->Snapshot(快照)->Snapshot Manager(快照管理),可检察拍照结果。4)对虚拟机进行一系列的操纵,任何操纵都行。5)选择VM(虚拟机)->Snapshot(快照)->Snapshot Manager(快照管理),选择名为“snapshot1”的快照,然后单击“GoTo”命令,进行快照规复。6)快照规复后示,可见此时的虚拟机情况则与最初拍照时的情况一模一样,没有任何变革。
第四章 数据中央与云存储技能


  • 数据中央的分类:1)企业数据中央:企业数据中央按规模分别为部门级数据中央、企业级数据中央、互联网数据中央以及主机托管数据中央等。2)互联网情况下的数据中央的作用就是加强互联网数据的处理速度和结果。
  • 云计算、大数据期间的数据中央发展趋势:规模化、虚拟化、绿色化、集中化和低本钱。
  • 云存储系统的结构:存储层、基础管理层、应用接口层和访问层。
  • 云存储的实现基础:(叙述)


  • 宽带网络:真正的云存储系统将会是一个多区域分布、遍布天下、乃至于遍布全球的庞大公用系统,使用者需要通过ADSL、DDN等宽带接入装备来连接云存储。
  • Web2.0技能:Web 2.0 技能的核心是分享。只有通过Web 2.0技能,云存储的使用者才有可能通过PC、手机等多种装备,实现数据、文档、图片和音视频等内容的集中存储和共享。
  • 应用存储:云存储不仅仅是存储,更多的是应用。应用存储不仅具有数据存储功能,还具有应用软件功能,可以看作是服务器和存储装备的集合体。
  • 集群技能和分布式文件系统从云存储的概念可知,任何一个单点的存储系统都不是云存储,云存储是由多个存储装备构成的,不同存储装备之间就需要通过集群、分布式等技能,实现多个存储装备之间的协同工作,多个存储装备可以对外提供同一种服务。
  • CDN、P2P技能、数据压缩技能、重复数据删除技能、数据加密技能:CDN内容分发系统的根本思绪是尽可能避开互联网上有可能影响数据传输速度和稳固性的瓶颈和环节,使内容传输得更快、更稳固。
  • 存储虚拟化技能、存储网络化管理技能:云存储中的存储装备数量庞大且大多分布在不同地域,怎样实现不同厂商、不同型号乃至于不同类型(如 FC(Fibre Channel)存储和 IP 存储)的多台存储装备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理是一个巨大的难题,为相识决这个问题,简化用户操纵,需要存储虚拟化技能来实现。

  • 云存储的特性:1)可靠性2)安全性3)管理方便4)可扩展性
  • 云存储的发展关注点:1)安全性2)便携性3)性能和可用性4)数据访问性
第五章:并行计算与集群技能


  • 集群的根本概念:(简答)集群是一组独立的计算机(节点)的集合体,节点间通过高性能的网络相连接,各节点除了作为一个单一的计算资源供用户使用外,还可以协同工作,并表示为一个单一的、集中的计算资源,供并行计算任务使用。
  • 集群系统的计划要思量的五个问题:1)可用性 2)单一系统映像SSI 3)作业管理 4)并行文件系统PFS 5)高效通信
  • 集群系统按功能和结构可以分为如下四类:(选择)1)高可用性集群系统2)负载均衡集群系统3)高性能集群系统4)虚拟化集群系统
  • 并行计算的关键技能主要包括:1)体系结构2)算法计划与分析3)实现技能4)应用
  • 一个简朴的MPI程序实现:
  1. #include “mpi.h”
  2. #include <stdio.h>
  3. int main(int argc, char *argv[])
  4. {
  5.     MPI init(&argc, &argv);
  6.     printf("hello world\n)";
  7.     MPI Finalize();
  8.     return 0;
  9. }
复制代码
第六章:OpenStack——功能强大的IaaS平台


  • OpenStack架构主要分为三个部门:控制,计算,网络
  • 模块:


  • DASHBOARD:仪表盘服务模块,项目名是Horizon,用于给用户提供基于网页管理的界面,以便用户可以更方便、更直观地管理OpenStack平台。
  • COMPUTE:计算服务模块,项目名为Nova,是OpenStack不可缺少的核心模块,为用户提供计算平台,主要负责与虚拟化平台的接口对接。
  • BLOCK STORAGE:块存储服务模块,项目名为Cinder,用于整合OpenStack平台中全部存储资源为一个存储池,并对外提供统一的存储服务API接口,外界看到的就只有一个巨大的存储块。
  • NETWORKING:网络服务模块,项目名为Neutron,在OpenStack中负责整合全部物理与虚拟的网络资源,并对外提供统一的网络设置接口,用于对OpenStack平台的网络互联情况的搭建与设置。与Nova一样,Neutron也是OpenStack的核心模块。
  • IMAGE SERVICE:镜像服务模块,项目名为Glance。属于OpenStack的核心模块,用于管理镜像,给虚拟机提供镜像服务。
  • OBJECT STORAGE:对象存储服务模块,项目名为Swift。与Cinder雷同,Swift在OpenStack平台中也是一种存储服务,可以存放与获取各种数据,如元数据、设置数据等。同时,也可以将备份数据存放到Swift中,包括镜像服务的存放也可以存放到Swift中,在获取数据时,Glance再从Swift获取出来。乃至Cinder块存储的备份也是可以存放到Swift中。
  • IDENTITY SERVICE:身份认证服务模块,项目名为Keystone。也是OpenStack的核心模块,主要用于对用户或哀求的认证与授权服务。
  • MONITOR:监控计量服务模块,项目名为Ceilometer,此服务模块负责整个平台各个模块运行状态的检测与监控、统计与计费等。
第七章:Docker——用途广泛的容器技能


  • Docker概述:Docker 中有三大核心概念,即镜像(Image),容器(Cotainer),仓库(Repository)此中容器由镜像支持,镜像从仓库分发,最终通过预先设定的命令构建成人们所见到的快速摆设的、多样的应用。
  • Docker的安装:测试docker是否安装成功-$docker run --rm hello -world;
  • Docke服务要点:1)Docker服务分为客户端和服务端两头2)当直接运行一个镜像时,起首从当地仓库查找,若无则从Docker Hub公共仓库查我3)此容器运行仅为显示,若要进行交互式的访问容器则通过docker run -it ubuntu bu实现。
  • 什么是Docker镜像:要想更深入地相识 Docker,起首要相识镜像的原理,而这此中最紧张的概念就是镜像层.像层依赖文件系统(File Systems)、写时复制(Copy-on-Write )、团结挂越(Union Mounts)等一系列的底层技能。
  • 镜像层分为四层:三层只读层,一层读写层。当Docker第一次启动一个容器时,初始的读写层是空的。
  • 发布和获取Docker镜像:可以通过将镜像推送到Docker Hub或者用户自己的私有仓库中来实现。

第八章:Hadoop——分布式大数据开辟平台


  • Hadoop的体系结构:1)HDFS是Hadoop是分布式文件储存系统;2)MapReduce是一个分布式计算框架,是Hadoop的一个基础组件。
  • Hadoop集群的架构:Hadoop集群的逻辑架构接纳的是主从架构(Master/Slave架构)。
  • 什么是分布式文件系统:分布式文件系统是一种基于网络的文件系统,它将文件和目次分布在多台计算机上,通过网络连接进行数据交换和同步。它通太过散存储文件和元数据来提高容量和可用性,并通过多节点的负载均衡来提高性能。分布式文件系统还具备动态可扩展性、高可靠性、高可用性和易维护性的特点。
  • HDFS的架构及读写流程:1)HDFS的架构:HDFS是一个典范的主从(Master/Slave)架构。2)HDFS的读写流程:a.文件读取b.文件写入。
  • Wordcountd的处理过程:(简答)


  • 分片、格式化数据源:InputFormat主要有两个任务,一个是对源文件进行分片,并确定Mapper的数量;另一个是对各分片进行格式化,处理成<key,value>情势的数据流并传给Mapper。
  • Map过程:Mapper吸收<key,value>情势的数据,并处理成<key,value>情势的数据,详细的处理过程可由用户定义。
  • Combiner过程:每一个map()都可能会产生大量的当地输出,Combiner()的作用就是对map()端的输出先做一次合并,以减少在Map和Reduce结点之间的数据传输量,提高网络I/O性能,是MapReduce的一种优化本事之一。
  • Shuffle过程:Shuffle过程是指从Mapper产生的直接输出结果,经过一系列的处理,成为最终的Reducer直接输入数据为止的整个过程,这一过程也是MapReduce的核心过程。整个Shuffle过程可以分为两个阶段,Mapper端的Shuffle和Reducer端的Shuffle。
  • Reduce过程:Reducer吸收<key,{value list}>情势的数据流,形成<key,value>情势的数据输出,输出数据直接写入HDFS,详细的处理过程可由用户定义。
第十一章:云计算仿真


  • 为什么要使用CloudSim:
对于技能研发职员来说,大规模集群的资源调度、负载均衡、集群平台,集群拓扑等研究如果在物理机上进行,需要大量的服务器、网络装备资源,实验情况的准备、实验数据的收罗、实验方案的调试很不方便、本钱很高,需要先在仿真实验平台上进行实验。
对云应用服务的测试也会比力麻烦,主要表现在以下两方面。


  • 应用服务商直接将应用摆设到云平台上之后再进行测试,无疑会带来额外的本钱开销。一旦应用程序接入云平台就必须要缴纳相应的费用,如许在应用没有任何经济效益的情况下就产生了额外的费用,对于SaaS提供商来说是不经济的。
  • 实际运行的云平台情况(IaaS、PaaS)是不可控的,整个互联网情况时而拥塞,时而安定,从而导致了云平台资源使用的无规律性和不可再现性,不利于应用的重复测试。

  • CLoudSim 的特点:


  • 能够在一台PC上建模和仿真大规模云计算基础办法,如数据中央、物理主机等。
  • 支持用户任务以及服务署理的建模和仿真。
  • 支持对云计算情况中的网络情况进行建模。
  • 有效地利用虚拟化引擎,资助在数据中央节点上创建、管理和烧毁多个虚拟节点。
  • 可以机动地在基于时间共享和空间共享的虚拟化策略之间进行切换。
  • 支持对云数据中央的能耗举动进行建模和仿真。
  • 可以方便地创建云平台资源的价格策略,包括存储价格、带宽价格等。
  • 能够模拟多个云厂家之间进行透明交易,包括任务迁移、存储迁移、价格协商等。

  • CloudSim的模子使用场景:1)云计算中央的能耗中央;2)云数据中央的经济模子(基础办法层,服务层)

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

西河刘卡车医

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表