云盘算与大数据之间的拘束(期末不挂科版):云盘算 | 大数据 | Hadoop | H ...

何小豆儿在此  金牌会员 | 2024-6-26 02:55:43 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 646|帖子 646|积分 1938



  
   前些天发现了一个巨牛的人工智能学习网站,普通易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。
  前言:

   大数据是需求,云盘算是手段。没有大数据,就不必要云盘算;没有云盘算,就无法处置惩罚大数据。
  一、云盘算

1.1 云盘算的基本思想



  • 全部的盘算能力、存储能力、和各种各样功能的应用都通过网络从云端得到
  • 用户不必要不停的更换昂贵的高性能电脑
  • 用户不必要购买、安装和维护各种系统和应用软件
  • 用户不必要担心数据的安全存储
1.2 云盘算概述——什么是云盘算?

云盘算是一种商业盘算模子。它将盘算使命分布在大量盘算机构成的资源池上,使各种应用系统能够根据必要获取盘算力、存储空间和信息服务

把当土地算机必要进行的盘算和存储等工作放到云上行止理。
1.3 云盘算的基本特征



  • 按需自助服务
  • 无处不在的网络接入
  • 敏捷的弹性
  • 资源池
  • 可度量的服务
1.4 云盘算的摆设模式



  • 公有云:面向全部用户提供服务,只要是注册付费的用户都可以使用,好比阿里云和 Amazon AWS。
  • 私有云:只为特定用户提供服务,好比大型企业出于安全考虑自建的云情况,只为企业内部提供服务。
  • 混淆云:综合了公有云和私有云的特点,由于对于一些企业而言,一方面出于安全考虑必要把数据放在私有云中,另一方面又盼望可以得到公有云的盘算资源,为了得到最佳的效果,就可以把公有云和私有云进行混淆搭配使用。
1.5 云服务

云服务是一种商业模式,是基于互联网的相关服务的增长、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源



  • 底子办法即服务(IaaS):是把盘算、存储、网络以及搭建应用情况所需的一些工具当成服务提供给用户,使得用户能够按需获取 IT 底子办法。IaaS 重要由盘算机硬件、网络、存储装备、平台虚拟化情况、效用计费方式、服务级别协议等组成。四个业务特征:用户得到的是 IT 资源服务、用户通过网络得到服务、用户能够自助服务、按需计费。优势:用户免摆设与维护、经济性(对于用户和服务者提供)、开放标准(跨平台,机动迁移)、支持应用范围广、伸缩性强。
  • 平台即服务(PaaS):是一种分布式平台服务,为用户提供一个包罗应用设计、应用开辟、应用测试及应用托管的完备的盘算机平台。重要是面向互联网应用开辟者
  • 软件即服务(SaaS):是软件服务提供商为了满足用户的需求提供的软件的盘算能力。SaaS 云服务提供商负责维护和管理云中的软件以及支撑软件运行的硬件办法,同时免费为用户提供服务大概以按需使用的方式向用户收费。所以,用户无需进行安装、升级和防病毒等,并且免去了初期的软硬件支出。
小Tips:IT 底子办法资源分为:盘算资源、存储资源、网络资源、底子软件资源
1.6 云盘算的关键技能——虚拟化技能

虚拟化技能的焦点思想是利用软件或固件管理步伐构成虚拟化层,把物理资源映射为虚拟资源。在虚拟资源上可以安装和摆设多个虚拟机,实现多用户共享物理资源。

虚拟化是云盘算最重要的特征之一,基于虚拟化技能可以对存储、盘算、网络等物理资源进行池化,资源池化的底子办法更易于实现按需分配的资源调理策略、易于实现资源池的横向扩展

小Tips:上图是采用虚拟化技能的云盘算数据中央的物理拓扑布局
1.6.1 虚拟化的利益



  • 提高了硬件资源的利用率
  • 提高劳动生产率
  • 节省了大量成本
  • 降低运维管理成本
1.6.2 虚拟化技能的应用——12306使用阿里云克制了高峰期的崩溃

高并发和高流量一直是必要解决的关键问题。把高频次、高消耗、低转化的余票查询环节放到云端,而将下单、支付这种“小而轻”的焦点业务仍然留在 12306 本身的背景系统上,这样的思绪为 12306 减负不少。


  • 公有云可以为 12306 在高流量时期提供了富足的空间,克制了由于高并发的流量冲击导致的宕机
  • 在哀求次数减少时,可以缩减公有云,这样就节省了成本开支
  • 除此之外,将余票查询(而非焦点系统)托管在公有云上,还能克制敏感性资料的泄漏,保护用户数据的安全
1.6.3 虚拟化的关键特征



  • 兼容性:虚拟机完全兼容标准的操作系统,以及在这些操作系统之上建立的硬件驱动和应用
  • 隔离:每一个虚拟机都与同在一个服务器上的其他虚拟机相隔离。从软件角度来看,互相隔离的虚拟机之间保持独立,犹如一个完备的盘算机;从硬件角度讲,被隔离的虚拟机相当于一台物理机,有本身的 CPU、内存、硬盘、I/O 等,它们与宿主机之间保持相互独立的状态;从网络角度讲,被隔离的虚拟机犹如物理机一样,既可以对外提供网络服务,也一样可以从外界接受网络服务。
  • 封装:虚拟机将整个系统,包罗硬件设置、操作系统以及应用等封装在文件里
  • 硬件独立:可以在其他服务器上不加修改的运行虚拟机
1.6.4 虚拟化的 HA 指的是什么?

HA(高可靠性)就是发生服务器故障时,在其他的物理服务器上自动重启虚拟机,从而减少歇工的时间,而保证其服务的高度可用性。总结:通过 HA 可以方便的提高任何应用的高可用性。
客户优势:对全部的应用实现了高可用性,并且成本很低;不必要完全一致的重复硬件;比传统的集群有更高的成本优势,同时易于使用和操作。
1.6.5 服务器虚拟化

将一个或多个物理服务器虚拟成多个逻辑上的服务器,集中管理,能跨越物理平台不受限定。

服务器虚拟化的两个方向


  • 一种是把一个物理的服务器虚拟成若干个独立的逻辑服务器。
  • 另一种是把若干分散的物理服务器虚拟化为一个大的逻辑服务器,好比网格技能,Hadoop 大数据技能。

根据虚拟化层实现方式的差别分为寄居虚拟化裸机虚拟化两种。


服务器虚拟化的底层实现:CPU 虚拟化、内存虚拟化、I/O 虚拟化。
1.6.6 虚拟机迁移

将虚拟机实例从源宿主机迁移到目标宿主机,并且在目标宿主机上能够将虚拟机运行状态恢复到其在迁移之前相同的状态,以便能够继续完成应用步伐的使命。
1.6.6.1 虚拟机实时迁移对云盘算的意义



  • 云盘算中央的物理服务器负载经常处于动态变革中,当一台物理服务器负载过大时,若此刻不能提供额外的服务器,管理员可以将其上面的虚拟机迁移到其他服务器,到达负载平衡
  • 云盘算中央的物理服务器有时候必要定期进行升级维护,当升级维护服务器时,管理员可以将其上面的虚拟机迁移到其他服务器,等升级维护完成后,再把虚拟机迁移返来,实现升级维护时业务不中断的目标。
1.6.7 存储虚拟化

存储虚拟化是一种贯穿于整个 IT 情况、用于简化原来可能会相对复杂的底层底子架构的技能。存储虚拟化的思想是:将资源的逻辑映像物理存储分开,从而为系统和管理员提供一副简化、无缝的资源虚拟试图。

1.6.7.1 存储虚拟化的原动力



  • 标准化接入:能够使差别的存储器按标准的方式接入到存储装备。
  • 同一数据管理:能够在同一的空间资源整合底子上,提供复制功能,快照功能,迁移功能,镜像功能,能够实现跨装备、跨地域的资源迁移,使数据可以在差别品牌、差别装备之间进行自由流动。
  • 空间资源整合:把这些空间资源(异构资源)进行整合,进行同一的调理和管理。
1.6.7.2 什么是存储虚拟化

存储虚拟化是指将存储网络中各个分散且异构的存储装备按照一定的策略映射成一个同一的连续编制的逻辑存储空间,称为虚拟存储池,并将虚拟存储池的访问接口提供给应用系统。

小Tips:虚拟化层的作用是提供了虚拟化的逻辑卷与底层的物理装备间的一种映射操作;屏蔽掉全部存储装备的物理特性。
1.6.7.3 存储虚拟化的优势



  • 存储虚拟化将系统中分散的存储资源整合起来。
  • 在虚拟层通过使用数据镜像,数据校验和多路径等技能提高了数据的可靠性及系统的可用性。
  • 利用负载均衡、数据迁移、数据块重组等技能提拔系统的潜在性能。
  • 整合和重组底层物理资源。
1.6.7.4 存储技能分类



  • 磁盘阵列(RAID):磁盘阵列是由很多块独立的磁盘,组合成一个容量巨大的磁盘组,利用个别磁盘提供数据所产生的加成效果提拔整个磁盘系统效能。利用这项技能,将数据切割成很多区段,分别存放在各个硬盘上。RAID 技能把多个物理磁盘用阵列的形式,通过一定的逻辑关系结合,成为一个大容量的虚拟磁盘
  • 网络附属存储(网络存储器 NAS ):一种专用数据存储服务器。以数据为中央,将存储装备与服务器彻底分离,集中管理数据,从而开释带宽、提高性能、降低总拥有成本、保护投资;其成本远远低于使用服务器存储,而效率却远远高于后者。
  • 存储区域网络(SAN):专门为存储建立的独立于 TCP/IP 网络之外的专用网络。存储容量大,速度快。

1.6.7.5 存储虚拟化的实现方式



  • 基于主机的存储虚拟化:当仅必要单个主机服务器访问多个磁盘阵列时,可以使用基于主机的存储虚拟化技能。
  • 基于存储装备的存储虚拟化:当有多个主机服务器必要访问同一个磁盘阵列时,可以使用基于存储装备的存储虚拟化技能。
  • 基于网络的存储虚拟化:当多个主机服务器必要访问多个异构存储装备时,可以使用基于网络的存储虚拟化技能。
1.6.8 网络虚拟化

网络虚拟化是让一个物理网络能够支持多个逻辑网络,虚拟化保留了网络设计中原有的层次布局、数据通道和所能提供的服务,使得终极用户的体验和独享物理网络一样,同时网络虚拟化技能还可以高效的利用网络资源,如空间、能源、装备容量等。网络虚拟化的目的是:在不改变传统数据中央这个网络的物理拖布布局的条件下,实现网络的整合。
1.6.9 桌面虚拟化

桌面虚拟化是指将盘算机的终端系统(也称作左面)进行虚拟化,以到达桌面使用的安全性和机动性。可以通过任何装备,在任何所在,任何时间通过网络访问属于我们个人的砖面系统。
1.6.9.1 桌面虚拟化的特点



  • 快速、机动摆设
  • 提高资源利用率
  • 数据存放安全可靠
  • 维护便利
  • 节能减排
二、大数据

2.1 什么是大数据?

海量数据或巨量数据,其规模巨大到无法通过目前主流的盘算机系统在公道的时间内获取、存储、管理处置惩罚并提炼以帮助使用者决策。大数据——挖掘和整合一切有用的信息,为人类社会提供更好的服务。
2.2 大数据的特征——4V



  • 数据量大
  • 数据范例繁多
  • 处置惩罚速度快
  • 价值密度低(价值高)
2.3 大数据的技能支撑



  • 存储:存储成本的降落
  • 盘算:运算速度越来越快
  • 智能:机器拥有理解数据的能力
2.4 大数据处置惩罚方法


  • 大数据的采集:数据抓取、数据导入、物联网传感装备自动信息采集
  • 导入/预处置惩罚:数据清算、数据集成、数据变换、数据归约
  • 数据分析:三大作用:现状分析、原因分析、猜测分析。方法:对比分析、分组分析、交织分析、回归分析。
  • 数据挖掘:是创建数据挖掘模子的一组试探法和盘算方法,通过对提供的数据进行分析,查找特定范例的模子和趋势,终极形成创建模子。基本方法:猜测建模、关联分析、聚类分析、异常检测。
2.5 大数据关键技能



  • 数据采集与预处置惩罚
  • 数据存储和管理
  • 数据处置惩罚与分析
  • 数据隐私和安全
2.6 云盘算、大数据、物联网三者之间的关系

云盘算为大数据提供了技能底子,大数据为云盘算提供了用武之地;物联网是大数据的重要来源,大数据技能为物联网数据分析提供支撑;云盘算为物联网提供海量数据存储的能力,物联网为云盘算技能提供了广阔的应用空间。

2.7 大数据盘算模式



  • 批处置惩罚盘算:针对大规模数据的批量处置惩罚
  • 流盘算:针对流数据实时盘算
  • 图盘算:针对大规模图布局数据的处置惩罚
  • 查询分析盘算:大规模数据的存储管理和查询分析
三、开源大数据框架 Hadoop


MapReduce:是由 Google 开辟的一个针对大规模群组中的海量数据处置惩罚的分布式编程模子
BigTable:是 Google 设计的分布式数据存储系统,是用来处置惩罚海量数据的一种非关系型数据库
Google 文件系统(GFS):是构建在自制的服务器之上的大型分布式系统。为 Google 大数据处置惩罚系统提供海量的存储,并且与 MapReduce 和 BigTable 等技能结合的十分精密,GFS 处于系统的底层。
3.1 新方法、新思绪



  • 分而治之



  • 分布式文件存储



  • 分布式并行盘算模式



  • 盘算靠近数据

3.2 Hadoop 简介

Hadoop 是 Apache 软件基金会旗下的一个开源分布式盘算平台,为用户提供了系统底层细节透明的分布式底子架构。Hadoop 是基于 Java 语言开辟的,具有很好的跨平台特性,并且可以摆设在自制的盘算集群中。Hadoop 的焦点是分布式文件系统 HDFSMapReduce。Hadoop 被公以为行业大数据标准开源软件,在分布式情况下提供了海量数据处置惩罚能力。

3.3 基于 Hadoop 的大数据处置惩罚框架



  • 平台管理层:确保整个数据处置惩罚平台安稳安全运行的保障,包罗设置管理、运行监控、故障管理、性能优化、安全管理等在内的功能。
  • 数据分析层:提供一些高级的分析工具给数据分析人员,以提高他们的生产效率。
  • 编程模子层:为大规模数据处置惩罚提供一个抽象的并行盘算编程模子,以及为此模子提供可实施的编程情况和运行情况。
  • 数据存储层:提供分布式、可扩展的大量数据表的存储和管理能力,夸大的是在较低成本条件下实现海量数据表的管理能力。
  • 文件存储层:利用分布式文件系统技能,将底层数量众多且分布在差别位置的通过网络连接的各种存储装备组织在一起,通过同一的接口向上层应用提供对象级文件访问服务能力。
  • 数据继承层:系统必要处置惩罚的数据来源,包罗私有的应用数据、存放在数据库中的数据、被分析系统运行产生的日记数据等,这些数据具有布局多样、范例多变的特点。

3.4 Hadoop 的特征

Hadoop 是一个能够对大量数据进行分布式处置惩罚的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处置惩罚的,它具有以下几个方面的特征:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在 Linux 平台上、支持多种编程语言。
3.5 Hadoop 集群中有哪些节点范例



  • NameNode:中央服务器,负责管理文件系统的名字空间以及客户端对文件的访问。执行文件系统的名字空间操作,如打开、关闭、重定名文件或目录。也负责确定数据块到详细的 DataNode 节点的映射。
  • DataNode:负责管理它所在节点上的存储。负责处置惩罚文件系统客户端的读写哀求,在 NameNode 的调理下进行数据块的创建、删除和复制。
  • SecondaryNameNode:帮助 NameNode 收集文件系统运行的状态信息。
  • ResourceManager:是 Yarn 集群主控节点,负责和谐和管理整个集群(全部 NodeManager)的资源。
  • NodeManager:管理一个 Yarn 集群中的每个节点,负责执行有由 RsourceManage 指派的使命。
小Tips:此中前三个是和 HDFS 有关的保卫历程,后两个是和 MapReduce 有关的保卫历程。

小Tips:上图是 Hadoop 完全分布式集群的主从节点及对应的保卫历程。这张图中,master 节点既做主节点,又做从节点,因此这个集群中有一个主节点,三个从节点。伪分布式的运行模式是在单台服务器上模拟 Hadoop 的完全分布式,并不是真正的分布式,而是使用线程模拟的分布式。在这个模式中,全部的保卫历程(NameNode、DataNode、ResourceManager、NodeManager、SecondaryNameNode)都在同一台机器上运行。此种模式除了并非真正意义上的分布式之外,其执行逻辑完全类似于完全分布式,因此,常用于开辟人员测试步伐执行。
3.6 MapReduce 的分而治之

Map 是映射,Reduce 是规约。

3.7 Hadoop 生态系统



Hadoop 在企业中的一种典型应用架构,如下图所示:

小Tips:Hadoop Eclipse 插件,它可以直接嵌入到 Hadoop 开辟情况中,从而实现了开辟情况的图形化界面,降低了编程的难度。
四、分布式文件系统HDFS

4.1 分布式布局

集群:集群就是逻辑上处置惩罚同一使命的机器聚集,可以属于同一机房,也可分属差别的机房。
分布式:分布式文件系统把文件分布存储到多个盘算机节点上,成千上万的盘算机节点构成盘算机集群。

4.2 盘算机集群布局

与之前使用多个处置惩罚器和专用高级硬件的并行化处置惩罚装置差别的是,目前的分布式文件系统所采用的盘算机集群,都是由平凡硬件构成的,这就大大降低了硬件上的开销。

4.3 分布式文件系统的布局

分布式文件系统在物理布局上是由盘算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)大概也被称为“名称节点”(NameNode),另一类叫“从节点”(Slave Node)大概也被称为“数据节点”(DataNode)。

HDFS 是一个大规模的分布式文件系统,采用 master/slave 架构,一个 HDFS 集群是有一个 NameNode 和一定数目的 DataNode 组成。



  • NameNode:是一个中央服务器,负责管理文件系统的名字空间和客户端对文件的访问。NameNode 执行文件系统的名字空间操作,好比打开、关闭、重定名文件或目录,负责确定的数据块到 DataNode 节点的映射。

Hadoop 集群中的节点及对应的保卫历程,如下图所示:

4.4 HDFS高可靠性的保证——副本冗余机制

HDFS 为了做到高可靠性,创建了多份数据块的复制,并将它们放置在服务器群的盘算节点中,MapReduce 就可以在它们所在的节点上处置惩罚这些数据了。



五、分布式并行盘算框架 MapReduce

5.1 并行编程之 MapReduce


5.2 MapReduce 的焦点思想

分而治之,一个存储在分布式文件系统 HDFS 中的大规模数据集,会被切分成很多独立的分片,即:一个大使命分成多个小的子使命(map),由多个节点进行并行执行,并行执行后,合并结果(reduce)。MapReduce 采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点完成,然后通过整合各个节点的中央结果,得到最闭幕果。简朴来说,MapReduce 就是“使命的分解与结果的汇总”。
小Tips:适合使用 MapReduce 来小处置惩罚的数据集必要满足一个条件条件:一个大数据若可以分为具有同样盘算过程的数据块,并且这些数据块之间不存在数据依赖关系,则提高处置惩罚速度的最好办法就是并行盘算。
六、Hive











七、Spark








八、结语

今天的分享到这里就结束啦!如果以为文章还不错的话,可以三连支持一下,春人的主页尚有很多风趣的文章,接待小伙伴们前往点评,您的支持就是春人前进的动力!


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

何小豆儿在此

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表