ToB企服应用市场:ToB评测及商务社交产业平台

标题: 云盘算与大数据之间的拘束(期末不挂科版):云盘算 | 大数据 | Hadoop | H [打印本页]

作者: 何小豆儿在此    时间: 2024-6-26 02:55
标题: 云盘算与大数据之间的拘束(期末不挂科版):云盘算 | 大数据 | Hadoop | H


  
   前些天发现了一个巨牛的人工智能学习网站,普通易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。
  前言:

   大数据是需求,云盘算是手段。没有大数据,就不必要云盘算;没有云盘算,就无法处置惩罚大数据。
  一、云盘算

1.1 云盘算的基本思想


1.2 云盘算概述——什么是云盘算?

云盘算是一种商业盘算模子。它将盘算使命分布在大量盘算机构成的资源池上,使各种应用系统能够根据必要获取盘算力、存储空间和信息服务

把当土地算机必要进行的盘算和存储等工作放到云上行止理。
1.3 云盘算的基本特征


1.4 云盘算的摆设模式


1.5 云服务

云服务是一种商业模式,是基于互联网的相关服务的增长、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源


小Tips:IT 底子办法资源分为:盘算资源、存储资源、网络资源、底子软件资源
1.6 云盘算的关键技能——虚拟化技能

虚拟化技能的焦点思想是利用软件或固件管理步伐构成虚拟化层,把物理资源映射为虚拟资源。在虚拟资源上可以安装和摆设多个虚拟机,实现多用户共享物理资源。

虚拟化是云盘算最重要的特征之一,基于虚拟化技能可以对存储、盘算、网络等物理资源进行池化,资源池化的底子办法更易于实现按需分配的资源调理策略、易于实现资源池的横向扩展

小Tips:上图是采用虚拟化技能的云盘算数据中央的物理拓扑布局
1.6.1 虚拟化的利益


1.6.2 虚拟化技能的应用——12306使用阿里云克制了高峰期的崩溃

高并发和高流量一直是必要解决的关键问题。把高频次、高消耗、低转化的余票查询环节放到云端,而将下单、支付这种“小而轻”的焦点业务仍然留在 12306 本身的背景系统上,这样的思绪为 12306 减负不少。

1.6.3 虚拟化的关键特征


1.6.4 虚拟化的 HA 指的是什么?

HA(高可靠性)就是发生服务器故障时,在其他的物理服务器上自动重启虚拟机,从而减少歇工的时间,而保证其服务的高度可用性。总结:通过 HA 可以方便的提高任何应用的高可用性。
客户优势:对全部的应用实现了高可用性,并且成本很低;不必要完全一致的重复硬件;比传统的集群有更高的成本优势,同时易于使用和操作。
1.6.5 服务器虚拟化

将一个或多个物理服务器虚拟成多个逻辑上的服务器,集中管理,能跨越物理平台不受限定。

服务器虚拟化的两个方向


根据虚拟化层实现方式的差别分为寄居虚拟化裸机虚拟化两种。


服务器虚拟化的底层实现:CPU 虚拟化、内存虚拟化、I/O 虚拟化。
1.6.6 虚拟机迁移

将虚拟机实例从源宿主机迁移到目标宿主机,并且在目标宿主机上能够将虚拟机运行状态恢复到其在迁移之前相同的状态,以便能够继续完成应用步伐的使命。
1.6.6.1 虚拟机实时迁移对云盘算的意义


1.6.7 存储虚拟化

存储虚拟化是一种贯穿于整个 IT 情况、用于简化原来可能会相对复杂的底层底子架构的技能。存储虚拟化的思想是:将资源的逻辑映像物理存储分开,从而为系统和管理员提供一副简化、无缝的资源虚拟试图。

1.6.7.1 存储虚拟化的原动力


1.6.7.2 什么是存储虚拟化

存储虚拟化是指将存储网络中各个分散且异构的存储装备按照一定的策略映射成一个同一的连续编制的逻辑存储空间,称为虚拟存储池,并将虚拟存储池的访问接口提供给应用系统。

小Tips:虚拟化层的作用是提供了虚拟化的逻辑卷与底层的物理装备间的一种映射操作;屏蔽掉全部存储装备的物理特性。
1.6.7.3 存储虚拟化的优势


1.6.7.4 存储技能分类



1.6.7.5 存储虚拟化的实现方式


1.6.8 网络虚拟化

网络虚拟化是让一个物理网络能够支持多个逻辑网络,虚拟化保留了网络设计中原有的层次布局、数据通道和所能提供的服务,使得终极用户的体验和独享物理网络一样,同时网络虚拟化技能还可以高效的利用网络资源,如空间、能源、装备容量等。网络虚拟化的目的是:在不改变传统数据中央这个网络的物理拖布布局的条件下,实现网络的整合。
1.6.9 桌面虚拟化

桌面虚拟化是指将盘算机的终端系统(也称作左面)进行虚拟化,以到达桌面使用的安全性和机动性。可以通过任何装备,在任何所在,任何时间通过网络访问属于我们个人的砖面系统。
1.6.9.1 桌面虚拟化的特点


二、大数据

2.1 什么是大数据?

海量数据或巨量数据,其规模巨大到无法通过目前主流的盘算机系统在公道的时间内获取、存储、管理处置惩罚并提炼以帮助使用者决策。大数据——挖掘和整合一切有用的信息,为人类社会提供更好的服务。
2.2 大数据的特征——4V


2.3 大数据的技能支撑


2.4 大数据处置惩罚方法

2.5 大数据关键技能


2.6 云盘算、大数据、物联网三者之间的关系

云盘算为大数据提供了技能底子,大数据为云盘算提供了用武之地;物联网是大数据的重要来源,大数据技能为物联网数据分析提供支撑;云盘算为物联网提供海量数据存储的能力,物联网为云盘算技能提供了广阔的应用空间。

2.7 大数据盘算模式


三、开源大数据框架 Hadoop


MapReduce:是由 Google 开辟的一个针对大规模群组中的海量数据处置惩罚的分布式编程模子
BigTable:是 Google 设计的分布式数据存储系统,是用来处置惩罚海量数据的一种非关系型数据库
Google 文件系统(GFS):是构建在自制的服务器之上的大型分布式系统。为 Google 大数据处置惩罚系统提供海量的存储,并且与 MapReduce 和 BigTable 等技能结合的十分精密,GFS 处于系统的底层。
3.1 新方法、新思绪









3.2 Hadoop 简介

Hadoop 是 Apache 软件基金会旗下的一个开源分布式盘算平台,为用户提供了系统底层细节透明的分布式底子架构。Hadoop 是基于 Java 语言开辟的,具有很好的跨平台特性,并且可以摆设在自制的盘算集群中。Hadoop 的焦点是分布式文件系统 HDFSMapReduce。Hadoop 被公以为行业大数据标准开源软件,在分布式情况下提供了海量数据处置惩罚能力。

3.3 基于 Hadoop 的大数据处置惩罚框架



3.4 Hadoop 的特征

Hadoop 是一个能够对大量数据进行分布式处置惩罚的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处置惩罚的,它具有以下几个方面的特征:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在 Linux 平台上、支持多种编程语言。
3.5 Hadoop 集群中有哪些节点范例


小Tips:此中前三个是和 HDFS 有关的保卫历程,后两个是和 MapReduce 有关的保卫历程。

小Tips:上图是 Hadoop 完全分布式集群的主从节点及对应的保卫历程。这张图中,master 节点既做主节点,又做从节点,因此这个集群中有一个主节点,三个从节点。伪分布式的运行模式是在单台服务器上模拟 Hadoop 的完全分布式,并不是真正的分布式,而是使用线程模拟的分布式。在这个模式中,全部的保卫历程(NameNode、DataNode、ResourceManager、NodeManager、SecondaryNameNode)都在同一台机器上运行。此种模式除了并非真正意义上的分布式之外,其执行逻辑完全类似于完全分布式,因此,常用于开辟人员测试步伐执行。
3.6 MapReduce 的分而治之

Map 是映射,Reduce 是规约。

3.7 Hadoop 生态系统



Hadoop 在企业中的一种典型应用架构,如下图所示:

小Tips:Hadoop Eclipse 插件,它可以直接嵌入到 Hadoop 开辟情况中,从而实现了开辟情况的图形化界面,降低了编程的难度。
四、分布式文件系统HDFS

4.1 分布式布局

集群:集群就是逻辑上处置惩罚同一使命的机器聚集,可以属于同一机房,也可分属差别的机房。
分布式:分布式文件系统把文件分布存储到多个盘算机节点上,成千上万的盘算机节点构成盘算机集群。

4.2 盘算机集群布局

与之前使用多个处置惩罚器和专用高级硬件的并行化处置惩罚装置差别的是,目前的分布式文件系统所采用的盘算机集群,都是由平凡硬件构成的,这就大大降低了硬件上的开销。

4.3 分布式文件系统的布局

分布式文件系统在物理布局上是由盘算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)大概也被称为“名称节点”(NameNode),另一类叫“从节点”(Slave Node)大概也被称为“数据节点”(DataNode)。

HDFS 是一个大规模的分布式文件系统,采用 master/slave 架构,一个 HDFS 集群是有一个 NameNode 和一定数目的 DataNode 组成。


Hadoop 集群中的节点及对应的保卫历程,如下图所示:

4.4 HDFS高可靠性的保证——副本冗余机制

HDFS 为了做到高可靠性,创建了多份数据块的复制,并将它们放置在服务器群的盘算节点中,MapReduce 就可以在它们所在的节点上处置惩罚这些数据了。



五、分布式并行盘算框架 MapReduce

5.1 并行编程之 MapReduce


5.2 MapReduce 的焦点思想

分而治之,一个存储在分布式文件系统 HDFS 中的大规模数据集,会被切分成很多独立的分片,即:一个大使命分成多个小的子使命(map),由多个节点进行并行执行,并行执行后,合并结果(reduce)。MapReduce 采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点完成,然后通过整合各个节点的中央结果,得到最闭幕果。简朴来说,MapReduce 就是“使命的分解与结果的汇总”。
小Tips:适合使用 MapReduce 来小处置惩罚的数据集必要满足一个条件条件:一个大数据若可以分为具有同样盘算过程的数据块,并且这些数据块之间不存在数据依赖关系,则提高处置惩罚速度的最好办法就是并行盘算。
六、Hive











七、Spark








八、结语

今天的分享到这里就结束啦!如果以为文章还不错的话,可以三连支持一下,春人的主页尚有很多风趣的文章,接待小伙伴们前往点评,您的支持就是春人前进的动力!


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4