IT评测·应用市场-qidao123.com

标题: 大数据基础知识 [打印本页]

作者: 惊雷无声    时间: 2024-7-27 21:54
标题: 大数据基础知识
目次
  第一章 大数据介绍
  1.大数据概念
  2.大数据的特点
  3.大数据的步调
  第二章 Hadoop
  1.Hadoop简介
  2.Hadoop的特性
  第三章 分布式文件系统HDFS
  1.HDFS相干概念
  2.HDFS体系结构
  3.HDFS存储原理
  第四章 分布式数据库HBase
  1.HBase简介
  2.HBase访问接口
  3.HBase数据模型
  4.HBase的实现原理
  5.HBase运行机制
  第五章 NoSQL数据库
  1.NoSQL简介
  2.NoSQL与关系数据库的比较
  3.NoSQL的四大类型
  4.NoSQL的三大基石(CAP、BASE、终极同等性)
  5.MongoDB
  第六章 云数据库
  1.云数据库概念
  2.云数据库特性
  3.云数据库系统架构
  第七章 MapReduce
  1.MapReduce模型简介
  2.MapReduce的体系结构
  3.MapReduce的工作流程
  4.Shuffle过程
   第八章 Spark
  1.Spark简介
  2.Scala简介
  3.Spark运行架构
  4.Spark运行根本流程
  第九章 流盘算
  1.流盘算概念
  2.流盘算处理流程
  3.数据实时收罗
  4.数据实时盘算
  5.实时查询服务
  第十章 大数据在差别领域的应用
  
  
  第一章 大数据介绍

1.大数据概念

大数据是指无法在一定时间内用通例软件工具对其内容进行抓取、管理和处理的数据集合。
2.大数据的特点

(1)Volume:数据存储量大,盘算量大。
(2)Value:价值密度低,对未来趋势与模式可猜测分析,深度复杂分析。
(3)Variety:数据来源多,数据类型多,关联性强。
(4)velocity:数据存储、传输、处理速率快。数据更新增长速率快。
3.大数据的步调

(1)数据收罗:将数据抽取到临时的文件或数据库中。
(2)数据导入、清洗:数据去重、数据归一、异常处理。
(3)数据统计、分析、挖掘:预设主题,使用各类算法盘算。
(4)效果可视化。
第二章 Hadoop

1.Hadoop简介


2.Hadoop的特性

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:

   •   高可靠性    •   高效性    •   高可扩展性    •   高容错性    •   成本低    •   运行在Linux平台上    •   支持多种编程语言  
   

  第三章 分布式文件系统HDFS

  
分布式文件系统在物理结构上是由盘算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)大概也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)大概也被称为“数据节点”(DataNode)

  1.HDFS相干概念

  
1.1.块

  
HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位,块的大小远宏大于普通文件系统,可以最小化寻址开销。

  利益:
  
  1.2.HDFS主要功能组件
  NameNode(主节点或名称节点):
  
     (1)在HDFS中,名称节点(NameNode)负责管理分布式文件系统的定名空间(Namespace),生存了两个核心的数据结构,即FsImage和EditLog。   
     (2)名称节点记录了每个文件中各个块所在的数据节点的位置信息。      怎样解决名称节点运行期间EditLog不停增大问题:SecondaryNameNode(第二名称节点)
  第二名称结点是HDFS架构中的一个组成部分,它是用来生存名称节点中对HDFS 元数据信息的备份,并减少名称节点重启的时间。SecondaryNameNode一般是单独运行在一台呆板上。
  DataNode(从节点或数据节点):
  
         (1)数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端大概是名称节点的调理来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。          (2)每个数据节点中的数据会被生存在各自节点的本地Linux文件系统中。       2.HDFS体系结构

  2.1.HDFS体系结构的概述
  HDFS接纳了主从(Master/Slave)结构模型,一个HDFS集群包罗一个名称节点(NameNode)和若干个数据节点(DataNode),名称节点作为中心服务器,负责管理文件系统的定名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点历程,负责处理文件系统客户端的读/写请求,在名称节点的同一调理下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是生存在本地Linux文件系统中的。
  2.2.HDFS定名空间管理
  
  2.3.通讯协议
  
  2.4.客户端
  
  2.5.HDFS体系结构的局限性
    3.HDFS存储原理

  
  第四章 分布式数据库HBase

  1.HBase简介

  
HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的疏松数据。HBase的目标是处理非常巨大的表,可以通过程度扩展的方式,使用廉价盘算机集群处理由凌驾10亿行数据和数百万列元素组成的数据表。

  

  2.HBase访问接口

   

  3.HBase数据模型

   3.1.数据模型概述
  
   3.2.数据坐标
  HBase中需要根据行键、列族、列限定符时间戳来确定一个单位格,因此,可以视为一个“四维坐标”,即[行键, 列族, 列限定符, 时间戳]
  4.HBase的实现原理

  1.HBase功能组件
          HBase的实现包罗三个主要的功能组件:
          (1)库函数:链接到每个客户端
          (2)一个Master主服务器
          (3)很多个Region服务器
  
  2.表和Region
  
     
    3.Region的定位
  
  

   HBase的三层结构中各层次的名称和作用
  

  5.HBase运行机制

  1.HBase系统架构
     1. 客户端       客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程       2. Zookeeper服务器       Zookeeper可以资助选举出一个Master作为集群的总管,并保证在任何时候总有唯一个Master在运行,这就制止了Master的“单点失效”问题   
Zookeeper是一个很好的集群管理工具,被大量用于分布式盘算,提供设置维护、域名服务、分布式同步、组服务等。

  

             3. Master               主服务器Master主要负责表和Region的管理工作:   
             4. Region服务器             –Region服务器是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求    2.Region服务器工作原理
    3.HLog工作原理
  
  第五章 NoSQL数据库

  1.NoSQL简介

  通常,NoSQL数据库具有以下几个特点:
  
  
如今已经有很多公司使用了NoSQL数据库:

  
  2.NoSQL与关系数据库的比较

  

   

   

   总结:
  
(1)关系数据库

  
优势:以完善的关系代数理论作为基础,有严酷的标准,支持事务ACID四性,借助索引机制可以实现高效的查询,技术成熟,有专业公司的技术支持

  
劣势:可扩展性较差,无法较好支持海量数据存储,数据模型过于死板、无法较好支持Web2.0应用,事务机制影响了系统的整体性能等

  
(2)NoSQL数据库

  
优势:可以支持超大规模数据存储,灵活的数据模型可以很好地支持Web2.0应用,具有强大的横向扩展能力等

  
劣势:缺乏数学理论基础,复杂查询性能不高,大都不能实现事务强同等性,很难实现数据完整性,技术尚不成熟,缺乏专业团队的技术支持,维护较困难等

  3.NoSQL的四大类型

  典型的NoSQL数据库通常包罗键值数据库、列族数据库、文档数据库图形数据库
  3.1.键值数据库
  

  3.2.列族数据库
  

   3.3.文档数据库
  

   3.4.图形数据库
  

  4.NoSQL的三大基石(CAP、BASE、终极同等性)

  4.1.CAP:
  
  CAP理论告诉我们,一个分布式系统不可能同时满足同等性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。
  4.2.BASE
  

  
一个数据库事务具有ACID四性:

  
  
       BASE的根本寄义是根本可用(Basically Availble)、软状态(Soft-state)和终极同等性(Eventual consistency)。

  5.MongoDB

  
  第六章 云数据库

  1.云数据库概念

  
云数据库是摆设和虚拟化在云盘算情况中的数据库。云数据库是在云盘算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复设置,让软、硬件升级变得更加轻易。云数据库具有高可扩展性、高可用性、接纳多租形式和支持资源有效分发等特点。

  2.云数据库特性

  
  3.云数据库系统架构

  
3.1.UMP系统概述

     UMP   系统是低成本和高性能的   MySQL   云数据库方案      
3.2.UMP系统架构

  
UMP系统中的角色包罗:

  
  
依赖的开源组件包罗:

  
  
3.2.UMP系统功能

  
  第七章 MapReduce

  1.MapReduce模型简介

  
  2.MapReduce的体系结构

  
MapReduce体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task

  
1)Client

  
  
2)JobTracker

  
  
3)TaskTracker

  
  
4)Task

  
Task 分为Map Task 和Reduce Task 两种,均由TaskTracker 启动

  3.MapReduce的工作流程

  

  4.Shuffle过程

  4.1.Map端的Shuffle过程
   

  
  
归并(Combine)和归并(Merge)的区别:

  
两个键值对<“a”,1>和<“a”,1>,如果归并,会得到<“a”,2>,如果归并,会得到<“a”,<1,1>>

  4.2.Reduce端的Shuffle过程
  
   第八章 Spark

  1.Spark简介

  Spark的特点
  
  2.Scala简介

  
Scala是一门现代的多范式编程语言,运行于Java平台(JVM,Java 虚拟机),并兼容现有的Java程序。

  
Scala的特性:

  
  
Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言

  
Scala的优势是提供了REPL(Read-Eval-Print Loop,交互式解释器),提高程序开发服从

  3.Spark运行架构

  
  
  4.Spark运行根本流程

  
  

  
Spark运行架构具有以下特点:

  
  第九章 流盘算

  1.流盘算概念

     流盘算:实时获取来自差别数据源的海量数据,经过实时分析处理,获得有价值的信息。    2.流盘算处理流程

     流盘算的处理流程一般包含三个阶段:数据实时收罗、数据实时盘算、实时查询服务。   

  3.数据实时收罗

  
  数据收罗系统的根本架构一般有以下三个部分:
  
  

  4.数据实时盘算

  
  

                                 数据实时盘算流程
  5.实时查询服务

  
  第十章 大数据在差别领域的应用

   

  
  
  本文参考了《大数据技术原理与应用(第3版)》课本配套课本PPT,希望对各人学习有资助。
  如果想了解学习更多有关大数据相干知识,推荐林子雨老师的厦门大学数据库实验室,
  网址:https://dblab.xmu.edu.cn/
  

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4