大数据导论期末复习知识汇总

汕尾海湾 · 2024-12-15 00:34:58

目录
一、大数据概述
（一）数据和信息
（二）数据的构造形式和生命周期：
（三）数据转化为信息的过程：
（四）数据的价值
（五）大数据的内在
（六）大数据的5V特性
（七）数据产生方式经历的三个阶段
（八）信息化浪潮的标志及解决问题
（九）大数据对科学研究的影响
（十）信息科技为大数据期间提供技术支撑
二、大数据核心技术概述
（一）大数据核心技术——分布式技术
1.Apache Hadoop技术栈
2.Google搜刮引擎的核心任务：
3.GFS
4.Hadoop HDFS
5.Big Table
6.MapReduce
7.YARN——分布式资源调度技术
（二）大数据技术体系
1、Hadoop的上风：
2、大数据的财产：
三、大数据与云盘算、物联网、人工智能
（一）云盘算
（二）物联网
（三）人工智能
四、大数据技术
（一）数据采集与预处置惩罚
（二）数据存储与管理
（三）数据分析与处置惩罚
（四）数据可视化
（五）数据安全与隐私掩护
五、大数据典型行业应用
保举系统
保举方法
六、大数据安全与数据开放共享
（一）大数据安全
（二）数据共享和数据开放

一、大数据概述

（一）数据和信息

数据是一种可以被鉴别的，对客观变乱举行记录的符号。（数据是构成信息的基本单位）
常见的数据类型：文本、图片、音频、视频等。
信息：数据的有序排列组合而成，传达概念方法。

（二）数据的构造形式和生命周期：

数据的构造形式紧张包括：文件和数据库。
数据的生命周期：数据从创建->修改->发布利用->归档/销毁的整个过程。
文件在盘算机内部是以文件系统的方式举行管理。
在大数据情况下，数据生命周期的6个阶段：
数据采集--存储--处置惩罚--传输--交换--销毁
数据存储和数据处置惩罚分别在盘算机哪些部件上举行？
答：数据存储：硬盘驱动器（HDD）、固态驱动器（SSD）、随机存储器（RAM）、缓存

数据处置惩罚：中心处置惩罚器（CPU）、图形处置惩罚器（GPU）、数字信号处置惩罚器（DS）、专用协处置惩罚器

传统的数据库有哪些类型：
答：关系型、层次型、网络型（、平面文件、对象）

（三）数据转化为信息的过程：

数据清洗--数据管理--数据分析
（四）数据的价值

（五）大数据的内在

数据层面：无法在一定时间范围内用常规软件工具举行捕捉、管理和处置惩罚的数据集合，是需要新处置惩罚模式才气具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
技术层面：使用分布式技术完成海量数据处置惩罚，以得到数据背后蕴含的价值
数据单位：

（六）大数据的5V特性

（七）数据产生方式经历的三个阶段

运营式系统阶段：被动产生
用户原创内容阶段：主动产生
感知式系统阶段：自动产生

（八）信息化浪潮的标志及解决问题

个人盘算机——解决信息存储问题
互联网——解决信息传输问题
物联网、大数据、云盘算——解决信息爆炸问题

（九）大数据对科学研究的影响

在科学研究上，先后经历了实验、理论、盘算和数据四种范式

盘算科学和数据密集型科学的区别：

盘算科学和数据密集型科学都是利用盘算机举行盘算

二者区别：

盘算科学先提出可能的理论，再搜集数据，然后通过盘算验证
数据密集型科学先有大量的已知数据，然后通过盘算得到之前未知的理论

（十）信息科技为大数据期间提供技术支撑

存储能力、传输能力、盘算能力
二、大数据核心技术概述

（一）大数据核心技术——分布式技术

1.Apache Hadoop技术栈

开源的分布式处置惩罚技术栈

基于Hadoop HDFS的分布式数据存储技术（Hadoop Distributed File System）
基于Hadoop YARN的分布式资源调度技术（Yet Another Resource Negotiator）
基于Hadoop MapReduce的分布式数据盘算技术

2.Google搜刮引擎的核心任务：

数据采集、数据搜刮

3.GFS

master负责创建分块句柄，维护元数据，为client提供用于读写的相关元数据，指导分块服务器工作，检察分块服务器状态（创维提供指导检察）
chunkserver负责存储数据的分块，分块的迁徙，直接与client举行主数据的通讯
只能有一个master，可以有若干个chunkserver
client读写数据需要与master和chunkserver服务器结点交互
GFS解决复杂工程问题的设计细节：数据校验和的作用：包管数据的完整性和准确性
减少元数据的目的：减少存储空间、提高性能、减少网络传输成本、提高隐私和安全性、简化数据管理和维护、改善数据质量

一份文件被分为多个固定大小的chunk（默认64M），每个chunk有全局唯一的文件句柄－－一个64位的chunk ID，每一份chunk会被复制到多个chunkserver（默认值是3)，以此包管可用性与可靠性。chunkserver将chunk当做平凡的Linux文件存储在本地磁盘上。master向client提供用于读写的相关元数据的时间产生分块句柄。
分块句柄的作用：利于master为client提供用于读写的相关元数据，利于chunkserver直接与client举行主数据的通讯。
文件以本地文件的形式保存在Chunk Server，不在client或ChunkServer举行缓存
每个分块默认有三个
GFS和HDFS都是主从架构

4.Hadoop HDFS

文件为何不整体上传而先分块：
水平复制机制，由谁生成数据的副本：
机架感知，由谁保存数据的副本：
HDFS的水平复制是否是GFS在分块在分块服务器上迁徙的一种实现？
为什么生成副本的工作不完全交给客户端完成：

头脑：分布式存储——解决存储容量、数据安全问题

客户端将数据存储到HDFS管理的存储装备上的顺序是：

考虑传输服从和数据安全，第一个副本保存在与客户端较近的机架中DataNode
考虑数据安全，第二个保存在与第一个副本不同的机架的不同的DataNode中
考虑传输服从，第三个保存在第一个相同的机架，不同的DataNode中

5.Big Table

BigTable是分布式的关系表、不支持完整的关系数据模子、用于管理布局化数据，是稀疏的、分布式的、持久化的、多维的、排序的映射。
头脑：空间换时间
Oracle（OldSQL）:利用主键和外键
HBase（NoSQL）:利用行键和列族

6.MapReduce

PageRank算法原理：
- 有向图的毗邻矩阵
- 转移概率矩阵
用户程序：对文件举行切片、调用MapReduce函数、指定map worker和reduce worker的数目、指定map函数和reduce函数实行的具体任务。
master：分配map任务和reduce任务给空闲的服务器、协调reduce worker读map worker产生的中间数据、唤醒用户程序返回最终结果。
map：将切片剖析为键值对、实行map任务、将中间结果存储的本地磁盘位置传达给master。
reduce：远程读存储在map worker本地磁盘上的中间结果、对中间结果举行排序、实行reduce任务、将结果写入输出文件
MapReduce盘算模子借鉴了何种算法头脑：函数式编程和分布式盘算的头脑
分布式盘算：解决盘算服从问题
运行过程如下：
Split：对文件输入数据举行切片切分

RecordReader：给每个元素举行赋值为1操作

Map：对每个切片中的元素整合累加并排序。

Shuffle--partition：对Map的每个部门举行分区处置惩罚

7.YARN——分布式资源调度技术

（二）大数据技术体系

1、Hadoop的上风：

易用性（低成本）
高可靠性（高容错性）
高效性
高扩展性

2、大数据的财产：

IT基础办法层：硬件、软件、网络等基础办法
数据源层：大数据生态圈里的数据提供者
数据管理层：数据抽取、转换、存储和管理等服务的各类企业或产品
数据分析层：分布式盘算、数据挖掘、统计分析
数据平台层：数据分享平台、数据分析平台、数据租售平台
数据应用层：行业应用

三、大数据与云盘算、物联网、人工智能

（一）云盘算

信息财产三大革命：个人盘算机革命、互联网革命、云盘算革命
云盘算的应用，加速了信息财产规模化、专业化、精细化、自主化

概念：通过网络、以服务的方式，提供自制的IT资源，是一种贸易模式
特点：
- 超大规模盘算、高可靠性、安全性、动态扩展性------分布式存储、盘算技术
- 捏造化、通用性、按需服务------捏造化技术、多租户技术
- 降低成本------贸易模式
关键技术：
- 捏造化技术：抽象、隐蔽、通用、在不同层次显现出不同面貌
- 分布式存储技术：捏造存储装备、可靠性、安全性、可扩展的系统布局
- 分布式盘算技术：共享盘算资源、均衡盘算负载
- 多租户技术：共性资源共享、个性资源隔离
部署方式和服务模式：
（1）部署方式：
- 公有云：共享资源、恣意用户访问、可拓展性
- 私有云：安全性、私密性、专有资源（用户对数据掌握程度最大）
- 社区云/行业云：介于公有云和私有云之间，敏感行业
- 肴杂云：以上三种中的恣意肴杂，有固定的部署方案、权衡考虑
（2）服务模式：
- 软件即服务（SaaS）：
  - 应用软件层：应用软件+平台软件层+基础办法层=SaaS
  - 使用基于云的Web应用程序
  - 租户需要管理软件产生的数据信息
- 平台即服务（PaaS）：
  - 平台软件层：中间件&运行库、数据库、操作系统+基础办法层=PaaS
  - 提供用于开发、测试和管理应用程序的云平台
- 基础架构即服务（IaaS）：
  - 基础办法层：服务器、捏造机、盘算机网络、机房基础办法=IaaS
  - 提供基本的盘算基础布局、捏造数据中心
灵活性：
IaaS>aaS>SaaS
部署方式和服务模式与关键技术的接洽：
云盘算的服务模式以捏造化技术作为紧张支撑
云盘算的部署方式以多租户技术作为紧张支撑

（二）物联网

1、概念：利用局域网或互联网等通讯技术把传感器、控制器、呆板、人员和物等通过新的方式连在一起，形成人与物、物与物相联，实现信息化和远程管理控制
2、关键技术：

识别和感知技术：
- 二维码：信息容量大、编码范围广、容错能力强、译码可靠性高、成本低易制作
- RFID（射频识别）：全天候、无接触、可同时实现多个物体自动识别
- 传感器：微型化、数字化、智能化、网络化
  借助传感器实现对物理世界的感知
网络与通讯技术：
远间隔无线连接的全球数据网络、互联网、移动通讯网络、卫星通讯网络
近间隔的蓝牙技术，红外技术、Zigbee技术、NFC、Wi-Fi
数据挖掘与融合技术：云盘算、云存储、云服务、大数据等

3、物联网、云盘算、大数据的关系

（三）人工智能

1、概念：是研究、开发用于模仿、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
2、关键技术：

呆板学习：
- 呆板学习的处置惩罚过程是一个闭环学习的过程
- 在呆板学习研究范畴中，
  - 模子是学习算法在历史数据上通过训练而得到的结果
  - 模子是学习算法学得的由输入到输出的映射
  - 模子可以用于预测新的数据的未知属性
- 呆板学习的紧张研究对象是---学习算法
知识图谱：表现知识发展历程与布局关系的一系列各种不同的图形。
自然语言处置惩罚（NLP）：用盘算机对自然语言的形、音、义等信息举行处置惩罚，实现人机间的信息交流。
- 自然语言明确：盘算性能够明确自然语言文本的意义
- 自然语言生成：能以自然语言文本来表达给定的意图
- 表现形式：呆板翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别
人机交互：研究系统与用户之间的交互关系的学科
盘算机视觉（CV）：指用摄影机和盘算机代替人眼对目标举行识别、跟踪和测量的呆板视觉，并进一步做图像处置惩罚，成为更适合人眼观察或传送给仪器检测的图像
生物特征识别：指纹、掌纹、人脸......
AR/VR：
- 捏造现实（VR）
- 增强现实（AR）

3、人工智能与大数据的关系

四、大数据技术

（一）数据采集与预处置惩罚

数据采集方式：离线采集、实时采集、互联网采集
数据采集要点：全面性、多维性、高效性
数据源：
- 企业业务系统数据
- 传感器
- 日记文件
- 互联网数据：借助网络爬虫，定向抓取
数据清洗：
- 数据类型：残缺数据、错误数据、重复数据
- 内容：
  - 同等性检查：超出正常范围、逻辑上不公道或者相互抵牾的数据。
  - 无效值和缺失值的处置惩罚：由于观察、编码和录入毛病，数据中可能存在一些无效值和缺失值
- 方法：
  
  数据清洗方法：
  不改变样本数目：变量删除、成对删除、估算
  增强数据的可用性：估算
  不改变原有数据：成对删除、估算
ETL流程（抽取extract、转换transform、加载load）

（二）数据存储与管理

传统数据存储技术
传统的数据存储和管理一般以布局化数据为主，文件系统和数据库是主流技术
数据仓库：面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。
数据库与数据仓库的区别：数据库是面向事件、捕捉数据（OLTP，联机事件处置惩罚）；数据仓库面向主题、分析数据（OLAP，联机分析处置惩罚）。
大数据期间的存储技术（记住以下三种存储技术，不包括数据仓库）
- 分布式文件系统
- NoSQL：灵活的可扩展性、灵活的数据模子、与云盘算紧密融合
  数据模子是雷同列族、键/值、文档等非关系模子
  简单的数据模子、灵活的IT系统，较高的数据库性能和较低的数据库保持同等
- NewSQL：具有对海量数据的存储管理能力，还保持了传统数据库支持ACID和SQL等特性。
数据库构架的变革

（三）数据分析与处置惩罚

1、呆板学习模子评价指标（简述呆板学习模子评价指标的操作步骤）

2、大数据处置惩罚分析技术方法

监督学习（Supervised Learning）：指算法学习/训练的过程是在给定标签的数据的监督下完成的。

无监督学习：指算法学习/训练的过程是在没有给定标签的数据的监督下完成的。
半监督学习：半监督学习的数据集比较特别，是部门有标签，部门没有标签的数据集。

采用半监督的方法可以让未标志的数据在标志样本少的情况下改善分类结果

（四）数据可视化

将大型数据会合的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处置惩罚过程
（五）数据安全与隐私掩护

身份认证技术、访问控制技术、防火墙技术、入侵检测技术、加密技术
五、大数据典型行业应用

保举系统

搜刮引擎：可以帮助我们查找内容，但只能解决明确的需求。
保举系统：大数据在互联网范畴的典型应用，它可以通太过析用户的历史记录来相识用户的喜好，从而主动为用户保举其感兴趣的信息，满意用户的个性化保举需求
长尾商品：
固然绝大多数商品都不热门，但这些不热门的商品总数目极其巨大，所累计的总贩卖额将是一个可观的数字，也许会凌驾热门商品所带来的贩卖额。

热门保举：紧张缺陷在于保举的范围有限，在一定时期内也相对固定，无法实现长尾商品的保举。
个性化保举：保举系统通过发掘用户的行为记录，找到用户的个性化需求，发现用户潜在的消费倾向，将长尾商品准确地保举给需要它的用户。

保举方法

专家保举：人工、专业人士
基于统计的保举：个性化较弱
基于内容的保举：内容相似
协同过滤保举：相似用户预测
肴杂保举：多种保举算法

六、大数据安全与数据开放共享

（一）大数据安全

传统数据安全紧张面临静态安全问题
- 信息泄漏、篡改、灭失
大数据安全紧张面临动态安全问题
- 称为网络攻击的目标、加大风险、被应用于攻击本事、称为高级可持续攻击的载体（如何明确这四个问题可以记一下）

（二）数据共享和数据开放

数据共享是指数据的拥有者将数据向其他机构和个人开放的行动
数据共享不等价于数据开放，这是因为数据共享是指小范围的使用和利用，而数据开放则是面向全社会和全体公众的开放。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

大数据导论期末复习知识汇总

0 个回复

快速回复

楼主热帖

标签云