【大数据】大数据概论与Hadoop

科技颠覆者 · 2024-7-14 08:01:24

目次
1.大数据概述
1.1.大数据的概念
1.2.大数据的应用场景
1.3.大数据的关键技术
1.4.大数据的计算模式
1.5.大数据和云计算的关系
1.6.物联网
2.Hadoop
2.1.核心架构
2.2.版本演进
2.3.生态圈的全量结构

1.大数据概述

1.1.大数据的概念

大数据即字面意思，大量数据。那么这个数据量大到多少才算大数据喃？通常，当数据量到达TB乃至PB级别时，传统的关系型数据库在处置惩罚本领、存储效率或查询性能上可能会碰到瓶颈，这时考虑采用大数据技术是合理的。
当然可以通太过库分表等方式来让关系型数据库来强行抗住这个量级，所以数据量大外数据结构是不是够杂（结构化、半结构化、非结构化数据）也是要不要上大数据技术的紧张考量点。
当然数据杂也可以通过关系型+非关系型数据库（如MySQL+MongoDB+ES）组合式的存储来分别存储，所以还要看要求对数据的使用上的诉求是什么？实时或近实时的分析处置惩罚（比方实时保举系统、金融风控、物联网监控等），这些对数据的使用方式上必要对大量数据举行计算，而不再是关系型数据库中那种小批量的增删改查，这时间即使是用了组合式的存储来存放数据，要去各种存储上跑计算使命再汇总到一起，显着是很低效的，这时间上大数据技术就是十分合理的。
大数据场景中的数据往往具有4V的特点：

大量化：数据量大。
快速化：增长速率快。
多样化：数据类型多样，结构化、非结构化都有。
代价密度低：代价密度低，商业代价高。

1.2.大数据的应用场景

大数据的应用总结起来就是：决策、预测。
1.零售行业
个性化保举：基于用户购物汗青、浏览记录、社交媒体举动等数据，实现商品个性化保举，提高转化率和用户满意度。
库存优化：通太过析贩卖数据、季候性趋势、供应链信息等，精准预测需求，减少库存积蓄，提拔供应链效率。
代价战略：利用市场动态、竞品分析、消费者敏感度数据订定动态定价战略，提高竞争力和利润水平。
客户细分与营销：对客户数据举行聚类分析，识别差别消费群体特征，实施风雅化营销战略。
2. 金融行业
风险评估与管理：运用大数据分析举行信用评分、诓骗检测、市场风险预测，提拔信贷决策正确性，低落风险敞口。
生意业务监控与反洗钱：实时监测非常生意业务举动，运用呆板学习算法识别潜在的洗钱运动，确保合规运营。
投资决策支持：结合宏观经济数据、公司财政报告、社交媒体情绪等多元数据源，辅助投资者举行量化投资分析和战略订定。
3. 教诲行业
门生学习举动分析：通太过析在线学习平台数据，相识门生学习进度、难点、偏好，提供个性化教学建媾和资源保举。
教诲资源优化：依据课程访问量、完成率、互动数据等，评估教学效果，优化课程计划与资源配置。
教诲政策订定：利用大数据研究教诲公平、教学质量、就业趋势等题目，为教诲政策订定提供数据支持。
4. 医疗行业
疾病预测与预防：通过对电子病历、基因组数据、生存方式数据的分析，预测疾病风险，指导早期干预和预防措施。
精准医疗：基于个体基因、生理指标、情况因素等大数据，订定个性化治疗方案，提高疗效和患者生存质量。
医疗资源管理：利用大数据预测医疗需求，优化医院床位、设备、人力资源分配，提拔医疗服务效率。
5. 市场营销与客户关系管理
市场趋势分析：通太过析社交媒体、搜刮引擎、行业报告等数据，洞察市场动态、消费者偏好变化，指导产物开辟和市场定位。
精准广告投放：基于用户画像、举动数据、地理位置等信息，实现广告的定向投放和效果优化。
客户满意度与忠诚度提拔：利用客户反馈、社交媒体舆情、购买举动数据，识别影响满意度的关键因素，订定针对性的改进战略。
6. 其他行业与通用场景
聪明城市：集成交通、能源、情况、公共服务等多源数据，实现城市运行状态监测、资源调理优化、应急相应管理等。
工业制造：通过设备数据、生产流程数据的实时分析，实现预测性维护、质量控制、产能优化等智能制造应用。
社交媒体分析：发掘用户社交网络举动、情绪倾向、话题热度等数据，为企业品牌管理、舆情监控、产物推广提供决策支持。
1.3.大数据的关键技术

大数据技术，其实就是一套解决方案，是基于各种实际的业务场景的成功的解决方案的总结。
大数据技术可以看作对传统技术的延申，是由于大数据的量传统技术不是很好应付了才出现了大数据的解决方案。传统的单点扛不住，扩集群，集群也扛不住就可以考虑大数据，或者即使集群扛得住，但是数据类型太杂了必要也可以考虑大数据。所以大数据和传统技术只是AB两套方案罢了。
大数据的整个流程：
数据采集->数据存储与管理->数据处置惩罚与分析

此中最为核心的是：数据存储和数据分析，也就是：

数据的存储
数据的运算

1.数据存储
其实就是当数据量很小的时间，存在单台呆板上，当单台呆板扛不住的时间存在多台呆板上。存在多台呆板上就必要举行统一的管理，对外给出统一的API让利用者去利用整个集群中的数据，让利用者体感愉悦，感知上觉得面临的就是一台存储容量无限大的单点服务器。
统一的管理、统一的利用API，这两点合在一起，像不像个系统？是的，这就是大数据中的存储系统，分布式文件系统——HDFS。
2.数据的运算
花这么大代价用HDFS存储起来的数据肯定不是拿来看的，而是要用起来的，是要用于计算的。在大数据系统中由于其存储采用了分布式的架构，计算使命不再是单点的，而是分布式的，是要分发到集群中的各个存储节点上去的，由各个结点计算后汇总出最终的效果。很显着这种多节点间的协作计算是必要举利用命调理的，这就是分布式计算引擎必要干的活儿，经典的分布式计算引擎是HDFS中内置的——MapReduce。其紧张就是负责计算使命的调理。
除此之外还有一个如今市面上常用的强力的计算引擎——spark。mapreduce是基于磁盘的计算，spark是基于内存的计算，两者之间互有优劣。
扩展功能
有HDFS+MapReduce其实大数据系统就已经可以工作了，但是每次对数据举行查询都要写mapreduce使命，作为一个分布式的处置惩罚程序，mapreduce的使命写起来还是要求一些专业的计算机配景的。为了能像SQL一样，方便的查询HDFS中的数据，从而将使用者从繁琐的mapreduce的编写中解放，出现了hive之类的分布式系统的结构化数据解决方案。
1.4.大数据的计算模式

计算模式，即大数据的数据的运算是什么类型的？根据差别的需求计算可以分为三种模式：

批处置惩罚
流计算
图计算
交互式计算

批处置惩罚：
批处置惩罚即数据准备好一批算一批，使命是在已经准备好的一批数据上举行计算的，并不是实时计算的，也无法到达秒级相应的。
代表技术：mapreduce、spark
流计算：
流计算即实时计算，数据过来就算，针对的就是时时刻刻来的数据量大，必要给出实时相应的场景。
代表技术：storm、flume
图计算：
针对数据结构都是图结构的数据举行计算，如社交网络数据、地理信息数据。
交互式计算：
前面的几种计算都是预先准备好了计算使命，交互式计算的计算使命是随时自界说的，随时发命令给系统，系统针对命令给出计算相应。
1.5.大数据和云计算的关系

云计算即通过网络以服务的方式为用户提供非常便宜的IT资源。用户不用去自建办法，直接找云计算厂商购买服务即可。
云计算所能提供的服务分为三层：

SaaS，底子办法即服务，即将底子办法作为服务出租（计算资源和存储）。紧张是面向用户的。
PaaS，平台即服务，在底子办法上包了一层，即将开辟平台作为服务出租，用户只负责开辟，剩下的部署、监控等一系列功能都交给平台去做。紧张是面向开辟者的。
IaaS，软件即服务，这个很好明白，就是直接提供运算的软件来用了。比如传统的金蝶财政软件是部署在本地的，放在云上提供服务后就变成了典型的IaaS。

经常听到“数据中心”就是厂商建立的物理服务器集群，专门用来提供云计算服务。
1.6.物联网

物联网无非就是采集终端采集数据然后通过网络上传到数据中心。其核心的题目在于：

识别
感知

识别，即识别哪些数据是哪个设备的。
感知，即数据采集。
2.Hadoop

2.1.核心架构

apache旗下顶级开源项目，是一个大数据生态圈，由多个组件组成。
Hadoop两大核心组件：

分布式文件系统HDFS，其实就是GFS的开源实现。
分布式计算引擎MapReduce。

整个生态圈的核心架构：

备注：MR就是map reduce
2.2.版本演进

首先要注意Hadoop有多个分支。apache相称于此中的主分支，很多大公司还有属于自己版本的hadoop，apache的Hadoop分为两个版本：

1.0和2.0的区别：
1.0的时间mapreduce纪要做计算工作还要自己去调理各个节点的资源来为计算工作服务。
2.0的时间将资源调理功能抽成了一个独立的框架yarn，mapreduce只负责计算工作。由于yarn来举行了资源调理，在其之上就可以接入很多差别的计算框架，将资源调理都给yarn，于是2.0版本开始衍生出了很多别的计算框架，如storm、spark等。

其次2.0的时间对HDFS，使用namenode的方式在高可用性上举行了增强。
疑问：yarn做了哪些调理？为什么要做调理?
2.3.生态圈的全量结构

整个hadoop项目，或者说生态圈的全量结构如下：

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【大数据】大数据概论与Hadoop

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块