免费入驻
产品入驻解决方案入驻公司入驻案例入驻
登录 · 注册
- 只需一步，快速开始
- 账号登录
- 立即注册
- 找回密码
自动登录找回密码

密码立即注册

ToB企服应用市场:ToB评测及商务社交产业平台»论坛 › 大数据 › 数据仓库与分析 › 大数据导论

大数据导论

吴旭华金牌会员 | 2023-5-14 21:37:25 | 显示全部楼层 | 阅读模式

上一主题

下一主题

楼主

主题 677|帖子 677|积分 2031

大数据导论

1.数据

数据概念:一切能被记录和查询的事物
数据价值: 对数据的内容进行深入分析，可以更好的帮助了解事和物在现实世界的运行规律

复制代码

2.大数据概述

大数据是什么？
狭义上:对海量数据进行处理的软件技术体系
广义上:数字化、信息化时代的基础支撑，以数据为生活赋能
大数据解决了什么问题？
1.海量数据的存储
2.海量数据的计算
3.海量数据的传输
大数据的核心工作是什么？
存储:利用各类大数据技术栈，安全保存海量待处理数据
计算:利用各类大数据技术栈，完成海量数据的价值挖掘
传输:利用各类大数据技术栈，协助各个环节的数据传输

复制代码

3.大数据特征

特征可以简单概括为"5V"(大、多、值、快、信)
大:数据题量大，一般计量单位是P（1000 T），E（100万 T）
多:种类来源多样化，包括结构化，半结构化，非结构化数据。如网络日志、音频、视频、图片、地理位置信息等。
值:数据价值高但是低价值密度
快:速度快，数据增长速度快，处理速度快，时效性要求高。
信:数据准确度高
总的来说，大数据就是从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果，为企业决策赋能

复制代码

4.大数据技术栈

Apache软件基金会（Apache Software Foundation，简称 ASF，是专门为运作一个开源软件项目的 Apache 的团体提供支持的非盈利性组织，这个开源软件的项目就是 Apache 项目。
存储

Apache Hadoop-HDFS :HDFS是Apache Hadoop Core项目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存储系统
Apache Hbase: HBase是Apache的Hadoop项目的子项目
Apache Kudu: 是由Cloudera开源的存储引擎,贡献给Apache基金组织

复制代码

计算

Apache Hadoop-MapReduce: MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献
Apache Hive: Hive是一款以SQL为要开发语言的分布式计算框架。HiveSQL其底层翻译成了Hadoop的MapReduce程序去执行
Apache Spark: Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品
Apache Flink: Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算（流计算）领域占据了大多数的国内市场。

复制代码

传输

Apache Sqoop: Sqoop是一款ETL工具，可以协助大数据体系和关系型数据库之间进行数据传输。
Apache Flume: Flume是一款流式数据采集工具，可以从非常多的数据源中完成数据采集传输的任务。
Apache Kafka: Kafka是一款分布式的消息系统，可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品
Apache Pulsar: Pulsar同样是一款分布式的消息系统。

复制代码

5.Hadoop

Hadoop是开源的技术框架，提供分布式存储、计算、资源调度的解决方案

Hadoop:是包含HDFS,MapReduce，YARN三大组件的技术栈
Hadoop的开源版本:Apache开源社区版（原生版本）
Hadoop的商业版本:Cloudera等商业公司自行进行二次封装的商业版

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

x

回复

使用道具举报

0 个回复

倒序浏览

快速回复

发新帖回复

金牌会员

这个人很懒什么都没写!

楼主热帖

标签云

挺好的服务器

微信订阅号

微信服务号

微信客服

小程序

H5

关于我们商务合作网站地图

快速回复 返回顶部 返回列表