大数据导论

打印 上一主题 下一主题

主题 677|帖子 677|积分 2031

大数据导论

1.数据
  1. 数据概念:一切能被记录和查询的事物
  2. 数据价值: 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律  
复制代码
2.大数据概述
  1. 大数据是什么?
  2. 狭义上:对海量数据进行处理的软件技术体系
  3. 广义上:数字化、信息化时代的基础支撑,以数据为生活赋能
  4. 大数据解决了什么问题?
  5. 1.海量数据的存储
  6. 2.海量数据的计算
  7. 3.海量数据的传输
  8. 大数据的核心工作是什么?
  9. 存储:利用各类大数据技术栈,安全保存海量待处理数据
  10. 计算:利用各类大数据技术栈,完成海量数据的价值挖掘
  11. 传输:利用各类大数据技术栈,协助各个环节的数据传输
复制代码
3.大数据特征

  1. 特征可以简单概括为"5V"(大、多、值、快、信)
  2. 大:数据题量大,一般计量单位是P(1000 T),E(100万 T)
  3. 多:种类来源多样化,包括结构化,半结构化,非结构化数据。如网络日志、音频、视频、图片、地理位置信息等。
  4. 值:数据价值高但是低价值密度
  5. 快:速度快,数据增长速度快,处理速度快,时效性要求高。
  6. 信:数据准确度高
  7. 总的来说,大数据就是从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果,为企业决策赋能
复制代码
4.大数据技术栈

Apache软件基金会(Apache Software Foundation,简称 ASF,是专门为运作一个开源软件项目的 Apache 的团体提供支持的非盈利性组织,这个开源软件的项目就是 Apache 项目。
存储
  1. Apache Hadoop-HDFS :HDFS是Apache Hadoop Core项目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存储系统
  2. Apache Hbase: HBase是Apache的Hadoop项目的子项目
  3. Apache Kudu: 是由Cloudera开源的存储引擎,贡献给Apache基金组织
复制代码
计算
  1. Apache Hadoop-MapReduce: MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献
  2. Apache Hive: Hive是一款以SQL为要开发语言的分布式计算框架。HiveSQL其底层翻译成了Hadoop的MapReduce程序去执行
  3. Apache Spark: Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品
  4. Apache Flink: Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域占据了大多数的国内市场。
复制代码
传输
  1. Apache Sqoop: Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输。
  2. Apache Flume: Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。
  3. Apache Kafka: Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品
  4. Apache Pulsar: Pulsar同样是一款分布式的消息系统。
复制代码
5.Hadoop

Hadoop是开源的技术框架,提供分布式存储、计算、资源调度的解决方案
  1. Hadoop:是包含HDFS,MapReduce,YARN三大组件的技术栈
  2. Hadoop的开源版本:Apache开源社区版(原生版本)
  3. Hadoop的商业版本:Cloudera等商业公司自行进行二次封装的商业版
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

吴旭华

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表