论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
大数据
›
数据仓库与分析
›
踏入大数据的第一天,我先入入门
踏入大数据的第一天,我先入入门
飞不高
金牌会员
|
2024-6-19 04:20:59
|
显示全部楼层
|
阅读模式
楼主
主题
550
|
帖子
550
|
积分
1650
【转行原因】目前数据每天已亿盘算,作为 Java步伐员的我已经无法使用常规工具对数据进行捕捉、管理和处置惩罚这些数据集合。MySQL的存储容量也只有500-1000行数据。而且数据每天还在告诉增长,还不带重样的。还有就是跟着党走,我要搞新基建。以是我来了,我来了,我踏着七彩祥云走来了…
按次序给出存储单位:bit、Byte、KB、MB、GB、TB、PB、ZB、YB、BB、NB、DB。
大数据重要是干嘛的:海量数据的存储和海量数据的分析盘算题目。en…我是刚入门,不要骂我菜…
一、大数据特点
【1】多样化(variety):
这里包含两个方面,一个是数据来源多样化,就是我们收罗的数据通过不同的渠道,不同平台产生的多样化;还有就是数据的结构数据多样,有结构化的和非结构化(视频、图片…)的等等。
【2】大量化(volume):
这个我们比较好了解,究竟名字就带着这个意思。互联网的发展规模,我们每天通过它产生的数据也是与日俱增,如今我们大概一年里产生的数据量,都能和之前的史上数据相对抗了,大量化实至名归啊。
【3】高速(velocity):
这内里涉及到大数据的整个流程,好比数据的增长速率,还有我们对数据的处置惩罚速率,很多范例的数据我们已经能够做到时时反馈了,刚刚网络到马上就能反过来影响我们的生活。
【4】价值密度低(value):
也就是大数据虽然数量巨大,但是也不是越多越好的,此中有很多都是没意义的,有效的数据就被淹没在这海量的没用数据之中了,而这一点也是大数据技能的工作难点之一,要将那些海量无用的、复杂的数据做深度的分析,从此中挖掘那些对我们来说是有价值的数据。
二、大数据能干啥
【1】物流仓库:
大数据分析系统助力商家精致化运营、提升销量、节省成本。
【2】零售:
分析用户斲丧习惯,为用户购买商品提供方便,从而提升商品销量。比方(纸尿裤+啤酒)
【3】旅游:
深度联合大数据本事与旅游行业需求,共建旅游产业智慧管理、智慧服务和智慧营销的未来。
【4】商品广告推荐:
给用户推荐需要的产物。
三、业务流程分析
四、大数据部门构造结构
【1】平台组:
将框架搭建对数据进行收罗,保证每一个框架正常运行。类似运维但比运维高级,同时对框架进行调优和监控。
【2】数据仓库组:
根据业务对数据进行分析梳理和筛选垃圾数据。
【3】数据挖掘组:
对数据进行深度挖掘,理想的大数据选型。
【4】报表开辟组:
也就是我如今的职位,给大数据打杂的。
五、Hadoop是什么
Hadoop是一个由 Apache基金会所开辟的分布式系统底子架构。用户可以在不了解分布式底层细节的情况下,开辟分布式步伐。充分使用集群的威力进行高速运算和存储。广义上说 Hadoop指一个更广泛的概念(Hadoop生态圈)
六、Hadoop的优势
高可靠性:
Hadoop底层维护多个数据副本,以是及时Hadoop某个盘算元素或存储出现故障,也不会导致数据丢失。
高扩展性:
在集群间分配使命数据,可方便的扩展数以千计的节点。
高效性:
在 MapReduce 的思想下,Hadoop是并行工作的,以加速使命处置惩罚速率。
高容错性:
能够自动将失败的使命重新分配。
七、大数据技能生态体系
图中涉及的技能名词解释如下:
【1】Sqoop:
Sqoop是一款开源的工具,重要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的通报,可以将一个关系型数据库(比方 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
【2】Flume:
Flume是 Cloudera提供的一个高可用的,高可靠的,分布式的海量日志收罗、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于网络数据;同时,Flume提供对数据进行简单处置惩罚,并写到各种数据吸收方(可定制)的本事。
【3】Kafka:
Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:
■ 通过 O(1) 的磁盘数据结构提供消息的长期化,这种结构对于纵然数以TB的消息存储也能够保持长时间的稳定性能。
■ 高吞吐量:纵然是非常普通的硬件Kafka也可以支持每秒数百万的消息。
■ 支持通过 Kafka服务器和斲丧机集群来分区消息。
■ 支持 Hadoop并行数据加载。
【4】Storm(镌汰中):
推荐使用Flink,目前比较火。Storm用于“连续盘算”,对数据流做连续查询,在盘算时就将结果以流的情势输出给用户。
【5】Spark:
Spark是当前最流行的开源大数据内存盘算框架。可以基于 Hadoop上存储的大数据进行盘算。
【6】Oozie:
Oozie是一个管理 Hdoop作业(job)的工作流程调度管理系统。
【7】Hbase:
HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个得当于非结构化数据存储的数据库。
【8】Hive:
Hive是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为 MapReduce使命进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开辟专门的 MapReduce应用,非常得当数据仓库的统计分析。
【9】R语言:
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计盘算和统计制图的优秀工具。
【10】Mahout:
Apache Mahout是个可扩展的呆板学习和数据挖掘库。
【11】ZooKeeper:
Zookeeper是 Google的 Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目的就是封装好复杂易堕落的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
不说了,该学习Hadoop了
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
飞不高
金牌会员
这个人很懒什么都没写!
楼主热帖
WPF开发经验-实现自带触控键盘的TextBo ...
如何在 K8S 集群范围使用 imagePullSec ...
Python批量采集百度资讯文章,如何自定 ...
Doris(三) -- 索引
【关系型数据库】事务特性及事务隔离级 ...
Java集合的lastlastIndexOfSubList()方 ...
自从用了 EasyExcel,导入导出 Excel ...
mysql总结
.NET Core部署到linux(CentOS)最全解决 ...
Java I/O(2):NIO中的Channel
标签云
挺好的
服务器
快速回复
返回顶部
返回列表