论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
安全
›
网络安全
›
大数据技术的现状与面临的挑战
大数据技术的现状与面临的挑战
嚴華
金牌会员
|
2022-11-18 02:32:42
|
显示全部楼层
|
阅读模式
楼主
主题
785
|
帖子
785
|
积分
2355
本文主要从技术层面探讨大数据目前的现状以及面临的挑战。在此之前,如果你对大数据的概念还比较模糊,可阅读
什么是大数据
一文了解。
如何定义大数据
目前我们已经了解到,大数据是由于数据量的巨大增长而产生的。所以,“大数据”一词主要描述的是规模巨大的混合数据集,这种数据集是结构化与非结构化数据的融合。
通常,大数据的特征是通过3V来解释的,即体积、速度和多样性。
体积是大数据的第一大特征。所有领先的社交媒体网站都在不停地产生大量的数据,以太字节/千字节为单位。
第二个是速度,它通常指的是接收数据和处理数据的速度。当前,互联网上每天接收的数据约为2.5亿兆字节。
第三个是多样性。它主要指的是收集数据的来源比较多样,以及数据的结构、类别也比较多样。我们常见的文本、视频、图像是不同类别的一些类型。
除此之外,大数据其他流行的特征是准确性、价值和可变性。
大数据的类别
大数据通常被分为三个不同的类别:
结构化、半结构化和非结构化
。
结构化:结构化并非指的是容易接受、存储和处理的数据。而是预先知道其格式的数据。譬如说保存在数据库中的特定表的值。
非结构化:任何来源不确定且未格式化的数据都是非结构化数据。在这里,数据有不同的独立来源,数据集包括了文字、视频和音频记录等等。我们最常见的例子是谷歌、百度等搜索引擎门户显示的所有搜索结果。
半结构化:顾名思义,它指的是结构化和非结构化数据的聚合。这是一个已定义好格式的数据,但没有存储在任何关系数据库系统当中。譬如说保存在XML文件中的一种数据就是半结构化数据。
用什么管理大数据
用什么管理如此规模的大数据,一直是个很大的难点。目前最常用的高效管理大量数据的开源计算引擎是Hadoop,它是Apache基金会所开发的分布式系统基础架构。
Hadoop由HDFS (Hadoop分布式文件系统)和MapReduce Engine两个主要组件组成。
Hadoop的生态系统则分为了3个部分:
Hadoop Common
: Apache基础的一些公用的库,可以被生态系统中的其他组件使用。
HDFS (Hadoop Distributed File System):一个分布式数据存储系统,它以更高效的方式存储所有数据块,并采用跨不同集群的数据复制概念,以实现可靠和轻松的数据访问。
它主要由两个组件组成:名称节点(NameNode)和数据节点(DataNode)。它采用了主-从原理,其中名称节点是主节点,负责整个分布式文件系统的元数据(MetaData)的管理,Data节点作为从节点,负责文件数据的存储和读写操作。
MapReduce(分布式并行计算框架):MapReduce是一个分布式的资源调度和离线并行计算框架,是处理所有数据集的地方。
MapReduce将大数据集分解成更小的数据集,采用分而治之的策略,以便更高效地处理它们。
它的基本工作机制是,使用“Map”方法将任务发送到Hadoop集群中的不同节点进行处理,“Reduce”方法将所有处理结果合并起来,保证数据最终的整体有效性。
大数据技术面临的挑战
数据存储
:由于数据的规模在短时间内迅速增加,数据存储和分析整理依然是最核心的难点。
数据提炼
:这是整个过程中最繁琐的任务,也是最大的挑战。分析提炼如此大量的数据是一项艰难的任务,从大量数据中提炼出最有价值的部分,是一个更艰难的任务。这甚至影响到了大数据未来的发展。
网络安全风险
:大数据还会带来额外的安全漏洞风险。目前来看,拥有如此庞大数据的公司正成为网络犯罪的主要目标。
原文链接:
http://pythonjishu.com/status-quo-and-challenges/
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
嚴華
金牌会员
这个人很懒什么都没写!
楼主热帖
Qt-FFmpeg开发-打开本地摄像头(6) ...
用uniapp实现微信小程序的电子签名效果 ...
【云服务器】推荐阿贝云服务器,目前永 ...
Spring Boot 配置文件
【万能皆可链接】C++中的动态链接库编 ...
Doris(一) -- 简介和安装
微服务介绍
iOS全埋点解决方案-用户标识 ...
【Javaweb】Web工作原理、两种网页、两 ...
【Selenium+Pytest+allure报告生成自动 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表