大数据技术的现状与面临的挑战

嚴華 · 2022-11-18 02:32:42

本文主要从技术层面探讨大数据目前的现状以及面临的挑战。在此之前，如果你对大数据的概念还比较模糊，可阅读什么是大数据一文了解。
如何定义大数据

目前我们已经了解到，大数据是由于数据量的巨大增长而产生的。所以，“大数据”一词主要描述的是规模巨大的混合数据集，这种数据集是结构化与非结构化数据的融合。
通常，大数据的特征是通过3V来解释的，即体积、速度和多样性。
体积是大数据的第一大特征。所有领先的社交媒体网站都在不停地产生大量的数据，以太字节/千字节为单位。
第二个是速度，它通常指的是接收数据和处理数据的速度。当前，互联网上每天接收的数据约为2.5亿兆字节。
第三个是多样性。它主要指的是收集数据的来源比较多样，以及数据的结构、类别也比较多样。我们常见的文本、视频、图像是不同类别的一些类型。
除此之外，大数据其他流行的特征是准确性、价值和可变性。
大数据的类别

大数据通常被分为三个不同的类别:结构化、半结构化和非结构化。
结构化：结构化并非指的是容易接受、存储和处理的数据。而是预先知道其格式的数据。譬如说保存在数据库中的特定表的值。
非结构化：任何来源不确定且未格式化的数据都是非结构化数据。在这里，数据有不同的独立来源，数据集包括了文字、视频和音频记录等等。我们最常见的例子是谷歌、百度等搜索引擎门户显示的所有搜索结果。
半结构化：顾名思义，它指的是结构化和非结构化数据的聚合。这是一个已定义好格式的数据，但没有存储在任何关系数据库系统当中。譬如说保存在XML文件中的一种数据就是半结构化数据。
用什么管理大数据

用什么管理如此规模的大数据，一直是个很大的难点。目前最常用的高效管理大量数据的开源计算引擎是Hadoop，它是Apache基金会所开发的分布式系统基础架构。
Hadoop由HDFS (Hadoop分布式文件系统)和MapReduce Engine两个主要组件组成。
Hadoop的生态系统则分为了3个部分：
Hadoop Common: Apache基础的一些公用的库，可以被生态系统中的其他组件使用。
HDFS (Hadoop Distributed File System):一个分布式数据存储系统，它以更高效的方式存储所有数据块，并采用跨不同集群的数据复制概念，以实现可靠和轻松的数据访问。
它主要由两个组件组成：名称节点（NameNode）和数据节点（DataNode）。它采用了主-从原理，其中名称节点是主节点，负责整个分布式文件系统的元数据（MetaData）的管理，Data节点作为从节点，负责文件数据的存储和读写操作。
MapReduce（分布式并行计算框架）：MapReduce是一个分布式的资源调度和离线并行计算框架，是处理所有数据集的地方。
MapReduce将大数据集分解成更小的数据集，采用分而治之的策略，以便更高效地处理它们。
它的基本工作机制是，使用“Map”方法将任务发送到Hadoop集群中的不同节点进行处理，“Reduce”方法将所有处理结果合并起来，保证数据最终的整体有效性。
大数据技术面临的挑战

数据存储：由于数据的规模在短时间内迅速增加，数据存储和分析整理依然是最核心的难点。
数据提炼：这是整个过程中最繁琐的任务，也是最大的挑战。分析提炼如此大量的数据是一项艰难的任务，从大量数据中提炼出最有价值的部分，是一个更艰难的任务。这甚至影响到了大数据未来的发展。
网络安全风险：大数据还会带来额外的安全漏洞风险。目前来看，拥有如此庞大数据的公司正成为网络犯罪的主要目标。
原文链接：http://pythonjishu.com/status-quo-and-challenges/
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

		自动登录	找回密码
密码			立即注册

大数据技术的现状与面临的挑战

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云