什么是大数据?

打印 上一主题 下一主题

主题 902|帖子 902|积分 2706


1. 大数据定义

大数据到底是什么?

大数据的定义是数据种类更多数量更多速率更快。这也被称为三个“V”
简单来说,大数据是更大更复杂的数据集,尤其是来自新数据源的数据集。这些数据集非常庞大,传统数据处理软件根本无法管理它们。但这些海量数据可用于解决您从前无法解决的业务题目。
2. 大数据的三个“V”

2.1 数据量

数据量对于大数据,很紧张!您必须处理大量低密度、非结构化数据。这可能是未知代价的数据,例如 X(从前称为 Twitter)数据提要、网页或移动应用程序上的点击流或支持传感器的装备。对于某些构造,这可能是数十 TB 的数据。对于其他构造,这可能是数百 PB 的数据。
2.2 速率

速率是指接收数据并(可能)接纳举措的速率。通常,数据直接流入内存的速率比写入磁盘的速率更快。一些支持互联网的智能产品实时或接近实时运行,需要实时评估和接纳举措。
2.3 多样性

多样性是指可用的数据范例之多。传统数据范例是结构化的,可以整洁地放入关系数据库中。随着大数据的鼓起,数据以新的非结构化数据范例出现。非结构化和半结构化数据范例(如文本、音频和视频)需要额外的预处理才能得出含义和支持元数据。

3. 大数据的代价和真相

   已往几年又出现了两个“V”:代价和真实性。数据具有内涵代价。但在发现其代价之前,数据毫无用处。同样紧张的是:你的数据有多真实——你能在多大水平上信赖它?
  如今,大数据已成为资源。想想世界上一些最大的科技公司。它们提供的代价很大一部分来自数据,它们不断分析数据以提高效率并开辟新产品。
近来的技术突破大幅低落了数据存储和盘算资源,使存储更多数据变得比以往任何时间都更加容易且资源更低。随着大数据量的增加,现在更自制且更易于访问,您可以做出更精确、更精确的业务决议。
寻找大数据的代价不但仅在于分析它(这是另一个利益)。这是一个完整的发现过程,需要有洞察力的分析师、业务用户和高管提出精确的题目、识别模式、做出明智的假设并预测行为。
但我们是怎么来到这里的?
4. 大数据的历史


虽然大数据的概念本身相对较新,但大数据集的起源可以追溯到 20 世纪 60 年代和 70 年代,当时数据世界才刚刚起步,出现了第一个数据中心和关系数据库。
2005 年左右,人们开始意识到用户通过 FacebookYouTube 和其他在线服务产生了多少数据。同年开辟了 Hadoop(一种专门用于存储和分析大数据集的开源框架)。在此期间,NoSQL 也开始盛行起来。
开源框架(例如 Hadoop(以及近来的 Spark))的发展对于大数据的增长至关紧张,因为它们使大数据更易于处理且存储资源更低。自那时以来,大数据量急剧上升。用户仍在天生大量数据 - 但不但仅是人类在天生数据。
随着物联网 (IoT) 的出现,越来越多的物体和装备连接到互联网,收集有关客户利用模式和产品性能的数据。呆板学习的出现产生了更多的数据。
虽然大数据已经取得了长足进步,但实在用性才刚刚开始。云盘算进一步扩展了大数据的可能性。云提供了真正的弹性可扩展性,开辟职员可以简单地启动临时集群来测试数据子集。图形数据库也变得越来越紧张,因为它们能够以一种快速、全面的方式显示大量数据。
5. 大数据上风



  • 大数据可以让你获得更完整的答案,因为你拥有更多的信息。
  • 更完整的答案意味着对数据的更有信心——这意味着一种完全差异的解决题目的方法。
6. 大数据用例

大数据可以资助您处理一系列业务运动,包罗客户体验和分析。以下仅列举其中几个。
6.1 产品开辟

Netflix 和宝洁等公司利用大数据来预测客户需求。他们通过对已往和当前产品或服务的关键属性举行分类,并对这些属性与产品商业成功之间的关系举行建模,为新产品和服务建立预测模型。别的,宝洁还利用来自焦点小组、社交媒体、测试市场和早期门店推广的数据和分析来规划、生产和推出新产品。
6.2 预测性维护 预测

机械故障的因素可能深藏在结构化数据中,例如装备的年份、品牌和型号,以及涵盖数百万个日记条目、传感器数据、错误消息和引擎温度的非结构化数据中。通过在题目发生之前分析这些潜伏题目的迹象,构造可以更经济高效地部署维护,并最大限度地延长零件和装备的正常运行时间。
6.3 客户体验

夺取客户的竞争已经开始。现在比以往任何时间都更有可能更清晰地了解客户体验。大数据使您能够从社交媒体、网站访问、通话记载和其他泉源收集数据,以改善交互体验并最大化交付的代价。开始提供个性化服务,镌汰客户流失,并主动处理题目。
6.4 欺诈与合规性

说到安全,您面对的不但仅是几个流氓黑客,而是整个专家团队。安全形势和合规性要求在不断发展。大数据可资助您识别数据中表明欺诈的模式,并汇总大量信息,从而加快羁系报告的速率。
6.5 呆板学习

呆板学习是当下的热门话题。数据(特别是大数据)是其中的原因之一。我们现在能够教呆板,而不是编程。大数据可用于训练呆板学习模型,这使得这成为可能。

6.6 运营效率

运营效率可能并不总是新闻焦点,但这是大数据影响最大的领域。借助大数据,您可以分析和评估生产、客户反馈和退货以及其他因素,以镌汰停机并预测未来需求。大数据还可用于根据当前市场需求改进决议。
6.7 推动创新

大数据可以资助您通过研究人类、机构、实体和流程之间的相互依赖关系,然后确定利用这些见解的新方法,从而实现创新。利用数据见解来改善有关财务和规划考虑的决议。研究趋势以及客户想要提供的新产品和服务。实施动态定价。可能性无穷无尽。
7. 大数据挑衅


大数据虽然远景广阔,但也面对挑衅。

  • 起首,大数据就是……大。尽管已经开辟出用于数据存储的新技术,但数据量大约每两年就会翻一番。构造仍然难以跟上数据增长的步调,并找到有用存储数据的方法。
  • 但仅仅存储数据是不敷的。数据必须被利用才能有代价,而这取决于数据管理。干净的数据,或者与客户相干且以能够举行故意义分析的方式构造的数据,需要大量的工作。数据科学家在实际利用数据之前,要淹灭50% 到 80% 的时间来管理和预备数据。
  • 最后,大数据技术正在快速变革。几年前,Apache Hadoop 是处理大数据的盛行技术。然后 Apache Spark 于 2014 年推出。如今,这两个框架的组合似乎是最佳方法。跟上大数据技术的步调是一项持续的挑衅。
8. 大数据的工作原理

大数据为您提供新见解,从而开启新机遇和新商业模式。入门涉及三个关键操纵:
8.1 集成

大数据汇集了来自很多差异泉源和应用程序的数据。传统的数据集成机制,如提取、转换和加载 (ETL) 通常无法胜任这项任务。它需要新的策略和技术来分析 TB 级甚至 PB 级的大数据集。
在集成过程中,您需要引入数据、处理数据,并确保其格式化并以业务分析师可以开始利用的形式提供。
8.2 管理

大数据需要存储。您的存储解决方案可以位于云中、当地或两者兼而有之。您可以以任何您想要的形式存储数据,并根据需要将所需的处理要求和须要的流程引擎带到这些数据集中。很多人根据数据当前地点的位置来选择存储解决方案。云正逐渐盛行起来,因为它支持您当前的盘算需求并使您能够根据需要启动资源。
8.3 分析

当您分析数据并接纳举措时,您对大数据的投资就会得到回报。通过对各种数据集举行可视化分析,获得新的清晰度。进一步探索数据以获得新发现。与他人分享您的发现。利用呆板学习和人工智能构建数据模型。让您的数据发挥作用。
9. 大数据最佳实践

为了资助您踏上大数据之旅,我们整理了一些关键的最佳实践供您参考。以下是我们构建成功大数据基础的指南。
9.1 将大数据与特定业务目标相结合

更全面的数据集可让您获得新发现。为此,紧张的是在强大的业务驱动配景下对技能、构造或基础办法举行新投资,以保证持续的项目投资和资金。要确定您是否走在精确的轨道上,请问大数据如何支持和实现您的首要业务和 IT 优先事项。示例包罗了解如何过滤网络日记以了解电子商务行为、从社交媒体和客户支持互动中获取情绪,以及了解统计关联方法及其与客户、产品、制造和工程数据的相干性。
9.2 通过标准和治理缓解技能短缺 技能

短缺是从大数据投资中获益的最大障碍之一。您可以通过确保将大数据技术、考虑因素和决议添加到您的 IT 治理筹划中来低落这种风险。标准化方法将使您能够管理资源并利用资源。实施大数据解决方案和战略的构造应尽早并经常评估其技能需求,并应主动识别任何潜伏的技能差距。可以通过培训/交叉培训现有资源、雇用新资源和利用咨询公司来解决这些题目。
9.3 利用卓越中心优化知识转移

利用卓越中心方法来共享知识、控制监督和管理项目沟通。无论大数据是一项新投资还是一项扩展投资,软硬资源都可以在整个企业内分担。利用这种方法可以资助以更结构化和体系化的方式提高大数据本领和整体信息架构成熟度。
9.4 最大的收益是将非结构化数据与结构化数据相结合

单独分析大数据固然很有代价。但通过将低密度大数据与您现在利用的结构化数据连接和集成,您可以获得更深入的业务洞察。
无论您捕捉的是客户、产品、装备还是环境大数据,目标都是向您的焦点主数据和分析择要添加更多相干数据点,从而得出更好的结论。例如,区分所有客户情绪与仅区分最佳客户情绪是有区别的。这就是为什么很多人将大数据视为其现有商业智能功能、数据堆栈平台和信息架构不可或缺的延伸。
请记着,大数据分析过程和模型既可以基于人,也可以基于呆板。大数据分析功能包罗统计、空间分析、语义、交互式发现和可视化。利用分析模型,您可以关联差异范例和泉源的数据,以建立关联并发现故意义的结果。
9.5 规划您的发实际验室以提高绩效

发现数据中的含义并不总是那么简单。有时我们甚至不知道我们在寻找什么。这是意料之中的。管理层和 IT 部门需要支持这种“缺乏方向”或“缺乏明白要求”的情况。
与此同时,分析师和数据科学家必须与企业密切互助,了解关键业务知识差距和要求。为了顺应数据的交互式探索和统盘算法的实验,您需要高性能的工作区。确保沙盒环境具有所需的支持,并得到适当的管理。
9.6 与云运营模式保持一致

大数据流程和用户需要访问各种资源,以举行迭代实验和运行生产作业。大数据解决方案包罗所有数据领域,包罗生意业务、主数据、参考数据和汇总数据。应按需创建分析沙箱。资源管理对于确保控制整个数据流(包罗预处理和后处理、集成、数据库内汇总和分析建模)至关紧张。经心规划的私有云和公共云配置和安全策略在支持这些不断变革的需求方面发挥着不可或缺的作用。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

石小疯

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表