ToB企服应用市场:ToB评测及商务社交产业平台

标题: 读数据质量管理:数据可靠性与数据质量问题解决之道05数据尺度化 [打印本页]

作者: 宁睿    时间: 2024-11-17 02:24
标题: 读数据质量管理:数据可靠性与数据质量问题解决之道05数据尺度化

1. 批处理

1.1. 批处理在一段时间内收集数据,然后将大量数据“批处理”在离散的数据包中
1.2. 直到20世纪10年代中期,批处理都是处理分析型数据最常用的方法
1.3. 批处理比流处理要自制得多,即使是对时间要求最苛刻的处理需求也足以满足
1.4. 批处理是经过时间考验的尺度,并且仍然是公司接收大量数据最为流行且常见的方式
1.5. 当构造想要获得实时的洞察时,批处理就显得力有未逮了
1.6. 批处理关注的是尽可能多地收集数据,即使这会带来滞后
1.7. 批量流系统的数据质量(也就是数据管道中给定阶段的数据健康状况)往往更高,但是当数据在举行实时流传输时,产生错误的空间和数据质量低落的情况都会增长
2. 流处理

2.1. 流处理是一个较长的过程,但几乎可以立即处理数据
2.2. 随着各行各业的公司越来越依靠实时数据,Apache Kafka和Amazon Kinesis等技术让流数据相对以前来说更易于大规模访问,价格也更实惠
2.3. 实时访问数据将改变游戏规则,这也为依靠数据而不停更新的产物和服务带来了更高的投资回报
2.4. 流处理的一个简朴示例是实时拼车应用程序的请求
2.5. 最常见的开源技术包罗来自Apache的解决方案
2.6. 使用最广泛的还是Apache Spark和Apache Kafka
3. Apache Hadoop

3.1. 用于分布式存储和处理大型数据集的最流行的开源批处理框架之一
3.2. 通过将文件拆分为更小的数据包,然后将这些更易于管理的数据块分布在集群中的节点上来运行
3.3. Hadoop的托管替代品包罗Google BigQuery、Snowflake​、Microsoft Azure和Amazon Redshift
4. 流处理的数据质量

4.1. 批处理和流处理之间的主要区别在于每个批处理所包含的数据量和处理速率
4.2. 流处理关注的是尽可能快地收集数据,尽管这会导致一些损失
4.3. 传统来说,数据质量是通过测试来强制实行的
4.4. 数据质量往往会出现新的错误,而工程师会急于在问题影响鄙俚表格和用户前举行根因分析
  1. >  4.4.2.1.1. “已知的未知”​
复制代码
4.5. 如果确保批处理数据的可靠性都很困难的话,你可以想象一下对每分每秒都在演变的数据运行和扩展测试会多么难以实现
4.6. 虽然单元测试、功能测试和集成测试等传统数据质量框架可能包含了一些基础功能,但它们无法在难以举行猜测和实时演变的数据集中举行扩展
4.7. 流式解决方案可以将数据直接实时传输到分析系统中或传输到数据仓库举行存储、处理和转换
4.8. 当你在AWS Kinesis和Apache Kafka之间举行选择时,实际上还是要取决于数据团队的需求
5. AWS Kinesis

5.1. 亚马逊的Kinesis服务是一种流行的无服务器流处理工具,适用于依靠实时数据的应用程序
5.2. 容量可“按需”扩展,从而减少了在数据量增长前预置和扩展资源的需要
5.3. 可以被配置为从其他AWS服务、微服务、应用程序日记、移动数据和传感器数据等来源捕获数据
5.4. 上风
6. Apache Kafka

6.1. 一个开源变乱的流式平台
6.2. 模式注册表
6.3. Kafka Streams是支持流式数据进出Kafka集群的客户端库
6.4. 服务提供数据流和集成层以及流式分析
6.5. Kafka流式服务针对低耽误举行了优化
6.6. 优点
  1. >  6.6.2.2.1. Kinesis将其固定为7天
复制代码
6.7. Apache Kafka流畅过JMX(Java管理扩展规范)报告流式指标
6.8. 在事务型转换中实行查抄的优先级需要与该步骤中耽误超过吞吐量查抄的优先级保持一致
7. 数据尺度化

7.1. 第一个事务型数据转换层称为数据尺度化阶段
7.2. 数据转换指的是将数据从一种或多种源格式转换到目标格式的程序
7.3. 尺度化通常是你的数据在管道中经过的诸多此类转换中的第一个
7.4. 尺度化发生在噪声、模糊性和异构性最大的入口点数据上
7.5. 处理异构数据源
  1. >  7.5.2.1.1. 流式端点的数据在经过优化后,可以一经创建就立即使用
  2. >  7.5.2.1.2. 优化是以吞吐量为代价的,而这实际上决定了数据的完整性
  3. >  7.5.2.1.3. 意味着不要期望批数据是完整的,因为无论其最终状态如何,它们都会立即通过数据管道进行推送
复制代码
  1. >  7.5.2.2.1. 经过标准化的数据可能会以不具层级结构的“平面”存储格式来进行存储,以提高效率和易用性
  2. >  7.5.2.2.2. 将数据“转储”到某个中央存储库中
复制代码
  1. >  7.5.2.3.1. 除了以“平面”形式存储外,入口点数据还可能反映流式传输的原始文件格式
复制代码
  1. >  7.5.2.4.1. JSON等原始文件数据都具有可选字段
  2. >  7.5.2.4.2. 任何内容都可能是默认值,并且该字段的缺失可能会(也可能不会)成为上游处理的问题
复制代码
  1. >  7.5.2.5.1. 数据来自各种不同的来源,采用各种原始的文件格式,并且与此前相同格式的数据相比,其完整性可能不同
  2. >  7.5.2.5.2. 在数据管道的这个阶段,学习如何根据可预测的异构性来让数据有意义非常关键
  3. >  7.5.2.5.3. 要确保数据一旦被存储和处理就能轻松地进行转换,以最大化其价值
复制代码
7.6. 模式查抄
7.7. 类型强制转换
7.8. 数据中的句法歧义与语义歧义
  1. >  7.8.3.2.1. 无法就该字段的用途达成一致
复制代码

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4