读数据湖仓06数据集成
https://img2024.cnblogs.com/blog/3076680/202409/3076680-20240930161013377-2023238359.png1. 数据湖仓中的数据集成
1.1. 数据湖仓的总体目的是为每一个人提供支持,包括从普通职员到CEO
1.2. 有了作为根本设施的根本数据,企业等构造才能实现真正的数据驱动
1.3. 提供构造所需的数据,最关键的一环在于提供集成的数据根本
[*]1.3.1. 只将数据扔进数据湖仓就指望它能满足人们的需求是不现实的
[*]1.3.2. 如果将数据丢进数据湖仓而不对其举行集成,将会浪费时间、款项和机会
1.4. 数据集成是构建构造决议根本的必要条件
2. 自动集成
2.1. 对于应用程序生成的结构化数据,可以运用ETL
2.2. 对于文本数据,可以运用文本ETL
2.3. 对于模仿/物联网数据,则可以运用数据蒸馏算法
2.4. 这些技能都能以成熟和自动化的方式支持集成需求
2.5. 数据集成的最终结果是数据本身的转换
[*]2.5.1. 根本数据包含转换过的数据
2.6. 转换数据的风趣之处在于不同类型数据的转换过程完全不同
2.7. ETL、文本ETL和数据蒸馏算法的处理过程之间几乎没有共同点
3. ETL
3.1. ETL是对应用程序生成的结构化数据举行转换的过程
3.2. 只有集成基于应用程序与基于生意业务的数据,才可以或许真正理解企业所开展的业务
3.3. 定名约定
3.4. 编码习惯
3.5. 物理特性差别
3.6. 属性度量
3.7. 属性度量
3.8. 属性存在标准
3.9. 粒度差别
3.10. 定义差别
3.11. 数据选择标准
3.12. 归纳和推导差别
4. 文本ETL
4.1. 结构化数据紧张来自生意业务
4.2. 文本数据则紧张来自语音对话和报告
[*]4.2.1. 可能来自印刷资料,例如报纸、文档和广告册
[*]4.2.2. 可能来自互联网、电子邮件和其他电子形式的数据
4.3. 两者的数据泉源存在显著差别
4.4. 文本数据是以自由格式出现的
4.5. 事务数据每次出现时都清晰明了
4.6. 描述文本数据所涵盖的本体
4.7. 本体内的分类标准
4.8. 分类标准和业务规则的接洽
4.9. 基于词与词之间的相近程度辨认语义
4.10. 多义词辨识
4.11. 对选定命据去标识化的能力
4.12. 辨认常用措辞的能力
4.13. 多语言环境下运转的能力
4.14. 辨认文本中情感的能力
5. 数据蒸馏算法
5.1. 模仿/物联网数据集成的本质是删除根本数据中访问概率较低的数据
5.2. 无法存储生成的全部模仿/物联网数据,尤其是访问概率较低的数据
5.3. 为了从访问概率低的非相关数据中分离出访问概率高的相关数据,需要首先使用数据蒸馏算法对原始模仿/物联网数据举行蒸馏处理,然后把访问概率较高的数据置于根本数据中
5.4. 蒸馏算法
5.5. 算法随时间推移发生的变化
5.6. 阈值选择
5.7. 阈值随时间推移发生的变化
5.8. 记录度量的时间
5.9. 度量的时间随时间推移发生的变化
6. 分析
6.1. 构建数据湖仓的根本数据的紧张目的是支持分析处理
[*]6.1.1. 根本数据紧张用于支持分析处理,但偶然也会应用在运营中
6.2. 结构化数据分析
[*]6.2.1. 我们需要确保所分析的是完备的结构化数据,如许构造才可以或许在整个构造范围内举行分析处理
[*]6.2.2. 将未集成的应用程序生成的数据存入根本数据中是错误的
6.3. 文本数据分析
[*]6.3.1. 使用根本数据举行分析处理还有一种方式,那就是举行文本数据分析
[*]6.3.2. 直接将原始文本数据存储在根本数据中都不是一个明智的策略
[*]6.3.3. 如果根本数据中有了分析文本数据所需的根本,就可以开展各类分析工作
[*]6.3.4. 文本数据分析的一个典范应用场景是相识客户的情绪状况
[*]6.3.5. 文本数据分析还可用于相关性分析
[*]6.3.5.1. 在相关性分析中,分析的对象是多个同时生成的变量
6.4. 模仿/物联网数据分析
[*]6.4.1. 模仿/物联网数据分析可以或许展示数据的团体情况大概单条/多条记录的分析结果
6.5. 结构化数据和文本数据的联合
[*]6.5.1. 将结构化数据和文本数据联合起来举行分析
[*]6.5.2. 当结构化数据与文本数据合并时,一张完备且精确的客户画像便出现了出来
[*]6.5.3. 通过对客户的洞察可以或许使厂商改进产品和服务,获得增长新客的机会
[*]6.5.4. 举行客户360度全景分析、客户趋势分析和店铺满足度分析等
[*]6.5.5. 难点在于结构化数据的操作是基于键、属性和索引举行的,而我们通常语言或写作的方式并不符合这种结构
[*]6.5.6. 当无法在结构化数据和文本数据之间建立连接时,要想同时分析这两种数据将非常困难,甚至是不可能的
6.6. 连接3个环境
[*]6.6.1. 在3个环境之间建立连接也是有可能的
[*]6.6.2. 不同环境之间的连接通常都属于弱连接,这种弱连接会限定很多紧张的分析处理工作的开展
6.7. 3种方式分析和处理根本数据
[*]6.7.1. 通过仪表盘
[*]6.7.1.1. 仪表盘适用于展示静态数据和明白定义的数据,也适用于那些数据结构以及与其他数据的关系不经常变化的场景
[*]6.7.1.2. 对于那些动态变化的数据与数据关系经常变化的场景,则不宜通过仪表盘来展现
[*]6.7.1.3. 仪表盘恰当用于展示汇总数据,不恰当出现个体数据
[*]6.7.1.4. 最吸引人的地方在于可以或许将数据可视化
6.7.1.4.1. 通常,高层管理者都对酷炫的可视化效果青睐有加
[*]6.7.2. 通过知识图谱
[*]6.7.2.1. 知识图谱适用于展示动态数据,其中数据元素之间的关系也会不停变化,它可以或许帮助关联不同类型的数据
[*]6.7.2.2. 知识图谱还适用于展示详细数据,但并不适用于汇总数据
[*]6.7.3. 通过电子表格
[*]6.7.3.1. 巨大价值在于即时性和极强的灵活性
[*]6.7.3.2. 任何用户都可以打开电子表格工具,处理各种类型的数据,并直接录入数据
[*]6.7.3.3. 无法包管数据的完备性,也无法判断其中的某个数据是否准确可信
[*]6.7.3.4. 由于任何人都可以在电子表格中输入任何值,因此难免让大家怀疑其中的数据的可信度
6.8. 只要基于可靠的根本数据,数据分析的结果便是可信的
7. 软数据
7.1. 数据湖仓中根本数据的本质应该是可信的
[*]7.1.1. 如果根本数据不可信,就不应该把这些数据存入数据湖仓中
[*]7.1.2. 当人们访问根本数据时,必须相信检索到的数据是准确和完备的
7.2. 当我们提到结构化数据、文本数据和模仿/物联网数据时,通常不会对数据的真实性产生疑问
[*]7.2.1. 这种数据被称为“硬”数据
7.3. 软数据是指来自电子表格、互联网或政府的数据
7.4. 软数据的题目在于其准确性和真实性
7.5. 软数据与根本数据中的“硬”数据存在差别
7.6. 软数据是否应该存入根本数据呢?
[*]7.6.1. 取决于软数据的可信度,同时我们还要思量是否可以将软数据与已经确定和审查过的数据联合起来
[*]7.6.2. 必须确保软数据的有效性,如果软数据不符合有效性要求,则不应将其存入根本数据
7.7. 从全部软数据泉源的角度来看,在将数据存入根本数据之前,需要对数据举行确认,以相识数据的可信度
8. 电子表格数据
8.1. 软数据的第一个数据泉源是电子表格
8.2. 在根本数据中存入电子表格数据会受到许多严格的限定
8.3. 最大的题目是数据泉源的不确定性
[*]8.3.1. 我们无法确定电子表格中的数据是否真实可靠
[*]8.3.2. 由于任何人都可以在电子表格中填写任何内容,因此,我们必须先思量电子表格数据的可信度
[*]8.3.3. 如果电子表格中的数据不可信,就不应该将其存入根本数据中
8.4. 电子表格中的数据没有可用或可靠的元数据
8.5. 只能从电子表格中获取文本数据,但即便如此,也必须确保文本数据可以或许体现上下文情境
9. 互联网数据
9.1. 软数据的第二个丰富的数据泉源是互联网
9.2. 只要数据经过认证和验证,我们就可以将互联网数据存入根本数据中
9.3. 有些网站不盼望人们从他们的网站获取数据
9.4. 从互联网上获取数据导致的隐私题目并不常见
[*]9.4.1. 由于在互联网上发布的数据大多属于公共领域,因此通常不涉及隐私题目
9.5. 在大部分情况下,在互联网上获取的数据基本都是一次性的,虽然数据有可能会不停更新,但是总体而言这种概率是比力低的
10. 政府数据
10.1. 软数据的第三个可能的数据泉源是政府
10.2. 政府会发布大量可能有效的数据
[*]10.2.1. 利率
[*]10.2.2. 人口数目
[*]10.2.3. 通货膨胀率
[*]10.2.4. 就业率
10.3. 可以把政府公布的数据存入根本数据
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]