论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
Oracle
›
读数据湖仓02数据抽象
读数据湖仓02数据抽象
八卦阵
论坛元老
|
2024-9-28 08:29:07
|
显示全部楼层
|
阅读模式
楼主
主题
1514
|
帖子
1514
|
积分
4542
1. 不同范例的数据
1.1. 不同范例的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式
1.2. 结构化数据
1.2.1. 在企业等组织中,只有少量的数据是结构化数据
1.2.2. 结构化数据是基于事件的数据,是组织日常业务的副产品
1.3. 文本数据
1.3.1. 存在于许多地方,如合同、电子邮件、电话交谈、医疗记录等
1.4. 机器生成的模拟/物联网数据
1.4.1. 这类机器包括摄像头、无人机、手表、闹钟、车辆等
1.4.2. 由机器生成的数据无处不在
2. 数据量
2.1. 在组织中,对于不同范例的数据有不同的度量维度
2.2. 最重要的维度是数据量,而存储和管理不同数据量所使用的技术也各不雷同
2.3. 与文本数据相比,结构化数据的数据量相对较小
2.4. 由机器生成的数据的数据量要远远凌驾文本数据的数据量
3. 数据的业务代价
3.1. 仅仅有大量的数据并不意味着所有的数据都具有业务代价
3.1.1. 有些数据的业务代价很高
3.1.2. 有些数据的业务代价则相对较低
3.2. 由机器生成的模拟/物联网数据
3.2.1. 只有一小部分具有巨大的业务代价
3.2.2. 大部分由机器生成的数据都是机械式的记录,它们很少或根本没有业务代价
3.2.2.1. 假如有一天车床由于异常导致无法正常工作,那么我们必要高度关注该车床当天生成的数据
3.2.2.2. 车床在工作过程中生成的有用数据的比例非常低
4. 数据的访问概率
4.1. 数据的访问概率与其蕴藏的业务代价密切相关
4.1.1. 数据被访问的概率会合在有业务代价的数据中
4.2. 数据湖仓中数据的访问概率与数据的业务代价呈正相关
4.3. 将不常被访问的数据与访问概率较高的数据存储在同一个地方是没有意义的,应该将其存储到不同的数据存储器中
4.4. 将不同范例的数据存储在一起不但会影响存储器的性能、增加成本,而且会降低数据分析工程师处理数据的效率
4.4.1. 将访问概率较高的数据与访问概率较低的数据存储在数据湖仓中的同一位置并不明智
4.5. 在对数据举行分隔存储时,我们必要考虑是否检索存储在大容量存储器中的数据
4.5.1. 必要考虑将数据存储到大容量存储器中后,在将来出现未知需求时,我们能否查找和分析已存入大容量存储器中的数据
4.5.2. 在大容量存储器中找到所需的数据后,就可以很容易地将该数据存储到高性能存储器中
5. 数据降级
5.1. 随着时间的推移,所有范例的数据都会发生数据降级(Data Degradation)
5.2. 数据的访问概率会随着时间的推移而降低
5.3. 存储时间越久的数据,对解决当前题目有帮助的概率就越低
6. 基于大容量存储器的数据归档机制
6.1. 随着时间的推移,数据的访问概率和业务代价都会降低,为了提高数据的存储本事,将大容量存储器作为归档数据的载体是须要的
6.2. 数据被存储在归档存储区,当必要用到相关数据时,可以在归档存储区举行检索
6.3. 假如数据归档处理恰当,那么险些不必要在归档存储区中检索数据
7. 数据抽象
7.1. 数据抽象是数据湖仓的基础,它是许多依赖企业数据的应用步调的基础办法
7.1.1. 正确的数据抽象使数据湖仓中的各方可以方便地访问和使用数据,也能使数据更易于明白
7.2. 数据抽象(Data Abstraction)是一种处理大量复杂数据的非常有用且须要的方法
7.3. 人们在日常生活中经常使用抽象的方法来处理规模庞大且复杂的事物
7.4. 使用抽象的方式引用对象比单独提及每个对象更轻便
7.5. 数据范例不同,抽象模式和方法也不同
7.5.1. 结构化数据通过数据模型举行抽象
7.5.2. 文本数据通过本体(Ontology)和分类尺度举行抽象
7.5.3. 模拟/物联网数据通过蒸馏算法举行抽象
7.6. 经过开端观察,可以发现,数据模型和本体好像是一回事
7.7. 这两种抽象范例之间也存在一些重要且明显的区别
7.7.1. 数据模型面向内部,着眼于组织的内部运行
7.7.2. 本体面向外部,用于描述外部世界
7.7.3. 数据模型描述的数据可在须要时举行更改
7.7.4. 本体所抽象的文本则不能更改
7.7.5. 数据模型所使用的数据是有限的
7.7.6. 文本以及文本所依据的外部世界的描述却不是有限的
7.7.6.1. 外部世界可以永远存在
7.8. 数据模型和本体是对数据的抽象,而蒸馏算法则是对处理过程的描述
7.9. 基础数据中还有另一种重要的抽象概念,即数据在组织流程中流动时对数据血缘的抽象
7.9.1. 数据是作为事件的一部分被采集的
7.9.2. 数据一旦被采集,就会与其他同类数据汇集在一起
7.9.3. 数据到达用于分析处理的位置后,分析人员必要全面了解数据经历的整个过程,只有这样他们才华成功举行分析处理
8. 结构化数据模型
8.1. 实体关系图(Entity Relationship Diagram,ERD)
8.1.1. 实体关系图描述了组织的主要主题领域及实体之间的关系
8.2. 数据项集(Data Item Set,DIS)
8.2.1. 数据项集则将实体扩展为其组成部分,包括特定实体的键、属性以及数据项会合实体的从属数据
8.3. 数据库模式(Database Schema)
8.3.1. 数据库模式是数据项集的镜像,它描述了数据的物理属性、索引和唯一键值等特性
8.3.2. 只是在数据项集的基础上增加了一些细节
8.4. 数据模型的不同组成部分是相互关联的,实体关系图中的每个实体都有一个对应的数据项集,并且每个数据项集都有一个对应的数据库模式
8.5. 数据模型通常不包括派生数据(Derived Data)或汇总数据(Summarized Data),仅包含粒度数据(Granular Data)
8.6. 数据模型的元素可用于为数据模型内部的数据提供上下文情境
9. 本体和分类尺度
9.1. 本体是一组相关的分类尺度
9.1.1. 本体是无限的,创建本体是为了满足特定群体的需求
9.1.1.1. 本体的元素可以无限扩展
9.1.2. 本体中的每个分类尺度都是独一无二的
9.1.3. 第一种范例的本体是通用的,实用于任何主题
9.1.3.1. “我喜欢……”
9.1.3.2. “我爱……”
9.1.4. 第二种范例的本体是针对某一学科的
9.1.4.1. 医生有医学术语
9.1.4.2. 律师有法律术语
9.1.4.3. 建筑工人有建筑术语
9.1.5. 第三种范例的本体是针对某个组织特定术语的本体
9.1.5.1. 某家石油公司会使用一些只在其内部使用的术语
9.2. 分类尺度是对相似事物的分类
9.2.1. 每个分类尺度中的元素都与其他分类尺度中的元素存在着某种关系
9.2.2. 分类尺度中的每个元素都与分类尺度的一般值有着雷同的关系
9.2.3. 分类尺度用于对同类对象举行分类
9.2.4. 分类尺度是用来描述外部世界的
9.2.5. 分类尺度是一种固定的文本抽象,不会随意改变
10. 蒸馏算法
10.1. 从大量模拟/物联网数据中蒸馏有用的数据
10.2. 蒸馏算法的形式多种多样,如何选择取决于模拟/物联网数据自身的业务代价和最终业务代价之间的差异
10.3. 随着时间的推移,蒸馏算法也会随条件的变化而改变
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
八卦阵
论坛元老
这个人很懒什么都没写!
楼主热帖
不可思议但又无处不在的漏洞,WEB安全 ...
【历史上的今天】6 月 2 日:苹果推出 ...
C#实现HTTP访问类HttpHelper
开源共建 | Dinky 扩展批流统一数据集 ...
企业应用超融合架构的设计实例及超融合 ...
袋鼠云春季生长大会圆满落幕,带来数实 ...
大规模 IoT 边缘容器集群管理的几种架 ...
ClickHouse 查询优化详细介绍
重磅硬核 | 一文聊透对象在 JVM 中的内 ...
【软考】系统集成项目管理工程师(二) ...
标签云
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
分布式数据库
登录参与点评抽奖加入IT实名职场社区
下次自动登录
忘记密码?点此找回!
登陆
新用户注册
用其它账号登录:
关闭
快速回复
返回顶部
返回列表