ToB企服应用市场:ToB评测及商务社交产业平台

标题: 大数据之路 读书条记 Day8 数据存储 [打印本页]

作者: 来自云龙湖轮廓分明的月亮    时间: 2024-8-12 11:38
标题: 大数据之路 读书条记 Day8 数据存储
回顾:
大数据之路 读书条记 Day7 实时技术 简介及流式技术架构
大数据之路 读书条记 Day6 离线数据开发之数据开发平台
  数据存储

1 数据范例

实时使命在运行过程中,会盘算很多维度和指标,这些数据需要放在一个存储系统中作为恢复大概关联使用。其中会涉及三种范例的数据:

   维表数据在实时数据处理使掷中扮演着关键脚色,尤其是在构建实时数据仓库或实时分析系统时。维表,即Dimension Tables,是数据仓库架构中的紧张组成部门,它们包罗了形貌性的信息,用来给究竟表中的数据提供上下文。在实时使掷中,维表数据的使用主要体现在以下几个方面:
    总之,维表数据在实时使掷中提供了须要的上下文信息,使数据更具可解释性,并且需要通过高效的计划和实施策略来确保实时性和准确性。
  2 数据库范例

数据库包括关系数据库、列式数据库、文档数据库等,在选择实时使命所用的数据库时,应该注意哪些特征呢?
前面的文章中提到过实时使命是多线程处理的,意味着使用的数据存储系统必须能较好的执行多并发读写,并且延时需要在毫秒级别。
实践中用得较多的有HBase\Tair\MongoDB等列式存储系统,它们基本满足需求。
   列式存储系统是一种专门计划用于优化数据分析工作负载的数据存储技术。与传统的行式存储不同,列式存储将数据按照列(属性)举行构造和存储,而不是按照行(记录)。这种存储方式尤其实用于数据仓库和大数据分析场景,因为在这种场景中,查询每每针对特定的列执行聚合或筛选操作,而不需要访问整行数据。
以下是列式存储的一些关键优势:
    然而,列式存储也存在一些缺点:
  
  但是这些系统也有明显的缺点,以HBase为例,一张表必须有rowkey。rowkey是按照ASCII码来排序的,这种规则限制了数据读取的方式,如果业务方需要接纳其他方式读取数据则需要重新输出rowkey,从这个角度看HBase乃至没有关系型数据库方便,但HBase一张表能存几到几十TB,而关系型数据库需要接纳分库分表的处理(Day5讲过)才气做到。因此,对于海量数据的实时盘算,一般会接纳非关系型数据库,以应对大量的多并发读写。
   HBase 是一个分布式、版本化的 NoSQL 数据库,它基于 Google 的 Bigtable 论文计划,主要用于处理海量的半布局化或非布局化数据。在 HBase 中,数据是以表格的形式存储的,每个表由一系列的行组成,而每一行都由一个唯一的行键(RowKey)来标识。
  RowKey 的概念

  RowKey 在 HBase 中起着至关紧张的作用,它是数据的主键,用于唯一标识表中的每一条记录。HBase 不提供传统的 SQL 式的索引,以是所有的数据检索和查询都直接或间接依赖于 RowKey。
  RowKey 的特点

    RowKey 的计划原则

  计划 RowKey 时,应考虑到以下几点:
  
  RowKey 的示例

  假设有一个用户运动日记表,常见的查询是根据用户 ID 和日期来获取数据,那么 RowKey 可能计划为 <UserID>:<Date> 的形式,比方 12345:20230101。
  总结

  RowKey 是 HBase 中最紧张的概念之一,它的计划直接影响到数据的存储效率和查询性能。合理计划 RowKey 可以帮助最大化 HBase 的性能,满足特定的应用需求。
  3 表名计划和rowkey计划

表名计划示例

计划规则:汇总层标识+数据域+主维度+时间维度
比方: dws_trd_slr_dtr
表现:汇总层生意业务数据,根据卖家(slr)主维度+0点截至当日(dtr)举行统计汇总
这样做的好处:

rowkey计划

计划规则:MD5 + 主维度 + 维度标识 + 子维度 1 + 时间维度 + 子维度 2
比方:卖家 ID 的 MD5 前四位 + 卖家 ID + app + 一级类目 ID + ddd + 二级类目 ID。
以 MD5 的前四位作为 rowkey 的第一部门,可以把数据散列,让服务器团体负载是均衡的,避免热门问题。在上面的例子中,卖家 ID 属于主维度,在查数据时是必传的。每个统计维度都会生成一个维度标识,以便在rowkey上做区分。
   
  按照上述规则计划的rowkey示例:“卖家ID的MD5前四位+卖家ID+app+一级类目ID+ddd+二级类目ID”。
  这种计划的好处在于:
    总之,rowkey的计划应该考虑到数据的分布、查询模式以及可能的扩展需求,以确保数据库系统的高效运行。
  
本日的分享到这里就竣事啦,点赞关注收藏,获取更多专业知识~

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4