大数据-260 实时数仓 - 项目配景与需求 实时数仓架构 需求分析 技术选型 逻 ...

张裕  金牌会员 | 2024-12-31 12:49:20 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 564|帖子 564|积分 1692

点一下关注吧!!!非常感谢!!持续更新!!!

Java篇开始了!



  • MyBatis 更新完毕
  • 目前开始更新 Spring,一起深入浅出!
目前已经更新到了:



  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据发掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(已更完)
  • 实时数仓(正在更新…)
章节内容



  • Griffin架构 修改配置
  • pom.xml sparkProperties
  • 编译启动

项目配景

随着互联网的发展,数据的时效性对企业的精细化运营越来越紧张,天天产生的海量数据中,如何能实时的发掘出有代价的信息,对企业的决定运营计谋调整有很大帮助。此外,随着 5G 技术的成熟、广泛应用,对于互联网、物联网数据的时效性要求非常高的企业,需要实时的数据体系来提高自身的行业竞争力。
随着数据时效性在企业运营中的紧张性日益凸显,比方:


  • 实时推荐
  • 精准营销
  • 广告投放效果
  • 实时物流
数据实时处置惩罚本事成为企业提升竞争力的一大因素,最初阶段重要采用来一个需求,编写一个实时任务的方式来处置惩罚实时数据,随着需求的增多,盘算任务也相对增多,而且差别任务的开发人员差别,导致开发风格差异化,该阶段的实时数据处置惩罚缺乏统一的规划,代码风格差异化严重,在维护成本和开发效率上有很大障碍。
为了制止上述的标题,人们参照数据仓库的概念和模型来重新规划和计划实时数据处置惩罚,在此基础上产生了实时数据仓库(实时数仓)。
数仓概念


离线数仓架构


实时数仓架构


网络层



  • Binlog(业务日志)、IoT(物联网)、后端服务日志(系统日志)
  • 经过日志网络团队和 DB 网络团队的处置惩罚,数据将会网络到 Kafka 中,这些数据不只是到场实时盘算,也会到场离线盘算。
存储层



  • Kafka:实时增量数据
  • HDFS:状态数据存储和全量数据存储(长期层)
  • HBase:维度数据存储
引擎层

实时处置惩罚框架
平台层

数据、任务和资源三个角度去管理 集群资源
应用层

底层架构的应用场景
流量相干



  • 流量数据的产生:差别通道的埋点和差别页面的埋点产生的数据
  • 采集:按照业务维度划分差别的业务通道
  • 应用:流的方式提供卑鄙业务使用、流量方面的分析

实时效果验证




  • CPV(展示广告)又称富媒体广告,按展示付费,即按投放广告网站的被展示次数计费,网站被打开一次计费一次。
  • CPC 与 CTR:在现在的广告业 CPC 这个指标很难用来跟效果扯上关系,更多的时间是计费单元了。而 CTR 有的时间还是会作为效果的工具,大多用来权衡两次投放的差别投放计谋、优化计谋、创意的优劣。
  • Reach Rate:广告产生点击动作以后,后面的指标就是到达。点击后到达的比率是一个紧张的指标,是否比较高的到达率是广告效果的紧张体现。
  • Conversation Rate:广告后续的转换比率,从到到达转化的比率是用来评估广告效果的一种指标
需求分析



  • 日志数据:启动日志、点击日志、广告日志
  • 业务数据:用户下单、提交订单、付出、退款等核心交易数据的分析
  • 广告流量的实时统计:生成动态黑名单
  • 恶意刷单:一旦发现恶意刷单举行实时警告,基于动态黑名单举行行为过滤,盘算每隔 5 分钟统计近来一小时内各广告的点击量,盘算天天各省的热门广告,盘算天天各广告近来 1 小时内的点击趋势
  • 点击泉源:从差别的维护分析用户是从那里来的
  • 渠道质量:针对用户举行以下几方面分析,访问时长、是否消费、首次消费的金额、收藏、访问页面数(PV)
  • 风险控制:当检测到交易非常时举行实时警告
技术选型

技术选型方案

框架选型:Apache、第三方发行版(CDH、HDP、Fusion Insight)。
Apache 社区版本的优点:


  • 完全开源免费
  • 社区活泼
  • 文档、资料详实
Apache 社区版本的缺点:


  • 复杂的版本管理
  • 复杂的集群安装
  • 复杂的集群运维
  • 复杂的生态环境
第三方发型版本(CDH、HDP、Fusion Insight)Hadoop 服从 Apache 服从Apache开源协议,用户可以免费的任意使用和修改 Hadoop。
正因如此,市面上很多厂家在 Apache Hadoop 的基础上开发自己的产物,如 Cloudera 的 CDH,Hortonworks 的 HDP,华为的 Fusion Insight等,这些产物的优点是:


  • 重要功能和社区一致
  • 版本管理清晰,比如 Cloudera、CDH1、CDH2、CDH3、CDH4 等,后面加上补丁版本
  • 比 Apache Hadoop 在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过大量的测试验证,有浩繁部署实例,大量的运用各种生产环境
  • 版本更新快,如 CDH 每个季度会有一个 update,每一年会有一个 release
  • 基于稳定的版本 Apache Hadoop,并应用了最新 BUG 修复
  • 提供了部署、安装、配置工具,大大提供了集群部署的效率,可以在几个小时内部署好集群
运行简单,提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位标题快速、准确、使运行工作简单、有效


  • CDH:最成型的发型版本,拥有最多的部署案例,提供强大的部署、管理和监控工具,国内使用最多的版本,拥有强大的社区支持,当遇到标题时,能够通过社区、论坛等网络资源快速获取解决方法
  • HDP:100% 开源,可以举行二次开发,但没有 CDH 稳定,国内使用相对较少,Fusion Insight:华为基于 Hadoop 2.7版本开发的,坚持分层,解耦,开放的原则,得益于高可靠性,在全国各地政府、运营商、金融系统有较多案例。
软件选型方案



  • 数据采集:Flume、Canal
  • 数据存储:MySQL、Kafka、HBase、Redis
  • 数据盘算:Flink
  • OLAP:ClickHouse、Druid 框架

逻辑架构


业务数据库表布局


业务数据库:



  • 交易订单表(trade_orders)
  • 订单产物表(order_product)
  • 产物信息表(product_info)
  • 产物分类表(product_category)
  • 商家店铺表(shops)
  • 商家地区组织表(shop_admin_org)
  • 付出方式表(payments)

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

张裕

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表