论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
云原生
›
大数据-260 实时数仓 - 项目配景与需求 实时数仓架构 需 ...
大数据-260 实时数仓 - 项目配景与需求 实时数仓架构 需求分析 技术选型 逻 ...
张裕
金牌会员
|
2024-12-31 12:49:20
|
显示全部楼层
|
阅读模式
楼主
主题
566
|
帖子
566
|
积分
1698
点一下关注吧!!!非常感谢!!持续更新!!!
Java篇开始了!
MyBatis 更新完毕
目前开始更新 Spring,一起深入浅出!
目前已经更新到了:
Hadoop(已更完)
HDFS(已更完)
MapReduce(已更完)
Hive(已更完)
Flume(已更完)
Sqoop(已更完)
Zookeeper(已更完)
HBase(已更完)
Redis (已更完)
Kafka(已更完)
Spark(已更完)
Flink(已更完)
ClickHouse(已更完)
Kudu(已更完)
Druid(已更完)
Kylin(已更完)
Elasticsearch(已更完)
DataX(已更完)
Tez(已更完)
数据发掘(已更完)
Prometheus(已更完)
Grafana(已更完)
离线数仓(已更完)
实时数仓(正在更新…)
章节内容
Griffin架构 修改配置
pom.xml sparkProperties
编译启动
项目配景
随着互联网的发展,数据的时效性对企业的精细化运营越来越紧张,天天产生的海量数据中,如何能实时的发掘出有代价的信息,对企业的决定运营计谋调整有很大帮助。此外,随着 5G 技术的成熟、广泛应用,对于互联网、物联网数据的时效性要求非常高的企业,需要实时的数据体系来提高自身的行业竞争力。
随着数据时效性在企业运营中的紧张性日益凸显,比方:
实时推荐
精准营销
广告投放效果
实时物流
数据实时处置惩罚本事成为企业提升竞争力的一大因素,最初阶段重要采用来一个需求,编写一个实时任务的方式来处置惩罚实时数据,随着需求的增多,盘算任务也相对增多,而且差别任务的开发人员差别,导致开发风格差异化,该阶段的实时数据处置惩罚缺乏统一的规划,代码风格差异化严重,在维护成本和开发效率上有很大障碍。
为了制止上述的标题,人们参照数据仓库的概念和模型来重新规划和计划实时数据处置惩罚,在此基础上产生了实时数据仓库(实时数仓)。
数仓概念
离线数仓架构
实时数仓架构
网络层
Binlog(业务日志)、IoT(物联网)、后端服务日志(系统日志)
经过日志网络团队和 DB 网络团队的处置惩罚,数据将会网络到 Kafka 中,这些数据不只是到场实时盘算,也会到场离线盘算。
存储层
Kafka:实时增量数据
HDFS:状态数据存储和全量数据存储(长期层)
HBase:维度数据存储
引擎层
实时处置惩罚框架
平台层
数据、任务和资源三个角度去管理 集群资源
应用层
底层架构的应用场景
流量相干
流量数据的产生:差别通道的埋点和差别页面的埋点产生的数据
采集:按照业务维度划分差别的业务通道
应用:流的方式提供卑鄙业务使用、流量方面的分析
实时效果验证
CPV(展示广告)又称富媒体广告,按展示付费,即按投放广告网站的被展示次数计费,网站被打开一次计费一次。
CPC 与 CTR:在现在的广告业 CPC 这个指标很难用来跟效果扯上关系,更多的时间是计费单元了。而 CTR 有的时间还是会作为效果的工具,大多用来权衡两次投放的差别投放计谋、优化计谋、创意的优劣。
Reach Rate:广告产生点击动作以后,后面的指标就是到达。点击后到达的比率是一个紧张的指标,是否比较高的到达率是广告效果的紧张体现。
Conversation Rate:广告后续的转换比率,从到到达转化的比率是用来评估广告效果的一种指标
需求分析
日志数据:启动日志、点击日志、广告日志
业务数据:用户下单、提交订单、付出、退款等核心交易数据的分析
广告流量的实时统计:生成动态黑名单
恶意刷单:一旦发现恶意刷单举行实时警告,基于动态黑名单举行行为过滤,盘算每隔 5 分钟统计近来一小时内各广告的点击量,盘算天天各省的热门广告,盘算天天各广告近来 1 小时内的点击趋势
点击泉源:从差别的维护分析用户是从那里来的
渠道质量:针对用户举行以下几方面分析,访问时长、是否消费、首次消费的金额、收藏、访问页面数(PV)
风险控制:当检测到交易非常时举行实时警告
技术选型
技术选型方案
框架选型:Apache、第三方发行版(CDH、HDP、Fusion Insight)。
Apache 社区版本的优点:
完全开源免费
社区活泼
文档、资料详实
Apache 社区版本的缺点:
复杂的版本管理
复杂的集群安装
复杂的集群运维
复杂的生态环境
第三方发型版本(CDH、HDP、Fusion Insight)Hadoop 服从 Apache 服从Apache开源协议,用户可以免费的任意使用和修改 Hadoop。
正因如此,市面上很多厂家在 Apache Hadoop 的基础上开发自己的产物,如 Cloudera 的 CDH,Hortonworks 的 HDP,华为的 Fusion Insight等,这些产物的优点是:
重要功能和社区一致
版本管理清晰,比如 Cloudera、CDH1、CDH2、CDH3、CDH4 等,后面加上补丁版本
比 Apache Hadoop 在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过大量的测试验证,有浩繁部署实例,大量的运用各种生产环境
版本更新快,如 CDH 每个季度会有一个 update,每一年会有一个 release
基于稳定的版本 Apache Hadoop,并应用了最新 BUG 修复
提供了部署、安装、配置工具,大大提供了集群部署的效率,可以在几个小时内部署好集群
运行简单,提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位标题快速、准确、使运行工作简单、有效
CDH:最成型的发型版本,拥有最多的部署案例,提供强大的部署、管理和监控工具,国内使用最多的版本,拥有强大的社区支持,当遇到标题时,能够通过社区、论坛等网络资源快速获取解决方法
HDP:100% 开源,可以举行二次开发,但没有 CDH 稳定,国内使用相对较少,Fusion Insight:华为基于 Hadoop 2.7版本开发的,坚持分层,解耦,开放的原则,得益于高可靠性,在全国各地政府、运营商、金融系统有较多案例。
软件选型方案
数据采集:Flume、Canal
数据存储:MySQL、Kafka、HBase、Redis
数据盘算:Flink
OLAP:ClickHouse、Druid 框架
逻辑架构
业务数据库表布局
业务数据库:
交易订单表(trade_orders)
订单产物表(order_product)
产物信息表(product_info)
产物分类表(product_category)
商家店铺表(shops)
商家地区组织表(shop_admin_org)
付出方式表(payments)
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
张裕
金牌会员
这个人很懒什么都没写!
楼主热帖
linux企业版火绒(火绒终端安全管理体 ...
ESP32 IDF开发 应用篇⑭ Wifi TCP客户 ...
复杂度(上卷)
AI绘画Stable Diffusion Lora模子的利 ...
LLaMa系列模子详解(原理介绍、代码解 ...
jenkins自动化部署(node服务器) ...
什么时候用C而不消C++?
Linux安装最新版Docker完整教程(建议 ...
049-WEB攻防-文件上传&存储安全&OSS对 ...
微信云小程序快速上手云数据库+云函数+ ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表