ToB企服应用市场:ToB评测及商务社交产业平台

标题: 云盘算之大数据(上) [打印本页]

作者: 吴旭华    时间: 2024-9-21 08:47
标题: 云盘算之大数据(上)
目次
一、Elasticsearch
1.1 产品组件
1.1.1 X-Pack
1.1.2 Beats数据采集中央
1.1.3 Logstash
1.1.4 Kibana
1.2 架构特性
1.2.1 性能
1.2.2 安全性
1.2.3 可用性
1.2.4 可扩展性
1.2.5 可维护性
1.2.6 国际化
1.3 综合检索分析
1.4 全观测
1.5 大数据检索加速
1.6 最佳实践 - 多模态搜刮
1.6.1 需求分析
1.6.2 解决方案
1.7 最佳实践 - 全观测
1.7.1 需求分析
1.7.2 解决方案
1.8 最佳实践 - 数据检索加速
1.8.1 需求分析
1.8.2 解决方案
二、DataWorks
2.1 产品介绍
2.2 产品功能
2.2.1 数据建模
2.2.2 数据集成离线(批量)同步
2.2.3 数据集成及时同步
2.2.4 数据集玉成增量同步任务
2.2.5 数据开辟
2.2.6 数据分析
2.2.7 数据治理
2.2.8 数据服务
2.3 最佳实践-调度参数在数据集成中的典范应用场景
2.3.1 场景一:同步增量数据
2.3.2 场景二:同步汗青数据
2.4 常见问题
2.4.1 什么是调度依靠?
2.4.2 哪些场景不支持设置调度依靠?
2.4.3 数据源网络联通性测试失败怎么办?
2.4.4 提交节点报错:当前节点依靠的父节点输出名不存在
三、MaxCompute
3.1 产品架构
3.2 核心概念和层次布局
3.3 功能特性
3.3.1 全托管Serverless在线服务
3.3.2 弹性本领与扩展性
3.3.3 统一丰富的盘算和存储本领
3.3.4 数据建模、开辟、治理本领
3.3.5 集成AI本领
3.3.6 深度集成Spark引擎
3.3.7 湖仓一体
3.3.8 离线及时一体
3.3.9 支持流式写入和近及时分析
3.3.10 连续的SaaS化数据保护
3.4 MaxCompute SQL与标准SQL的根本区别
3.5 最佳实践-数据模型架构规范
3.5.1 数据层次分别
3.5.2 数据分类架构
3.6 最佳实践 –小文件处置惩罚
3.6.1 小文件界说
3.6.2 小文件过多会带来的影响
3.6.3 会产生小文件的场景
3.7 常见问题
3.7.1 使用MaxCompute必要具备什么专业技能?
3.7.2 MaxCompute中的项目(project)发挥什么作用?
3.7.3 MaxCompute的表格范例有几种,分别是什么?
3.7.4 MaxCompute常见错误信息如何理解,怎么定位问题?
总结
1、Elasticsearch
2、DataWorks
3、MaxCompute


一、Elasticsearch

1.1 产品组件

        在阿里云Elastic Stack产品生态下,Elasticsearch作为及时分布式搜刮和分析引擎,Kibana实现灵活的可视化分析,Beats从各个机器和体系采集数据,Logstash采集、转换、优化和输出数据。通过各个组件的结合,阿里云Elasticsearch可被广泛应用于及时日志处置惩罚、全文搜刮和数据分析等领域。
1.1.1 X-Pack

        X-Pack是Elasticsearch的一个商业版扩展包,包罗安全Security、警告 Alerting、监控Monitoring、图形Graph和报告Reporting、机器学习 MachineLearning等多种高级功能。创建阿里云Elasticsearch集群时,体系会默认将X-Pack作为插件集成在Kibana中,为您免费提供授权认证、脚色权限管控、及时监控、可视化报表、机器学习等本领,实现更便捷的Elasticsearch运维管理和应用开辟。
1.1.2 Beats数据采集中央

        Beats是轻量级的数据采集工具,聚集了多种单一用途的数据采集器。它们从成百上千或成千上万台机器和体系向Logstash或Elasticsearch发送数据。
        阿里云Elasticsearch的Beats采集中央支持Filebeat、Metricbeat、Auditbeat和Heartbeat。支持在云服务器ECS(Elastic Compute Service)和容器服务ACK(Alibaba Cloud Container Service for Kubernetes)集群中一键摆设采集器,可视化采集与配置日志文件、网络数据、容器指标等多种范例数据,并集中管理多个采集器。
1.1.3 Logstash

        Logstash作为服务器端的数据处置惩罚管道,通过输入、过滤和输出插件,动态地从多个来源采集数据,并加工和转换任何范例的变乱,最终将数据存储到所选择的位置。
        阿里云提供全托管的Logstash Service,100%兼容开源。支持一键摆设、可视化配置和集中管理数据管道,提供多种插件实现与OSS、MaxCompute等云产品的连通。
1.1.4 Kibana

        Kibana是灵活的数据分析和可视化工具,支持多用户登录。在Kibana中,您可以搜刮和检察Elasticsearch索引中的数据,并进行交互。创建阿里云Elasticsearch集群时,体系会主动摆设独立的Kibana节点,您可以根据业务需求,灵活使用图表、表格、舆图等,呈现多元化的数据分析报表和大盘。
1.2 架构特性

1.2.1 性能


1.2.2 安全性


1.2.3 可用性


1.2.4 可扩展性


1.2.5 可维护性


1.2.6 国际化


1.3 综合检索分析

        基于Elasticsearch的企业级综合检索解决方案,提供面向海量数据的信息检索服务,使得生活在移动互联网中的用户能够查询各种各样的布局化和非布局化信息,以 JSON 文档的情势存储数据,每个文档都会在一组键和它们对应的值之间创建接洽,以实现综合检索本领。实用场景包罗信息检索、舆情分析、保举体系、广告体系等多种对综合检索&召回有需求的场景。
        方案满足综合检索分析场景核心特性必要,包罗能够实现海量数据毫秒级相应,满足数据来源多样且字段不固定,日均亿级别连续写入数据高并发处置惩罚,且要求豪秒级别可见的数据及时性;支持复杂查询检索,灵活支持各类复杂组合、条件和模糊查询,实用于全文检索及分析类业务;支持向量多模态检索,基于向量特性相似度匹配,典范应用于解决以图搜图、智能问答、保举体系-向量召回链路等场景问题。

1.4 全观测

        基于阿里云Elasticsearch全观测引擎日志和时序加强功能,将日志、指标、应用追踪数据汇总于阿里云Elasticsearch平台,让运维、开辟、业务人员对所有的数据从统一视角进行观察分析。
        阿里云全托管ElasticStack,提供日志分析、监控、Tracing一站式本领,针对时序场景优化引擎,包管时许日志监控和分析性能。提供Indexing service自研ES写入托管服务,及跨机房摆设、同城容灾、场景内核优化提升稳固性;采取冷热数据分离存储方式,及自研存储引擎Openstore优化存储压缩算法,降低数据存储成本,以及采取时序加强功能TimeStream,提升时序场景读写性能并降低时序数据管理成本;基于分布式架构,以及灵活开放的RestAPI和Plugin框架,支持各种扩展本领。 

1.5 大数据检索加速

        随着数据量的激增,复杂检索(高纬度聚合、模糊检索等)需求和场景越来越复杂,传统关系型数据库越来越难以匹配业务需求。Elasticsearch借助其强大的检索性能、ms级数据时效性、浩繁异构数据源对接本领完全满足客户多种场景下的诉求。


1.6 最佳实践 - 多模态搜刮

1.6.1 需求分析

        国内某知名连锁餐饮企业,缺少会员、订单、商品等多渠道数据的集中管理、分析处置惩罚本领,盼望全渠道网络门店POS、交易数据、客流数据、用户数据,并准及时分析数据、搭建可视化监控看板及报表联动权限管控体系,实现“数据化管理”,构建新一代的会员管理、运营、社交、营销平台,为上层业务发现问题与机会,辅助商业决策,提升业务成效。
1.6.2 解决方案

使用产品功能:Beats、Elasticsearch、Logstash、Kibana(大概Grafana)
接入方式:公共云产品
使用细节:

1.7 最佳实践 - 全观测

1.7.1 需求分析

        某国内某汽车品牌企业IT部门下,有多个内容管理体系(CMS)、分销商经营办公体系(DMO)、运营质量监控体系(QIS)、营销经营分析体系(MMP)、BI体系等内部支撑体系。

1.7.2 解决方案

使用产品功能:Beats、EMR、Flink、Elasticsearch、Kibana
接入方式:公共云产品
使用细节:


1.8 最佳实践 - 数据检索加速

1.8.1 需求分析

        国内某电商平台信息技术服务供应商有订单处置惩罚、商品管理、分销供应、数据分析、营销打折等业务场景,峰值并发查询压力大,延迟高体验不好,无法到达为用户答应的查询时效性。订单字段复杂,商家用户查询维度多,模糊搜刮意图强,传统数据库方案无法实现满意的查询效果和性能;数据可用性、安全、权限粒度要求高,数据敏感影响巨大。必要高并发准及时搜刮本领支持,查询效果毫秒级返回,同时保障体系高效稳固;必要多种数据布局复杂查询,集群平滑扩缩容,变更对业务0影响,灵活应对流量峰谷。
1.8.2 解决方案

使用产品功能:Elasticsearch、DTS(大概Canal+Logstash)
接入方式:公共云产品
使用细节:

二、DataWorks

2.1 产品介绍

        阿里云DataWorks(也称为大数据开辟套件)是一个集数据集成、开辟、治理、运维于一体的数据中台建设工具。它为企业提供了一个一站式的数据处置惩罚平台,帮助用户轻松地完成数据的采集、存储、处置惩罚、分析和管理等工作。
2.2 产品功能

2.2.1 数据建模

        概论:DataWorks数据建模支持数仓规划计划、制定并沉淀企业数据标准、维度建模、数据指标界说,通过使用DataWorks数据建模,您可以将建模计划产出的维度表、明细表和汇总表物化到盘算引擎中并进一步应用。

2.2.2 数据集成离线(批量)同步

        数据集成主要用于离线(批量)数据同步。离线(批量)的数据通道通过界说数据来源和行止的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架计划一套简化版的中央数据传输格式,从而实现任意布局化、半布局化数据源之间数据传输。

2.2.3 数据集成及时同步

        数据集成的及时同步包罗及时读取、转换和写入三种基础插件,各插件之间通过内部界说的中央数据格式进行交互。一个及时同步任务支持多个转换插件进行数据清洗,并支持多个写入插件实现多路输出功能。同时针对某些场景,支持整库及时同步全增量同步任务,您可以一次性及时同步多个表。

2.2.4 数据集玉成增量同步任务

        实际业务场景下,数据同步通常不能通过一个或多个简朴离线同步大概及时同步任务完成,而是由多个离线同步、及时同步和数据处置惩罚等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。
        为相识决上述问题,DataWorks提出了面向业务场景的同步任务配置化方案,支持差别数据源的一键同步功能,例如,“一键及时同步至Elasticsearch”、“一键及时同步至Hologres”和“一键及时同步至MaxCompute”功能等,通过此类功能,您只必要进行简朴的配置,就可以完成一个复杂业务场景。
全增量同步任务具有如下优势:

数据集成支持复杂网络情况下的数据源进行异构数据源间的数据同步,包罗但不限于以下情况:

2.2.5 数据开辟


2.2.6 数据分析


2.2.7 数据治理


2.2.8 数据服务

        数据服务采取Serverless架构,只必要关注API本身的查询逻辑,无需关心运行情况等基础设施,数据服务会为您准备好盘算资源,并支持弹性扩展,零运维成本。

2.3 最佳实践-调度参数在数据集成中的典范应用场景

2.3.1 场景一:同步增量数据

        示例1:将LogHub每十分钟内的增量数据同步至MaxCompute T-1分区。
        平台将根据定时时间,每十分钟天生一个调度实例,目的MaxCompute表分区名称也以调度参数的方式指定,$bizdate表示业务日期,定时任务实行时,任务配置的分区表达式会替换为调度参数所表达的业务日期。

2.3.2 场景二:同步汗青数据

        基于调度参数可根据业务时间将参数主动替换为对应的值这一特性,当您创建任务当天必要将汗青数据进行补齐时,您可使用补数据功能,补数据支持补汗青一段时间的数据大概将来一段时间的数据,调度参数将在任务调度时根据补数据选择的业务时间主动替换为对应的值。

2.4 常见问题

2.4.1 什么是调度依靠?

        调度依靠就是节点间的上卑鄙依靠关系,在DataWorks中,上游任务节点运行完成且运行成功,卑鄙任务节点才会开始运行。挂载依靠关系后,当前节点实行的必要条件之一为当前节点依靠的父节点必要实行成功。
2.4.2 哪些场景不支持设置调度依靠?

由于DataWorks的调度依靠主要保障的是调度节点定时更新的表数据,通过节点调度依靠保障卑鄙取数无误。因此,不是DataWorks平台上调度更新的表,平台无法监控。
当存在非周期性调度生产数据的表,有节点select该类表数据时,需手动删除通过select主动天生的依靠上游节点配置。非周期性调度生产数据的表包罗:

2.4.3 数据源网络联通性测试失败怎么办?

错误征象:添加数据源PolarDB时,网络连通性测试失败。
如何处置惩罚:切换到jdbc毗连串,同时查抄白名单配置,以及独享资源组的VPC配置。
2.4.4 提交节点报错:当前节点依靠的父节点输出名不存在

可能缘故原由1:没有节点产出这个表
可能缘故原由2:有节点产出该表数据,但是该表没有添加为该节点的输出
可能缘故原由3:存在同名的节点输出
三、MaxCompute

3.1 产品架构



3.2 核心概念和层次布局

核心概念

阐明

Project(项目)
项目是MaxCompute的根本构造单元,类似于传统数据库的Database或Schema的概念
Table(表)
表是MaxCompute的数据存储单元
Partition(分区)
分区Partition是指一张表下,根据分区字段对数据存储进行分别。如果表有分区,每个分区对应表下的一个目次,数据是分别存储在差别的分区目次下
View(视图)
视图是在表之上创建的虚拟表,它的布局和内容都来自表。如果想保留查询效果,但不想创建表占用存储,可以通过视图实现
User(用户)
MaxCompute支持通过阿里云账号、RAM用户或RAM脚色访问MaxCompute
Role(脚色)
脚色是MaxCompute安全功能中的概念,可以理解为拥有雷同权限的用户的聚集
Resource(资源)
资源是MaxCompute中特有的概念。当您使用MaxCompute的自界说函数(UDF)或MapReduce功能时,必要依靠资源来完成
Function(函数)
MaxCompute提供函数功能,包罗内建函数和UDF
Instance(实例)
即实际运行作业的一个具体实例,类同Hadoop中Job的概念
Networklink(网络毗连)
当使用外部表、UDF或湖仓一体功能时,MaxCompute默认未创建与外网或VPC网络间的网络毗连,必要开通网络毗连


通常MaxCompute的各层级概念的构造模式如下:

3.3 功能特性

3.3.1 全托管Serverless在线服务


3.3.2 弹性本领与扩展性


3.3.3 统一丰富的盘算和存储本领


3.3.4 数据建模、开辟、治理本领


3.3.5 集成AI本领


3.3.6 深度集成Spark引擎


3.3.7 湖仓一体


3.3.8 离线及时一体


3.3.9 支持流式写入和近及时分析


3.3.10 连续的SaaS化数据保护


3.4 MaxCompute SQL与标准SQL的根本区别

主要区别
问题征象
解决方法
应用场景
不支持事务(不支持Commit和Rollback,不保举使用INSERT INTO)。
发起代码具备幂等性,支持重新实行。保举您使用INSERT OVERWRITE写数据。
不支持索引和主键约束。
无。
部分字段不支持默认值或默认函数。
如果字段有默认值,您可以在数据写入时自行赋值。MaxCompute支持在创建表时,对BIGINT、DOUBLE、BOOLEAN和STRING范例的字段添加默认值。
不支持自增字段。
无。
表分区
单表最多支持6万个分区。超过6万个分区会报错。
选择合适的分区列,减少分区数。
一次查询输入的分区不能超过1万个,否则会报错。如果是2级分区且查询时只根据2级分区进行过滤,总的分区数大于1万也可能导致报错。
解决方法请拜见实行INSERT INTO或INSERT OVERWRITE操纵时,报错a single instance cannot output data to more than 10000 partitions,如何解决?。
精度
DOUBLE范例存在精度问题。
不发起直接使用等于号(=)关联两个DOUBLE字段。发起将两个数相减,如果差距小于一个预设的值,则以为两个数是雷同的。例如ABS(a1-a2)<0.000000001。
固然MaxCompute支持高精度范例DECIMAL,但是有更高精度的要求。
如果有更高的精度要求,您可以先把数据存储为STRING范例,然后使用UDF实现对应的盘算。
数据范例转换
出现各种预期外的错误,代码维护问题。
如果有2个差别的字段范例必要实行JOIN操纵,发起您先转换字段范例再实行JOIN操纵。
日期范例和字符串的隐式转换。
如果在必要传入日期范例的函数中传入一个字符串,字符串和日期范例根据yyyy-mm-dd hh:mi:ss格式进行转换。
3.5 最佳实践-数据模型架构规范

3.5.1 数据层次分别


3.5.2 数据分类架构



3.6 最佳实践 –小文件处置惩罚

3.6.1 小文件界说

MaxCompute使用盘古分布式文件体系是按块(Block)存放的,通常文件大小比块大小小的文件(默认块大小为64MB),被称为小文件。
3.6.2 小文件过多会带来的影响


3.6.3 会产生小文件的场景


3.7 常见问题

3.7.1 使用MaxCompute必要具备什么专业技能?

        MaxCompute支持多种盘算模型数据通道,满足多场景需求。以是您只必要会使用SQL、Python、Java等开辟语言就可以使用MaxCompute进行湖仓数据开辟与数据分析。
3.7.2 MaxCompute中的项目(project)发挥什么作用?

        项目(Project)是MaxCompute的根本构造单元,类似于传统数据库的Database或Schema的概念,是进行多用户隔离和访问控制的主要边界。项目中包罗多个对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)等。一个用户可以同时拥有多个项目的权限。通过安全授权,可以在一个项目访问另一个项目中的对象。
3.7.3 MaxCompute的表格范例有几种,分别是什么?

        MaxCompute的表格有两种范例:内部表和外部表(MaxCompute 2.0版本开始支持外部表)。
        对于内部表,所有的数据都存储在MaxCompute中,表中列的数据范例可以是MaxCompute支持的任意一种数据范例。
        对于外部表,MaxCompute并不真正持有数据,表格的数据可以存放在OSS或OTS中。MaxCompute仅会记载表格的Meta信息,您可以通过MaxCompute的外部表机制处置惩罚OSS或OTS上的非布局化数据,例如视频、音频、基因、气象、地理信息等。
3.7.4 MaxCompute常见错误信息如何理解,怎么定位问题?

        MaxCompute的常见报错信息编号有规范界说,格式为:异常编号:通用描述 - 上下文相关阐明。其中SQL、MapReduce、Tunnel的错误信息是不一样的。
总结

1、Elasticsearch


2、DataWorks


3、MaxCompute



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4