数据仓库与分析袋鼠云产品功能更新报告08期｜近百项全新功能和优化，你要的都在这里！

写过一篇 发表于 2024-1-22 01:38:57

袋鼠云产品功能更新报告08期｜近百项全新功能和优化，你要的都在这里！

欢迎来到袋鼠云08期产品功能更新报告！在瞬息万变的市场环境中，我们深知客户的需求与期待，因此，我们及时推出袋鼠云最新产品更新及优化，包括数据治理中心、Hive SQL 性能优化、新插件等，助力企业在数字世界中勇往直前。
以下为袋鼠云产品功能更新报告08期内容，更多探索，请继续阅读。
离线开发平台

新增功能更新

1.支持对接 Inceptor 表权限的申请和审批
背景：客户使用的是平台的 web 层权限管控方案，期望 Inceptor 表也能支持 web 层权限管控。
新增功能说明：
如图所示，当表权限通过后，用户则在离线中拥有审批通过后的Inceptor 表权限。权限主要分为以下三点：
• DQL：主要是 select 语句，只读权限
• DML：主要是 insert update 语句，只写权限
• DDL：主要是 alter 语句，变更表记录
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164407479-393452514.png
2.批量操作支持按基线进行任务的筛选
背景：客户希望在基线功能的基础上进行扩展，除了实现破线告警功能外，还希望能够支持批量设置资源租。这样，当某条基线出现错误时，可以更快地进行恢复。
新增功能说明：在批量操作处，增加基线筛选项。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164408490-54524955.png
3.任务优先级
背景：任务如果不出现异常（出错或延迟），集群资源一般是能够支持任务的正常运行，极少出现正常运行时的任务的大面积阻塞的情况。但如果任务依赖树比较复杂，上游几个重要任务出现异常且修复耗时长，会导致恢复后下游任务扎堆跑，那么就可能出现任务挤兑的情况，所以任务优先级的设置就显得尤为重要。
新增功能说明：支持在基线管理中对任务设置1-5个级别的优先级，数值越大，任务运行的优先级越高。优先级越高的任务，在调度资源紧张的情况下，将优先获得调度资源。
为基线设置优先级后，基线上所有任务及其有效上游任务自动赋予该优先级，配置优先级后将会在T+1生成的周期实例中生效。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164409101-2076793128.png
4.任务发布对接审批中心
背景：部分客户对任务发布至生产项目的安全性要求较高，希望能够审批后再完成发布。
新增功能说明：开启发布审批流程后，在离线执行发布动作后，审批人需要先在审批中心进行审批后，发布流程才可继续进行。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164409651-696225536.png
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164410098-61482031.png
5.项目支持绑定数据库账号
背景：部分客户遇到这样的场景，不同的项目由不同的团队负责，对应的数据权限也不同，因此希望能够在项目维度进行数据库账号的绑定。
新增功能说明：RDB 类的数据库账号支持在项目中进行设置。在控制台还可设置集群、个人层面的数据库账号，这三者间的优先关系是个人>项目>集群。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164410595-663438749.png
功能优化

1.Hive SQL 性能优化
背景：在客户侧运行 Hive SQL 时，反馈 Hive SQL 任务执行较慢。
体验优化说明：性能优化后，简单查询的速率有显著提升，具体用例和时间对比如下：
• SELECT * FROM putong0629.dl_user WHERE id > 0;（表有18个字段，10w条数据）
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164410884-682748462.png
• SELECT * FROM putong0629.dl_user WHERE id is not null LIMIT 1;（表有18个字段，10w条数据）
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164411259-1714631254.png
2.SQL 编辑器格式化优化，且支持回撤
• ctrl+Z/command+Z 进行格式化内容回撤
• 格式化后格式参考竞品和其他开源代码编辑器格式化方式进行了优化调整
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164411534-1937299189.png
3.日志实时打印优化
背景：间隔2.5s轮询任务日志，任务结束后未再继续轮询日志，会导致丢失日志中的关键信息。
体验优化说明：日志实时打印优化，任务失败后会再轮询打印一次日志。
4.离线开发 IDE 界面右侧菜单抽屉支持左右动态拉伸
背景：以前的交互逻辑如图所示，右侧抽屉是固定的，当填写参数等字段信息较多的参数时，非常不方便需要来回拉动查看信息。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164412660-1010241780.png
体验优化说明：可以自由拉伸右侧抽屉的宽度，调整至舒服的宽度再进行填写。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164413308-1819265218.png
5.SQL 查询结果空值优化
背景：目前离线展示的查询结果有问题，不管是空还是字符串都显示为空，用户无法进行区分。
体验优化说明：查询结果对「对象为字符串为“null” 」「对象为字符串为“” 」「对象为空」三种情况做了区分。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164413810-2126570623.png
6.任务下线时提示当前下游依赖的任务
背景：任务被下线时，会影响到当前任务的所有下游任务，用户通常没有很好的方式能够去判断具体影响了哪些下游任务。
体验优化说明：对任务进行下线操作时，会出现弹窗显示当前影响的任务范围。
7.GitLab 代码同步功能优化
• 适配 GitLab 版本15.7.8
• 项目拉取改为异步操作，防止拉取超时
• 任务推送从“保存后再推送"修改为“推送完成后再保存”
• 支持按照任务目录拉取
• 按文件类型选择时，修改为选填
• 批量操作希望支持批量推送和拉取
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164414351-1946029685.png
8.SQL 查询结果优化
• 离线元数据同步支持视图同步：离线数据源页面的元数据同步功能，支持元数据同步同步视图
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164414753-1557019542.png
• 支持数据源本地数据导入
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164415137-2086188574.png
• 查询返回行数
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164415505-1823028179.png
• 查询结果支持排序
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164415817-674654383.png
• 查询结果表名标识字段类型标记
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164416132-1416816416.png
9.调度周期为月时，支持选择最后一天
调度周期为“月”时，时间支持选择“每月最后一天”。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164416517-1318369196.png
10.Inceptor 读取支持范围分区
背景：在数据同步中，离线 Inceptor 读取不支持范围分区（Range Partitioning），仅支持了单值分区（Single-Value Partitioning）。
体验优化说明：在离线数据同步选择 Inceptor 数据源读取时，支持选择范围分区。
实时开发平台

新增功能更新

1.TBDS 账号
有 TBDS 账号的用户，往集群提交任务时以个人账号提交，其余统一以默认账号提交。
2.全局/任务告警新增“启停策略执行失败”触发方式
背景：目前平台无法感知到启停策略是否执行成功，比如运行中的任务是否按照启停策略正常停止了，停止的任务是否按照启停策略重新启动了。
新增功能说明：配置规则后可以在告警内容中看到具体失败的原因。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164416862-518651621.png
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164417171-225489707.png
3.支持用户自定义角色
背景：目前用户在平台内使用的角色和对应权限点是内置固定的，当不同用户对角色应有的权限点或者角色种类与平台提供的想法不一致时，无法根据自身需求进行修改。
新增功能说明：支持在「角色管理」中新增自定义角色并编辑相应角色权限点，并优化了项目内操作成员的权限。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164417450-1353923738.png
4.Flink1.16 任务支持 on k8s 运行
支持在控制台-集群配置中配置采集类型为 NFS 的 k8s，配置步骤在「整体说明-调度支持」中查看。
5.新增 Hudi 作为 FlinkSQL 的源表/结果表
支持引入 HMS 数据源，并且可以在 FlinkSQL 向导模式的源表/结果表选择 Hudi 表。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164417737-385068941.png
6.新增 HBase/ElasticSearch HuaweiCloud 作为 FlinkSQL 的维表/结果表
支持在结果表/维表中选择使用适配 fusioninsight/MRS 集群的 HBase/ES HuaweiCloud 数据源。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164418079-370539191.png
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164418952-1416570194.png
7.实时任务的 sql query、调试和售前 demo 任务通过的 session 模式提交
背景：目前实时平台的任务提交默认均走 perjob 模式，但是对于实时 sql query、调试、demo 任务的场景，需要更快速的产出数据，并不需要持续长时间的运行，perjob 模式的优势就利用不上了。并且 perjob 模式的劣势在于提交流程较长，也不符合此类场景。
新增功能说明：session 配置新增以下三个配置项来支持实时的任务场景：
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164419279-601663670.png
8.源表新增 Upsert Kafka 插件
新增 Upsert Kafka 插件做为 FlinkSQL 的源表和结果表。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164419701-898075485.png
9.新增【实时湖仓】模块
新增【实时湖仓】模块，支持对湖表的管理和计算。
功能优化

1.增强 IDE 中 FlinkSQL 语法解析的准确性
背景：之前的语法解析，对于很多 SQL 正确的写法依然会高亮报错。
体验优化说明：提高对 SQL 语法解析的准确性。
2.Starrocks 结果表，向导模式支持更新模式
背景：Starrocks 插件支持 upsert 定义主键，但平台向导模式不支持，需要在向导模式对更新模式进行调整适配。
体验优化说明：向导模式适配 Starrocks 数据源并适配 upsert 自定义主键。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164420177-704715050.png
3.新增 oushu 目标表
结果表支持 oushuDB 数据源。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164420620-1889269022.png
4.日志打印中的业务数据问题
背景：目前实时任务的运行日志中会打印业务数据，存在数据安全风险，需要屏蔽掉。
体验优化说明：运行日志、task manager 日志、历史日志里是否存在打印业务数据，如果存在，对打印的业务数据做隐藏。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164421481-391773708.png
5.新增【任务下线】功能、新增【任务停止时间】列
优化部分任务运维的交互体验，新增【任务下线】功能，在任务列表新增【任务停止时间】列。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164422495-1094741090.png
6.向导模式的各种数据源统一开放自定义参数配置
背景：目前结果表中部分数据源的「添加自定义参数」和「更新策略」配置项是缺失的。
体验优化说明：
• 结果表—Sql server维表—mysql、oracle、sql server、Postgresql、kingbaseES8、greatdb、doris0.14.x(http)、doris0.14.x(jdbc)starrocks、impala、clinkhouse、inceptor、ES6.x、ES7.x、TBDS_HBASE、argodb、vastbase 对以上数据源添加开放自定义参数配置。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164423616-752351807.png
• 结果表—涉及数据源：Sql server、Postgresql、kingbaseES8，对以上数据源新增更新策略。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164424977-1618974145.png
7.【任务运维】健康分模型优化
对于任务运维做功能上优化，新增任务扣分项说明、常见问题排查指导，用户可通过健康分查看具体扣分项进行完善，方便于用户进行问题排查。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164426095-1014795739.png
8.【实时开发】任务导入导出功能优化
背景：实时任务的导入导出功能，在做任务资源组信息替换时，用了数据库的序号，而没用名称，导致跨环境导入时会报错。（因为跨环境的这些信息，在数据库的id大概率是不一样的）
体验优化说明：任务导入导出时，需要做信息替换的如资源组、数据源等信息，均使用名称进行替换。这样只需要保障两个环境维护的名称一致，就可以实现跨环境的政策导入导出。
数据资产平台

新增功能更新

1.Trino 支持元数据同步
离线、指标、标签等其他产品模块创建项目生成的 Trino meta 数据源资产支持自动引入，且 Trino meta 数据源支持质量项目授权。
2.支持通过 Trino 实现 TDSQL 和 Inceptor 表的跨源比对
背景：Inceptor 表的比对中之前没有考虑 hyperbase、hyperbase drive、search 的支持。
新增功能说明：数据质量可通过 Trino 实现 TDSQL 和 Inceptor（hyperbase、hyperbase drive、search）表的跨源比对。
3.分区表支持在表结构中显示分区信息
若该数据表为分区表，则在表详情-表结构中，新增展示表的分区信息。
4.支持数据标准的上线、下线审批操作
数据标准模块普通用户创建的数据标准需要经过审批中心审核完成后才可进行上线、下线，上线后的数据标准才可进行标准映射及标准绑定操作。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164427309-1418166991.png
5.元数据同步支持配置自动同步过滤规则
背景：针对监听离线 ddl 语句并实时同步表进入资产的逻辑，客户元数据同步任务是添加了过滤条件的，不想采集 tmp 表到数据地图，通过元数据同步任务是可以过滤掉的，但是实时 ddl 监听的逻辑是没有地方添加过滤条件的，所以离线跑任务的时候，里面的 tmp 表还是会被采集到资产中。
新增功能说明：在元数据同步模块新增【自动同步】功能，用于配置自动同步的过滤规则。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164427619-2053158778.png
6.greenplum 数据源支持视图同步
greenplum 数据源支持进行视图同步，gp 视图与 gp 数据表共用一个元模型，元模型中新增源表名（视图特有）、视图描述（视图特有）技术属性，在选择 gp 类数据源下的数据时，可选中具体视图进行元数据同步、数据脱敏等操作。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164427854-263425814.png
7.资产支持 MySQL 类型数据源的自动引入
针对离线创建项目时生成的 meta 数据源，资产支持 MySQL 类型数据源的自动引入，自动引入后需自动创建周期任务。
8.【数据治理】治理工作台、治理配置功能
背景：数据治理的意义是为推动用户依据规范标准进行数据开发，从计算、存储、质量、规范、价值五个维度进行数据治理，目的是优化存储成本、节约计算资源、推动标准规范，让用户通过数据治理看到问题、看到效果。
新增功能说明：本次迭代支持从计算、存储维度进行数据治理，支持自动同步离线开发模块创建的项目信息，可通过配置治理任务对项目进行周期治理，并对产生的待处理问题分配处理人进行处理，实现问题的闭环管理。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164428393-526448914.png
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164428878-1883575154.png
功能优化

1.告警邮件内容增加实例的计划时间
在告警邮件中增加“计划时间”，原来的“调度时间”修改为“开始时间”，便于用户直接通过邮件等通知观察到具体是哪一天的质量任务校验失败。
2.数据源显示优化
• 已接入的数据源，按数据源数量-库数量-表数据-存储大小的优先级排降序
• 数据目录分布中，根据当前租户对接的子产品模块来显示数据资源内容
3.数据安全开启时 web 层表权限的申请入口脱敏入口去掉
当数据安全子模块中开启权限管控策略时，以数据安全模块配置的权限策略为准，资产模块的表权限的申请入口隐藏。
若数据安全子模块中开启了针对 hive/sparkthrift/trino 的脱敏策略，则脱敏入口中的脱敏应用，不可选择这些类型的数据源下的数据表。
4.表生命周期 IDE 脚本同步
离线开发模块支持通过 IDE 脚本进行生命周期配置，当生命周期有变更时，可同步到资产，在元数据模块查看表详情时可展示生命周期信息。
5.数据脱敏管理优化
数据脱敏规则配置完成后，在进行脱敏应用配置页面支持编辑操作。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164429232-1197140867.png
6.规范性规则校验优化
规范性规则逻辑优化，例如设置最小长度=20，逻辑为字符串长度大于等于20算符合规则（最大长度函数逻辑同理）。
7.【数据地图】数据表展示优化
数据表的列表展示中，展示内容为“数据源·数据库”调整为展示“数据源｜数据库”，鼠标悬浮提示“数据源｜数据库”。
若数据源存在多个，展示第一个数据源名称的完整信息，其他的用“…”表示，例如“mysql_test1… | dbtest1”；针对 Trino 数据源，展示内容为“数据源｜ catalog ｜数据库”。
表详情页面，在技术属性一栏，“表名”字段的下方，新增字段为“数据源”，展示该数据表的所属数据源信息，多个数据源之间用英文分号分割。元数据模型中的技术属性页面，新增技术属性“数据源”。
8.表结构字段列表编辑交互优化
背景：字段列表里可编辑的内容要一个个点编辑比较麻烦，优化成整表点编辑后所有位置可编辑，编辑完以后整表保存。
体验优化说明：
• 标签添加的交互逻辑优化
• 支持批量编辑字段描述及字段标签
数据服务平台

新增功能更新

1.API 调用各阶段组成及耗时分析
测试 API 页面和生成 API 测试界面添加调用分析 tab，可通过瀑布图看到总耗时以及执行的内容，以及函数报错等问题的具体原因。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164429636-1182375094.png
服务编排与生成 API 类似增加调用分析，可查看具体的耗时及失败原因。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164430329-382027475.png
每次调用记录增加保存入参内容（生成 API、注册 API、服务编排、服务分析）和调用分析（生成 API、注册 API、服务编排），且支持查看调用分析逻辑与生成 API 调用入参一致。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164430856-613804997.png
2.服务编排支持 JAVA
服务编排由 python 节点变为函数节点，函数节点可选择是哪个函数类型，python2.7、python3.9 以及 JAVA 函数，入参方式与原来相同。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164431361-270768258.png
函数类型新增 Java8，当函数类型选择 JAVA8 时，跳转至 JAR 包上传界面，python 函数与原来一致。Java 函数跳转后，先上传 JAR 包或 zip 文件，大小小于50MB，再进行填写类名与类方法。在输入参数时，点击参数解析，可自动解析字段类型，参数名称等。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164432087-884998917.png
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164433132-761381978.png
3.服务编排支持显示结果返回样例
服务编排高级配置中增加显示返回结果样例及将测试结果作为 json 样例保存。
https://img2023.cnblogs.com/other/2317299/202312/2317299-20231201164433822-1405096138.png
4.支持 API 路径前缀自定义
此部分实现主要通过配置项变更和代码逻辑兼容，配置项变更如下（同名配置项服务之间配置的值必须保证完全一样）：
api-web变更：
(废弃) gateway.url
(新增) gateway.url.host = http://gateway-default-api530-api.base53.devops.dtstack.cn
(新增) gateway.url.custom.prefix = /custom/data
(新增) gateway.url.custom.open = true

gateway变更：
(新增) gateway.url.custom.open = true
(新增) gateway.url.custom.prefix = /custom/data

nginx变更/conf/conf.d/apigw.conf:
（localtion后面的配置需要基础运维进行提取变量，支持通过em进行配置项的变更，变更值与api配置文件中gateway.url.custom.prefix保持一致）
#location /api/gateway {
-> 修改成：
#location /custom/data {
   proxy_max_temp_file_size       0k;
   fastcgi_buffers 32 8k;
   proxy_http_version 1.1;
   proxy_set_header X-Real-IP    $remote_addr;
   proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
   proxy_set_header Host          $host;
   proxy_pass http://real-rdos-api-gw;

   if ($request_method = 'OPTIONS') {
         return 204;
   }
}配置项说明：
• gateway.url.custom.open ：是否使用自定义 url 前缀，默认 false

• gateway.url.host ：请求 url，组成为 http(https)
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

袋鼠云产品功能更新报告08期｜近百项全新功能和优化，你要的都在这里！