入门指南 | Datavines 安装部署篇

打印 上一主题 下一主题

主题 532|帖子 532|积分 1596

摘要:本文主要先容基于源码部署 Datavines 和实验查抄作业,内容主要分为以下几个部分:

  • 平台先容
  • 快速部署
  • 运行数据质量查抄作业
Datavines 的目的是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。
https://github.com/datavane/datavines
https://github.com/datavane/datavines/issues
https://github.com/datavane/datavines/pulls

平台先容

Datavines 是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数.
快速部署

环境准备

在安装 Datavines 之前请确保你的服务器上已经安装下面软件

  • Git,确保 git clone的顺利实验
  • JDK,确保 jdk >= 8
  • Maven, 确保项目的顺利打包(当然你也可以在本地打包以后上传至服务器)
  • MySQL, 确保版本 >=5.7
下载代码
  1. git clone https://github.com/datavane/datavines.git
  2. cd datavines
复制代码
数据库准备

Datavines 的元数据是存储在关系型数据库中,目前支持 MySQL ,下面以 MySQL 为例说明安装步骤:

  • 创建数据库 datavines
  • 实验 script/sql/datavines-mysql.sql 脚本进行数据库的初始化
项目构建

打包并解压
  1. mvn clean package -Prelease
  2. cd datavines-dist/target
  3. tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz
复制代码
解压完成以后进入目录
  1. cd datavines-1.0.0-SNAPSHOT-bin
复制代码
编辑配置信息
  1. cd conf
  2. vi application.yaml
复制代码
修改数据库信息
  1. spring:
  2. datasource:
  3.    driver-class-name: com.mysql.cj.jdbc.Driver
  4.    url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8
  5.    username: root
  6.    password: 123456
复制代码
如果你是利用 Spark 做为实验引擎,并且是提交到 yarn 上面去实验的,那么需要在 common.properties 中配置 yarn 相关的信息

  • standalone 模式
  1. yarn.mode=standalone
  2. yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s #第一个%s需要被替换成yarn的ip地址
  3. yarn.resource.manager.http.address.port=8088
复制代码

  • ha 模式
  1. yarn.mode=ha
  2. yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s
  3. yarn.resource.manager.http.address.port=8088
  4. yarn.resource.manager.ha.ids=192.168.0.1,192.168.0.2
复制代码
启动服务
  1. cd bin
  2. sh datavines-daemon.sh start mysql
复制代码
查看日记,如果日记内里没有报错信息,并且能看到
[INFO] 2022-04-10 12:29:05.447 io.datavines.server.DatavinesServer:[61] - Started DatavinesServer in 3.97 seconds (JVM running for 4.69) 的时间,证明服务已经成功启动。
访问前端页面

在浏览器输入: 服务器IP:5600 ,就会跳转至登录界面,输入账号密码 admin/123456

运行数据质量查抄作业

创建数据源

进入首页后,点击右上角 创建数据源 按钮,输入数据源的名称,然后选择数据源类型。以 MySQL 为例,输入 MySQL 的毗连信息,点击 测试毗连 按钮。如果成功,请单击 生存

进入数据源


点击并进入数据源,找到 作业管理 页面

创建查抄作业


  • 点击 创建规则作业 按钮,选择 数据质量作业
  • 进入规则的配置页面

  • 进行规则配置

    • 选择 枚举值[不在]查抄 规则
    • 依次选择数据库、表和列
    • 输入枚举数组 [0,1]

  • 进行盼望值配置

    • 如果没有盼望值则选择

  • 进行校验配置

    • 选择 实际值 查抄公式、 > 比较符并输入阈值 10
    • 这样就构成 【实际值 > 10】 公式 ,公式成立时表示查抄结果为成功,否则是失败。

  • 进行错误数据配置

    • 选择生存在源数据源中,填写已创建好的数据库

  • 完成配置后点击 生存并运行 来实验查抄作业。
查看规则作业的信息

作业列表  找到刚刚创建并实验的查抄作业。

点击 实验记录 页面, 你可以看到实验历史列表。

点击 日记 按钮,你可以看到规则实验的日记信息。

点击 结果 按钮,你可以看到规则实验的查抄结果。

点击 错误数据 按钮,你可以看到规则实验的错误数据。

结束语

本文详细先容了Datavines平台的部署安装到运行的整个过程,每个环节图文并茂,信赖许多小伙伴都跃跃欲试了,动起来吧,更多出色等着你来挖掘。
关于Datavane

Datavane 是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。
在 Datavane 社区中,全部的项目都是开源开放的,代码质量和架构操持优质的潜力项目。社区保持开放中立、协作创造、对峙佳构,鼓励全部的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。
官 网: http://www.datavane.org/
Github : https://github.com/datavane

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

半亩花草

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表