8.2.2. Data Hub
Data Hub是一个开源的可扩展的以元数据管理为主的数据资产管理平台,实现了元数据的采集、存储、展示、治理等功能,通过访问https://datahubproject.io可以进入Data Hub的官方网站,其源码是托管在Github中,源码的Github地址为https://github.com/datahub-project/datahub。Data Hub包含的主要功能先容如下:
元数据采集:支持从Hive、ClickHouse、MySQL、SQL Server 等数据堆栈大概常见的关系型数据库中采集元数据,而且存储到Data Hub中。如下图8-2-3所示为Data Hub元数据采集的技能架构实现,从图中可以看到Data Hub 获取元数据的方式是从不同的数据源中主动去拉取元数据,然后将获取到的元数据可以直接发送给Data Hub,也可以先发送Kafka消息队列,然后由Data Hub从Kafka消息队列中消费数据来获取元数据。