Datavines
是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数,目前作为 Datavane
开源组织的重点推荐项目,正式开源,欢迎大家使用。
核心特性
数据目录
定时获取数据源元数据,构造数据目录
定时监听元数据变更情况
支持元数据的标签管理
数据质量监控
内置 27 个数据质量检查规则,开箱即用
-
支持 4 种数据质量检查规则类型
单表单列检查类型
单表自定义
SQL
检查类型跨表准确性检查类型
两表值比对检查类型
支持配置定时任务进行定时检查
支持配置
SLA
用于检查结果告警
数据概览
支持定时执行数据探测,输出数据概览报告
支持自动识别列的类型自动匹配合适的数据概况指标
支持表行数趋势监控
支持列的数据分布情况查看
插件化设计
平台以插件化设计为核心,以下模块都支持用户自定义插件
进行扩展
-
数据源:已支持
MySQL
、Impala
、Starocks
、Doris
、Presto
、Trino
、ClickHouse
、PostgreSQL
- 检查规则:内置空值检查、非空检查、枚举检查等27个检查规则
-
作业执行引擎:已支持
Spark
和Local
两种执行引擎。Spark
引擎目前仅支持Spark2.4
版本,Local
引擎则是基于JDBC
开发的本地执行引擎,无需依赖其他执行引擎。 - 告警通道:已支持邮件
-
错误数据存储:已支持
MySQL
和 本地文件(仅支持Local
执行引擎) -
注册中心:已支持
MySQL
、PostgreSQL
和ZooKeeper
多种运行模式
提供Web页面配置检查作业、运行作业、查看作业执行日志、查看错误数据和检查结果
支持在线生成作业运行脚本,通过
datavines-submit.sh
来提交作业,可与调度系统配合使用
容易部署&高可用
平台依赖少,容易部署
最小仅依赖
MySQL
既可启动项目,完成数据质量作业的检查支持水平扩容,自动容错
无中心化设计,
Server
节点支持水平扩展提高性能作业自动容错,保证作业不丢失和不重复执行
项目架构
CatalogManager
CatalogManager
是负责管理元数据的组件,主要负责元数据的存储、查询以及元数据获取任务的调度和容错处理等。
DataQualityCenter
DataQualityCenter
是负责数据质量管理的组件,主要负责数据质量规则的管理、数据质量作业的调度、执行和自动容错处理等。
快速上手
数据概览
进行数据概览只需下面3步:
- 创建数据源(或者选择创建好的数据源)
- 点击相应的表
- 点击右上角 运行概览 并选择想要探查的列
数据质量检查
进行数据质量检查只需下面4步:
- 点击想要进行检查的列,点击 添加作业
- 选择 检查规则 并填入参数
- 选择 检查公式 ,比如 实际值/期望值 x100% ,填入比较符和阈值
- 点击保存并运行即可
加入我们
Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。
- 项目地址: https://github.com/datavane/datavines
- 问题和建议: https://github.com/datavane/datavines/issues
- 贡献代码: https://github.com/datavane/datavines/pulls
关于Datavane
Datavane
是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。
在 Datavane
社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。
Github: https://github.com/datavane