数据质量是用于保证数据在集成、处理过程中的数据准确性,也是DataOps
的核心组成部分。DataVines
是一个简单易用、支持多种Metric
检查的数据质量服务平台。
使用Maven3.6.1
以及以上版本
$ mvn clean package -Prelease -DskipTests
- 简单易用
- 内置多种类型如
Metric
、ExpectedType
、ResultFormula
插件 - 模块化和插件化,易于扩展
- 支持
Spark 2.x
、JDBC
执行引擎
Java
运行环境:Jdk8
DataVines
支持JDBC
引擎,如果你的数据量较小或者只是想做功能验证,可以使用JDBC
引擎- 如果您要想要基于
Spark
来运行DataVines
,那么需要保证你的服务器具有运行Spark
应用程序的条件
请参考官方文档:快速入门指南
请参考官方文档:开发指南
如果你想要参与贡献, 请参考官方文档: 贡献指南
DataVines
基于 Apache License 2.0 协议。DataVines
依赖了一些第三方组件,它们的开源协议也为 Apache License 2.0
或者兼容 Apache License 2.0
, 此外 DataVines
也直接引用或者修改了 Apache DolphinScheduler
、SeaTunnel
以及 Dubbo
中的一些代码,均为 Apache License 2.0
协议的,感谢这些项目的贡献。