Skip to content

Releases: qlangtech/tis-archetype-plugin

Release V4.0.1

21 Oct 03:39
Compare
Choose a tag to compare

Abstract

TIS的v4.0.1版本终于要与大家见面了,v4.0.1在以下几方面进行了功能加强和升级。

发布汇报:https://www.bilibili.com/video/BV1rXC1YjECW

  1. 添加Transformer功能:通过在TIS流程中设置Transformer功能逻辑,可实现在ETL数仓功能中,在E(数据抽取)阶段即可高效实现各种字段值转换功能,如:字段脱敏,字段拼接,取子字符串等功能。
  2. 为了配合以上Transformer数据处理功能,当用户完成Transformer功能设置后,需要第一时间验证Transformer处理逻辑是否正确。基于此需求,TIS提供了数据ReView功能,可以在ReView数据页面直观查看数据表中真实的数据和被Transformer处理逻辑执行过的数据。
  3. 丰富Hadoop/Hive生态支持力度,提供Cloudera版本的Hadoop/Hive实现插件支持。
  4. 优化MongoDB数据源字段分析功能,由于MongoDB是Schemaless,一般以MongoDB作为数据源导入,需要手动为MongoDB 的Collection设置Schema,这是一件烦冗且容易出错的事儿。TIS提供了基于Collection中的存量数据自动分析对应的Schema结构,大大提高了MongoDB作为源的数据管道配置效率。
  5. 增加数据管道、数据源的克隆功能。用户在业务系统中需要添加大量类似的配置源,例如:多个MySQL数据库,只是数据库名称不一样,其他:host、用户名、密码都一样,因此用户不想没个数据源都从新开始配置,只需配置一个数据源,其他数据库实例只需克隆该实例,然后改一下克隆出来的数据库实例的数据库名就行,从而提高了添加数据源实例的效率。
  6. 为响应用户多次提出TIS与DolphinScheduler整合方案的需要,在版本提供了TIS与DolphinScheduler整合方案插件,事先在TIS中配置数据管道,验证无误后,通过在相应的配置插件页面,一键同步需要同步表任务到DolphinScheduler平台,即可在DS平台中事先轻松拉起数据同步任务,全程不需要编写一行配置代码。
    如果你在DolphinScheduler平台中,厌倦了烦冗枯燥且容易出错的DataX、SeaTunnel的JSON配置脚本编写。您可以尝试一下TIS新提供的与DolphinScheduler整合插件,一定会有惊喜。
  7. 优化增量实时同步任务启动速度:当用户选择整库数据表同步任务执行,启动时间过慢。原因是有大量表执行启动任务时,需要针对每个表创建JDBC Connection实例,这样是非常耗时的。优化方案是,实现了Connection实例复用技术,大大加快了整库表同步增量任务启动速度。
  8. 添加MariaDB的Source/Sink Connector连接器,支持MariaDB的批量读/写、实时增量读/写功能。
  9. 单机版本设置多同步任务并发执行,为了充分挖掘单机版机器CPU并发执行的潜力,在TIS单机版部署模式下可以设置多个同步任务并发执行,可以大幅提高单机版数据同步的吞吐率。

Bug Fix

  • flink 启动立即失败,报告无法分配足够slot资源#362
  • 修改分表识别自定义规则没有生效#361
  • 通过savepoint或者checkpoint恢复增量任务执行有误#356
  • 达梦数据库最新版本有找不到表的情况#354
  • psgql同步到doris由于数据类型为geometry导致错误#333
  • MySQL创建增量通道到ES时,部署报错#332
  • K8S 环境中利用Powerjob启动执行器,打开datax执行器报错#330
  • 增量同步mysql到doris null值被转换成了\N#328
  • mongo->mysql通道构建发生报错#326
  • 使用Oracle作为流式管道Source当指定schema时存在错误#322

New Feature

  • 优化TIS Flink实时增量通道启动速度#366
  • aliyun ACK 测试flink-application模式增量通部署失败,须将TIS的JDK版本升级到JDK11#365
  • Make flink-cdc for mysql source connector support tableName matcher with regex pattern#360
  • DORIS date类型不能作为联合主键的第一个#359
  • 数据源添加Mongodb数据库名称无法使用符号-#352
  • 批量数据同步设置任务触发参数#347
  • TIS 与 dolphinscheduler 整合方案实现#345
  • Transformer中使用上下文绑定参数#342
  • 实现数据预览#338
  • MySQL版本:'10.5.21 使用哪种插件安装#337
  • 由于用户的MySQL服务器在美国导致启动时候checkTimeZone出错#327
  • Hive Haddop 增加Cloudera的版本支持#323
  • 尝试在生产环境中使用NodePort 作为服务暴露的方式#321
  • tis-k8s/src/main/filters/tis-console.yaml 中ConfigMap tis.host配置对应的Namespace冲突#320
  • K8S中以ReplicationController发布的资源需要改造成为 deployment类型#319
  • MariaDB数据库支持...#307
  • 增加任务实例和数据源复制功能#303
  • [feat]需要定义数据同步可自定义表列映射#225

Installation

Related Projects

Release v4.0.0

21 May 04:01
Compare
Choose a tag to compare

Abstract

TIS的v4.0.0版本终于要与大家见面了,v4.0.0在以下几方面进行了功能加强和升级。

发布报告:https://www.bilibili.com/video/BV1eD421V78u/

  1. flink及相关组件全面升级到1.18版本,flink-cdc升级到3.0.1,chunjun也做相应版本升级
  2. 单节点执行方式扩展为分布式,
    利用powerjob将单点datax任务扩展为分布式执行方式,支持同一时间在分布式环境中多个datax任务并行执行,从而大幅提升数据同步管道的执行效率, 并且提供基于powerjob的crontab定时任务触发方式,完美支持T+1离线数据采集任务。
  3. 分布式执行基础上将TIS全面支持kubernetes的CloudNative的部署模式,支持私有云和各大公有云场景下的部署。
  4. 优化了部署流程,TIS内操作涉及长时间等待操作,例如,发布基于flink的流式计算任务,包括多个子过程,如编译、打包、发布、等待等环节,需要等待一段时间。在新版本中引入了发布流程可视化的机制,将各个步骤的执行状态直观展示给用户。

New Feature

  • mongodb 数据源认证方式#311
  • Flink K8S Cluster启动附加loadbalance service Flink JobMaster报WARN信息#310
  • TIS 整体部署容器化部署方案#309
  • 将flink-cdc的MySQL校验MySqlValidator.checkVersion前置#306
  • 添加flink连接同步timeout#298
  • 添加基于Flink-cdc 实现的 Postgresql source端实现#291
  • 实时同步无法使用“批量创建“#284
  • 为TIS 各种端提供图标显示支持#275
  • 建议在批量构建功能中增加定时任务,可以实现datax的定时全量和增量同步#255
  • [feature] 添加flink 实例一览页面#213
  • 升级flink相关组件到最新版本#168
  • 支持批量任务分布式执行#157
  • 支持TIS Flink 在K8S上运行#156
  • 离线T+1 怎么定时?#97

Bug Fix

  • 管道创建流程中更改端类型会出错#312
  • k8s application 模式下SQL模式执行flink Job 出错#308
  • 无法识别VARBINARY类型的字段列#296
  • 终止任务bug#294
  • [tis-flink-cdc-postgresql-plugin] java.lang.ClassCastException: java.sql.Timestamp cannot be cast to java.time.Instant#293
  • 写入clickhosue时自动建表bug#292
  • FTP方式找不到对应匹配的文件#289
  • mysql->doris 增量执行streamload出错#285
  • 分库分表同步报找不到表#283
  • 整库同步时个别表有json类型字段下游create table ddl报错#280
  • plugin 进行校验过程中错误被遮蔽#277
  • MySQL CDC Source 异常恢复消费位点异常#274
  • flink rest api client 解析服务端返回的结果有类无法反序列化#268

Installation

Related Projects

Release v4.0.0-rc1

08 May 10:08
Compare
Choose a tag to compare

Abstract

Bug Fix

  • 管道创建流程中更改端类型会出错#312
  • k8s application 模式下SQL模式执行flink Job 出错#308
  • 无法识别VARBINARY类型的字段列#296
  • 终止任务bug#294
  • [tis-flink-cdc-postgresql-plugin] java.lang.ClassCastException: java.sql.Timestamp cannot be cast to java.time.Instant#293
  • 写入clickhosue时自动建表bug#292
  • FTP方式找不到对应匹配的文件#289
  • mysql->doris 增量执行streamload出错#285
  • 分库分表同步报找不到表#283
  • 整库同步时个别表有json类型字段下游create table ddl报错#280
  • plugin 进行校验过程中错误被遮蔽#277
  • MySQL CDC Source 异常恢复消费位点异常#274
  • flink rest api client 解析服务端返回的结果有类无法反序列化#268

New Feature

  • Flink K8S Cluster启动附加loadbalance service Flink JobMaster报WARN信息#310
  • TIS 整体部署容器化部署方案#309
  • 将flink-cdc的MySQL校验MySqlValidator.checkVersion前置#306
  • 添加flink连接同步timeout#298
  • 添加基于Flink-cdc 实现的 Postgresql source端实现#291
  • 实时同步无法使用“批量创建“#284
  • 为TIS 各种端提供图标显示支持#275
  • 建议在批量构建功能中增加定时任务,可以实现datax的定时全量和增量同步#255
  • [feature] 添加flink 实例一览页面#213
  • 升级flink相关组件到最新版本#168
  • 支持批量任务分布式执行#157
  • 支持TIS Flink 在K8S上运行#156
  • 离线T+1 怎么定时?#97

Installation

Related Projects

Release v3.8.0

25 Oct 03:54
Compare
Choose a tag to compare

Abstract

TIS的v3.8.0版本终于要与大家见面了,v3.8.0着重在以下几方面进行了功能加强和升级。

  1. 支持利用Flink Checkpoint恢复因意外宕机而中断的Flink Job任务

    用户运行的Flink Job 任务经常会因为各种原因导致意外停止,例如:机房断电等。如需要恢复中断的Flink
    Job需要用户事先手动触发Savepoint存储来恢复。而机房断电属于不可预测事件,用户无法提前预测,所以只能对中断的Flink Job进行重新部署,这个流程特别费时,且之前保存的StateBackend也会丢失。

    因此,在TIS中提供了通过Flink Checkpoint机制来恢复Job的方式,用户只需要在部署Flink
    Job过程中,开启Checkpoint机制、并设置持久化StatebackEnd,就可以方便恢复因意外中断的Flink Job任务。datavane/tis#224

  2. 与Doris最新版本的兼容性提升

    使用Doris最新版本2.0.1与TIS兼容性优化,对Sequence列模型批量删除的设置体验进行优化,为用户提供整库导入Doris实现实时数仓方案提供了最佳技术手段。

  3. 提供TIS插件开发工具

    随着TIS功能不断壮大,会有越来越多的开发者加入到TIS的生态构建中来。 TIS内部使用了微内核架构设计,践行OCP原则(对修改封闭,对新加功能开放),为了让用户愉快地加入到TIS生态构建中来,从v3.8. 0版本开始,会陆续提供一系列工具和技术分享文档,让用户可以独立地开发新的大数据集成插件,或者完善既有的TIS插件功能以满足自己的业务需求。

    新添加的插件参考文档:

    1. 插件实现开发详细说明
    2. 插件开发流程说明
    3. 插件工具类参考
  4. Hive Reader 支持

    T+1离线分析会将计算结果导入Hive的分布式文件系统中。本版本(v3.8.0)提供Hive Reader用户可以通过简单设置 将Hive中的数据导入到Doris、ElasticSearch、StarRocks、各种关系型数据库中。

  5. 重构 Aliyun OSS、FTP、HDFS

    针对分布式文件端类型的支持,之前在TIS中对以上各种类型的数据端是各自实现的,但是在实现过程发现,每种数据类型都有压缩,数据Format(CSV、TEXT)的逻辑在需要重复实现,不同的仅仅是每种类型的文件流的获取方式。
    在本版本(v3.8.0)中,将文件流获取的方式单独抽取出来,其他执行逻辑实现重用。这样有利于在TIS中对分布式式文件类型端的维护,也可大大简化今后在TIS中接入同类型数据端的复杂程度。datavane/tis#253

  6. 重构MongoDB Reader功能

    • 支持MongoDB,多Collection选择,
    • 针对MongoDB没有固定Schema的特性,TIS中加入了预判MongoDB Colection Scheam的功能,原理是预先从MongoDB
      Collection中读取一定数量的记录数,TIS中会针对记录各Column值来猜测列类型,最终再由用户来确定类型进行微调。这样可以免去用户为MongoDB
      Collection设置Schema的繁琐流程,从而大大提高部署效率。
    • 针对MongoDB Collection的 提供给用户拆解Document类型的字段的途径、手段。可以将Document字段中的内容,打平、Sink到下游数据端中。

    datavane/tis#254

  7. 优化Kerberos认证支持

    优化TIS中kerberos认证的支持,支持Hive、HDFS等数据端 datavane/tis#127

  8. 云原生方面的支持

    支持Aliyun HDFS 的JindoFS类型的导入方式,通过 JindoFS类型的导入方式,性能比传统HDFS效率高3倍。

  9. 添加达梦数据库支持

    支持在TIS中对达梦数据库批量读取,和批量/增量写入功能

Bug Fix

  • [bug] elastic java.sql.Timestamp 写入失败#272
  • [doris] 类型com.qlangtech.tis.plugin.datax.seq.SeqKey转型错误#270
  • mysql到mysql端实时同步问题,修改源表字段内容,目标表不会更新源表修改的内容,而是重新生成一条新的记录#267
  • mysql_to_doris构建实时同步任务失败#261
  • [bug]构建MySQL到StarRocks, Flink实时同步时,decimal-> 类型值为NULL#243
  • [bug]目标端为StarRocks,目标端为MySQL内有 decmial 字段同步到 有误#242
  • [BUG] hiveserver2连接配置数据库名无法携带参数#240
  • [bug] doris create table DDL error with sequence_col#239
  • [bug] Flink reserved key led to error 源数据库的表中存在flink保留字段,导致创建增量同步时异常#238
  • [feat]希望可以删除界面无用的实例信息数据,避免干扰#237
  • TIS Action执行失败 导致线程绑定资源没有被回收#236
  • [bug] 使用flink-cdc的snapshot快照功能得到的date datatime类型的值有问题#232
  • [mysql->doris] debezium中连接 mysql8服务端报 #203
  • FTP Source map to MySQL create table DDL error#151

Others

  • 替换Doris DDL Date 类型#266
  • Clickhouse 执行全量数据同步初始化数据表出错#258
  • 添加MongoDB数据源报错,MongoDB版本号为5.01.2#254
  • 支持利用checkpoint来恢复(restore)Flink job#229

New Feature

  • Doris增量实时通道主键设置流程去除#265
  • 支持达梦数据库读写支持#262
  • FTP、OSS、HDFS统一成T-DFS#253
  • [feat] 实现CSV文档Sink写入#241
  • [feat] SinkTabPropsExtends 主键候选列修改#235
  • [feat] 提供TIS 插件开发者工具#233
  • 支持doris sequence列模型#230
  • [feat]Flink任务由于机房停电长时间宕机再次启动丢失数据#224
  • [feat]增量实例需要添加一个 刷新按钮#220
  • 实现一个hive Reader插件#201
  • [bug]添加sql server数据源,校验失败#186
  • upgrade fastjson version for security issue#152
  • [SUPPORT] 希望连接hdfs和hive等组件支持kerberos认证#127

Installation

Related Projects