Re: 关于 mongo db 的splitVector 权限问题

2024-05-23 文章 Jiabao Sun
Hi, splitVector 是 MongoDB 计算分片的内部命令,在副本集部署模式下也可以使用此命令来计算 chunk 区间。 如果没有 splitVector 权限,会自动降级为 sample 切分策略。 Best, Jiabao evio12...@gmail.com 于2024年5月23日周四 16:57写道: > > hello~ > > > 我正在使用 flink-cdc mongodb connector 2.3.0 >

Re: flink集群如何将日志直接写入elasticsearch中?

2024-03-13 文章 Jiabao Sun
比较简单的方式是启动一个filebeat进程,抓取 jobmanager.log 和t askmanager.log Best, Jiabao kellygeorg...@163.com 于2024年3月13日周三 15:30写道: > 有没有比较方便快捷的解决方案? > > >

RE: Re:RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-22 文章 Jiabao Sun
类中要定义一个Map类型的offsetField > (类似mongodb对应ChangeStreamOffset中的resumeTokenField)? > 当前mongodb中定义的是Json String类型 > > 在 2024-01-22 11:03:55,"Jiabao Sun" 写道: > >Hi, > > > >Flink CDC MongoDB connector V1是基于 mongo-kafka 实现的,没有基于 debezium 实现。 > >Flink CDC MongoDB c

RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-21 文章 Jiabao Sun
> > > > Flink CDC MongoDB connector 还是基于debezium实现的 > > > > > > > > > 在 2024-01-22 10:14:32,"Jiabao Sun" 写道: > >Hi, > > > >可以参考 Flink CDC MongoDB connector 的实现。 > > > >Best, > >Jiabao > > > > &g

RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-21 文章 Jiabao Sun
Hi, 可以参考 Flink CDC MongoDB connector 的实现。 Best, Jiabao On 2024/01/22 02:06:37 "casel.chen" wrote: > 现有一种数据源不在debezium支持范围内,需要通过flink sql全增量一体消费,想着基于flink cdc > 3.x自行开发,查了一下现有大部分flink cdc source > connector都是基于debezium库开发的,只有oceanbase和tidb不是,但后二者用的source接口还是V1版本的,不是最新V2版本的incremental > snapsh

RE: Re:RE: binlog文件丢失问题

2024-01-19 文章 Jiabao Sun
ng to read binlog starting at " > + mySqlOffsetContext.getSourceInfo() > + ", but this is no longer " > + "available on the server. Reconfigure the connector to > use a snapshot when needed."); > } > > 在 2024-01-19 17:33:03,&q

RE: binlog文件丢失问题

2024-01-19 文章 Jiabao Sun
Hi, 你的图挂了,可以贴一下图床链接或者直接贴一下代码。 Best, Jiabao On 2024/01/19 09:16:55 wyk wrote: > > > 各位大佬好: > 现在有一个binlog文件丢失问题,需要请教各位,具体问题描述如下: > > > 问题描述: > 场景: 公司mysql有两个备库: 备库1和备库2。 > 1. 现在备库1需要下线,需要将任务迁移至备库2 > 2.我正常将任务保存savepoint后,将链接信息修改为备库2从savepoint启动,这个时候提示报错binlog文件不存在问题,报错截图如下图一 > 3.我根据报错找

RE: Re:RE: RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun
Hi, oracle cdc connector 已经接入增量快照读框架,动态加表也是可以统一去实现的。 可以去社区创建issue,也欢迎直接贡献。 Best, Jiabao On 2024/01/19 04:46:21 "casel.chen" wrote: > > > > > > > 想知道oracle cdc connector不支持动态加表的原因是什么?可否自己扩展实现呢? > > > > > > > > > > >

RE: 退订

2024-01-18 文章 Jiabao Sun
Please send email to user-unsubscr...@flink.apache.org if you want to unsubscribe the mail from u...@flink.apache.org, and you can refer [1][2] for more details. 请发送任意内容的邮件到 user-unsubscr...@flink.apache.org 地址来取消订阅来自 u...@flink.apache.org 邮件组的邮件,你可以参考[1][2] 管理你的邮件订阅。 Best, Jiabao [1] https://fl

RE: RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun
Hi, Oracle CDC connector[1] 目前是不支持动态加表的。 Best, Jiabao [1] https://ververica.github.io/flink-cdc-connectors/release-2.4/content/connectors/oracle-cdc.html On 2024/01/19 03:37:41 Jiabao Sun wrote: > Hi, > > 请提供一下 flink cdc 的版本,使用的什么连接器。 > 如果方便的话,也请提供一下日志。 > 另外,table 的

RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun
Hi, 请提供一下 flink cdc 的版本,使用的什么连接器。 如果方便的话,也请提供一下日志。 另外,table 的正则表达式可以匹配到新增的表吗? Best, Jiabao [1] https://ververica.github.io/flink-cdc-connectors/release-3.0/content/connectors/mysql-cdc%28ZH%29.html#id15 On 2024/01/19 03:27:22 王凯 wrote: > 在使用flink cdc进行数据同步时,添加--scan.newly-added-table.enabled=t

RE: 实时数仓场景落地问题

2024-01-14 文章 Jiabao Sun
Hi, 可以尝试使用 Flink CDC + Apache Paimon 去构建实时数仓。 目前 Paimon 已经支持使用 Flink CDC 将数据整库入湖,可以使用较小的成本进行实时入湖。 另外利用 Paimon partial update的特性,可以以较小的计算成本去构建 ADS 层宽表。 Paimon 也可以同时支持批式计算和流式计算,对于时效性和计算成本可以使用灵活的计算方式做平衡。 Best, Jiabao On 2024/01/14 12:57:29 海风 wrote: > hello,公司里业务会拿一张t+1的离线数仓表名,经常是ads应用层的,问你可不可以做成实

RE: 退订

2024-01-14 文章 Jiabao Sun
Please send email to user-unsubscr...@flink.apache.org if you want to unsubscribe the mail from u...@flink.apache.org , and you can refer [1][2] for more details. 请发送任意内容的邮件到 user-unsubscr...@flink.apache.org

RE: 如何在IDE里面调试flink cdc 3.0作业?

2024-01-02 文章 Jiabao Sun
Hi, 可以参考下这篇文档[1],进行简单的测试。 Best, Jiabao [1] https://docs.google.com/document/d/1L6cJiqYkAsZ_nDa3MgRwV3SKQuw5OrMbqGC4YgzgKR4/edit#heading=h.aybxdd96r62i On 2024/01/02 08:02:10 "casel.chen" wrote: > 我想在Intellij Idea里面调试mysql-to-doris.yaml作业要如何操作呢?flink-cdc-cli模块需要依赖 > flink-cdc-pipeline-connect

Re: Flink CDC中如何在Snapshot阶段读取数据时进行限流?

2024-01-01 文章 Jiabao Sun
Hi, GuavaFlinkConnectorRateLimiter 目前只在 flink-connector-gcp-pubsub[1] 有使用。 Flink CDC 还未支持限流[2],目前可以尝试降低 snapshot 并发数来缓解数据库压力。 Best, Jiabao [1] https://github.com/apache/flink-connector-gcp-pubsub/blob/f5372f25cfc1954d00a4b2fc9342e8ed5a3ef3ab/flink-connector-gcp-pubsub/src/main/java/org/apache/

RE: FileSystem Connector如何优雅的支持同时写入多个路径

2023-12-29 文章 Jiabao Sun
Hi, 使用 SQL 的话不太好实现写入多个路径, 使用 DataStream 的话可以考虑自己实现一个 RichSinkFunction。 Best, Jiabao On 2023/12/29 08:37:34 jinzhuguang wrote: > Flink版本:1.16.0 > > 看官网上的案例: > CREATE TABLE MyUserTable ( > column_name1 INT, > column_name2 STRING, > ... > part_name1 INT, > part_name2 STRING > ) PARTITION

RE: Flink SQL Windowing TVFs

2023-12-28 文章 Jiabao Sun
Hi, 在 1.14.0 版本中,CUMULATE 函数是需要用在GROUP BY聚合场景下的[1]。 部署到生产的 SQL 是否包含了 GROUP BY 表达式? 本地测试的Flink版本是不是1.14.0? Best, Jiabao [1] https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/table/sql/queries/window-tvf/#cumulate On 2023/12/29 04:57:09 "jiaot...@mail.jj.cn" wrote: > Hi, >

Re: flink cdc 3.0 schema evolution原理是怎样的?

2023-12-27 文章 Jiabao Sun
> > > > > 在 2023-12-28 01:16:40,"Jiabao Sun" 写道: >> Hi, >> >>> 为什么最后output.collect(new StreamRecord<>(schemaChangeEvent)); >>> 还要发送一次SchemaChangeEvent呢? >> >> Sink 也会收到 SchemaChangeEvent,因为 Sink 可能需要根据 Schema 变更的情况来调整

Re: flink cdc 3.0 schema evolution原理是怎样的?

2023-12-27 文章 Jiabao Sun
Hi, > 为什么最后output.collect(new StreamRecord<>(schemaChangeEvent)); > 还要发送一次SchemaChangeEvent呢? Sink 也会收到 SchemaChangeEvent,因为 Sink 可能需要根据 Schema 变更的情况来调整 serializer 或 writer,参考 DorisEventSerializer > 最后一行requestReleaseUpstream()执行被block的原因是什么?是如何hold upstream然后再release > upstream的呢? 被 block 的原

RE: lock up表过滤条件下推导致的bug

2023-12-25 文章 Jiabao Sun
Hi, 邮件中的图片没显示出来,麻烦把 SQL 贴出来一下。 Best, Jiabao On 2023/12/25 12:22:41 杨光跃 wrote: > 我的sql如下: > 、 > > > t_purch_apply_sent_route 是通过flink cdc创建的 > t_purch_apply_sent_route_goods 是普通的jdbc > 我期望的结果是返回符合过滤条件的;但现在执行的结果,会返回t_purch_apply_sent_route表所有数据 > 这显然不符合我的预期,原因应该是因为过滤条件进行了过早的下推 > 这应该算是bug吧,或者要满足

RE: Re:Flink脏数据处理

2023-12-21 文章 Jiabao Sun
Hi, 需要精准控制异常数据的话,就不太推荐flink sql了。 考虑使用DataStream将异常数据用侧流输出[1],再做补偿。 Best, Jiabao [1] https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/dev/datastream/side_output/ On 2023/12/06 08:45:20 Xuyang wrote: > Hi, > 目前flink sql主动收集脏数据的行为。有下面两种可行的办法: > 1. 如果知道脏数据是什么格式,那么将脏数据打个标,不走正常的处理逻

RE: Re:Re:flink sql支持批量lookup join

2023-12-21 文章 Jiabao Sun
Hi, casel. 使用三次lookup join是可以实现的,加上缓存,性能应该不差。 WITH users AS ( SELECT * FROM (VALUES(1, 'zhangsan'), (2, 'lisi'), (3, 'wangwu')) T (id, name) ) SELECT orders.id, u1.name as creator_name, u2.name as approver_name, u3.name as deployer_name FROM ( SELECT * FRO

RE: flink1.15-flink1.18官方提供写入Elasticsearch的接口报序列化异常

2023-12-18 文章 Jiabao Sun
Hi, createIndexRequest是否不是静态的,scala的话可以在object中声明该方法。 Lambda中访问非静态方法,并且外部类不是可序列化的,可能会导致lambda无法被序列化。 Best, Jiabao On 2023/12/12 07:53:53 李世钰 wrote: > val result: ElasticsearchSink[String] = new Elasticsearch7SinkBuilder[String] > // This instructs the sink to emit after every element, otherwi

Re: Flink cdc 2.0 历史数据太大,导致log积压怎么解决

2023-09-20 文章 Jiabao Sun
Hi, 生产环境的binlog还是建议至少保留7天,可以提高故障恢复时间容忍度。 另外,可以尝试增加snapshot的并行度和资源来提升snapshot速度,snapshot完成后可以从savepoint恢复并减少资源。 Best, Jiabao -- From:jinzhuguang Send Time:2023年9月20日(星期三) 20:56 To:user-zh Subject:Flink cdc 2.0 历史数据太大,导致log积压怎么解决 以mysq

RE: 咨询求助: Least函数输入正常 但是返回值异常

2023-08-20 文章 Jiabao Sun
Hi, 方便提供一下复现的用例吗? Best, Jiabao On 2023/08/21 02:19:53 guifeng huang wrote: > (Flink1.15版本) > 咨询求助: Least函数输入参数(Double类型)正常, 在Flink shell里测试函数无问题, 结果符合预期. > 但是实际生产流里进行使用的时候发现返回结果有异, 以下是3种case > - 返回结果正确, 符合预期 > - 返回0, 不符合预期, 未知原因 > - 返回结果和理论正确值有微小的gap, 找了几个case都是1位数值里的差距. > 看看有没有其他的老师遇到过同样的问题

Re: Flink消费MySQL

2023-08-07 文章 Jiabao Sun
Hi, 可以尝试使用 flink-cdc-connectors 去实时关联。 使用 regular join 需要保留两张表完整的状态,表数据量较大建议使用 rocksdb backend。 被关联的表变化不大的话可以考虑 lookup join。 Best, Jiabao > 2023年8月8日 上午11:10,小昌同学 写道: > > 谢谢老师指导呀; > 我目前的需求是想把两张MySQL的表数据读取出来,然后进行实时关联,我现在能想到的就是要么使用cdc实时读取,要么就是写一个循环去读MySQL中的数据 > 老师这一块有更好的建议嘛 > > > | | > 小昌同学 >

Re: 如何把自己新增的定制化connector deploy snapshot版本到私服仓库

2023-08-01 文章 Jiabao Sun
找不到他了,而且也没法想flink-runtime这些包手动改下版本好,这种该怎么办 > >> 2023年7月27日 11:05,Jiabao Sun 写道: >> >> 你好, >> >> 通常在 pom 中引入 maven-deploy-plugin,并且通过 声明私服地址,使用 mvn >> clean deploy 命令部署到nexus私服。 >> 部署到 SNAPSHOT 仓库需要项目版本号包含 -SNA

Re: 如何把自己新增的定制化connector deploy snapshot版本到私服仓库

2023-07-26 文章 Jiabao Sun
你好, 通常在 pom 中引入 maven-deploy-plugin,并且通过 声明私服地址,使用 mvn clean deploy 命令部署到nexus私服。 部署到 SNAPSHOT 仓库需要项目版本号包含 -SNAPSHOT 后缀,可以在IDE中全局替换,也可以使用 versions-maven-plugin 统一设置。 org.apache.maven.plugins maven-deploy-plugin 2.8.2

RE: flink如何正确使用mybatis

2023-07-26 文章 Jiabao Sun
SqlSession 需要关闭,建议使用 SqlSessionManager,可以不用手动关闭 SqlSession。 On 2023/07/18 02:13:16 lxk wrote: > 在flink内需要使用mybatis做些简化查询的工作,目前我的使用方式如下 > > public class MybatisUtil { > > private static final Logger LOGGER = > LogFactory.createNewLogger("MybatisUtil"); > private static ThreadLocal tl = new