from:"Jiabao Sun"

Re: 关于 mongo db 的splitVector 权限问题

2024-05-23 文章 Jiabao Sun

Hi, splitVector 是 MongoDB 计算分片的内部命令，在副本集部署模式下也可以使用此命令来计算 chunk 区间。如果没有 splitVector 权限，会自动降级为 sample 切分策略。 Best, Jiabao evio12...@gmail.com 于2024年5月23日周四 16:57写道： > > hello~ > > > 我正在使用 flink-cdc mongodb connector 2.3.0 >

Re: flink集群如何将日志直接写入elasticsearch中？

2024-03-13 文章 Jiabao Sun

比较简单的方式是启动一个filebeat进程，抓取 jobmanager.log 和t askmanager.log Best, Jiabao kellygeorg...@163.com 于2024年3月13日周三 15:30写道： > 有没有比较方便快捷的解决方案？ > > >

RE: Re:RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector？

2024-01-22 文章 Jiabao Sun

类中要定义一个Map类型的offsetField > (类似mongodb对应ChangeStreamOffset中的resumeTokenField)? > 当前mongodb中定义的是Json String类型 > > 在 2024-01-22 11:03:55，"Jiabao Sun" 写道： > >Hi, > > > >Flink CDC MongoDB connector V1是基于 mongo-kafka 实现的，没有基于 debezium 实现。 > >Flink CDC MongoDB c

RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector？

2024-01-21 文章 Jiabao Sun

> > > > Flink CDC MongoDB connector 还是基于debezium实现的 > > > > > > > > > 在 2024-01-22 10:14:32，"Jiabao Sun" 写道： > >Hi, > > > >可以参考 Flink CDC MongoDB connector 的实现。 > > > >Best, > >Jiabao > > > > &g

RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector？

2024-01-21 文章 Jiabao Sun

Hi, 可以参考 Flink CDC MongoDB connector 的实现。 Best, Jiabao On 2024/01/22 02:06:37 "casel.chen" wrote: > 现有一种数据源不在debezium支持范围内，需要通过flink sql全增量一体消费，想着基于flink cdc > 3.x自行开发，查了一下现有大部分flink cdc source > connector都是基于debezium库开发的，只有oceanbase和tidb不是，但后二者用的source接口还是V1版本的，不是最新V2版本的incremental > snapsh

RE: Re:RE: binlog文件丢失问题

2024-01-19 文章 Jiabao Sun

ng to read binlog starting at " > + mySqlOffsetContext.getSourceInfo() > + ", but this is no longer " > + "available on the server. Reconfigure the connector to > use a snapshot when needed."); > } > > 在 2024-01-19 17:33:03，&q

RE: binlog文件丢失问题

2024-01-19 文章 Jiabao Sun

Hi, 你的图挂了，可以贴一下图床链接或者直接贴一下代码。 Best, Jiabao On 2024/01/19 09:16:55 wyk wrote: > > > 各位大佬好: > 现在有一个binlog文件丢失问题,需要请教各位,具体问题描述如下: > > > 问题描述: > 场景: 公司mysql有两个备库: 备库1和备库2。 > 1. 现在备库1需要下线,需要将任务迁移至备库2 > 2.我正常将任务保存savepoint后,将链接信息修改为备库2从savepoint启动,这个时候提示报错binlog文件不存在问题,报错截图如下图一 > 3.我根据报错找

RE: Re:RE: RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun

Hi, oracle cdc connector 已经接入增量快照读框架，动态加表也是可以统一去实现的。可以去社区创建issue，也欢迎直接贡献。 Best, Jiabao On 2024/01/19 04:46:21 "casel.chen" wrote: > > > > > > > 想知道oracle cdc connector不支持动态加表的原因是什么？可否自己扩展实现呢？ > > > > > > > > > > >

RE: 退订

2024-01-18 文章 Jiabao Sun

Please send email to user-unsubscr...@flink.apache.org if you want to unsubscribe the mail from u...@flink.apache.org, and you can refer [1][2] for more details. 请发送任意内容的邮件到 user-unsubscr...@flink.apache.org 地址来取消订阅来自 u...@flink.apache.org 邮件组的邮件，你可以参考[1][2] 管理你的邮件订阅。 Best, Jiabao [1] https://fl

RE: RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun

Hi, Oracle CDC connector[1] 目前是不支持动态加表的。 Best, Jiabao [1] https://ververica.github.io/flink-cdc-connectors/release-2.4/content/connectors/oracle-cdc.html On 2024/01/19 03:37:41 Jiabao Sun wrote: > Hi, > > 请提供一下 flink cdc 的版本，使用的什么连接器。 > 如果方便的话，也请提供一下日志。 > 另外，table 的

RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun

Hi, 请提供一下 flink cdc 的版本，使用的什么连接器。如果方便的话，也请提供一下日志。另外，table 的正则表达式可以匹配到新增的表吗？ Best, Jiabao [1] https://ververica.github.io/flink-cdc-connectors/release-3.0/content/connectors/mysql-cdc%28ZH%29.html#id15 On 2024/01/19 03:27:22 王凯 wrote: > 在使用flink cdc进行数据同步时，添加--scan.newly-added-table.enabled=t

RE: 实时数仓场景落地问题

2024-01-14 文章 Jiabao Sun

Hi, 可以尝试使用 Flink CDC + Apache Paimon 去构建实时数仓。目前 Paimon 已经支持使用 Flink CDC 将数据整库入湖，可以使用较小的成本进行实时入湖。另外利用 Paimon partial update的特性，可以以较小的计算成本去构建 ADS 层宽表。 Paimon 也可以同时支持批式计算和流式计算，对于时效性和计算成本可以使用灵活的计算方式做平衡。 Best, Jiabao On 2024/01/14 12:57:29 海风 wrote: > hello，公司里业务会拿一张t+1的离线数仓表名，经常是ads应用层的，问你可不可以做成实

RE: 退订

2024-01-14 文章 Jiabao Sun

Please send email to user-unsubscr...@flink.apache.org if you want to unsubscribe the mail from u...@flink.apache.org , and you can refer [1][2] for more details. 请发送任意内容的邮件到 user-unsubscr...@flink.apache.org

RE: 如何在IDE里面调试flink cdc 3.0作业？

2024-01-02 文章 Jiabao Sun

Hi, 可以参考下这篇文档[1]，进行简单的测试。 Best, Jiabao [1] https://docs.google.com/document/d/1L6cJiqYkAsZ_nDa3MgRwV3SKQuw5OrMbqGC4YgzgKR4/edit#heading=h.aybxdd96r62i On 2024/01/02 08:02:10 "casel.chen" wrote: > 我想在Intellij Idea里面调试mysql-to-doris.yaml作业要如何操作呢？flink-cdc-cli模块需要依赖 > flink-cdc-pipeline-connect

Re: Flink CDC中如何在Snapshot阶段读取数据时进行限流？

2024-01-01 文章 Jiabao Sun

Hi, GuavaFlinkConnectorRateLimiter 目前只在 flink-connector-gcp-pubsub[1] 有使用。 Flink CDC 还未支持限流[2]，目前可以尝试降低 snapshot 并发数来缓解数据库压力。 Best, Jiabao [1] https://github.com/apache/flink-connector-gcp-pubsub/blob/f5372f25cfc1954d00a4b2fc9342e8ed5a3ef3ab/flink-connector-gcp-pubsub/src/main/java/org/apache/

RE: FileSystem Connector如何优雅的支持同时写入多个路径

2023-12-29 文章 Jiabao Sun

Hi, 使用 SQL 的话不太好实现写入多个路径，使用 DataStream 的话可以考虑自己实现一个 RichSinkFunction。 Best, Jiabao On 2023/12/29 08:37:34 jinzhuguang wrote: > Flink版本：1.16.0 > > 看官网上的案例： > CREATE TABLE MyUserTable ( > column_name1 INT, > column_name2 STRING, > ... > part_name1 INT, > part_name2 STRING > ) PARTITION

RE: Flink SQL Windowing TVFs

2023-12-28 文章 Jiabao Sun

Hi, 在 1.14.0 版本中，CUMULATE 函数是需要用在GROUP BY聚合场景下的[1]。部署到生产的 SQL 是否包含了 GROUP BY 表达式？本地测试的Flink版本是不是1.14.0? Best, Jiabao [1] https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/table/sql/queries/window-tvf/#cumulate On 2023/12/29 04:57:09 "jiaot...@mail.jj.cn" wrote: > Hi， >

Re: flink cdc 3.0 schema evolution原理是怎样的？

2023-12-27 文章 Jiabao Sun

> > > > > 在 2023-12-28 01:16:40，"Jiabao Sun" 写道： >> Hi, >> >>> 为什么最后output.collect(new StreamRecord<>(schemaChangeEvent)); >>> 还要发送一次SchemaChangeEvent呢？ >> >> Sink 也会收到 SchemaChangeEvent，因为 Sink 可能需要根据 Schema 变更的情况来调整

Re: flink cdc 3.0 schema evolution原理是怎样的？

2023-12-27 文章 Jiabao Sun

Hi, > 为什么最后output.collect(new StreamRecord<>(schemaChangeEvent)); > 还要发送一次SchemaChangeEvent呢？ Sink 也会收到 SchemaChangeEvent，因为 Sink 可能需要根据 Schema 变更的情况来调整 serializer 或 writer，参考 DorisEventSerializer > 最后一行requestReleaseUpstream()执行被block的原因是什么？是如何hold upstream然后再release > upstream的呢？被 block 的原

RE: lock up表过滤条件下推导致的bug

2023-12-25 文章 Jiabao Sun

Hi, 邮件中的图片没显示出来，麻烦把 SQL 贴出来一下。 Best, Jiabao On 2023/12/25 12:22:41 杨光跃 wrote: > 我的sql如下： > 、 > > > t_purch_apply_sent_route 是通过flink cdc创建的 > t_purch_apply_sent_route_goods 是普通的jdbc > 我期望的结果是返回符合过滤条件的；但现在执行的结果，会返回t_purch_apply_sent_route表所有数据 > 这显然不符合我的预期，原因应该是因为过滤条件进行了过早的下推 > 这应该算是bug吧，或者要满足

RE: Re:Flink脏数据处理

2023-12-21 文章 Jiabao Sun

Hi, 需要精准控制异常数据的话，就不太推荐flink sql了。考虑使用DataStream将异常数据用侧流输出[1]，再做补偿。 Best, Jiabao [1] https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/dev/datastream/side_output/ On 2023/12/06 08:45:20 Xuyang wrote: > Hi, > 目前flink sql主动收集脏数据的行为。有下面两种可行的办法： > 1. 如果知道脏数据是什么格式，那么将脏数据打个标，不走正常的处理逻

RE: Re:Re:flink sql支持批量lookup join

2023-12-21 文章 Jiabao Sun

Hi, casel. 使用三次lookup join是可以实现的，加上缓存，性能应该不差。 WITH users AS ( SELECT * FROM (VALUES(1, 'zhangsan'), (2, 'lisi'), (3, 'wangwu')) T (id, name) ) SELECT orders.id, u1.name as creator_name, u2.name as approver_name, u3.name as deployer_name FROM ( SELECT * FRO

RE: flink1.15-flink1.18官方提供写入Elasticsearch的接口报序列化异常

2023-12-18 文章 Jiabao Sun

Hi, createIndexRequest是否不是静态的，scala的话可以在object中声明该方法。 Lambda中访问非静态方法，并且外部类不是可序列化的，可能会导致lambda无法被序列化。 Best, Jiabao On 2023/12/12 07:53:53 李世钰 wrote: > val result: ElasticsearchSink[String] = new Elasticsearch7SinkBuilder[String] > // This instructs the sink to emit after every element, otherwi

Re: Flink cdc 2.0 历史数据太大，导致log积压怎么解决

2023-09-20 文章 Jiabao Sun

Hi, 生产环境的binlog还是建议至少保留7天，可以提高故障恢复时间容忍度。另外，可以尝试增加snapshot的并行度和资源来提升snapshot速度，snapshot完成后可以从savepoint恢复并减少资源。 Best, Jiabao -- From:jinzhuguang Send Time:2023年9月20日(星期三) 20:56 To:user-zh Subject:Flink cdc 2.0 历史数据太大，导致log积压怎么解决以mysq

RE: 咨询求助: Least函数输入正常但是返回值异常

2023-08-20 文章 Jiabao Sun

Hi, 方便提供一下复现的用例吗? Best, Jiabao On 2023/08/21 02:19:53 guifeng huang wrote: > (Flink1.15版本) > 咨询求助: Least函数输入参数(Double类型)正常, 在Flink shell里测试函数无问题, 结果符合预期. > 但是实际生产流里进行使用的时候发现返回结果有异, 以下是3种case > - 返回结果正确, 符合预期 > - 返回0, 不符合预期, 未知原因 > - 返回结果和理论正确值有微小的gap, 找了几个case都是1位数值里的差距. > 看看有没有其他的老师遇到过同样的问题

Re: Flink消费MySQL

2023-08-07 文章 Jiabao Sun

Hi, 可以尝试使用 flink-cdc-connectors 去实时关联。使用 regular join 需要保留两张表完整的状态，表数据量较大建议使用 rocksdb backend。被关联的表变化不大的话可以考虑 lookup join。 Best, Jiabao > 2023年8月8日上午11:10，小昌同学写道： > > 谢谢老师指导呀； > 我目前的需求是想把两张MySQL的表数据读取出来，然后进行实时关联，我现在能想到的就是要么使用cdc实时读取，要么就是写一个循环去读MySQL中的数据 > 老师这一块有更好的建议嘛 > > > | | > 小昌同学 >

Re: 如何把自己新增的定制化connector deploy snapshot版本到私服仓库

2023-08-01 文章 Jiabao Sun

找不到他了，而且也没法想flink-runtime这些包手动改下版本好，这种该怎么办 > >> 2023年7月27日 11:05，Jiabao Sun 写道： >> >> 你好， >> >> 通常在 pom 中引入 maven-deploy-plugin，并且通过声明私服地址，使用 mvn >> clean deploy 命令部署到nexus私服。 >> 部署到 SNAPSHOT 仓库需要项目版本号包含 -SNA

Re: 如何把自己新增的定制化connector deploy snapshot版本到私服仓库

2023-07-26 文章 Jiabao Sun

你好，通常在 pom 中引入 maven-deploy-plugin，并且通过声明私服地址，使用 mvn clean deploy 命令部署到nexus私服。部署到 SNAPSHOT 仓库需要项目版本号包含 -SNAPSHOT 后缀，可以在IDE中全局替换，也可以使用 versions-maven-plugin 统一设置。 org.apache.maven.plugins maven-deploy-plugin 2.8.2

RE: flink如何正确使用mybatis

2023-07-26 文章 Jiabao Sun

SqlSession 需要关闭，建议使用 SqlSessionManager，可以不用手动关闭 SqlSession。 On 2023/07/18 02:13:16 lxk wrote: > 在flink内需要使用mybatis做些简化查询的工作，目前我的使用方式如下 > > public class MybatisUtil { > > private static final Logger LOGGER = > LogFactory.createNewLogger("MybatisUtil"); > private static ThreadLocal tl = new

Re: 关于 mongo db 的splitVector 权限问题

Re: flink集群如何将日志直接写入elasticsearch中？

RE: Re:RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector？

RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector？

RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector？

RE: Re:RE: binlog文件丢失问题

RE: binlog文件丢失问题

RE: Re:RE: RE: flink cdc动态加表不生效

RE: 退订

RE: RE: flink cdc动态加表不生效

RE: flink cdc动态加表不生效

RE: 实时数仓场景落地问题

RE: 退订

RE: 如何在IDE里面调试flink cdc 3.0作业？

Re: Flink CDC中如何在Snapshot阶段读取数据时进行限流？

RE: FileSystem Connector如何优雅的支持同时写入多个路径

RE: Flink SQL Windowing TVFs

Re: flink cdc 3.0 schema evolution原理是怎样的？

Re: flink cdc 3.0 schema evolution原理是怎样的？

RE: lock up表过滤条件下推导致的bug

RE: Re:Flink脏数据处理

RE: Re:Re:flink sql支持批量lookup join

RE: flink1.15-flink1.18官方提供写入Elasticsearch的接口报序列化异常

Re: Flink cdc 2.0 历史数据太大，导致log积压怎么解决

RE: 咨询求助: Least函数输入正常但是返回值异常

Re: Flink消费MySQL

Re: 如何把自己新增的定制化connector deploy snapshot版本到私服仓库

Re: 如何把自己新增的定制化connector deploy snapshot版本到私服仓库

RE: flink如何正确使用mybatis

29 matches

Site Navigation

Mail list logo

Footer information