退订

2024-03-11 文章 王阳
退订

退订

2024-03-11 文章 熊柱
退订

回复:flink operator 高可用任务偶发性报错unable to update ConfigMapLock

2024-03-11 文章 kellygeorg...@163.com
有没有高手指点一二???在线等 回复的原邮件 | 发件人 | kellygeorg...@163.com | | 日期 | 2024年03月11日 20:29 | | 收件人 | user-zh | | 抄送至 | | | 主题 | flink operator 高可用任务偶发性报错unable to update ConfigMapLock | jobmanager的报错如下所示,请问是什么原因? Exception occurred while renewing lock:Unable to update ConfigMapLock Caused

flink operator 高可用任务偶发性报错unable to update ConfigMapLock

2024-03-11 文章 kellygeorg...@163.com
jobmanager的报错如下所示,请问是什么原因? Exception occurred while renewing lock:Unable to update ConfigMapLock Caused by:io.fabric8.kubernetes.client.Kubernetes Client Exception:Operation:[replace] for kind:[ConfigMap] with name:[flink task xx- configmap] in namespace:[default] Caused by:

Re: 退订

2024-03-10 文章 Hang Ruan
请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org 地址来取消订阅来自 user-zh-unsubscr...@flink.apache.org 邮件组的邮件,你可以参考[1][2] 管理你的邮件订阅。 Best, Hang [1] https://flink.apache.org/zh/community/#%e9%82%ae%e4%bb%b6%e5%88%97%e8%a1%a8 [2] https://flink.apache.org/community.html#mailing-lists 王新隆 于2024年3月11日周一

退订

2024-03-10 文章 王新隆
退订

Re: FlinkSQL connector jdbc 用户密码是否可以加密/隐藏

2024-03-10 文章 gongzhongqiang
hi, 东树 隐藏sql中的敏感信息,这个需要外部的大数据平台来做。 比如:StreamPark 的变量管理,可以提前维护好配置信息,编写sql时引用配置,由平台提交至flink时解析sql并替换变量。 Best, Zhongqiang Gong 杨东树 于2024年3月10日周日 21:50写道: > 各位好, >考虑到数据库用户、密码安全性问题,使用FlinkSQL connector > jdbc时,请问如何对数据库的用户密码进行加密/隐藏呢。例如如下常用sql中的password: > CREATE TABLE wordcount_sink ( >

Re: FlinkSQL connector jdbc 用户密码是否可以加密/隐藏

2024-03-10 文章 Feng Jin
1. 目前 JDBC connector 本身不支持加密, 我理解可以在提交 SQL 给 SQL 文本来做加解密的操作,或者做一些变量替换来隐藏密码。 2. 可以考虑提前创建好 jdbc catalog,从而避免编写 DDL 暴露密码。 Best, Feng On Sun, Mar 10, 2024 at 9:50 PM 杨东树 wrote: > 各位好, >考虑到数据库用户、密码安全性问题,使用FlinkSQL connector > jdbc时,请问如何对数据库的用户密码进行加密/隐藏呢。例如如下常用sql中的password: > CREATE TABLE

FlinkSQL connector jdbc 用户密码是否可以加密/隐藏

2024-03-10 文章 杨东树
各位好, 考虑到数据库用户、密码安全性问题,使用FlinkSQL connector jdbc时,请问如何对数据库的用户密码进行加密/隐藏呢。例如如下常用sql中的password: CREATE TABLE wordcount_sink ( word String, cnt BIGINT, primary key (word) not enforced ) WITH ( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://localhost:3306/flink', 'username' = 'root',

Re: 回复: Flink DataStream 作业如何获取到作业血缘?

2024-03-08 文章 Zhanghao Chen
事实上是可行的。你可以直接修改 StreamExecutionEnvironment 的源码,默认给作业作业注册上一个你们定制的 listener,然后通过某种那个方式把这个信息透出来。在 FLIP-314 [1] 中,我们计划直接在 Flink 里原生提供一个这样的接口让你去注册自己的 listener 获取血缘信息,不过还没发布,可以先自己做。 [1] https://cwiki.apache.org/confluence/display/FLINK/FLIP-314:+Support+Customized+Job+Lineage+Listener

回复: Flink DataStream 作业如何获取到作业血缘?

2024-03-08 文章 阿华田
我们想修改源码 实现任意任务提交实时平台,初始化DAG的时候获取到血缘信息,StreamExecutionEnvironment注册 这种只能写在任务里 不满足需求 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2024年03月8日 18:23,Zhanghao Chen 写道: 你可以看下 OpenLineage 和 Flink 的集成方法 [1],它是在 StreamExecutionEnvironment 里注册了一个 JobListener(通过这个可以拿到 JobClient 进而拿到 job id)。然后从

Re: 回复: Flink DataStream 作业如何获取到作业血缘?

2024-03-08 文章 Zhanghao Chen
你可以看下 OpenLineage 和 Flink 的集成方法 [1],它是在 StreamExecutionEnvironment 里注册了一个 JobListener(通过这个可以拿到 JobClient 进而拿到 job id)。然后从 execution environment 里可以抽取到 transformation 信息处理 [2]。 [1] https://openlineage.io/docs/integrations/flink/ [2]

回复: Flink DataStream 作业如何获取到作业血缘?

2024-03-08 文章 阿华田
”JobGraph 可以获得 transformation 信息“, JobGraph可以直接获取transformation的信息吗?, 我们是在 SourceTransformation 和SinkTransformation反射拿到链接信息 ,但是这个地方拿不到flinkJobid, JobGraph可以拿到source和sink的链接信息和flinkJobid? | | 阿华田 | | a15733178...@163.com | JobGraph 可以获得 transformation 信息transformation 签名由网易邮箱大师定制

Re: 回复: Flink DataStream 作业如何获取到作业血缘?

2024-03-08 文章 Zhanghao Chen
JobGraph 里有个字段就是 jobid。 Best, Zhanghao Chen From: 阿华田 Sent: Friday, March 8, 2024 14:14 To: user-zh@flink.apache.org Subject: 回复: Flink DataStream 作业如何获取到作业血缘? 获取到Source 或者 DorisSink信息之后, 如何知道来自那个flink任务,好像不能获取到flinkJobId | | 阿华田 | | a15733178...@163.com |

回复: Flink DataStream 作业如何获取到作业血缘?

2024-03-07 文章 阿华田
获取到Source 或者 DorisSink信息之后, 如何知道来自那个flink任务,好像不能获取到flinkJobId | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2024年02月26日 20:04,Feng Jin 写道: 通过 JobGraph 可以获得 transformation 信息,可以获得具体的 Source 或者 Doris Sink,之后再通过反射获取里面的 properties 信息进行提取。 可以参考 OpenLineage[1] 的实现. 1.

Re:Re:flink sql关联维表在lookup执行计划中的关联条件问题

2024-03-07 文章 iasiuide
好的,已经贴了sql片段 在 2024-03-08 11:02:34,"Xuyang" 写道: >Hi, 你的图挂了,可以用图床或者直接贴SQL > > > > >-- > >Best! >Xuyang > > > > >在 2024-03-08 10:54:19,"iasiuide" 写道: > > > > > >下面的sql片段中 >ods_ymfz_prod_sys_divide_order 为kafka source表 >dim_ymfz_prod_sys_trans_log 为mysql为表

Re:Re: flink sql关联维表在lookup执行计划中的关联条件问题

2024-03-07 文章 iasiuide
你好,我们用的是1.13.2和1.15.4版本的,看了下flink ui,这两种版本针对下面sql片段的lookup执行计划中的关联维表条件是一样的 在 2024-03-08 11:08:51,"Yu Chen" 写道: >Hi iasiuide, >方便share一下你使用的flink版本与jdbc connector的版本吗?据我所了解,jdbc >connector在FLINK-33365[1]解决了lookup join条件丢失的相关问题。 > >[1] https://issues.apache.org/jira/browse/FLINK-33365 > >祝好~ >

Re: flink sql关联维表在lookup执行计划中的关联条件问题

2024-03-07 文章 Yu Chen
Hi iasiuide, 方便share一下你使用的flink版本与jdbc connector的版本吗?据我所了解,jdbc connector在FLINK-33365[1]解决了lookup join条件丢失的相关问题。 [1] https://issues.apache.org/jira/browse/FLINK-33365 祝好~ > 2024年3月8日 11:02,iasiuide 写道: > > > > > 图片可能加载不出来,下面是图片中的sql片段 > .. > END AS trans_type, > >

Re:flink sql关联维表在lookup执行计划中的关联条件问题

2024-03-07 文章 Xuyang
Hi, 你的图挂了,可以用图床或者直接贴SQL -- Best! Xuyang 在 2024-03-08 10:54:19,"iasiuide" 写道: 下面的sql片段中 ods_ymfz_prod_sys_divide_order 为kafka source表 dim_ymfz_prod_sys_trans_log 为mysql为表 dim_ptfz_ymfz_merchant_info 为mysql为表 flink web ui界面的执行计划片段如下:

Re:flink sql关联维表在lookup执行计划中的关联条件问题

2024-03-07 文章 iasiuide
图片可能加载不出来,下面是图片中的sql片段 .. END AS trans_type, a.div_fee_amt, a.ts FROM ods_ymfz_prod_sys_divide_order a LEFT JOIN dim_ymfz_prod_sys_trans_log FOR SYSTEM_TIME AS OF a.proc_time AS b ON a.bg_rel_trans_id = b.bg_rel_trans_id AND

flink sql关联维表在lookup执行计划中的关联条件问题

2024-03-07 文章 iasiuide
下面的sql片段中 ods_ymfz_prod_sys_divide_order 为kafka source表 dim_ymfz_prod_sys_trans_log 为mysql为表 dim_ptfz_ymfz_merchant_info 为mysql为表 flink web ui界面的执行计划片段如下: [1]:TableSourceScan(table=[[default_catalog, default_database, ods_ymfz_prod_sys_divide_order, watermark=[-(CASE(IS

Re: Re:RE: RE: flink cdc动态加表不生效

2024-03-07 文章 Hongshun Wang
Hi, casel chan, 社区已经对增量框架实现动态加表(https://github.com/apache/flink-cdc/pull/3024 ),预计3.1对mongodb和postgres暴露出来,但是Oracle和Sqlserver目前并没暴露,你可以去社区参照这两个框架,将参数打开,并且测试和适配。 Best, Hongshun

Re:Window properties can only be used on windowed tables

2024-03-07 文章 周尹
public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tEnv = StreamTableEnvironment.create(env); ListPerson list = new ArrayList();list.add(new Person("Fred",35));

Re:Window properties can only be used on windowed tables

2024-03-07 文章 周尹
在非窗口化的表上使用窗口属性 At 2024-03-08 09:28:10, "ha.fen...@aisino.com" wrote: >public static void main(String[] args) { >StreamExecutionEnvironment env = > StreamExecutionEnvironment.getExecutionEnvironment(); >StreamTableEnvironment tEnv = StreamTableEnvironment.create(env); >

Re:Window properties can only be used on windowed tables

2024-03-07 文章 Xuyang
Hi, fengqi. 这看起来像是select语句中,不能直接使用非来源于window agg的proctime或者event函数。目前不确定这是不是预期行为,方便的话可以在社区jira[1]上提一个bug看看。 快速绕过的话,可以试试下面的代码: DataStream flintstones = env.fromCollection(list); // Table select = table.select($("name"), $("age"), $("addtime").proctime()); Table table = tEnv.fromDataStream(

使用avro schema注册confluent schema registry失败

2024-03-07 文章 casel.chen
我使用注册kafka topic对应的schema到confluent schema registry时报错,想知道问题的原因是什么?如何fix? io.confluent.kafka.schemaregistry.client.rest.exceptions.RestClientException: Schema being registered is incompatible with an earlier schema for subject "rtdp_test-test_schema-value", details:

Re: 退订

2024-03-04 文章 Shawn Huang
Hi,退订可以发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org 来取消订阅来自 user-zh@flink.apache.org 邮件列表的邮件,邮件列表的订阅管理,可以参考[1] [1] https://flink.apache.org/zh/what-is-flink/community/ Best, Shawn Huang 雷刚 于2024年2月29日周四 14:41写道: > 退订

Re: flink sql作业如何统计端到端延迟

2024-03-04 文章 Shawn Huang
Flink有一个端到端延迟的指标,可以参考以下文档[1],看看是否有帮助。 [1] https://nightlies.apache.org/flink/flink-docs-release-1.18/zh/docs/ops/metrics/#end-to-end-latency-tracking Best, Shawn Huang casel.chen 于2024年2月21日周三 15:31写道: > flink sql作业从kafka消费mysql过来的canal >

Re:Table中的java.util.Date类型对应sql中的什么类型

2024-03-04 文章 Xuyang
Hi, java.util.Date没有sql中的常规类型和它对应,因此使用的兜底的Raw类型(结构化类型)。实际上java.sql.Date 对应的是sql中的Date。 具体可以参考下这张表:https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/types/#data-type-extraction -- Best! Xuyang 在 2024-03-05 09:23:38,"ha.fen...@aisino.com" 写道: >从流转换成Table

Re: 根据flink job web url可以获取到JobGraph信息么?

2024-03-03 文章 Zhanghao Chen
我在 Yanquan 的回答基础上补充下,通过 /jobs/:jobid/plan 实际上拿到的就是 JSON 表示的 JobGraph 信息(通过 JsonPlanGenerator 这个类生成,包含了绝大部分 jobgraph 里常用的信息),应该能满足你的需要 From: casel.chen Sent: Saturday, March 2, 2024 14:17 To: user-zh@flink.apache.org Subject: 根据flink job web url可以获取到JobGraph信息么?

Re: 退订

2024-03-03 文章 Hang Ruan
请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org 地址来取消订阅来自 user-zh-unsubscr...@flink.apache.org 邮件组的邮件,你可以参考[1][2] 管理你的邮件订阅。 Best, Hang [1] https://flink.apache.org/zh/community/#%e9%82%ae%e4%bb%b6%e5%88%97%e8%a1%a8 [2] https://flink.apache.org/community.html#mailing-lists 4kings...@gmail.com

退订

2024-03-02 文章 4kings...@gmail.com
退订 4kings...@gmail.com 邮箱:4kings...@gmail.com

Re: 根据flink job web url可以获取到JobGraph信息么?

2024-03-01 文章 Yanquan Lv
https://nightlies.apache.org/flink/flink-docs-master/docs/ops/rest_api/#jobs-jobid-plan 通过 /jobs/:jobid/plan 能获得 ExecutionGraph 的信息,不知道能不能包含你需要的信息。 casel.chen 于2024年3月2日周六 14:19写道: > 正在运行的flink作业能够通过其对外暴露的web url获取到JobGraph信息么?

根据flink job web url可以获取到JobGraph信息么?

2024-03-01 文章 casel.chen
正在运行的flink作业能够通过其对外暴露的web url获取到JobGraph信息么?

Re: mysql cdc streamapi与sqlapi 输出表现不相同

2024-03-01 文章 Feng Jin
这两个 print 的实现是不一样的。 dataStream().print 是增加的 PrintSinkFunction, 该算子接受到数据会立刻打印出来, 且结果是在 TM 上打印出来。 而 table.execute().print() 是会把最终的结果通过 collect_sink 收集之后,回传到 client, 结果是在 client 的 stdout 打印出来, 且只有在做 checkpoint 时才会回传至 client, 它的可见周期会受限于 checkpoint 的间隔。 Best, Feng Jin On Fri, Mar 1, 2024 at 4:45 

Re: flink cdc底层的debezium是如何注册schema到confluent schema registry的?

2024-02-29 文章 Hang Ruan
Hi,casel.chen。 这个部分应该是在 CDC 项目里没有涉及到,CDC 依赖 debezium 的 engine 部分直接读取出变更数据,并没有像 debezium 本身一样去写入到 Kafka 中。 可以考虑去 Debezium 社区咨询一下这部分的内容,Debezium开发者们应该更熟悉这部分的内容。 祝好, Hang casel.chen 于2024年2月29日周四 18:11写道: > 搜索了debezium源码但没有发现哪里有调用 > SchemaRegistryClient.register方法的地方,请问它是如何注册schema到confluent

Re: mysql cdc streamapi与sqlapi 输出表现不相同

2024-02-29 文章 Hang Ruan
你好,ha.fengqi。 MySQL CDC 连接器只有在多并发时,会依赖checkpoint的完成来切换到增量阶段。从你提供的代码上来看,是单并发的运行作业,所以应该Source 在这两者之间的行为不会有区别。 这个不同是不是有可能是下游在两种使用方式上,有什么区别? 可以通过观察具体的IO指标看到Source是否真的及时发出消息,如果比较熟悉代码,也可以自己添加一下打印日志来验证。 祝好, Hang

flink cdc底层的debezium是如何注册schema到confluent schema registry的?

2024-02-29 文章 casel.chen
搜索了debezium源码但没有发现哪里有调用 SchemaRegistryClient.register方法的地方,请问它是如何注册schema到confluent schema registry的?

Re: 退订

2024-02-28 文章 Shawn Huang
Hi,退订可以发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org 来取消订阅来自 user-zh@flink.apache.org 邮件列表的邮件,邮件列表的订阅管理,可以参考[1] [1] https://flink.apache.org/zh/what-is-flink/community/ Best, Shawn Huang 18679131354 <18679131...@163.com> 于2024年2月27日周二 14:32写道: > 退订

Re: flink重启机制

2024-02-27 文章 Yanquan Lv
图片没有显示出来。container 调度是由 yarn 控制的,yarn 会优先选择运行中的节点。按理说 container 不会调度到下线的节点,你通过 yarn web 或者 yarn node -list 确认了吗? chenyu_opensource 于2024年2月27日周二 18:30写道: > 你好,flink任务提交到yarn上,由于某个节点下线导致flink任务失败,如下: > > 同时重试超过次数,任务失败,如下图: > > 我想问一下,flink重试机制中 >

flink重启机制

2024-02-27 文章 chenyu_opensource
你好,flink任务提交到yarn上,由于某个节点下线导致flink任务失败,如下: 同时重试超过次数,任务失败,如下图: 我想问一下,flink重试机制中 任务不会重新调度到新节点的container吗?为什么一直在同一个节点从而导致整体任务失败。这个调度是由yarn控制还是flink自身代码控制的?如有相关代码也请告知,谢谢。 期待回复,谢谢!

退订

2024-02-26 文章 18679131354
退订

Re: Flink DataStream 作业如何获取到作业血缘?

2024-02-26 文章 Feng Jin
通过 JobGraph 可以获得 transformation 信息,可以获得具体的 Source 或者 Doris Sink,之后再通过反射获取里面的 properties 信息进行提取。 可以参考 OpenLineage[1] 的实现. 1. https://github.com/OpenLineage/OpenLineage/blob/main/integration/flink/shared/src/main/java/io/openlineage/flink/visitor/wrapper/FlinkKafkaConsumerWrapper.java Best,

Flink DataStream 作业如何获取到作业血缘?

2024-02-26 文章 casel.chen
一个Flink DataStream 作业从mysql cdc消费处理后写入apache doris,请问有没有办法(从JobGraph/StreamGraph)获取到source/sink connector信息,包括连接字符串、数据库名、表名等?

Re: Flink Prometheus Connector问题

2024-02-23 文章 Feng Jin
我理解可以参考 FLIP 中的设计, 基于 Prometheus Remote-Write API v1.0 来初步实现一个 SinkFunction 实现写入 Prometheus Best, Feng On Fri, Feb 23, 2024 at 7:36 PM 17610775726 <17610775...@163.com> wrote: > Hi > 参考官网, >

回复:Flink Prometheus Connector问题

2024-02-23 文章 17610775726
Hi 参考官网,https://nightlies.apache.org/flink/flink-docs-release-1.18/docs/deployment/metric_reporters/#prometheuspushgateway Best JasonLee 回复的原邮件 | 发件人 | casel.chen | | 发送日期 | 2024年02月23日 17:35 | | 收件人 | user-zh@flink.apache.org | | 主题 | Flink Prometheus Connector问题 |

Flink Prometheus Connector问题

2024-02-23 文章 casel.chen
场景:使用Flink实时生成指标写入Prometheus进行监控告警 网上搜索到 https://github.com/apache/flink-connector-prometheus 项目,但内容是空的 另外找到FLIP-312 是关于flink prometheus connector的,https://cwiki.apache.org/confluence/display/FLINK/FLIP-312%3A+Prometheus+Sink+Connector 请问Flink官方有没有出flink prometheus connector?

Re: 退订

2024-02-22 文章 Leonard Xu
可以发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org 取消订阅来自 user-zh@flink.apache.org 邮件列表的邮件,邮件列表的订阅管理,可以参考[1] 祝好, [1] https://flink.apache.org/zh/what-is-flink/community/ > 2024年2月20日 下午4:36,任香帅 写道: > > 退订

Re:Re:Re:Re: flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark?

2024-02-21 文章 Xuyang
Hi, > 那是不是要计算sink延迟的话只需用 context.currentProcessingTime() - context.timestamp() 即可? 对,具体可以参考下这个内部实现的算子[1] > 新的sink > v2中的SinkWriter.Context已经没有currentProcessingTime()方法了,是不是可以直接使用System.currentTimeMillis() > - context.timestamp()得到sink延迟呢? 应该是可以的,就是可能因为各tm的机器时间会有略微差异的情况,不会特别准,但是应该也够用了。 [1]

Re: 退订

2024-02-21 文章 Zhanghao Chen
请发送任意内容的邮件到 user-zh-unsubscr...@flink.apache.org 来取消订阅来自 user-zh@flink.apache.org 邮件组的邮件。 Best, Zhanghao Chen From: 曹明勤 Sent: Thursday, February 22, 2024 9:42 To: user-zh@flink.apache.org Subject: 退订 退订

退订

2024-02-21 文章 曹明勤
退订

flink sql作业如何统计端到端延迟

2024-02-20 文章 casel.chen
flink sql作业从kafka消费mysql过来的canal json消息,经过复杂处理后写入doris,请问如何统计doris表记录的端到端时延?mysql表有update_time字段代表业务更新记录时间。 doris系统可以在表schema新增一个更新时间列ingest_time,所以在doris表上可以通过ingest_time - update_time算出端到端时延,但这种方法只能离线统计,有没有实时统计以方便实时监控的方法?

Re:Re:Re: flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark?

2024-02-20 文章 casel.chen
感谢!那是不是要计算sink延迟的话只需用 context.currentProcessingTime() - context.timestamp() 即可? 我看新的sink v2中的SinkWriter.Context已经没有currentProcessingTime()方法了,是不是可以直接使用System.currentTimeMillis() - context.timestamp()得到sink延迟呢? 在 2024-02-21 09:41:37,"Xuyang" 写道: >Hi, chen. >可以试一下在sink

Re:Re: flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark?

2024-02-20 文章 Xuyang
Hi, chen. 可以试一下在sink function的invoke函数中使用: @Override public void invoke(RowData row, Context context) throws Exception { context.currentProcessingTime(); context.currentWatermark(); ... } -- Best! Xuyang 在 2024-02-20 19:38:44,"Feng Jin"

Re: flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark?

2024-02-20 文章 Feng Jin
我理解不应该通过 rowData 获取, 可以通过 Context 获得 watermark 和 eventTime. Best, Feng On Tue, Feb 20, 2024 at 4:35 PM casel.chen wrote: > 请问flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark? > > > public class XxxSinkFunction extends RichSinkFunction implements > CheckpointedFunction,

退订

2024-02-20 文章 任香帅
退订

flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark?

2024-02-20 文章 casel.chen
请问flink sql中的自定义sink connector如何获取到source table中定义的event time和watermark? public class XxxSinkFunction extends RichSinkFunction implements CheckpointedFunction, CheckpointListener { @Override public synchronized void invoke(RowData rowData, Context context) throws IOException {

退订

2024-02-19 文章 曹明勤
退订

flink作业实时数据质量监控告警要如何实现?

2024-02-08 文章 casel.chen
我们在使用flink搭建实时数仓,想知道flink作业是如何做数据质量监控告警的?包括数据及时性、完整性、一致性、准确性等 调研了spark streaming有amazon deequ和apache griffin框架来实现,想知道flink作业有没有类似的DQC框架?最好是对原有作业无侵入或者少侵入。 如果没有的话,实时数据质量这块一般是如何实现的呢? 如果每个生产作业都要单独配置一个DQC作业是不是代价太高了?有没有通过metrics暴露数据质量信息的呢? 下面是deequ使用的示例,检查每个微批数据是否满足规则要求。我们也有类似的数据质量检查需求

[ANNOUNCE] Apache flink-connector-kafka v3.1.0 released

2024-02-07 文章 Martijn Visser
The Apache Flink community is very happy to announce the release of Apache flink-connector-kafka v3.1.0. This release is compatible with Apache Flink 1.17 and 1.18. Apache Flink® is an open-source stream processing framework for distributed, high-performing, always-available, and accurate data

flink cdc整库同步大小表造成数据倾斜问题

2024-02-06 文章 casel.chen
使用flink cdc 3.0 yaml作业进行mysql到doris整库同步时发现有数据倾斜发生,大的TM要处理180G数据,小的TM只有30G数据,上游有的大表流量很大,而小表几乎没有流量,有什么办法可以避免发生数据倾斜问题么?

Re: Flink任务链接信息审计获取

2024-02-03 文章 Feng Jin
我理解应该是平台统一配置在 flink-conf.yaml 即可, 不需要用户单独配置相关参数. Best, Feng On Sun, Feb 4, 2024 at 11:19 AM 阿华田 wrote: > 看了一下 这样需要每个任务都配置listener,做不到系统级的控制,推动下游用户都去配置listener比较困难 > > > | | > 阿华田 > | > | > a15733178...@163.com > | > 签名由网易邮箱大师定制 > > > 在2024年02月2日 19:38,Feng Jin 写道: > hi, > > 可以参考下

回复: Flink任务链接信息审计获取

2024-02-03 文章 阿华田
看了一下 这样需要每个任务都配置listener,做不到系统级的控制,推动下游用户都去配置listener比较困难 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2024年02月2日 19:38,Feng Jin 写道: hi, 可以参考下 OpenLineage[1] 的实现, 通过 Flink 配置JobListener 拿到 Transformation 信息,然后解析 Source 和 Sink 拿到血缘信息。 [1]

回复: Flink任务链接信息审计获取

2024-02-03 文章 阿华田
好的 感谢 我研究一下 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2024年02月2日 19:38,Feng Jin 写道: hi, 可以参考下 OpenLineage[1] 的实现, 通过 Flink 配置JobListener 拿到 Transformation 信息,然后解析 Source 和 Sink 拿到血缘信息。 [1]

Re: Flink任务链接信息审计获取

2024-02-02 文章 Feng Jin
hi, 可以参考下 OpenLineage[1] 的实现, 通过 Flink 配置JobListener 拿到 Transformation 信息,然后解析 Source 和 Sink 拿到血缘信息。 [1] https://github.com/OpenLineage/OpenLineage/blob/main/integration/flink/src/main/java/io/openlineage/flink/OpenLineageFlinkJobListener.java Best, Feng On Fri, Feb 2, 2024 at 6:36 PM 阿华田

Flink任务链接信息审计获取

2024-02-02 文章 阿华田
打算做flink任务画像的事情,主要是用户跑的datastream作业,在我们的实时平台运行起来之后希望能审计到使用了哪些kafka的topic,写入了哪些中间件(mysql,hbase ,ck 等等),大佬们有什么好的方式吗,目前flinksql可以通过sql获取到,用户自己编译的flink任务包去执行datastream作业获取不到 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制

Re: Batch模式下,StatefulSinkWriter如何存储状态,以保证在failover或者job restart的情况避免从头读取数据

2024-02-02 文章 jinzhuguang
我试了下,当我显示的设置env.setRuntimeMode(RuntimeExecutionMode.BATCH); 就不会进行checkpoint了,否则是可以。 > 2024年2月2日 17:20,ha.fen...@aisino.com 写道: > > > env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE); >env.setStateBackend(new FsStateBackend("file:\\d:\\abc")); > >

Re: Batch模式下,StatefulSinkWriter如何存储状态,以保证在failover或者job restart的情况避免从头读取数据

2024-02-02 文章 tanjialiang
按我的理解,streaming模式去读是允许checkpoint的(具体看各个connector的checkpoint逻辑),batch模式是一个阶段一个阶段的跑的,上一个task跑完的结果会放到磁盘等待下一个task拉取,task失败了就重新拉取上一个task的结果重新跑(没有看源码里具体实现细节,纯属个人的猜测,有懂行的大佬们可以纠正) 回复的原邮件 | 发件人 | ha.fen...@aisino.com | | 发送日期 | 2024年2月2日 17:21 | | 收件人 | user-zh | | 主题 | Re: Re:

Re: Batch模式下,StatefulSinkWriter如何存储状态,以保证在failover或者job restart的情况避免从头读取数据

2024-02-02 文章 jinzhuguang
你是在batch模式下手动开启了checkpoint吗 > 2024年2月2日 17:11,ha.fen...@aisino.com 写道: > > 今天正好测试了这个问题,开启checkpoint后,读取一个文件内容,在checkpoints有记录时,停止程序,然后再从checkpoint读取启动,读取的记录并不是从最开始,这说明批处理下也会自动保存状态。 > > 发件人: jinzhuguang > 发送时间: 2024-02-02 16:47 > 收件人: user-zh > 主题:

Batch模式下,StatefulSinkWriter如何存储状态,以保证在failover或者job restart的情况避免从头读取数据

2024-02-02 文章 jinzhuguang
Flink 1.16.0 我在阅读FileSink的代码时发现,其依靠StatefulSinkWriter的snapshotState接口在checkpoint时存储当前的状态。 interface StatefulSinkWriter extends SinkWriter { /** * @return The writer's state. * @throws IOException if fail to snapshot writer's state. */ List

[ANNOUNCE] Community over Code EU 2024 Travel Assistance Applications now open!

2024-01-27 文章 Martijn Visser
Hi everyone, The Apache Software Foundation is organizing another Community over Code event, where a wide variety of speakers will be speaking. You can find all the details at https://eu.communityovercode.org/ Within the ASF, there is a so-called Travel Assistance Committee (TAC). This committee

Re:回复: flink ui 算子数据展示一直loading...

2024-01-25 文章 Xuyang
Hi, 手动curl 有问题的metric的接口,出来的数据正常吗? JM log里有发现什么异常么? -- Best! Xuyang 在 2024-01-26 11:51:53,"阿华田" 写道: >这个维度都排查了 都正常 > > >| | >阿华田 >| >| >a15733178...@163.com >| >签名由网易邮箱大师定制 > > >在2024年01月23日 21:57,Feng Jin 写道: >可以尝试着下面几种方式确认下原因: > > >1. > >打开浏览器开发者模式,看是否因为请求某个接口卡住 >2. > >查看下

回复: flink ui 算子数据展示一直loading...

2024-01-25 文章 阿华田
这个维度都排查了 都正常 | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制 在2024年01月23日 21:57,Feng Jin 写道: 可以尝试着下面几种方式确认下原因: 1. 打开浏览器开发者模式,看是否因为请求某个接口卡住 2. 查看下 JobManager 的 GC 情况,是否频繁 FullGC 3. 查看下 JobManager 的日志,是否存在某些资源文件丢失或者磁盘异常情况导致 web UI 无法访问. Best, Feng On Tue, Jan 23, 2024 at 6:16 PM 阿华田

Re: [ANNOUNCE] Apache Flink 1.18.1 released

2024-01-25 文章 Jing Ge
Hi folks, The bug has been fixed and PR at docker-library/official-images has been merged. The official images are available now. Best regards, Jing On Mon, Jan 22, 2024 at 11:39 AM Jing Ge wrote: > Hi folks, > > I am still working on the official images because of the issue >

Re: 实时数仓场景落地问题

2024-01-23 文章 xiaohui zhang
实时数仓落地建议先动手做一两个场景真实应用起来,见过好几个项目一开始目标定得过大,实时数仓、流批一体、数据管控啥的都规划进去,结果项目陷入无尽的扯皮,架构设计也如空中楼阁。 实践过程中不要太过于向已有数仓分层模型靠拢,从源系统直接拼接宽表到dws层就足以应付大部分需求了。下游应用再用MPP来满足业务层的实时聚合、BI需求。 等立了几个烟囱,自己项目的实时数仓怎么做也基本有了思路

Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-23 文章 yuanfeng hu
> 2024年1月18日 14:59,fufu 写道: > > 看hdfs上shard文件比chk-xxx要大很多。 > > > > 在 2024-01-18 14:49:14,"fufu" 写道: > > 是datastream作业,窗口算子本身没有设置TTL,其余算子设置了TTL,是在Flink > UI上看到窗口算子的size不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~ > > 在 2024-01-18

关于 flink Async io checkpoint restore

2024-01-23 文章 zhhui yan
HI All flink 1.18.0 jdk 17 使用异步IO 失败后无法恢复,一直报序列化问题; 我调整使用 string 类型和bytes 都不能够恢复 Caused by: org.apache.flink.runtime.state.BackendBuildingException: Failed when trying to restore operator state backend at org.apache.flink.runtime.state.DefaultOperatorStateBackendBuilder.build(

Re: flink ui 算子数据展示一直loading...

2024-01-23 文章 Feng Jin
可以尝试着下面几种方式确认下原因: 1. 打开浏览器开发者模式,看是否因为请求某个接口卡住 2. 查看下 JobManager 的 GC 情况,是否频繁 FullGC 3. 查看下 JobManager 的日志,是否存在某些资源文件丢失或者磁盘异常情况导致 web UI 无法访问. Best, Feng On Tue, Jan 23, 2024 at 6:16 PM 阿华田 wrote: > > >

flink ui 算子数据展示一直loading...

2024-01-23 文章 阿华田
如下图,任务处理数据正常,任务状态也正常,但是flink_ui一致处于loading中,只有个别任务这样,其他正常,有可能是metirc包的某个类冲突导致的吗? | | 阿华田 | | a15733178...@163.com | 签名由网易邮箱大师定制

Re: [ANNOUNCE] Apache Flink 1.18.1 released

2024-01-22 文章 Jing Ge
Hi folks, I am still working on the official images because of the issue https://issues.apache.org/jira/browse/FLINK-34165. Images under apache/flink are available. Best regards, Jing On Sun, Jan 21, 2024 at 11:06 PM Jing Ge wrote: > Thanks Leonard for the feedback! Also thanks @Jark Wu >

RE: Re:RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-22 文章 Jiabao Sun
Hi, ResumeToken[1] can be considered globally unique[2]. Best, Jiabao [1] https://www.mongodb.com/docs/manual/changeStreams/#resume-tokens [2] https://img.alicdn.com/imgextra/i4/O1CN010e81SP1vkgoyL0nhd_!!66211-0-tps-2468-1360.jpg On 2024/01/22 09:36:42 "casel.chen" wrote: > > > >

Re:RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-22 文章 casel.chen
V1版本依赖于DebeziumSourceFunction,后者依赖于DebeziumEngine产生changelog V2版本虽然依赖了 flink-connector-debezium 但没有用到debezium内部类 另外有一个问题:mongodb change stream断点续传用的resumeToken是像mysql binlog offset一样全局唯一么? 如果数据源是像kafka一样每个分片有binlog offset的话, 是不是要在对应xxxOffset类中要定义一个Map类型的offsetField

Re:RE: Re:RE: binlog文件丢失问题

2024-01-21 文章 wyk
您好: 我确认我们两台mysql备库都开启了gtid选项,并且该问题我们进行了复现,复现步骤如下: flink版本 1.14.5 flink-connector-mysql-cdc版本 2.2.0 mysql版本 5.6.0 1.准备两台备库,并且binlog文件名相差很远没有交集 2.采集第一台备库,等待数据正常写入后,停止该cdc采集任务,正常保存savepoint 3.修改采集mysql的配置信息为备库2,并且将flink任务正常从savepoint启动,就会出现上述反馈的问题 在 2024-01-19

RE: Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-21 文章 Jiabao Sun
Hi, Flink CDC MongoDB connector V1是基于 mongo-kafka 实现的,没有基于 debezium 实现。 Flink CDC MongoDB connector V2是基于增量快照读框架实现的,不依赖 mongo-kafka 和 debezium 。 Best, Jiabao [1] https://github.com/mongodb/mongo-kafka On 2024/01/22 02:57:38 "casel.chen" wrote: > > > > > > > > > > Flink CDC MongoDB

Re:RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-21 文章 casel.chen
Flink CDC MongoDB connector 还是基于debezium实现的 在 2024-01-22 10:14:32,"Jiabao Sun" 写道: >Hi, > >可以参考 Flink CDC MongoDB connector 的实现。 > >Best, >Jiabao > > >On 2024/01/22 02:06:37 "casel.chen" wrote: >> 现有一种数据源不在debezium支持范围内,需要通过flink sql全增量一体消费,想着基于flink cdc >>

RE: 如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-21 文章 Jiabao Sun
Hi, 可以参考 Flink CDC MongoDB connector 的实现。 Best, Jiabao On 2024/01/22 02:06:37 "casel.chen" wrote: > 现有一种数据源不在debezium支持范围内,需要通过flink sql全增量一体消费,想着基于flink cdc > 3.x自行开发,查了一下现有大部分flink cdc source > connector都是基于debezium库开发的,只有oceanbase和tidb不是,但后二者用的source接口还是V1版本的,不是最新V2版本的incremental >

如何基于flink cdc 3.x自定义不基于debezium的全增量一体source connector?

2024-01-21 文章 casel.chen
现有一种数据源不在debezium支持范围内,需要通过flink sql全增量一体消费,想着基于flink cdc 3.x自行开发,查了一下现有大部分flink cdc source connector都是基于debezium库开发的,只有oceanbase和tidb不是,但后二者用的source接口还是V1版本的,不是最新V2版本的incremental snapshot,意味着全量阶段不支持checkpoint,如果作业失败需要重新从头消费。 想问一下有没有不基于debezium实现的V2版本source connector示例?谢谢!

Re: [ANNOUNCE] Apache Flink 1.18.1 released

2024-01-21 文章 Jing Ge
Thanks Leonard for the feedback! Also thanks @Jark Wu @Chesnay Schepler and each and everyone who worked closely with me for this release. We made it together! Best regards, Jing On Sun, Jan 21, 2024 at 9:25 AM Leonard Xu wrote: > Thanks Jing for driving the release, nice work! > > Thanks

Re: [ANNOUNCE] Apache Flink 1.18.1 released

2024-01-21 文章 Leonard Xu
Thanks Jing for driving the release, nice work! Thanks all who involved this release! Best, Leonard > 2024年1月20日 上午12:01,Jing Ge 写道: > > The Apache Flink community is very happy to announce the release of Apache > Flink 1.18.1, which is the first bugfix release for the Apache Flink 1.18 >

[ANNOUNCE] Apache Flink 1.18.1 released

2024-01-19 文章 Jing Ge
The Apache Flink community is very happy to announce the release of Apache Flink 1.18.1, which is the first bugfix release for the Apache Flink 1.18 series. Apache Flink® is an open-source stream processing framework for distributed, high-performing, always-available, and accurate data streaming

RE: Re:RE: binlog文件丢失问题

2024-01-19 文章 Jiabao Sun
Hi, 日志中有包含 GTID 的内容吗? 用 SHOW VARIABLES LIKE 'gtid_mode’; 确认下是否开启了GTID呢? Best, Jiabao On 2024/01/19 09:36:38 wyk wrote: > > > > > > > > > > 抱歉,具体报错和代码如下: > > > 报错部分: > Caused by: java.lang.IllegalStateException: The connector is trying to read > binlog starting at >

Re:RE: binlog文件丢失问题

2024-01-19 文章 wyk
抱歉,具体报错和代码如下: 报错部分: Caused by: java.lang.IllegalStateException: The connector is trying to read binlog starting at Struct{version=1.5.4.Final,connector=mysql,name=mysql_binlog_source,ts_ms=1705645599953,db=,server_id=0,file=mysql_bin.007132,pos=729790304,row=0}, but this is no longer

RE: binlog文件丢失问题

2024-01-19 文章 Jiabao Sun
Hi, 你的图挂了,可以贴一下图床链接或者直接贴一下代码。 Best, Jiabao On 2024/01/19 09:16:55 wyk wrote: > > > 各位大佬好: > 现在有一个binlog文件丢失问题,需要请教各位,具体问题描述如下: > > > 问题描述: > 场景: 公司mysql有两个备库: 备库1和备库2。 > 1. 现在备库1需要下线,需要将任务迁移至备库2 > 2.我正常将任务保存savepoint后,将链接信息修改为备库2从savepoint启动,这个时候提示报错binlog文件不存在问题,报错截图如下图一 >

binlog文件丢失问题

2024-01-19 文章 wyk
各位大佬好: 现在有一个binlog文件丢失问题,需要请教各位,具体问题描述如下: 问题描述: 场景: 公司mysql有两个备库: 备库1和备库2。 1. 现在备库1需要下线,需要将任务迁移至备库2 2.我正常将任务保存savepoint后,将链接信息修改为备库2从savepoint启动,这个时候提示报错binlog文件不存在问题,报错截图如附件内图一

binlog文件丢失问题

2024-01-19 文章 wyk
各位大佬好: 现在有一个binlog文件丢失问题,需要请教各位,具体问题描述如下: 问题描述: 场景: 公司mysql有两个备库: 备库1和备库2。 1. 现在备库1需要下线,需要将任务迁移至备库2 2.我正常将任务保存savepoint后,将链接信息修改为备库2从savepoint启动,这个时候提示报错binlog文件不存在问题,报错截图如下图一

RE: Re:RE: RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun
Hi, oracle cdc connector 已经接入增量快照读框架,动态加表也是可以统一去实现的。 可以去社区创建issue,也欢迎直接贡献。 Best, Jiabao On 2024/01/19 04:46:21 "casel.chen" wrote: > > > > > > > 想知道oracle cdc connector不支持动态加表的原因是什么?可否自己扩展实现呢? > > > > > > > > > > > > 在 2024-01-19 11:53:49,"Jiabao Sun" 写道: > >Hi, > > > >Oracle

Re:RE: RE: flink cdc动态加表不生效

2024-01-18 文章 casel.chen
想知道oracle cdc connector不支持动态加表的原因是什么?可否自己扩展实现呢? 在 2024-01-19 11:53:49,"Jiabao Sun" 写道: >Hi, > >Oracle CDC connector[1] 目前是不支持动态加表的。 > >Best, >Jiabao > >[1] >https://ververica.github.io/flink-cdc-connectors/release-2.4/content/connectors/oracle-cdc.html > > >On 2024/01/19

RE: 退订

2024-01-18 文章 Jiabao Sun
Please send email to user-unsubscr...@flink.apache.org if you want to unsubscribe the mail from u...@flink.apache.org, and you can refer [1][2] for more details. 请发送任意内容的邮件到 user-unsubscr...@flink.apache.org 地址来取消订阅来自 u...@flink.apache.org 邮件组的邮件,你可以参考[1][2] 管理你的邮件订阅。 Best, Jiabao [1]

RE: RE: flink cdc动态加表不生效

2024-01-18 文章 Jiabao Sun
Hi, Oracle CDC connector[1] 目前是不支持动态加表的。 Best, Jiabao [1] https://ververica.github.io/flink-cdc-connectors/release-2.4/content/connectors/oracle-cdc.html On 2024/01/19 03:37:41 Jiabao Sun wrote: > Hi, > > 请提供一下 flink cdc 的版本,使用的什么连接器。 > 如果方便的话,也请提供一下日志。 > 另外,table 的正则表达式可以匹配到新增的表吗? > >

退订

2024-01-18 文章 李乐
退订

<    1   2   3   4   5   6   7   8   9   10   >