Re: [ANNOUNCE] RocksDB Version Upgrade and Performance

2021-08-08 Thread Jiayi Liao
Hi Yun, Thanks for your detailed description about the progress of Flink and RocksDB's community. There're more than 1,200 jobs using RocksDB as the state backend at Bytedance, and we do met several problems mentioned in the JIRA issues you referred: (1) Memory Management: for large-scale

Inspecting SST state of rocksdb

2021-08-08 Thread Kai Fu
Hi team, I'm trying to inspect SST files of flink's state with sst related tools like sst_dump, ldb in wiki . But it seems I'm getting meaningless results as shown below. The tools I'm using are from RocksDB's trunk and

Re: 批流一体的一些疑问

2021-08-08 Thread Caizhi Weng
Hi! 如果观察到 sink 节点有数据写入,但 mysql 结果表的数据没有变化,可以看一下是否配置了 sink.buffer-flush.interval,如果这个值太大会导致在 flush interval 时间内数据没有 flush 到 mysql 里。它的默认值是 1s。 如果不是这个问题,可能需要提供比较详细的 SQL 来让大家找一下问题所在。 yanyunpeng 于2021年8月9日周一 上午10:24写道: > HI: > 大概的逻辑是这样的 > insert mysql_result_table【mysql结果表】 > select * from

Re: KafkaDeserializationSchema.open() is not called after task state change

2021-08-08 Thread Caizhi Weng
Hi! This does not sound like an expected behavior. However there might be a lot of reasons causing some values to be uninitialized (for example, once I've met a bug that a thread is created and runs in the open method before some values are initialized). You can always add some log at the

Re: 批流一体的一些疑问

2021-08-08 Thread yanyunpeng
HI: 大概的逻辑是这样的 insert mysql_result_table【mysql结果表】 select * from id_all【id的所有合集 mysql表】 where id not in (select distinct id from flink_view【2小时的id的合集】) insert到mysql的时候 结果数据不会随着窗口变动而变化 在 2021年8月9日 10:19,Caizhi Weng 写道: Hi! 不太明白这里的“结果插入数据库的时候变成了批,mysql 中的结果不会变化”是什么含义。这是说 sink

Re: 批流一体的一些疑问

2021-08-08 Thread Caizhi Weng
Hi! 不太明白这里的“结果插入数据库的时候变成了批,mysql 中的结果不会变化”是什么含义。这是说 sink 表和维表是同一张表吗?希望能更清晰地描述场景和做法。 yanyunpeng 于2021年8月9日周一 上午10:12写道: > 发现一个问题大佬能帮忙解答一二? > 1. 数据中的补充表(补充流信息, 流信息的设备配置全集) > 2.数据流 kafka原表 > 主要想实现的目标 发现一段时间内未发送消息的设备 > 主要实现流程 > 1. 2小时的滑动窗口来distinct所有的设备ID > 2. 查询mysql的设备合集表 查询 ID not in (distinct

批流一体的一些疑问

2021-08-08 Thread yanyunpeng
发现一个问题大佬能帮忙解答一二? 1. 数据中的补充表(补充流信息, 流信息的设备配置全集) 2.数据流 kafka原表 主要想实现的目标 发现一段时间内未发送消息的设备 主要实现流程 1. 2小时的滑动窗口来distinct所有的设备ID 2. 查询mysql的设备合集表 查询 ID not in (distinct id from 滑动窗口) 直接查询的时候是没有问题的 能达到批和流一起使用 但是结果插入数据库的时候变成了批 mysql中的结果不会变化 请问这种情况是什么机制 如果是批流一体情况下 回当做批处理那为啥select的时候能实现目标?

回复:如何监控kafka延迟

2021-08-08 Thread Jimmy Zhang
您好,看到你们在用kafka相关metrics,我想咨询一个问题。你们是否遇见过在重启一个kafka sink job后,相关指标清零的情况?这样是不是就无法持续的进行数据想加?我们想做一个数据对账,查询不同时间段的输出量统计,这样可能中间归零就有问题,所以想咨询下,任何的回复都非常感谢! | Best, Jimmy | Signature is customized by Netease Mail Master 在2021年07月28日 17:58,jie mei 写道: hi,all 我们是通过 grafana 对采集到的 flink kafka 的

Dynamic Cluster/Index Routing for Elasticsearch Sink

2021-08-08 Thread Rion Williams
Hi folks, I have a use-case that I wanted to initially pose to the mailing list as I’m not terribly familiar with the Elasticsearch connector to ensure I’m not going down the wrong path trying to accomplish this in Flink (or if something downstream might be a better option). Basically, I have

KafkaDeserializationSchema.open() is not called after task state change

2021-08-08 Thread Gil Amsalem
Hi, I have a class that implements KafkaDeserializationSchema and overrides the open() method. When deploying my job, everything seems to work as expected. But, when my task hit an exception and switch to CANCELED -> CREATED -> DEPLOYING, it seems that the open method is not called, and I am