Re:eventTime语义一些设备的数据总是迟到被丢弃

2021-08-03 文章 Ye Chen
你好, 设备数据迟到多久?maxOutofOrderness设置一个合适的值,让迟到的数据到达窗口后再计算。 best regards 在 2021-08-03 15:15:37,"zwoi" <318666...@qq.com.INVALID> 写道: >hi > 我的设备数据是这样的, 设备id id(设备的唯一标识), 时间戳 time,要处理的指标 value, > 在eventTime语义下watermark 生成方式为new >Watermark(Math.max(time, currentMaxTimestamp)

Re:几个Flink 1.12. 2超时问题

2021-08-03 文章 Ye Chen
你好, 请问一下为什么要设置128并行度,这个数值有点太大了,出于什么考虑设置的 在 2021-08-03 14:02:53,"Chenyu Zheng" 写道: 开发者您好, 我正在尝试在Kubernetes上部署Flink 1.12.2,使用的是native application部署模式。但是在测试中发现,当将作业并行度调大之后,各种timeout时有发生。根据监控看,JM和TM容器的cpu和内存都没有使用到k8s给分配的量。 在尝试调大akka.ask.timeout至1分钟,和heartbeat.timeout至2分钟之后,各种超时现象得以缓解。

Re:Re: 回复:回复:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ?

2021-08-02 文章 Ye Chen
s, > >[1] >https://stackoverflow.com/questions/48144641/mysql-using-on-duplicate-key-update-coalesce >[2] >https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/sql/insert/#syntax > >Ye Chen 於 2021年8月2日 週一 下午4:08寫道: > >> 你好,我们用的1.11版本。 >> &g

Re:回复:回复:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ?

2021-08-02 文章 Ye Chen
2021-08-02 15:39:09,"silence" 写道: >用的什么版本这个应该已经在1.13中修复了https://issues.apache.org/jira/browse/FLINK-18726 >不行的话可以在ddl中限制列的数量 > > >------ >发件人:Ye Chen >发送时间:2021年8月2日(星期一) 11:37 >收件人:user-zh ; silence &

Re:Re: 回复:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ?

2021-08-02 文章 Ye Chen
是这个报错很奇怪..你 sql 咋写的 > >Ye Chen 于2021年8月2日周一 上午11:37写道: > >> 你好,我试了一下,如果表的ddl是三个字段,但是insert只指定两个字段的话,会报错: >> [ERROR] Could not execute SQL statement. Reason: >> org.apache.flink.table.api.ValidationException: Column types of query >> result and sink for registered table

Re:回复:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ?

2021-08-01 文章 Ye Chen
---- >发件人:Ye Chen >发送时间:2021年7月30日(星期五) 17:57 >收件人:user-zh >主 题:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ? > >现有table >CREATE TABLE t ( > abigint, > bbigint, > cbigint, > PRIMARY KEY (a) NOT ENFORCED >) WI

Re:回复:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ?

2021-08-01 文章 Ye Chen
ects/flink/flink-docs-release-1.13/docs/connectors/table/jdbc/#idempotent-writes > > >------ >发件人:Ye Chen >发送时间:2021年7月30日(星期五) 17:57 >收件人:user-zh >主 题:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY

场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ?

2021-07-30 文章 Ye Chen
现有table CREATE TABLE t ( abigint, bbigint, cbigint, PRIMARY KEY (a) NOT ENFORCED ) WITH ( ... ); 我们的场景只想根据主键a更新部分字段b,其余的字段保持不变,例如 mysql 支持 insert into t(a,b,c) select '1','2','3' on duplicate key update b='4'; 主键重复的时候只更新字段b,字段c的值不变

Re:Re:SqlValidatorException: No match found for function signature prod()

2021-02-21 文章 Ye Chen
应该是继承scalaFunction ? 在 2021-02-22 10:25:31,"xiaoyue" <18242988...@163.com> 写道: >捞一下自己,在线等大佬们的回复 _(:з」∠)_ > > > > > > > >在 2021-02-20 13:14:18,"xiaoyue" <18242988...@163.com> 写道: > >我在使用flinksql1.11的udaf时出现SqlValidatorException: No match found for function >signature

Re:flink生成大宽表

2021-02-21 文章 Ye Chen
可以用多流join,但是数据延迟会导致join不上,可以侧输出处理下,看业务需求 在 2021-02-22 11:05:46,"liujian" <13597820...@qq.com> 写道: >Hi: > 大家好,有3张实时的表,相互关联可以形成大宽表,如何一张都会更新,那么我该如何实现流处理,我目标表放到kudu上 > > 我的理解: > 直接使用jdbc-connecter将三张表读取,然后join,再写入,会不会有什么问题

Re:Flink SQL并发度问题

2021-02-20 文章 Ye Chen
并发度的设置有优先级,客户端级别小于算子级别,所以上游source算子单独设置并发度会生效,而下游仍然是客户端级别的并发度。 在 2021-02-20 18:23:52,"guaishushu1...@163.com" 写道: > 这几天研究了flink table 转化为stream node 的源码,发现是某个算子的并发度取决于上一个算子的并发度。 >但是在实际测试过程中发现使用window aggregate 语句时候 该算子的并发度和上游的source不一致 和我cli 命令配置的并发度一致 >这是为什么呢? > >

自定义partition,使用遇到问题,附代码

2021-02-19 文章 Ye Chen
各位好,我想实现自定义partition,继承了 FlinkKafkaPartitioner 后,使用会报错,简化的代码如下。 //自定义partition public class customPartitioner extends FlinkKafkaPartitioner { @Override public int partition(String record, byte[] key, byte[] value, String targetTopic, int[] partitions) { return 0; } }

Re:多流join的场景如何优化

2021-01-25 文章 Ye Chen
双流join或者多流join从技术上是可以实现你这个场景的,网上有很多成熟的案例。 但是要考虑具体的业务需求,比如数据是否能在规定时间到达,未到达如何处理,如果因为多流join造成数据缺失或者延迟,对业务影响比较大的话还不如继续用维表。 在 2021-01-26 11:30:56,"hl9...@126.com" 写道: >请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。 > >电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段): >market_act(营销活动):

Re:Flink 并行度问题

2021-01-22 文章 Ye Chen
@jacob hi, TaskManager 的一个 Slot 代表一个可用线程,该线程具有固定的内存,并且 Slot 只对内存隔离,没有对 CPU 隔离。 而slot 和并行度的关系是:Slot 是指 TaskManager 最大能并发执行的能力,parallelism 是指 TaskManager 实际使用的并发能力。 个人见解,并行度的设置一般无需考虑CPU。 在 2021-01-22 16:18:32,"Jacob" <17691150...@163.com> 写道: >使用Flink以来,一直有一个问题困扰着。 > > >Flink

Re:flink消费kafka出现GC问题

2021-01-21 文章 Ye Chen
@nick 我们之前也遇到的过GC导致任务挂掉问题,后来排查发现flink代码写的有问题,在@close方法中关闭数据库连接,但是事实上@close方法未起作用,导致资源未释放OOM。 hope this can help you At 2021-01-22 14:18:51, "nick" wrote: >org.apache.flink.runtime.JobException: Recovery is suppressed by >NoRestartBackoffTimeStrategy > at