你好,
设备数据迟到多久?maxOutofOrderness设置一个合适的值,让迟到的数据到达窗口后再计算。
best regards
在 2021-08-03 15:15:37,"zwoi" <318666...@qq.com.INVALID> 写道:
>hi
> 我的设备数据是这样的, 设备id id(设备的唯一标识), 时间戳 time,要处理的指标 value,
> 在eventTime语义下watermark 生成方式为new
>Watermark(Math.max(time, currentMaxTimestamp)
你好,
请问一下为什么要设置128并行度,这个数值有点太大了,出于什么考虑设置的
在 2021-08-03 14:02:53,"Chenyu Zheng" 写道:
开发者您好,
我正在尝试在Kubernetes上部署Flink 1.12.2,使用的是native
application部署模式。但是在测试中发现,当将作业并行度调大之后,各种timeout时有发生。根据监控看,JM和TM容器的cpu和内存都没有使用到k8s给分配的量。
在尝试调大akka.ask.timeout至1分钟,和heartbeat.timeout至2分钟之后,各种超时现象得以缓解。
s,
>
>[1]
>https://stackoverflow.com/questions/48144641/mysql-using-on-duplicate-key-update-coalesce
>[2]
>https://ci.apache.org/projects/flink/flink-docs-master/docs/dev/table/sql/insert/#syntax
>
>Ye Chen 於 2021年8月2日 週一 下午4:08寫道:
>
>> 你好,我们用的1.11版本。
>>
&g
2021-08-02 15:39:09,"silence" 写道:
>用的什么版本这个应该已经在1.13中修复了https://issues.apache.org/jira/browse/FLINK-18726
>不行的话可以在ddl中限制列的数量
>
>
>------
>发件人:Ye Chen
>发送时间:2021年8月2日(星期一) 11:37
>收件人:user-zh ; silence
&
是这个报错很奇怪..你 sql 咋写的
>
>Ye Chen 于2021年8月2日周一 上午11:37写道:
>
>> 你好,我试了一下,如果表的ddl是三个字段,但是insert只指定两个字段的话,会报错:
>> [ERROR] Could not execute SQL statement. Reason:
>> org.apache.flink.table.api.ValidationException: Column types of query
>> result and sink for registered table
----
>发件人:Ye Chen
>发送时间:2021年7月30日(星期五) 17:57
>收件人:user-zh
>主 题:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY UPDATE ?
>
>现有table
>CREATE TABLE t (
> abigint,
> bbigint,
> cbigint,
> PRIMARY KEY (a) NOT ENFORCED
>) WI
ects/flink/flink-docs-release-1.13/docs/connectors/table/jdbc/#idempotent-writes
>
>
>------
>发件人:Ye Chen
>发送时间:2021年7月30日(星期五) 17:57
>收件人:user-zh
>主 题:场景题:Flink SQL 不支持 INSERT INTO… ON DUPLICATE KEY
现有table
CREATE TABLE t (
abigint,
bbigint,
cbigint,
PRIMARY KEY (a) NOT ENFORCED
) WITH (
...
);
我们的场景只想根据主键a更新部分字段b,其余的字段保持不变,例如
mysql 支持 insert into t(a,b,c) select '1','2','3' on duplicate key update
b='4';
主键重复的时候只更新字段b,字段c的值不变
应该是继承scalaFunction ?
在 2021-02-22 10:25:31,"xiaoyue" <18242988...@163.com> 写道:
>捞一下自己,在线等大佬们的回复 _(:з」∠)_
>
>
>
>
>
>
>
>在 2021-02-20 13:14:18,"xiaoyue" <18242988...@163.com> 写道:
>
>我在使用flinksql1.11的udaf时出现SqlValidatorException: No match found for function
>signature
可以用多流join,但是数据延迟会导致join不上,可以侧输出处理下,看业务需求
在 2021-02-22 11:05:46,"liujian" <13597820...@qq.com> 写道:
>Hi:
> 大家好,有3张实时的表,相互关联可以形成大宽表,如何一张都会更新,那么我该如何实现流处理,我目标表放到kudu上
>
> 我的理解:
> 直接使用jdbc-connecter将三张表读取,然后join,再写入,会不会有什么问题
并发度的设置有优先级,客户端级别小于算子级别,所以上游source算子单独设置并发度会生效,而下游仍然是客户端级别的并发度。
在 2021-02-20 18:23:52,"guaishushu1...@163.com" 写道:
> 这几天研究了flink table 转化为stream node 的源码,发现是某个算子的并发度取决于上一个算子的并发度。
>但是在实际测试过程中发现使用window aggregate 语句时候 该算子的并发度和上游的source不一致 和我cli 命令配置的并发度一致
>这是为什么呢?
>
>
各位好,我想实现自定义partition,继承了 FlinkKafkaPartitioner 后,使用会报错,简化的代码如下。
//自定义partition
public class customPartitioner extends FlinkKafkaPartitioner {
@Override
public int partition(String record, byte[] key, byte[] value, String
targetTopic, int[] partitions) {
return 0;
}
}
双流join或者多流join从技术上是可以实现你这个场景的,网上有很多成熟的案例。
但是要考虑具体的业务需求,比如数据是否能在规定时间到达,未到达如何处理,如果因为多流join造成数据缺失或者延迟,对业务影响比较大的话还不如继续用维表。
在 2021-01-26 11:30:56,"hl9...@126.com" 写道:
>请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。
>
>电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段):
>market_act(营销活动):
@jacob
hi, TaskManager 的一个 Slot 代表一个可用线程,该线程具有固定的内存,并且 Slot 只对内存隔离,没有对 CPU 隔离。
而slot 和并行度的关系是:Slot 是指 TaskManager 最大能并发执行的能力,parallelism 是指 TaskManager
实际使用的并发能力。
个人见解,并行度的设置一般无需考虑CPU。
在 2021-01-22 16:18:32,"Jacob" <17691150...@163.com> 写道:
>使用Flink以来,一直有一个问题困扰着。
>
>
>Flink
@nick
我们之前也遇到的过GC导致任务挂掉问题,后来排查发现flink代码写的有问题,在@close方法中关闭数据库连接,但是事实上@close方法未起作用,导致资源未释放OOM。
hope this can help you
At 2021-01-22 14:18:51, "nick" wrote:
>org.apache.flink.runtime.JobException: Recovery is suppressed by
>NoRestartBackoffTimeStrategy
> at
15 matches
Mail list logo