hi
Upsert-kafka 不支持指定消费者位置,默认是从 earliest 位置开始消费的,你可以自己修改代码支持 scan.startup.mode 参数。
Best
JasonLee
回复的原邮件
| 发件人 | casel.chen |
| 发送日期 | 2022年12月5日 18:24 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | flink sql消费upsert-kafka源表如何指定从哪个位点开始消费? |
flink sql消费upsert-kafka源表如何指定从哪个位点开始消费?仿照
hi
你可以把之前的历史值保存下来,比如保存在状态里面或者第三方存储,任务重启后在加上之前的值。
Best
JasonLee
回复的原邮件
| 发件人 | 陈佳豪 |
| 发送日期 | 2022年11月24日 18:18 |
| 收件人 | |
| 主题 | 如何能正确的获取任务总写入量? |
大佬们好
背景:
业务端想基于flink
metrics获取到任务总写入量。正常情况下通过指numRecordsIn指标是可以获取到增长的写入量的,如果用户自己误操作删了目标表并且重新建表恢复了,这个时候上报的numRecordsIn指标就会是0这就导致无法准确的
Hi
可以通过 Flink 的 Metric 和 Yarn 的 Api 去获取任务的状态(任务提交到 yarn 的话)
Best
JasonLee
回复的原邮件
| 发件人 | casel.chen |
| 发送日期 | 2022年11月23日 08:32 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | flink作业提交运行后如何监听作业状态发生变化? |
请问flink作业提交运行后如何监听作业状态发生变化以便在控台上实时显示作业状态变更?目前我们的做法是轮询,但效率低,有没有listener可以进行注册的方法呢?
Hi
我理解应该是任务恢复的时候从上一次成功的 checkpoint 或者你指定的 checkpoint 里记录的 offset
开始消费,所以此时的统计值应该是有短暂的下跌,因为数据相当于回复到之前重复计算了一部分。这个应该是符合预期的,可能需要在业务上做一些处理。
Best
JasonLee
回复的原邮件
| 发件人 | 天下五帝东 |
| 发送日期 | 2022年10月10日 13:34 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | Flink sql从ck恢复,统计数据波动问题 |
Hi:
各位大佬们
Hi
跟重启作业没关系哈,你需要自定义写入 kafka 的分区策略。
Best
JasonLee
回复的原邮件
| 发件人 | casel.chen |
| 发送日期 | 2022年09月26日 23:21 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | flink cdc + kafka场景下增加kafka分区数问题 |
flink cdc
消费mysql写到kafka场景下一开始数据量不大给的分区数可能只有3,后面业务数据量上来了需要添加分区数,例如12。那么问题来了,如何确保同一条记录的数据变更历史发到同一个
Hi
可以通过监控 numRestarts [1] metrics 发送相关的报警
[1]
https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/ops/metrics/#availability
Best
JasonLee
回复的原邮件
| 发件人 | casel.chen |
| 发送日期 | 2022年07月18日 22:48 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | 如何实现flink作业失败告警功能 |
想实
yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。
Best
JasonLee
Replied Message
| From | lishiyuan0506 |
| Date | 07/14/2022 16:52 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
是的,这个是运行参数
/opt/flink-1.13.3/bin/flink run \
-t yarn-per
Hi
这个是直接运行的 examples 里面的 demo 程序吗?
Best
JasonLee
Replied Message
| From | lishiyuan0506 |
| Date | 07/14/2022 16:25 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
感谢感谢,可以看的,我添加到附件给您发过去
| |
lishiyuan0506
|
|
lishiyuan0
Hi
可以用 yarn logs -applicationId xxx 看下日志吗?
Best
JasonLee
Replied Message
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的
Hi
解析嵌套 JSON 可以参考这篇文章哈,https://mp.weixin.qq.com/s/KHVUlOsLSHPzCprRWSJYcA
Best
JasonLee
回复的原邮件
| 发件人 | 小昌同学 |
| 发送日期 | 2022年06月30日 15:02 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | flink sql解析kafka数据 |
各位大佬 请教一下就是我kafka的数据是这样的嵌套格式 ARRAY里面嵌套了ROW类型 我这边想直接通过flink sql建表语句拿到最里面的字段的值
我百度找
Hi Summer
你的图片挂了,可以把图片上传到图床,然后把链接贴在邮件里,另外可以把 JM 的日志也发一下吗?
Best
JasonLee
回复的原邮件
| 发件人 | Summer |
| 发送日期 | 2022年06月10日 18:15 |
| 收件人 | user-zh@flink.apache.org |
| 主题 | Flink JobManager 节点 JVM Metaspace 过高 |
使用 FinkUI 上传 Flink 任务 Jar 时,任务启动失败。 这时候JVM Metaspace就会异常增加。 这是什么原因?
hi
是 10 目前 source 还不支持单独设置并发度,但是 sink 是支持的,当然如果没有单独设置的话 sink 也是 10
Best
JasonLee
在2022年01月11日 16:52,RS 写道:
Hi,
请教下,比如设置了parallelism=10,source kafka的topic分区为3,那source、后面的处理和sink的并发度是3还是10?
如果source是10的话,那还有7个线程就空闲了?
在 2022-01-11 11:10:41,"Caizhi Weng" 写道:
Hi!
可以设置 parallelism.d
Hi
日志里面应该可以看到这样的信息 Calculating tasks to restart to recover the failed task 。
Best
JasonLee
在2021年12月22日 11:08,宋品如 写道:
Hi:
谢谢回复,我明白了。还有一个问题:
日志里显示:Recovery is suppressed by
FixedDelayRestartBackoffTimeStrategy(maxNumberRestartAttempts=2,
backoffTimeMS=3)
这说明我的任务已经重启了2次依然失败了吗?
日志里我看不到重启的
hi
看上面似乎这个参数没有生效,你是在哪里设置的呢?
Best
JasonLee
在2021年12月21日 20:20,Fei Han 写道:
@all:
大家好!
我在实时读取hive的时候动态参数不生效,另外flink是否可以通过流读方式读取hive的普通表呢?
版本如下:
Flink版本1.13.3
Hive版本hive2.1.1-CDH6.2.0
设置的参数是set 'table.dynamic-table-options.enabled'='true
Hi
设置一下 execution.target: yarn-per-job 就行了
Best
JasonLee
On 11/29/2021 18:48, wrote:
Hi
Can SQL Client run a job by Per-Job ?
在网上看到曾庆东同学分享过《Flink SQL CDC 上线!我们总结了 13
条生产实践经验》,提到使用per-job方式提交,如下图,但我在官网上看到只支持Session方式,求解正确的使用方式
Thx
wangz...@163.com
Hi
应该是你的版本比较低,新版本是可以用的
Best
JasonLee
在2021年11月29日 11:35,Mabin 写道:
这个参数我试过了,没用的
发自我的iPhone
在 2021年11月18日,上午11:51,zhisheng 写道:
web.cancel.enable: false
web.cancel.enable 这个参数可以控制是否显示那个取消按钮
Caizhi Weng 于2021年11月16日周二 下午3:53写道:
Hi!
Flink 本身不自带安全机制,需要通过外部系统完成访问限制。
疾鹰击皓月 <1764
hi
可以使用 setPartitions 方法
具体参考官网:
https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/connectors/datastream/kafka/#topic-partition-subscription
Best
JasonLee
在2021年11月8日 17:06,guanyq 写道:
请大佬指导下:
flink streaming可以指定partition消费kafka么
如有100个partition,但是我只想消费15partiton。
hi
?? jar ??Flink ??
Best
JasonLee
??2021??11??4?? 18:41<2572805...@qq.com.INVALID> ??
yarn??:
org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to
initialize the cluster entrypoint YarnJobClusterEntrypoint
Hi
?? user-zh-unsubscr...@flink.apache.org
Best
JasonLee
??2021??10??25?? 10:52??zdj<1361776...@qq.com.INVALID> ??
Hi
, wm > window.end_time
,?? wm
,
Best
JasonLee
??2021??10??12?? 11:26??kcz<573693...@qq.com.INVALID> ??
??
Hi
, SQL SQL
??,??
Best
JasonLee
??2021??09??23?? 09:28 ??
sql??sql??
iPhone
Hi
退订应该发送到 user-zh-unsubscr...@flink.apache.org
Best
JasonLee
在2021年09月23日 15:20,wangjingen<13033709...@163.com> 写道:
退订
Hi
?? user-zh-unsubscr...@flink.apache.org
Best
JasonLee
??2021??09??23?? 21:22??Night_xing<1029681...@qq.com.INVALID> ??
Hi
退订应该发送到 user-zh-unsubscr...@flink.apache.org
Best
JasonLee
在2021年09月23日 15:26,金圣哲 写道:
退订
hi
事实上这个跟构建 graph 没有太大的关系 也不用在构建后调整 在构造 producer 的时候 topic 不要写死 自定义
KafkaSerializationSchema 序列化类 topic 动态的从数据中获取就行了
Best
JasonLee
在2021年9月22日 19:48,spoon_lz 写道:
“在 datastream api 任务是可以的”
这样是可行的吗,我的理解flink是要先构建好graph之后才能运行,graph构建好之后可能没办法再动态调整了,除非写一个自定义的sink,自己实现逻辑
在2021年09月22日 19:25
hi
这个我理解在 SQL 任务里面目前是没办法做到的 在 datastream api 任务是可以的
Best
JasonLee
在2021年9月22日 11:35,酷酷的浑蛋 写道:
我也有这个需求,意思就是topic里实时新增了一种日志,然后想动态创建对应新的日志的topic表,并写入到新的topic表,在一个任务中完成
| |
apache22
|
|
apach...@163.com
|
签名由网易邮箱大师定制
在2021年09月22日 11:23,Caizhi Weng 写道:
Hi!
不太明白这个需求,但如果希望发送给不同的 topic,需要给每个
hi
图片看不到 我猜大概有两种情况 第一种是你的 source 本身就存在数据倾斜 某几个分区的数据量比其他分区的多 需要修改数据写入 kafka
分区策略让数据尽量均匀 第二种是你的下游计算的时候出现数据倾斜(或其他原因)导致任务反压到 source 端 这种情况需要根据实际的情况采用不同的解决方案
单纯的增加并发和改变 slot 数量没有什么效果
Best
JasonLee
在2021年9月22日 09:22,casel.chen 写道:
kafka topic有32个分区,实时作业开了32个并行度消费kafka
topic,现在监控发现部分分区消息积压严重(如下图所
Hi
退订应该发送到 user-zh-unsubscr...@flink.apache.org
Best
JasonLee
在2021年09月14日 11:46,abel0130 写道:
退订
Hi
这个配置默认是关闭的,因为对性能有一定影响,具体的配置可以参考官网
https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/deployment/config/#advanced-options-for-the-rest-endpoint-and-client
Best
JasonLee
在2021年09月14日 11:20,赵旭晨 写道:
Unable to load requested file /jobs/d2fcac59f4a42ad17ceba8c5371862bb/。。
请问
Hi
可以参考这两篇文章:
https://mp.weixin.qq.com/s/2S4M8p-rBRinIRxmZrZq5Q
https://mp.weixin.qq.com/s/44SXmCAUOqSWhQrNiZftoQ
Best
JasonLee
在2021年08月31日 13:23,guanyq 写道:
flink on yarn 在集群中启动很多的task,生产应用中是如何监控task的日志,和checkpoint的呢?
求大佬指导。
hi
KeyGroupStreamPartitioner#selectChannel .
Best
JasonLee
??2021??8??30?? 22:34??cs<58683...@qq.com.INVALID> ??
flink??keybykey??tasktask??id
Hi
可以发一下任务的 DAG 吗
Best
JasonLee
在2021年08月26日 13:09,yidan zhao 写道:
补充了个附录(https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh
)正常任务和异常任务的window算子的FlameGraph,不清楚是否有参考价值。
yidan zhao 于2021年8月26日周四 下午1:01写道:
目前来看,我运行6小时,window总计才收到200MB数据,这个数据量级相比我很多小到没有一样。所以很难想象反压的原因是啥究竟。
目前来看反压节点的
Hi
退订应该发送到 user-zh-unsubscr...@flink.apache.org
Best
JasonLee
在2021年08月21日 09:43,牛成 写道:
退订
Hi
error ? ?? CPU ?? IO
?
Best
JasonLee
??2021??08??4?? 12:25??datafollower<609326...@qq.com.INVALID> ??
hi allflink??5000+??error??kafka??
log4j2 ??kafkaap
Hi
事实上,你的 data 是一个 jsonarray 只需要列转行取 columnName 字段就可以了.
Best
JasonLee
在2021年07月9日 10:06,Chenzhiyuan(HR) 写道:
消息体里的data是实际每行数据,columnName是字段名,rawData是值,因此我想能定义table 如下:
CREATE TABLE MyUserTable(
APPLY_PERSON_ID VARCHAR,
UPDATE_SALARY DECIMAL,
UP_AMOUNT DECIMAL,
CURRENCY VARCHAR,
EXCHANGE_RATE
hi
最后一个字段 type 就是操作的类型, 过滤掉 DELETE 就行了.
Best
JasonLee
在2021年7月7日 22:43,casel.chen 写道:
使用场景:我们使用canal将mysql binlog输出到kafka,然后想通过flink消费kafka数据过滤掉 delete
操作的数据插入到文件系统,因为要做历史数据存档用。
查了下官网
https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/connectors/table/formats/canal
Hi
??,??,
https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/
Best
JasonLee
??2021??07??5?? 12:08??lonely Wanderer<609326...@qq.com.INVALID> ??
hi all
??flink1.13.1???
hi
先执行一下 export HADOOP_CLASSPATH=`hadoop classpath` 就可以了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
退订发邮件到 user-zh-unsubscr...@flink.apache.org 就可以了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
你可以先用 print 的 connector 把消费到的数据打印一下看是否乱码? 还是写入到 doris 后出现的乱码?
Best
JasonLee
在2021年6月17日 21:31,maker_d...@foxmail.com 写道:
我使用flinksql消费kafka并将数据写入doris,但出现中文乱码。
SQL如下:
CREATE TABLE `datacollect_business_kafka` (
`id` varchar(36),
`chain_id` varchar(36),
`app_id` varchar(32) ,
...
CHARACTER
hi
sink 端可以通过 sink.parallelism 进行设置.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
增大一下 taskmanager.memory.jvm-overhead 的内存试试
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
那你只需要设置从 latest-offset 开始消费,并且禁用 checkpoint 就行了,至于重启的次数,可以通过 metrics 中的
numRestarts 去获取.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
sql 也是会从上一次成功的 checkpoint 中保存的 offset 位置开始恢复数据的.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
source 端的并发保持和 partition 的个数一样就行了,不要大于 partition 个数,因为这会导致 subtask
空跑,浪费资源,你只需要把 map 的并行度调大即可.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
你理解的可能有点偏差,应该是因为任务出现了反压或者数据倾斜的问题导致了cp时间长,01消息堆积说明已经反压到source端了,需要先定位反压的位置,看是具体什么原因导致的,然后再根据情况解决.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
有改过默认的日志配置文件吗?
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
目前还不支持HDFS路径,只支持本地的文件,未来应该会支持.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Hi
可以看下 interval join 是否能满足你的需求
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
直接在 flink-conf.yaml 文件里面配置就行了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
SQL 可以定义一个字段然后分隔再去获取 JSON 数据 或者可以自定义 UDF 去处理
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
currentOffsets: 表示的是每个分区的使用者当前读偏移量 , committedOffsets:
表示的是最后一次成功提交到Kafka的偏移量 ,因为 kafka 的 partition 的 offset 是从 0开始的 所以
committedOffsets 会比 currentOffsets 大 1
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
你可以用 filter 过滤出多个流或者用测流输出的方式分流处理
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
从报错上看是缺少了 Flink-sql-kafka 那个包,把这个包添加到 Flink/lib 下面再跑一下
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
session ,per-job 模式是不支持的 application 模式是支持的
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以参考这篇文章: https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
你需要添加下面两个参数:
'csv.line-delimiter'='',
'csv.disable-quote-character'='true'
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
你需要使用 Temporal Table Join 的语法,具体操作可以参考官网
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/streaming/joins.html
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
如果是 session 模式需要重启集群,如果是 per-job 模式直接提交任务即可.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以参考下这篇文章: https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以通过在 flink-conf.yaml 配置文件中添加 yarn.application.queue 参数来设置
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
proctime as PROCTIME() 可以这样设置
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
1,11 也是支持的
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
社区以及提供了动态修改表属性的功能,具体使用可以参考 https://mp.weixin.qq.com/s/nWKVGmAtENlQ80mdETZzDw
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以在消费 kafka 的时候获取到数据进入 kafka 的时间戳 然后在最终的 sink 的时候再获取一个时间戳 自己定义一个 metric
上报最终的耗时
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
watermark 是要根据数据里面的时间戳生成的 所有分区都没有数据的情况下 为什么还要 watermark 推进呢?
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
改成下面这样:
\n => U&'\000A'
\t => U&'\0009'
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
通过 headers 这种方式是可以获取到的 jark 大佬说的那种方式我还没有测试
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
你写入数据的时候设置 headers 了吗 没设置的话当然是空的了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
Flink SQL 建的表支持用 hive 的 catalog 来管理元数据,是否可以满足你的需求 ?
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以参考下这篇文章
https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
从报错信息看应该jar包冲突了,可以贴一下相关的依赖包吗
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以参考一下这篇文章: https://mp.weixin.qq.com/s/S_Spm88eDtbza1QoLKiWlg
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
把 -d 参加加上用分离方式启动 应该就可以了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
从你的描述看确实起的是per-job模式,per-job模式目前应该是没有这个问题的.可以再看下你的UI上execution.attached
的值是什么吗? 再有启动任务的时候是否加了 -d 参数
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
1,首先确定你提交的是per-job模式吗?
2,你说的任务状态是说jm还在任务在failover,还是任务确实是挂了,jm已经退出了?
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以这么设置-yD yarn.containers.vcores=你设置的值
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi 设置yarn.containers.vcores这个参数就可以了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
checkpoint目前只能用在流数据上,你读取的mongo数据是一个有界的数据源,所以是不支持做checkpoint就会导致整个任务的checkpoint失败,你可以把读取mongo做一个定时读取,这样应该就可以完成checkpoint.
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
LatencyMarker 是一个全链路的延迟 不是非常的准确 不过也能大致反应端到端的延迟情况
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
HI
我理解你的 kafka 生产数据的速度比较慢 你并发设置的再大都是没有用的 正常 source 的并行度设置和 kafka 的 partition
个数相等就可以了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
Flink plan visualizer 应该是只能画stream graph stream graph 是一个逻辑上的 DAG 图
你把任务提交到集群上 在 Flink WEB UI 上面就可以看到 job graph 了 stream graph 和 job graph 的区别是
job graph 优化了 operator chain
job graph 是在调用 env.execute 方法之后才生成的
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
我理解应该是数据倾斜的问题导致的 可以看下采用加随机数的方式key是否分布的均匀.
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
把Flink-jdbc的包放到flink/lib下面再跑下
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
首先是确认一下kafka是否有数据写入,其次把所有的operator都看下是否有反压的情况
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
checkpoint savepoint的问题可以看下这个
https://mp.weixin.qq.com/s/Vl6_GsGeG0dK84p9H2Ld0Q
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
Flink是可以感知到partition的增加的
消费kafka的时候设置一下KEY_PARTITION_DISCOVERY_INTERVAL_MILLIS这个参数 大于0就可以了
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
可以参考这篇文章https://mp.weixin.qq.com/s/Vl6_GsGeG0dK84p9H2Ld0Q
在cancel的时候触发一个savepoint 修改完SQL从savepoint恢复任务
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
参数是这么写的没错 'scan.startup.mode' = 'earliest-offset' 你确定你是用的新的groupid吗
我这里测试是可以的从头开始消费的 不知道是不是你测试的方法不对
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
没有日志不太好定位失败的原因 但是没有设置uid的话 是有可能重启失败的 建议还是都设置uid最好
--
Sent from: http://apache-flink.147419.n8.nabble.com/
hi
我这边测试了ORC的,只需要把stored as pauquet 改成stored as
orc即可,success文件能生成,hive里面也能查看数据,但是有一个问题是,Flink Web UI上面显示的数据量是不对的 UI
上面的records send 一直在增大 即使我已经停止向kafka写入数据了 但是hive 里面的数据是对的 我写了30条
hive里面查出来的确实是30条 但UI上面已经显示480条了 且还在增加
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Hi
可以看下這個demo
https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Hi
只引入-sql那个包就行了 代码也应该是可以直接用这个包的
| |
JasonLee
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
在2020年08月07日 09:26,费文杰 写道:
HI:
使用的flink1.10环境,因为使用sql-client,我在flink/lib目录下放置了flink-sql-connector-elasticsearch6_2.11_1.10.0.jar,因为同事有直接在代码里写的sink到elasticsearch,所以他引入
hi
我记得我用1.6.0版本的时候就有这个问题 好像是没有对应的jira 不过我用新版本已经没有遇到这个问题了 应该是偶尔会出现
--
Sent from: http://apache-flink.147419.n8.nabble.com/
HI
目前sql-client的方式应该还不支持从指定的checkpoint恢复任务 不过Flink on zeppelin目前已经支持了 有兴趣可以用下
| |
JasonLee
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
在2020年08月04日 16:28,mispower 写道:
通过sql_client 启动的streaming的任务,在维护或者异常之后,如何像flink straming 一样通过指定checkpoint
恢复到上一次的消费节点。
在邮件列表里搜
hi
这本身就是一个bug 应该是还没有修复
| |
JasonLee
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
在2020年08月04日 15:41,bradyMk 写道:
您好
我这边是用perJob的方式提交的,而且这种现象还是偶发性的,这次错误日志是这样的:
2020-08-04 10:30:14,475 INFO
org.apache.flink.runtime.executiongraph.ExecutionGraph- Job
hi
提交offset到Kafka是在ck成功之后 如果没有开启ck的话 需要设置自动提交提交offset
| |
JasonLee
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
在2020年07月30日 19:37,bradyMk 写道:
谢谢解答~
这个确实是个不变的值,应该是没有成功提交;而且我发现了,只要是没有设置ck的任务,该指标都会显示这个值,如果设置了ck,就会正常;但是我不懂为什么会这样,请问您知道详细的原因么?
--
Sent from: http
hi
只需要-sql和-json两个包就可以了
| |
JasonLee
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
On 07/24/2020 17:02, RS wrote:
hi,
Flink-1.11.1 尝试运行SQL DDL 读取kafka的数据,执行create 语句的时候报错了
编译的jar包是jar-with-dependencies的
代码片段:
public String ddlSql = String.format("CREATE
Hi
报错显示的是资源不足了 你确定yarn上的资源是够的吗 看下是不是节点挂了 1.11我这边提交任务都是正常的
| |
JasonLee
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
在2020年07月21日 16:36,酷酷的浑蛋 写道:
服了啊,这个flink1.11启动怎么净是问题啊
我1.7,1.8,1.9 都没有问题,到11就不行
./bin/flink run -m yarn-cluster -yqu root.rt_constant -ys 2
HI
你使用的什么模式?启动任务的命令发出来看一下吧
| |
JasonLee
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
在2020年07月22日 12:44,酷酷的浑蛋 写道:
现在是为什么啊?启动任务自动占用所有core?core数量一直在增加,直到达到队列最大值,然后就卡住了,这flink1.11啥情况啊?
共有 112 项搜索結果,以下是第 1 - 100 matches
Mail list logo