回复:flink sql消费upsert-kafka源表如何指定从哪个位点开始消费?

2022-12-05 文章 JasonLee
hi Upsert-kafka 不支持指定消费者位置,默认是从 earliest 位置开始消费的,你可以自己修改代码支持 scan.startup.mode 参数。 Best JasonLee 回复的原邮件 | 发件人 | casel.chen | | 发送日期 | 2022年12月5日 18:24 | | 收件人 | user-zh@flink.apache.org | | 主题 | flink sql消费upsert-kafka源表如何指定从哪个位点开始消费? | flink sql消费upsert-kafka源表如何指定从哪个位点开始消费?仿照

回复:如何能正确的获取任务总写入量?

2022-11-24 文章 JasonLee
hi 你可以把之前的历史值保存下来,比如保存在状态里面或者第三方存储,任务重启后在加上之前的值。 Best JasonLee 回复的原邮件 | 发件人 | 陈佳豪 | | 发送日期 | 2022年11月24日 18:18 | | 收件人 | | | 主题 | 如何能正确的获取任务总写入量? | 大佬们好 背景: 业务端想基于flink metrics获取到任务总写入量。正常情况下通过指numRecordsIn指标是可以获取到增长的写入量的,如果用户自己误操作删了目标表并且重新建表恢复了,这个时候上报的numRecordsIn指标就会是0这就导致无法准确的

回复:flink作业提交运行后如何监听作业状态发生变化?

2022-11-23 文章 JasonLee
Hi 可以通过 Flink 的 Metric 和 Yarn 的 Api 去获取任务的状态(任务提交到 yarn 的话) Best JasonLee 回复的原邮件 | 发件人 | casel.chen | | 发送日期 | 2022年11月23日 08:32 | | 收件人 | user-zh@flink.apache.org | | 主题 | flink作业提交运行后如何监听作业状态发生变化? | 请问flink作业提交运行后如何监听作业状态发生变化以便在控台上实时显示作业状态变更?目前我们的做法是轮询,但效率低,有没有listener可以进行注册的方法呢?

回复:Flink sql从ck恢复,统计数据波动问题

2022-10-10 文章 JasonLee
Hi 我理解应该是任务恢复的时候从上一次成功的 checkpoint 或者你指定的 checkpoint 里记录的 offset 开始消费,所以此时的统计值应该是有短暂的下跌,因为数据相当于回复到之前重复计算了一部分。这个应该是符合预期的,可能需要在业务上做一些处理。 Best JasonLee 回复的原邮件 | 发件人 | 天下五帝东 | | 发送日期 | 2022年10月10日 13:34 | | 收件人 | user-zh@flink.apache.org | | 主题 | Flink sql从ck恢复,统计数据波动问题 | Hi: 各位大佬们

回复:flink cdc + kafka场景下增加kafka分区数问题

2022-09-26 文章 JasonLee
Hi 跟重启作业没关系哈,你需要自定义写入 kafka 的分区策略。 Best JasonLee 回复的原邮件 | 发件人 | casel.chen | | 发送日期 | 2022年09月26日 23:21 | | 收件人 | user-zh@flink.apache.org | | 主题 | flink cdc + kafka场景下增加kafka分区数问题 | flink cdc 消费mysql写到kafka场景下一开始数据量不大给的分区数可能只有3,后面业务数据量上来了需要添加分区数,例如12。那么问题来了,如何确保同一条记录的数据变更历史发到同一个

回复:如何实现flink作业失败告警功能

2022-07-18 文章 JasonLee
Hi 可以通过监控 numRestarts [1] metrics 发送相关的报警 [1] https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/ops/metrics/#availability Best JasonLee 回复的原邮件 | 发件人 | casel.chen | | 发送日期 | 2022年07月18日 22:48 | | 收件人 | user-zh@flink.apache.org | | 主题 | 如何实现flink作业失败告警功能 | 想实

Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 JasonLee
yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。 Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:52 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 是的,这个是运行参数 /opt/flink-1.13.3/bin/flink run \ -t yarn-per

Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 JasonLee
Hi 这个是直接运行的 examples 里面的 demo 程序吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:25 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 感谢感谢,可以看的,我添加到附件给您发过去 | | lishiyuan0506 | | lishiyuan0

Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 JasonLee
Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的

回复:flink sql解析kafka数据

2022-07-04 文章 JasonLee
Hi 解析嵌套 JSON 可以参考这篇文章哈,https://mp.weixin.qq.com/s/KHVUlOsLSHPzCprRWSJYcA Best JasonLee 回复的原邮件 | 发件人 | 小昌同学 | | 发送日期 | 2022年06月30日 15:02 | | 收件人 | user-zh@flink.apache.org | | 主题 | flink sql解析kafka数据 | 各位大佬 请教一下就是我kafka的数据是这样的嵌套格式 ARRAY里面嵌套了ROW类型 我这边想直接通过flink sql建表语句拿到最里面的字段的值 我百度找

回复:Flink JobManager 节点 JVM Metaspace 过高

2022-06-10 文章 JasonLee
Hi Summer 你的图片挂了,可以把图片上传到图床,然后把链接贴在邮件里,另外可以把 JM 的日志也发一下吗? Best JasonLee 回复的原邮件 | 发件人 | Summer | | 发送日期 | 2022年06月10日 18:15 | | 收件人 | user-zh@flink.apache.org | | 主题 | Flink JobManager 节点 JVM Metaspace 过高 | 使用 FinkUI 上传 Flink 任务 Jar 时,任务启动失败。 这时候JVM Metaspace就会异常增加。 这是什么原因?

回复: flink sql 如何提高下游并发度?

2022-01-11 文章 JasonLee
hi 是 10 目前 source 还不支持单独设置并发度,但是 sink 是支持的,当然如果没有单独设置的话 sink 也是 10 Best JasonLee 在2022年01月11日 16:52,RS 写道: Hi, 请教下,比如设置了parallelism=10,source kafka的topic分区为3,那source、后面的处理和sink的并发度是3还是10? 如果source是10的话,那还有7个线程就空闲了? 在 2022-01-11 11:10:41,"Caizhi Weng" 写道: Hi! 可以设置 parallelism.d

回复: flink固定延迟重启策略没有延迟

2021-12-22 文章 JasonLee
Hi 日志里面应该可以看到这样的信息 Calculating tasks to restart to recover the failed task 。 Best JasonLee 在2021年12月22日 11:08,宋品如 写道: Hi: 谢谢回复,我明白了。还有一个问题: 日志里显示:Recovery is suppressed by FixedDelayRestartBackoffTimeStrategy(maxNumberRestartAttempts=2, backoffTimeMS=3) 这说明我的任务已经重启了2次依然失败了吗? 日志里我看不到重启的

回复:实时读取hive参数不生效

2021-12-21 文章 JasonLee
hi 看上面似乎这个参数没有生效,你是在哪里设置的呢? Best JasonLee 在2021年12月21日 20:20,Fei Han 写道: @all: 大家好! 我在实时读取hive的时候动态参数不生效,另外flink是否可以通过流读方式读取hive的普通表呢? 版本如下: Flink版本1.13.3 Hive版本hive2.1.1-CDH6.2.0 设置的参数是set 'table.dynamic-table-options.enabled'='true

Re:How to run SQL Client by Per-Job

2021-11-29 文章 JasonLee
Hi 设置一下 execution.target: yarn-per-job 就行了 Best JasonLee On 11/29/2021 18:48, wrote: Hi Can SQL Client run a job by Per-Job ? 在网上看到曾庆东同学分享过《Flink SQL CDC 上线!我们总结了 13 条生产实践经验》,提到使用per-job方式提交,如下图,但我在官网上看到只支持Session方式,求解正确的使用方式 Thx wangz...@163.com

回复: Flink工程停止问题

2021-11-28 文章 JasonLee
Hi 应该是你的版本比较低,新版本是可以用的 Best JasonLee 在2021年11月29日 11:35,Mabin 写道: 这个参数我试过了,没用的 发自我的iPhone 在 2021年11月18日,上午11:51,zhisheng 写道: web.cancel.enable: false web.cancel.enable 这个参数可以控制是否显示那个取消按钮 Caizhi Weng 于2021年11月16日周二 下午3:53写道: Hi! Flink 本身不自带安全机制,需要通过外部系统完成访问限制。 疾鹰击皓月 <1764

回复:Flink1.12 Streaming 消费kafka

2021-11-08 文章 JasonLee
hi 可以使用 setPartitions 方法 具体参考官网: https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/connectors/datastream/kafka/#topic-partition-subscription Best JasonLee 在2021年11月8日 17:06,guanyq 写道: 请大佬指导下: flink streaming可以指定partition消费kafka么 如有100个partition,但是我只想消费15partiton。

??????flink on yarn ??pre_job????????,????session????????????

2021-11-04 文章 JasonLee
hi ?? jar ??Flink ?? Best JasonLee ??2021??11??4?? 18:41<2572805...@qq.com.INVALID> ?? yarn??: org.apache.flink.runtime.entrypoint.ClusterEntrypointException: Failed to initialize the cluster entrypoint YarnJobClusterEntrypoint

??????????

2021-10-24 文章 JasonLee
Hi ?? user-zh-unsubscr...@flink.apache.org Best JasonLee ??2021??10??25?? 10:52??zdj<1361776...@qq.com.INVALID> ??

??????flink-1.14 ???? kafkasource ????watermark????

2021-10-11 文章 JasonLee
Hi , wm > window.end_time ,?? wm , Best JasonLee ??2021??10??12?? 11:26??kcz<573693...@qq.com.INVALID> ?? ??

?????? flink sql????????????????sink table?

2021-09-23 文章 JasonLee
Hi , SQL SQL ??,?? Best JasonLee ??2021??09??23?? 09:28 ?? sql??sql?? iPhone

回复:退订

2021-09-23 文章 JasonLee
Hi 退订应该发送到 user-zh-unsubscr...@flink.apache.org Best JasonLee 在2021年09月23日 15:20,wangjingen<13033709...@163.com> 写道: 退订

??????????

2021-09-23 文章 JasonLee
Hi ?? user-zh-unsubscr...@flink.apache.org Best JasonLee ??2021??09??23?? 21:22??Night_xing<1029681...@qq.com.INVALID> ??

回复:退订

2021-09-23 文章 JasonLee
Hi 退订应该发送到 user-zh-unsubscr...@flink.apache.org Best JasonLee 在2021年09月23日 15:26,金圣哲 写道: 退订

回复: flink sql是否支持动态创建sink table?

2021-09-22 文章 JasonLee
hi 事实上这个跟构建 graph 没有太大的关系 也不用在构建后调整 在构造 producer 的时候 topic 不要写死 自定义 KafkaSerializationSchema 序列化类 topic 动态的从数据中获取就行了 Best JasonLee 在2021年9月22日 19:48,spoon_lz 写道: “在 datastream api 任务是可以的” 这样是可行的吗,我的理解flink是要先构建好graph之后才能运行,graph构建好之后可能没办法再动态调整了,除非写一个自定义的sink,自己实现逻辑 在2021年09月22日 19:25

回复: flink sql是否支持动态创建sink table?

2021-09-22 文章 JasonLee
hi 这个我理解在 SQL 任务里面目前是没办法做到的 在 datastream api 任务是可以的 Best JasonLee 在2021年9月22日 11:35,酷酷的浑蛋 写道: 我也有这个需求,意思就是topic里实时新增了一种日志,然后想动态创建对应新的日志的topic表,并写入到新的topic表,在一个任务中完成 | | apache22 | | apach...@163.com | 签名由网易邮箱大师定制 在2021年09月22日 11:23,Caizhi Weng 写道: Hi! 不太明白这个需求,但如果希望发送给不同的 topic,需要给每个

回复:flink消费kafka分区消息不均衡问题

2021-09-22 文章 JasonLee
hi 图片看不到 我猜大概有两种情况 第一种是你的 source 本身就存在数据倾斜 某几个分区的数据量比其他分区的多 需要修改数据写入 kafka 分区策略让数据尽量均匀 第二种是你的下游计算的时候出现数据倾斜(或其他原因)导致任务反压到 source 端 这种情况需要根据实际的情况采用不同的解决方案 单纯的增加并发和改变 slot 数量没有什么效果 Best JasonLee 在2021年9月22日 09:22,casel.chen 写道: kafka topic有32个分区,实时作业开了32个并行度消费kafka topic,现在监控发现部分分区消息积压严重(如下图所

回复:退订

2021-09-13 文章 JasonLee
Hi 退订应该发送到 user-zh-unsubscr...@flink.apache.org Best JasonLee 在2021年09月14日 11:46,abel0130 写道: 退订

回复:flink on native k8s 无法查看火焰图问题

2021-09-13 文章 JasonLee
Hi 这个配置默认是关闭的,因为对性能有一定影响,具体的配置可以参考官网 https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/deployment/config/#advanced-options-for-the-rest-endpoint-and-client Best JasonLee 在2021年09月14日 11:20,赵旭晨 写道: Unable to load requested file /jobs/d2fcac59f4a42ad17ceba8c5371862bb/。。 请问

回复:Flink on yarn的日志监控和checkpoint的监控生产是如何处理的?

2021-08-31 文章 JasonLee
Hi 可以参考这两篇文章: https://mp.weixin.qq.com/s/2S4M8p-rBRinIRxmZrZq5Q https://mp.weixin.qq.com/s/44SXmCAUOqSWhQrNiZftoQ Best JasonLee 在2021年08月31日 13:23,guanyq 写道: flink on yarn 在集群中启动很多的task,生产应用中是如何监控task的日志,和checkpoint的呢? 求大佬指导。

??????flink keyby????

2021-08-30 文章 JasonLee
hi KeyGroupStreamPartitioner#selectChannel . Best JasonLee ??2021??8??30?? 22:34??cs<58683...@qq.com.INVALID> ?? flink??keybykey??tasktask??id

回复: Flink任务假死;无限100%反压;但下游节点无压力。

2021-08-25 文章 JasonLee
Hi 可以发一下任务的 DAG 吗 Best JasonLee 在2021年08月26日 13:09,yidan zhao 写道: 补充了个附录(https://www.yuque.com/sixhours-gid0m/ls9vqu/rramvh )正常任务和异常任务的window算子的FlameGraph,不清楚是否有参考价值。 yidan zhao 于2021年8月26日周四 下午1:01写道: 目前来看,我运行6小时,window总计才收到200MB数据,这个数据量级相比我很多小到没有一样。所以很难想象反压的原因是啥究竟。 目前来看反压节点的

回复:退订

2021-08-20 文章 JasonLee
Hi 退订应该发送到 user-zh-unsubscr...@flink.apache.org Best JasonLee 在2021年08月21日 09:43,牛成 写道: 退订

??????kafka appender????

2021-08-03 文章 JasonLee
Hi error ? ?? CPU ?? IO ? Best JasonLee ??2021??08??4?? 12:25??datafollower<609326...@qq.com.INVALID> ?? hi allflink??5000+??error??kafka?? log4j2 ??kafkaap

回复: 如何从复杂的kafka消息体定义 table

2021-07-08 文章 JasonLee
Hi 事实上,你的 data 是一个 jsonarray 只需要列转行取 columnName 字段就可以了. Best JasonLee 在2021年07月9日 10:06,Chenzhiyuan(HR) 写道: 消息体里的data是实际每行数据,columnName是字段名,rawData是值,因此我想能定义table 如下: CREATE TABLE MyUserTable( APPLY_PERSON_ID VARCHAR, UPDATE_SALARY DECIMAL, UP_AMOUNT DECIMAL, CURRENCY VARCHAR, EXCHANGE_RATE

回复:如何将canal json格式数据按操作类型过滤

2021-07-07 文章 JasonLee
hi 最后一个字段 type 就是操作的类型, 过滤掉 DELETE 就行了. Best JasonLee 在2021年7月7日 22:43,casel.chen 写道: 使用场景:我们使用canal将mysql binlog输出到kafka,然后想通过flink消费kafka数据过滤掉 delete 操作的数据插入到文件系统,因为要做历史数据存档用。 查了下官网 https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/connectors/table/formats/canal

??????flink1.13.1 webUI??????????????

2021-07-04 文章 JasonLee
Hi ??,??, https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/ Best JasonLee ??2021??07??5?? 12:08??lonely Wanderer<609326...@qq.com.INVALID> ?? hi all ??flink1.13.1???

Re: Re:Re: Re: Re:Re: flink sql job 提交到yarn上报错

2021-06-19 文章 JasonLee
hi 先执行一下 export HADOOP_CLASSPATH=`hadoop classpath` 就可以了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 退订

2021-06-19 文章 JasonLee
hi 退订发邮件到 user-zh-unsubscr...@flink.apache.org 就可以了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复:flinksql消费kafka写入doris中文乱码

2021-06-17 文章 JasonLee
hi 你可以先用 print 的 connector 把消费到的数据打印一下看是否乱码? 还是写入到 doris 后出现的乱码? Best JasonLee 在2021年6月17日 21:31,maker_d...@foxmail.com 写道: 我使用flinksql消费kafka并将数据写入doris,但出现中文乱码。 SQL如下: CREATE TABLE `datacollect_business_kafka` ( `id` varchar(36), `chain_id` varchar(36), `app_id` varchar(32) , ... CHARACTER

Re: Re:Re:flink sql cdc数据同步至mysql

2021-06-11 文章 JasonLee
hi sink 端可以通过 sink.parallelism 进行设置. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 JasonLee
hi 增大一下 taskmanager.memory.jvm-overhead 的内存试试 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink sql的kafka source的开始消费offset相关问题。

2021-06-06 文章 JasonLee
hi 那你只需要设置从 latest-offset 开始消费,并且禁用 checkpoint 就行了,至于重启的次数,可以通过 metrics 中的 numRestarts 去获取. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink sql的kafka source的开始消费offset相关问题。

2021-06-03 文章 JasonLee
hi sql 也是会从上一次成功的 checkpoint 中保存的 offset 位置开始恢复数据的. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 JasonLee
hi source 端的并发保持和 partition 的个数一样就行了,不要大于 partition 个数,因为这会导致 subtask 空跑,浪费资源,你只需要把 map 的并行度调大即可. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 JasonLee
hi 你理解的可能有点偏差,应该是因为任务出现了反压或者数据倾斜的问题导致了cp时间长,01消息堆积说明已经反压到source端了,需要先定位反压的位置,看是具体什么原因导致的,然后再根据情况解决. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink 1.12 on yarn WebUI不显示logs

2021-06-02 文章 JasonLee
hi 有改过默认的日志配置文件吗? - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.13 通过sql cli执行hdfs上面的SQL文件

2021-05-30 文章 JasonLee
hi 目前还不支持HDFS路径,只支持本地的文件,未来应该会支持. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 流与流 left join

2021-05-27 文章 JasonLee
Hi 可以看下 interval join 是否能满足你的需求 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: ./sql-client.sh embedded 这种方式提交的flink任务怎么设置state以及checkpoint?

2021-05-11 文章 JasonLee
hi 直接在 flink-conf.yaml 文件里面配置就行了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:解析kafka 非标准JSON问题

2021-04-27 文章 JasonLee
hi SQL 可以定义一个字段然后分隔再去获取 JSON 数据 或者可以自定义 UDF 去处理 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink SQL Metrics中Kafka Offset请教

2021-04-25 文章 JasonLee
hi currentOffsets: 表示的是每个分区的使用者当前读偏移量 , committedOffsets: 表示的是最后一次成功提交到Kafka的偏移量 ,因为 kafka 的 partition 的 offset 是从 0开始的 所以 committedOffsets 会比 currentOffsets 大 1 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink如何从流中取出自定义的数据结构并赋值给变量

2021-04-25 文章 JasonLee
hi 你可以用 filter 过滤出多个流或者用测流输出的方式分流处理 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 提交FlinkSQLKafka表报异常cannt load user class

2021-04-25 文章 JasonLee
hi 从报错上看是缺少了 Flink-sql-kafka 那个包,把这个包添加到 Flink/lib 下面再跑一下 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink run命令是否支持读取远程文件系统中的jar文件?

2021-04-22 文章 JasonLee
hi session ,per-job 模式是不支持的 application 模式是支持的 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.12.2 StreamingFileSink 问题

2021-04-18 文章 JasonLee
hi 可以参考这篇文章: https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql 写hdfs问题

2021-04-15 文章 JasonLee
hi 你需要添加下面两个参数: 'csv.line-delimiter'='', 'csv.disable-quote-character'='true' - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 使用了流应用中使用了mysql jdbc的source,Execution处于FINISHED状态无法生成检查点

2021-04-14 文章 JasonLee
hi 你需要使用 Temporal Table Join 的语法,具体操作可以参考官网 https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/streaming/joins.html - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink -conf.yaml修改

2021-04-12 文章 JasonLee
hi 如果是 session 模式需要重启集群,如果是 per-job 模式直接提交任务即可. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink 1.12.2 sql api 使用parquet格式报错

2021-04-04 文章 JasonLee
hi 可以参考下这篇文章: https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink-sql 客户端采用execution.target: yarn-per-job 模式,如何指定提交的队列??

2021-04-02 文章 JasonLee
hi 可以通过在 flink-conf.yaml 配置文件中添加 yarn.application.queue 参数来设置 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: interval join 如何用 process time

2021-03-17 文章 JasonLee
hi proctime as PROCTIME() 可以这样设置 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于kafka中csv格式数据字段分隔符请教

2021-02-02 文章 JasonLee
hi 1,11 也是支持的 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Catalog(Kafka Connectors 的ddl)持久化到hive metastore,groupid一样的问题

2021-01-30 文章 JasonLee
hi 社区以及提供了动态修改表属性的功能,具体使用可以参考 https://mp.weixin.qq.com/s/nWKVGmAtENlQ80mdETZzDw - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于端到端的延迟监控

2021-01-30 文章 JasonLee
hi 可以在消费 kafka 的时候获取到数据进入 kafka 的时间戳 然后在最终的 sink 的时候再获取一个时间戳 自己定义一个 metric 上报最终的耗时 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: kafka 所有分区无数据的情况下,导致watermark无法前进

2021-01-30 文章 JasonLee
hi watermark 是要根据数据里面的时间戳生成的 所有分区都没有数据的情况下 为什么还要 watermark 推进呢? - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink SQL csv格式分隔符设置失败

2021-01-27 文章 JasonLee
hi 改成下面这样: \n => U&'\000A' \t => U&'\0009' - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink sql读kafka元数据问题

2021-01-15 文章 JasonLee
hi 通过 headers 这种方式是可以获取到的 jark 大佬说的那种方式我还没有测试 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql读kafka元数据问题

2021-01-12 文章 JasonLee
hi 你写入数据的时候设置 headers 了吗 没设置的话当然是空的了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink-sql 元数据问题

2020-12-11 文章 JasonLee
hi Flink SQL 建的表支持用 hive 的 catalog 来管理元数据,是否可以满足你的需求 ? - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink SQL 1.11支持将数据写入到Hive吗?

2020-12-11 文章 JasonLee
hi 可以参考下这篇文章 https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink SQL使用Tumble窗口函数报NoSuchMethodError functions/AggregateFunction 异常

2020-12-03 文章 JasonLee
hi 从报错信息看应该jar包冲突了,可以贴一下相关的依赖包吗 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink-1.11 使用 application 模式时 jobid 问题

2020-11-13 文章 JasonLee
hi 可以参考一下这篇文章: https://mp.weixin.qq.com/s/S_Spm88eDtbza1QoLKiWlg - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 JasonLee
hi 把 -d 参加加上用分离方式启动 应该就可以了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 JasonLee
hi 从你的描述看确实起的是per-job模式,per-job模式目前应该是没有这个问题的.可以再看下你的UI上execution.attached 的值是什么吗? 再有启动任务的时候是否加了 -d 参数 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink与Yarn的状态一致性问题

2020-11-12 文章 JasonLee
hi 1,首先确定你提交的是per-job模式吗? 2,你说的任务状态是说jm还在任务在failover,还是任务确实是挂了,jm已经退出了? - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink tm cpu cores设置

2020-11-04 文章 JasonLee
hi 可以这么设置-yD yarn.containers.vcores=你设置的值 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink tm cpu cores设置

2020-11-04 文章 JasonLee
hi 设置yarn.containers.vcores这个参数就可以了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 使用BroadcastStream后checkpoint失效

2020-11-03 文章 JasonLee
hi checkpoint目前只能用在流数据上,你读取的mongo数据是一个有界的数据源,所以是不支持做checkpoint就会导致整个任务的checkpoint失败,你可以把读取mongo做一个定时读取,这样应该就可以完成checkpoint. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink获取latencymarker有什么好的方法

2020-09-26 文章 JasonLee
hi LatencyMarker 是一个全链路的延迟 不是非常的准确 不过也能大致反应端到端的延迟情况 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以

2020-09-18 文章 JasonLee
HI 我理解你的 kafka 生产数据的速度比较慢 你并发设置的再大都是没有用的 正常 source 的并行度设置和 kafka 的 partition 个数相等就可以了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Plan Visualizer

2020-09-09 文章 JasonLee
hi Flink plan visualizer 应该是只能画stream graph stream graph 是一个逻辑上的 DAG 图 你把任务提交到集群上 在 Flink WEB UI 上面就可以看到 job graph 了 stream graph 和 job graph 的区别是 job graph 优化了 operator chain job graph 是在调用 env.execute 方法之后才生成的 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink checkpoint导致反压严重

2020-08-31 文章 JasonLee
hi 我理解应该是数据倾斜的问题导致的 可以看下采用加随机数的方式key是否分布的均匀. -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Flink SQL 问题;

2020-08-28 文章 JasonLee
hi 把Flink-jdbc的包放到flink/lib下面再跑下 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.11读取kafka问题

2020-08-27 文章 JasonLee
hi 首先是确认一下kafka是否有数据写入,其次把所有的operator都看下是否有反压的情况 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 如何设置FlinkSQL并行度

2020-08-22 文章 JasonLee
hi checkpoint savepoint的问题可以看下这个 https://mp.weixin.qq.com/s/Vl6_GsGeG0dK84p9H2Ld0Q -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: kafka分区数扩容对flink任务的影响

2020-08-19 文章 JasonLee
hi Flink是可以感知到partition的增加的 消费kafka的时候设置一下KEY_PARTITION_DISCOVERY_INTERVAL_MILLIS这个参数 大于0就可以了 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql 如何指定之前的checkpoint执行

2020-08-18 文章 JasonLee
hi 可以参考这篇文章https://mp.weixin.qq.com/s/Vl6_GsGeG0dK84p9H2Ld0Q 在cancel的时候触发一个savepoint 修改完SQL从savepoint恢复任务 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 请教大佬一个在flink调用kafka数据源时'scan.startup.mode'参数的使用问题

2020-08-14 文章 JasonLee
hi 参数是这么写的没错 'scan.startup.mode' = 'earliest-offset' 你确定你是用的新的groupid吗 我这里测试是可以的从头开始消费的 不知道是不是你测试的方法不对 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink任务写入kafka 开启了EOS,statebackend为rocksdb,任务反压source端日志量堆积从cp恢复失败

2020-08-14 文章 JasonLee
hi 没有日志不太好定位失败的原因 但是没有设置uid的话 是有可能重启失败的 建议还是都设置uid最好 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 用hive streaming写 orc文件的问题

2020-08-14 文章 JasonLee
hi 我这边测试了ORC的,只需要把stored as pauquet 改成stored as orc即可,success文件能生成,hive里面也能查看数据,但是有一个问题是,Flink Web UI上面显示的数据量是不对的 UI 上面的records send 一直在增大 即使我已经停止向kafka写入数据了 但是hive 里面的数据是对的 我写了30条 hive里面查出来的确实是30条 但UI上面已经显示480条了 且还在增加 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink 1.11 使用sql将流式数据写入hive

2020-08-11 文章 JasonLee
Hi 可以看下這個demo https://mp.weixin.qq.com/s/HqXaREr_NZbZ8lgu_yi7yA -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复:flink-sql-connector-elasticsearch6_2.11_1.10.0 与 flink-connector-elasticsearch6_2.11_1.10.0 并存问题

2020-08-06 文章 JasonLee
Hi 只引入-sql那个包就行了 代码也应该是可以直接用这个包的 | | JasonLee | | 邮箱:17610775...@163.com | Signature is customized by Netease Mail Master 在2020年08月07日 09:26,费文杰 写道: HI: 使用的flink1.10环境,因为使用sql-client,我在flink/lib目录下放置了flink-sql-connector-elasticsearch6_2.11_1.10.0.jar,因为同事有直接在代码里写的sink到elasticsearch,所以他引入

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 JasonLee
hi 我记得我用1.6.0版本的时候就有这个问题 好像是没有对应的jira 不过我用新版本已经没有遇到这个问题了 应该是偶尔会出现 -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复:Flink 通过sql client 启动的任务,kill掉之后,是否可以指定checkpoint恢复?

2020-08-04 文章 JasonLee
HI 目前sql-client的方式应该还不支持从指定的checkpoint恢复任务 不过Flink on zeppelin目前已经支持了 有兴趣可以用下 | | JasonLee | | 邮箱:17610775...@163.com | Signature is customized by Netease Mail Master 在2020年08月04日 16:28,mispower 写道: 通过sql_client 启动的streaming的任务,在维护或者异常之后,如何像flink straming 一样通过指定checkpoint 恢复到上一次的消费节点。 在邮件列表里搜

回复:flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 JasonLee
hi 这本身就是一个bug 应该是还没有修复 | | JasonLee | | 邮箱:17610775...@163.com | Signature is customized by Netease Mail Master 在2020年08月04日 15:41,bradyMk 写道: 您好 我这边是用perJob的方式提交的,而且这种现象还是偶发性的,这次错误日志是这样的: 2020-08-04 10:30:14,475 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph- Job

回复:flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-07-30 文章 JasonLee
hi 提交offset到Kafka是在ck成功之后 如果没有开启ck的话 需要设置自动提交提交offset | | JasonLee | | 邮箱:17610775...@163.com | Signature is customized by Netease Mail Master 在2020年07月30日 19:37,bradyMk 写道: 谢谢解答~ 这个确实是个不变的值,应该是没有成功提交;而且我发现了,只要是没有设置ck的任务,该指标都会显示这个值,如果设置了ck,就会正常;但是我不懂为什么会这样,请问您知道详细的原因么? -- Sent from: http

Re: Could not find any factory for identifier 'kafka'

2020-07-24 文章 JasonLee
hi 只需要-sql和-json两个包就可以了 | | JasonLee | | 邮箱:17610775...@163.com | Signature is customized by Netease Mail Master On 07/24/2020 17:02, RS wrote: hi, Flink-1.11.1 尝试运行SQL DDL 读取kafka的数据,执行create 语句的时候报错了 编译的jar包是jar-with-dependencies的 代码片段: public String ddlSql = String.format("CREATE

回复:flink1.11启动问题

2020-07-21 文章 JasonLee
Hi 报错显示的是资源不足了 你确定yarn上的资源是够的吗 看下是不是节点挂了 1.11我这边提交任务都是正常的 | | JasonLee | | 邮箱:17610775...@163.com | Signature is customized by Netease Mail Master 在2020年07月21日 16:36,酷酷的浑蛋 写道: 服了啊,这个flink1.11启动怎么净是问题啊 我1.7,1.8,1.9 都没有问题,到11就不行 ./bin/flink run -m yarn-cluster -yqu root.rt_constant -ys 2

回复:flink1.11启动问题

2020-07-21 文章 JasonLee
HI 你使用的什么模式?启动任务的命令发出来看一下吧 | | JasonLee | | 邮箱:17610775...@163.com | Signature is customized by Netease Mail Master 在2020年07月22日 12:44,酷酷的浑蛋 写道: 现在是为什么啊?启动任务自动占用所有core?core数量一直在增加,直到达到队列最大值,然后就卡住了,这flink1.11啥情况啊?

  1   2   >