dear all:
如题,我在调用RestClusterClient#cancel(JobID jobId)方法取消作业时,get不到结果,但作业能正常停止。
用future.get()会报错如下:
Number of retries has been exhausted.
用future.get(10, TimeUnit.SECONDS)会报错timeout.
调用#cancelWithSavepoint(...)和#stopWithSavepoint(...)就没问题,可以正常获取到结果,不报错。
目前发现,
1.10.0有问题,
1.14.0没有上述问题。
作业
dear all:
如题,我在调用RestClusterClient#cancel(JobID jobId)方法取消作业时,get不到结果,但作业能正常停止。
用future.get()会报错如下:
Number of retries has been exhausted.
用future.get(10, TimeUnit.SECONDS)会报错timeout.
调用#cancelWithSavepoint(...)和#stopWithSavepoint(...)就没问题,可以正常获取到结果,不报错。
目前发现,
1.10.0有问题,
1.14.0没有上述问题。
作
时间设长没有用,不限时都会报错。
回复的原邮件
| 发件人 | 何凯飞<18703416...@163.com> |
| 日期 | 2021年12月09日 15:07 |
| 收件人 | user-zh@flink.apache.org |
| 抄送至 | |
| 主题 | Re: flink1.10.0-RestClusterClient cancel job, 报错 |
有尝试过将 timeout 时间设置长一点嘛? 比如3 min
dear all:
如题,我在调用RestClusterClient#cancel(JobID jobId)方法取消作业时,get不到结果,但作业能正常停止。
用future.get()会报错如下:
Number of retries has been exhausted.
用future.get(10, TimeUnit.SECONDS)会报错timeout.
调用#cancelWithSavepoint(...)和#stopWithSavepoint(...)就没问题,可以正常获取到结果,不报错。
作业运行于cdh yarn集群,版本2.6.0
作业部署,per-j
而且他们的内容都非常似,只有极少量的差别。
这些不同包里的类,在使用上有什么差别吗?是否有必要统一下,让使用更方便。
我在使用时,比如要实现自定义trigger,应如何选择?
| |
nicygan
|
|
read3...@163.com
|
dear all:
我的flink任务提交到yarn运行,
默认生效的是日志配置是flink/conf中的log4j.properties。
但我的应用jar包中还有一个log4j2.xml,这里面配置了KafkaAppend,要把日志发送到kafka。
我要如果设置,才能让这两个配置文件都生效呢?
哪位大侠有配置经验。
thanks
by nicygan
Dian Fu:
谢谢解惑,我试试换个版本。
thank you
by nicygan
在 2020-12-24 22:44:04,"Dian Fu" 写道:
>应该是个已知问题,在1.11.2里已经修复了:https://issues.apache.org/jira/browse/FLINK-18856
>
>> 在 2020年12月24日,下午9:34,赵一旦 写道:
>>
>> I don't believe what you say...
>>
>>
dear all:
我在checkpoint设置中,设置了
checkpointConfig.setMinPauseBetweenCheckpoints(180_000L)
但是好像并没有生效,
比如id=238的结束时间为17:13:30
但是id=239的开始时间也是17:13:30
我的理解id=239的开始时间至少应该是17:16:30
是我对这个参数理解有误吗?
thanks
by nicygan
checkpoint tolerable failure threshold
然后任务就发生重启,恢复到最后一个正常checkpoint点。
但到下一个checkpoint周期时,又超时,又发生重启,又恢复到那个正常checkpoint点。
就如此反复重启,恢复到那个正常checkpoint点,也导致流中的数据无法继续消费。
checkpoint超时为什么会导致任务重启,可以避免让他重启吗?
调用第三方接口超时的数据,我可以后面单独处理,但重启却导致了数据无法消费。
thanks
/nicygan
是有这个毛病,看TM日志不方便。
而且本地日志过几小时就会被清理,时间一久就看不到了,只剩JM日志。
在 2020-07-14 12:35:06,"zhisheng" 写道:
>知道 YARN 的 applicationId,应该也可以去 HDFS 找对应的 taskmanager 的日志(可以拼出路径),然后复制到本地去查看
>
>Yangze Guo 于2020年7月14日周二 上午11:58写道:
>
>> Hi, 王松
>>
>> 我理解拼接url就可以了,不用实际去登陆机器然后进到对应目录。
>>
>> Best,
>> Yangze Guo
>>
>> On T
Thread.run(ForkJoinWorkerThread.java:107)
thanks all / by nicygan
请问timeout值是多少?在哪里可设置?
在 2020-06-18 17:43:31,"Benchao Li" 写道:
>我理解现在就是你想要的效果。
>batch-size和timeout两个条件是达到一个就会flush的。
>
>nicygan 于2020年6月18日周四 下午5:05写道:
>
>> dear all:
>> 我想用JDBCAppendTableSink向Mysql写数据,可以设置批量大小,不能设置间隔时间。
>>
>>
>>
dear all:
我想用JDBCAppendTableSink向Mysql写数据,可以设置批量大小,不能设置间隔时间。
JDBCAppendTableSink sink = JDBCAppendTableSink.builder().setBatchSize(1)
.setDrivername("com.mysql.jdbc.Driver")
.setDBUrl("jdbc:mysql://localhost:3306/flink")
.setUsername("root")
谢谢,看起来好像可以,暂时没报错了,只是还没有正确读到hadoop的配置。
在 2020-03-07 17:06:48,"tison" 写道:
>报错前面加上这两行
>
>final YarnConfiguration yarnConfiguration = new YarnConfiguration();
>yarnClient.init(yarnConfiguration);
>
>如果还不对就查一下 HADOOP_CLASSPATH 和 yarn-site 这些配置有没有正确配置上
>
>Best,
>
多问题的,如果直接依赖 ClusterDescriptor
>这些抽象里面有一些潜规则,你自己看的话可能得对着 Flink 的源码使用点逐步调试排查。
>
>Best,
>tison.
>
>
>nicygan 于2020年3月7日周六 下午3:16写道:
>
>> tison,你好运行到这里时,报空指针
>> Caused by: java.lang.NullPointerException
>> at
>> org.apache.hadoop.yar
Transition(ServiceStateModel.java:129)
at
org.apache.hadoop.service.ServiceStateModel.enterState(ServiceStateModel.java:111)
at org.apache.hadoop.service.AbstractService.start(AbstractService.java:190)
在 2020-03-07 11:15:10,"tison" 写道:
>不成功的报错是啥?
>
>Best,
>tison.
>
dear all:
我用的flink版本1.9,现在我把flinksql语句生成了jobGroph,现在我不知道如何提交到yarn上,以pre-job方式运行。我尝试通过生成
yarnClusterDescriptor提交代码,但不成功,代码大致如下,各位有没有成功示例求分享。
..
JobGraph jobGraph = env.getStreamGraph("StreamSql").getJobGraph();
..
..
yarnClusterDescriptor.deployJobCluster(
clusterSpecification,
17 matches
Mail list logo