flink写kafka时,并行度和分区数的设置问题
您好: flink将数据写入kafka【kafka为sink】,当kafka topic分区数【设置的60】小于设置的并行度【设置的300】时,task是轮询写入这些分区吗,是否会影响写入效率?【是否存在遍历时的耗时情况】。 此时,如果扩大topic的分区数【添加至200,或者直接到300】,写入的效率是否会有明显的提升? 是否有相关的源码可以查看。 期待回复,祝好,谢谢!
flink重启机制
你好,flink任务提交到yarn上,由于某个节点下线导致flink任务失败,如下: 同时重试超过次数,任务失败,如下图: 我想问一下,flink重试机制中 任务不会重新调度到新节点的container吗?为什么一直在同一个节点从而导致整体任务失败。这个调度是由yarn控制还是flink自身代码控制的?如有相关代码也请告知,谢谢。 期待回复,谢谢!
退订
退订
退订
退订
Re:Re: 从kafka中读取数据到hdfs,过段时间报错
作业已重启 其他日志暂时没有了 在 2023-07-12 11:06:31,"Shammon FY" 写道: >Hi > >你可以贴一下完整的异常栈信息,这可以帮助定位具体问题 > >Best, >Shammon FY > > >On Wed, Jul 12, 2023 at 10:52 AM chenyu_opensource < >chenyu_opensou...@163.com> wrote: > >> 目前是用flink1.12版本,从kafka中读取数据到hdfs,前期运行正常,过段时间报错: >> Caused by: org.apache.flink.streaming.runtime.tasks.TimerException: >> org.apache.hadoop.ipc.RemoteException(java.io.IOException): >> BP-504689274-10.204.4.58-1507792652938:blk_3265799450_2192171234 does not >> exist or is not under Constructionnull >> flink taskmanager报错,会和hdfs连接中断。 >> datanode日志报错DataXceiver error processing WRITE_BLOCK operation >> >> >> >> 背景:读取kafka数据,sink是多个的,为了处理不同的逻辑,保存到不同的hdfs目录,同时数据量上存在数据倾斜,已使用不同的并行度去处理,但还是出现这种问题。查询到的dfs.datanode.max.transfer.threads=16384。同时当前有下游业务读取hdfs目录,是否有所影响。 >> >> >> 请指教,谢谢
从kafka中读取数据到hdfs,过段时间报错
目前是用flink1.12版本,从kafka中读取数据到hdfs,前期运行正常,过段时间报错: Caused by: org.apache.flink.streaming.runtime.tasks.TimerException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): BP-504689274-10.204.4.58-1507792652938:blk_3265799450_2192171234 does not exist or is not under Constructionnull flink taskmanager报错,会和hdfs连接中断。 datanode日志报错DataXceiver error processing WRITE_BLOCK operation 背景:读取kafka数据,sink是多个的,为了处理不同的逻辑,保存到不同的hdfs目录,同时数据量上存在数据倾斜,已使用不同的并行度去处理,但还是出现这种问题。查询到的dfs.datanode.max.transfer.threads=16384。同时当前有下游业务读取hdfs目录,是否有所影响。 请指教,谢谢