从kafka中读取数据到hdfs,过段时间报错

2023-07-11 Thread chenyu_opensource
目前是用flink1.12版本,从kafka中读取数据到hdfs,前期运行正常,过段时间报错:
Caused by: org.apache.flink.streaming.runtime.tasks.TimerException: 
org.apache.hadoop.ipc.RemoteException(java.io.IOException): 
BP-504689274-10.204.4.58-1507792652938:blk_3265799450_2192171234 does not exist 
or is not under Constructionnull
flink taskmanager报错,会和hdfs连接中断。
datanode日志报错DataXceiver error processing WRITE_BLOCK operation


背景:读取kafka数据,sink是多个的,为了处理不同的逻辑,保存到不同的hdfs目录,同时数据量上存在数据倾斜,已使用不同的并行度去处理,但还是出现这种问题。查询到的dfs.datanode.max.transfer.threads=16384。同时当前有下游业务读取hdfs目录,是否有所影响。


请指教,谢谢

Re: 从kafka中读取数据到hdfs,过段时间报错

2023-07-11 Thread Shammon FY
Hi

你可以贴一下完整的异常栈信息,这可以帮助定位具体问题

Best,
Shammon FY


On Wed, Jul 12, 2023 at 10:52 AM chenyu_opensource <
chenyu_opensou...@163.com> wrote:

> 目前是用flink1.12版本,从kafka中读取数据到hdfs,前期运行正常,过段时间报错:
> Caused by: org.apache.flink.streaming.runtime.tasks.TimerException:
> org.apache.hadoop.ipc.RemoteException(java.io.IOException):
> BP-504689274-10.204.4.58-1507792652938:blk_3265799450_2192171234 does not
> exist or is not under Constructionnull
> flink taskmanager报错,会和hdfs连接中断。
> datanode日志报错DataXceiver error processing WRITE_BLOCK operation
>
>
>
> 背景:读取kafka数据,sink是多个的,为了处理不同的逻辑,保存到不同的hdfs目录,同时数据量上存在数据倾斜,已使用不同的并行度去处理,但还是出现这种问题。查询到的dfs.datanode.max.transfer.threads=16384。同时当前有下游业务读取hdfs目录,是否有所影响。
>
>
> 请指教,谢谢


Re:Re: 从kafka中读取数据到hdfs,过段时间报错

2023-07-11 Thread chenyu_opensource
作业已重启 其他日志暂时没有了



















在 2023-07-12 11:06:31,"Shammon FY"  写道:
>Hi
>
>你可以贴一下完整的异常栈信息,这可以帮助定位具体问题
>
>Best,
>Shammon FY
>
>
>On Wed, Jul 12, 2023 at 10:52 AM chenyu_opensource <
>chenyu_opensou...@163.com> wrote:
>
>> 目前是用flink1.12版本,从kafka中读取数据到hdfs,前期运行正常,过段时间报错:
>> Caused by: org.apache.flink.streaming.runtime.tasks.TimerException:
>> org.apache.hadoop.ipc.RemoteException(java.io.IOException):
>> BP-504689274-10.204.4.58-1507792652938:blk_3265799450_2192171234 does not
>> exist or is not under Constructionnull
>> flink taskmanager报错,会和hdfs连接中断。
>> datanode日志报错DataXceiver error processing WRITE_BLOCK operation
>>
>>
>>
>> 背景:读取kafka数据,sink是多个的,为了处理不同的逻辑,保存到不同的hdfs目录,同时数据量上存在数据倾斜,已使用不同的并行度去处理,但还是出现这种问题。查询到的dfs.datanode.max.transfer.threads=16384。同时当前有下游业务读取hdfs目录,是否有所影响。
>>
>>
>> 请指教,谢谢