Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 lishiyuan0506


您好,这个图片好像发不出去,我添加到附件里


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 17:21 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
您好,感谢回复,这是rm相关配置,rm设的是ha




非常感谢您的回复


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 17:17 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi



仔细看了一下日志,感觉还是 yarn 的配置问题,可以看下 yarn.resourcemanager.scheduler.address 配置的什么吗?在 
client 端连接 RM 的时候打印的日志是 2022-07-14 15:10:48,109 INFO  
org.apache.hadoop.yarn.client.RMProxy[] - Connecting to 
ResourceManager at /0.0.0.0:8030 这里的地址是不对的,正常应该是 
yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:52 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi


是的,这个是运行参数


/opt/flink-1.13.3/bin/flink run \
-t yarn-per-job \
-Dyarn.application.name=test_wordcount \
-Dparallelism.default=1 \
-Dtaskmanager.numberOfTaskSlots=1 \
-Djobmanager.memory.process.size=1024mb \
-Dtaskmanager.memory.process.size=2048mb \
/opt/flink-1.13.3/examples/streaming/WordCount.jar


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:47 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi



这个是直接运行的 examples 里面的 demo 程序吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:25 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
感谢感谢,可以看的,我添加到附件给您发过去


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:15 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi


可以用 yarn logs -applicationId xxx 看下日志吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|






Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 lishiyuan0506
您好,感谢回复,这是rm相关配置,rm设的是ha




非常感谢您的回复


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 17:17 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi



仔细看了一下日志,感觉还是 yarn 的配置问题,可以看下 yarn.resourcemanager.scheduler.address 配置的什么吗?在 
client 端连接 RM 的时候打印的日志是 2022-07-14 15:10:48,109 INFO  
org.apache.hadoop.yarn.client.RMProxy[] - Connecting to 
ResourceManager at /0.0.0.0:8030 这里的地址是不对的,正常应该是 
yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:52 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi


是的,这个是运行参数


/opt/flink-1.13.3/bin/flink run \
-t yarn-per-job \
-Dyarn.application.name=test_wordcount \
-Dparallelism.default=1 \
-Dtaskmanager.numberOfTaskSlots=1 \
-Djobmanager.memory.process.size=1024mb \
-Dtaskmanager.memory.process.size=2048mb \
/opt/flink-1.13.3/examples/streaming/WordCount.jar


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:47 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi



这个是直接运行的 examples 里面的 demo 程序吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:25 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
感谢感谢,可以看的,我添加到附件给您发过去


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:15 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi


可以用 yarn logs -applicationId xxx 看下日志吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|






Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 JasonLee
Hi



仔细看了一下日志,感觉还是 yarn 的配置问题,可以看下 yarn.resourcemanager.scheduler.address 配置的什么吗?在 
client 端连接 RM 的时候打印的日志是 2022-07-14 15:10:48,109 INFO  
org.apache.hadoop.yarn.client.RMProxy[] - Connecting to 
ResourceManager at /0.0.0.0:8030 这里的地址是不对的,正常应该是 
yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:52 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi


是的,这个是运行参数


/opt/flink-1.13.3/bin/flink run \
-t yarn-per-job \
-Dyarn.application.name=test_wordcount \
-Dparallelism.default=1 \
-Dtaskmanager.numberOfTaskSlots=1 \
-Djobmanager.memory.process.size=1024mb \
-Dtaskmanager.memory.process.size=2048mb \
/opt/flink-1.13.3/examples/streaming/WordCount.jar


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:47 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi



这个是直接运行的 examples 里面的 demo 程序吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:25 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
感谢感谢,可以看的,我添加到附件给您发过去


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:15 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi


可以用 yarn logs -applicationId xxx 看下日志吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|






Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 lishiyuan0506
hi


是的,这个是运行参数


/opt/flink-1.13.3/bin/flink run \
-t yarn-per-job \
-Dyarn.application.name=test_wordcount \
-Dparallelism.default=1 \
-Dtaskmanager.numberOfTaskSlots=1 \
-Djobmanager.memory.process.size=1024mb \
-Dtaskmanager.memory.process.size=2048mb \
/opt/flink-1.13.3/examples/streaming/WordCount.jar


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:47 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi



这个是直接运行的 examples 里面的 demo 程序吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:25 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
感谢感谢,可以看的,我添加到附件给您发过去


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:15 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi


可以用 yarn logs -applicationId xxx 看下日志吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|






Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 JasonLee
Hi



这个是直接运行的 examples 里面的 demo 程序吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 16:25 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
感谢感谢,可以看的,我添加到附件给您发过去


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:15 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi


可以用 yarn logs -applicationId xxx 看下日志吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|






Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 lishiyuan0506
感谢感谢,可以看的,我添加到附件给您发过去


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | JasonLee<17610775...@163.com> |
| Date | 07/14/2022 16:15 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
Hi


可以用 yarn logs -applicationId xxx 看下日志吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|




 Log Type: jobmanager.log

Log Upload Time: Thu Jul 14 15:11:43 +0800 2022

Log Length: 52944

2022-07-14 15:10:45,900 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - 

2022-07-14 15:10:45,904 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  Starting 
YarnJobClusterEntrypoint (Version: 1.13.3, Scala: 2.12, Rev:a4700e3, 
Date:2021-10-11T23:52:36+02:00)
2022-07-14 15:10:45,904 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  OS current 
user: root
2022-07-14 15:10:46,041 WARN  org.apache.hadoop.util.NativeCodeLoader   
   [] - Unable to load native-hadoop library for your platform... using 
builtin-java classes where applicable
2022-07-14 15:10:46,106 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  Current 
Hadoop/Kerberos user: root
2022-07-14 15:10:46,106 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  JVM: Java 
HotSpot(TM) 64-Bit Server VM - Oracle Corporation - 1.8/25.212-b10
2022-07-14 15:10:46,107 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  Maximum heap 
size: 429 MiBytes
2022-07-14 15:10:46,107 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  JAVA_HOME: 
/opt/jdk1.8.0_212
2022-07-14 15:10:46,109 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  Hadoop 
version: 3.1.4
2022-07-14 15:10:46,109 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] -  JVM Options:
2022-07-14 15:10:46,109 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - 
-Xmx469762048
2022-07-14 15:10:46,109 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - 
-Xms469762048
2022-07-14 15:10:46,109 INFO  
org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - 
-XX:MaxMetaspaceSize=268435456
2022-07-14 15:10:46,109 INFO  
org.apache.flink.runtime

Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 JasonLee
Hi


可以用 yarn logs -applicationId xxx 看下日志吗?


Best
JasonLee


 Replied Message 
| From | lishiyuan0506 |
| Date | 07/14/2022 15:43 |
| To | user-zh@flink.apache.org |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|






Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 lishiyuan0506
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题






| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 15:37 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3.
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,

你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.

集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink

example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<
https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D


 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|






Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 Biao Geng
hi
根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030
端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 15:17写道:

> 您好,我之前做了一些尝试:
> 1. 测试Spark、MR任务正常
> 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
> 3.
> 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
> 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export
> HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export
> HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题
>
>
> 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>
>  Replied Message 
> | From | Biao Geng |
> | Date | 07/14/2022 14:31 |
> | To |  |
> | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
> hi,
>
> 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
> 有几个可以检查的地方:
> 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
> HADOOP_CLASSPATH=`hadoop classpath`
> 2.
>
> 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确
>
> Best,
> Biao Geng
>
> Biao Geng  于2022年7月14日周四 11:32写道:
>
> hi,
> 你有试过提交flink
>
> example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
> -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。
>
> Best,
> Biao Geng
>
> lishiyuan0506  于2022年7月14日周四 11:06写道:
>
> 您好,环境变量里面有,而且flink的conf.sh也设置了
>
>
> lishiyuan0506
> lishiyuan0...@163.com
>
> <
> https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D
> >
>
>  Replied Message 
> From Yang Wang 
> Date 07/14/2022 11:00
> To user-zh 
> Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
> 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量
>
> Best,
> Yang
>
> lishiyuan0506  于2022年7月14日周四 09:41写道:
>
> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
> 0.0.0.0/0.0.0.0:8030这个异常
>
>
> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>
>
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>
>
>


Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 lishiyuan0506
您好,我之前做了一些尝试:
1. 测试Spark、MR任务正常
2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题
3. 
尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml`
4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export 
HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop 
classpath`测试example出现同样的问题


目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 14:31 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,
你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.
集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

hi,
你有试过提交flink
example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D>

 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|





Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 Biao Geng
hi,
你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。
有几个可以检查的地方:
1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export
HADOOP_CLASSPATH=`hadoop classpath`
2.
集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确

Best,
Biao Geng

Biao Geng  于2022年7月14日周四 11:32写道:

> hi,
> 你有试过提交flink
> example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
> -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。
>
> Best,
> Biao Geng
>
> lishiyuan0506  于2022年7月14日周四 11:06写道:
>
>> 您好,环境变量里面有,而且flink的conf.sh也设置了
>>
>>
>> lishiyuan0506
>> lishiyuan0...@163.com
>>
>> <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D>
>>
>>  Replied Message 
>> From Yang Wang 
>> Date 07/14/2022 11:00
>> To user-zh 
>> Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
>> 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量
>>
>> Best,
>> Yang
>>
>> lishiyuan0506  于2022年7月14日周四 09:41写道:
>>
>> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
>> 0.0.0.0/0.0.0.0:8030这个异常
>>
>>
>> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>>
>>
>> | |
>> lishiyuan0506
>> |
>> |
>> lishiyuan0...@163.com
>> |
>>
>>
>>


Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-14 文章 lishiyuan0506
您好,运行example仍然是这个问题,检查了lib没有多余的yarn配置,从官网下了一个干净的flink运行example还是出现这个问题。
| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Biao Geng |
| Date | 07/14/2022 11:32 |
| To |  |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
hi,
你有试过提交flink
example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

您好,环境变量里面有,而且flink的conf.sh也设置了


lishiyuan0506
lishiyuan0...@163.com

<https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D>

 Replied Message 
From Yang Wang 
Date 07/14/2022 11:00
To user-zh 
Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|





Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-13 文章 Biao Geng
hi,
你有试过提交flink
example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep
-irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。

Best,
Biao Geng

lishiyuan0506  于2022年7月14日周四 11:06写道:

> 您好,环境变量里面有,而且flink的conf.sh也设置了
>
>
> lishiyuan0506
> lishiyuan0...@163.com
>
> <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D>
>
>  Replied Message 
> From Yang Wang 
> Date 07/14/2022 11:00
> To user-zh 
> Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
> 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量
>
> Best,
> Yang
>
> lishiyuan0506  于2022年7月14日周四 09:41写道:
>
> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
> 0.0.0.0/0.0.0.0:8030这个异常
>
>
> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>
>
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>
>


Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-13 文章 lishiyuan0506
您好,环境变量里面有,而且flink的conf.sh也设置了





| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|


 Replied Message 
| From | Yang Wang |
| Date | 07/14/2022 11:00 |
| To | user-zh |
| Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 |
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|




Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-13 文章 Yang Wang
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量

Best,
Yang

lishiyuan0506  于2022年7月14日周四 09:41写道:

> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
> 0.0.0.0/0.0.0.0:8030这个异常
>
>
> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>
>
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>


Retrying connect to server: 0.0.0.0/0.0.0.0:8030

2022-07-13 文章 lishiyuan0506
打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 
0.0.0.0/0.0.0.0:8030这个异常


hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题


| |
lishiyuan0506
|
|
lishiyuan0...@163.com
|