Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
您好,这个图片好像发不出去,我添加到附件里 Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 17:21 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 您好,感谢回复,这是rm相关配置,rm设的是ha 非常感谢您的回复 Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 17:17 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 仔细看了一下日志,感觉还是 yarn 的配置问题,可以看下 yarn.resourcemanager.scheduler.address 配置的什么吗?在 client 端连接 RM 的时候打印的日志是 2022-07-14 15:10:48,109 INFO org.apache.hadoop.yarn.client.RMProxy[] - Connecting to ResourceManager at /0.0.0.0:8030 这里的地址是不对的,正常应该是 yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。 Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:52 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 是的,这个是运行参数 /opt/flink-1.13.3/bin/flink run \ -t yarn-per-job \ -Dyarn.application.name=test_wordcount \ -Dparallelism.default=1 \ -Dtaskmanager.numberOfTaskSlots=1 \ -Djobmanager.memory.process.size=1024mb \ -Dtaskmanager.memory.process.size=2048mb \ /opt/flink-1.13.3/examples/streaming/WordCount.jar | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:47 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 这个是直接运行的 examples 里面的 demo 程序吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:25 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 感谢感谢,可以看的,我添加到附件给您发过去 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:15 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
您好,感谢回复,这是rm相关配置,rm设的是ha 非常感谢您的回复 Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 17:17 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 仔细看了一下日志,感觉还是 yarn 的配置问题,可以看下 yarn.resourcemanager.scheduler.address 配置的什么吗?在 client 端连接 RM 的时候打印的日志是 2022-07-14 15:10:48,109 INFO org.apache.hadoop.yarn.client.RMProxy[] - Connecting to ResourceManager at /0.0.0.0:8030 这里的地址是不对的,正常应该是 yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。 Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:52 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 是的,这个是运行参数 /opt/flink-1.13.3/bin/flink run \ -t yarn-per-job \ -Dyarn.application.name=test_wordcount \ -Dparallelism.default=1 \ -Dtaskmanager.numberOfTaskSlots=1 \ -Djobmanager.memory.process.size=1024mb \ -Dtaskmanager.memory.process.size=2048mb \ /opt/flink-1.13.3/examples/streaming/WordCount.jar | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:47 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 这个是直接运行的 examples 里面的 demo 程序吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:25 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 感谢感谢,可以看的,我添加到附件给您发过去 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:15 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
Hi 仔细看了一下日志,感觉还是 yarn 的配置问题,可以看下 yarn.resourcemanager.scheduler.address 配置的什么吗?在 client 端连接 RM 的时候打印的日志是 2022-07-14 15:10:48,109 INFO org.apache.hadoop.yarn.client.RMProxy[] - Connecting to ResourceManager at /0.0.0.0:8030 这里的地址是不对的,正常应该是 yarn.resourcemanager.scheduler.address:8030 但是日志里面是 0.0.0.0:8030。 Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:52 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 是的,这个是运行参数 /opt/flink-1.13.3/bin/flink run \ -t yarn-per-job \ -Dyarn.application.name=test_wordcount \ -Dparallelism.default=1 \ -Dtaskmanager.numberOfTaskSlots=1 \ -Djobmanager.memory.process.size=1024mb \ -Dtaskmanager.memory.process.size=2048mb \ /opt/flink-1.13.3/examples/streaming/WordCount.jar | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:47 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 这个是直接运行的 examples 里面的 demo 程序吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:25 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 感谢感谢,可以看的,我添加到附件给您发过去 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:15 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
hi 是的,这个是运行参数 /opt/flink-1.13.3/bin/flink run \ -t yarn-per-job \ -Dyarn.application.name=test_wordcount \ -Dparallelism.default=1 \ -Dtaskmanager.numberOfTaskSlots=1 \ -Djobmanager.memory.process.size=1024mb \ -Dtaskmanager.memory.process.size=2048mb \ /opt/flink-1.13.3/examples/streaming/WordCount.jar | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:47 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 这个是直接运行的 examples 里面的 demo 程序吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:25 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 感谢感谢,可以看的,我添加到附件给您发过去 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:15 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
Hi 这个是直接运行的 examples 里面的 demo 程序吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 16:25 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 感谢感谢,可以看的,我添加到附件给您发过去 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:15 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
感谢感谢,可以看的,我添加到附件给您发过去 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | JasonLee<17610775...@163.com> | | Date | 07/14/2022 16:15 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Log Type: jobmanager.log Log Upload Time: Thu Jul 14 15:11:43 +0800 2022 Log Length: 52944 2022-07-14 15:10:45,900 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - 2022-07-14 15:10:45,904 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - Starting YarnJobClusterEntrypoint (Version: 1.13.3, Scala: 2.12, Rev:a4700e3, Date:2021-10-11T23:52:36+02:00) 2022-07-14 15:10:45,904 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - OS current user: root 2022-07-14 15:10:46,041 WARN org.apache.hadoop.util.NativeCodeLoader [] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2022-07-14 15:10:46,106 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - Current Hadoop/Kerberos user: root 2022-07-14 15:10:46,106 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - JVM: Java HotSpot(TM) 64-Bit Server VM - Oracle Corporation - 1.8/25.212-b10 2022-07-14 15:10:46,107 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - Maximum heap size: 429 MiBytes 2022-07-14 15:10:46,107 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - JAVA_HOME: /opt/jdk1.8.0_212 2022-07-14 15:10:46,109 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - Hadoop version: 3.1.4 2022-07-14 15:10:46,109 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - JVM Options: 2022-07-14 15:10:46,109 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - -Xmx469762048 2022-07-14 15:10:46,109 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - -Xms469762048 2022-07-14 15:10:46,109 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoint[] - -XX:MaxMetaspaceSize=268435456 2022-07-14 15:10:46,109 INFO org.apache.flink.runtime
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
Hi 可以用 yarn logs -applicationId xxx 看下日志吗? Best JasonLee Replied Message | From | lishiyuan0506 | | Date | 07/14/2022 15:43 | | To | user-zh@flink.apache.org | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
hello,根据您的思路,我查看了所有的yarn-site.xml,没有发现配置出错的地方,Spark和MR的运行都正常,感觉不是yarn的问题 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 15:37 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: 您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com < https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
hi 根据你发的描述,是Flink的job manager在非RM所在机器上启动时,由于尝试连接0.0.0.0:8030 端口去向YARN申请资源时连接不通,导致失败。你可以检查下集群内worker节点的hadoop配置,看看yarn.resourcemanager.hostname等配置是否设置正确。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 15:17写道: > 您好,我之前做了一些尝试: > 1. 测试Spark、MR任务正常 > 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 > 3. > 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` > 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export > HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export > HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 > > > 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 > | | > lishiyuan0506 > | > | > lishiyuan0...@163.com > | > > > Replied Message > | From | Biao Geng | > | Date | 07/14/2022 14:31 | > | To | | > | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | > hi, > > 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 > 有几个可以检查的地方: > 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export > HADOOP_CLASSPATH=`hadoop classpath` > 2. > > 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 > > Best, > Biao Geng > > Biao Geng 于2022年7月14日周四 11:32写道: > > hi, > 你有试过提交flink > > example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep > -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 > > Best, > Biao Geng > > lishiyuan0506 于2022年7月14日周四 11:06写道: > > 您好,环境变量里面有,而且flink的conf.sh也设置了 > > > lishiyuan0506 > lishiyuan0...@163.com > > < > https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D > > > > Replied Message > From Yang Wang > Date 07/14/2022 11:00 > To user-zh > Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 > 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 > > Best, > Yang > > lishiyuan0506 于2022年7月14日周四 09:41写道: > > 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: > 0.0.0.0/0.0.0.0:8030这个异常 > > > hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 > > > | | > lishiyuan0506 > | > | > lishiyuan0...@163.com > | > > > >
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
您好,我之前做了一些尝试: 1. 测试Spark、MR任务正常 2. 将生产环境的Flink和官网干净的Flink安装后测试example,出现同样的问题 3. 尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`DEFAULT_YARN_CONF_DIR="/opt/hadoop-3.1.4/etc/hadoop/"`,测试example出现同样的问题,说明Flink已经成功加载了`yarn-site.xml` 4.尝试在`/opt/flink-1.13.3/bin/config.sh`中配置`export HADOOP_CONF_DIR=/opt/hadoop-3.1.4/etc/hadoop`,`export HADOOP_CLASSPATH=`hadoop classpath`测试example出现同样的问题 目前无论是yarn还是flink都找不出来出现了什么问题,手足无措了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 14:31 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D> Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
hi, 你提到跑wordcount.jar时,当作业被调度到RM所在的机器上可以正常运行,调度到非RM所在的机器上就失败。flink环境干净的话,那大概率还是hadoop的环境设置有问题。 有几个可以检查的地方: 1. 运行flink run之前或者在flink的bin/config.sh里是否有正确设置hadoop环境变量,例如 export HADOOP_CLASSPATH=`hadoop classpath` 2. 集群内机器(比如非RM所在机器)的HADOOP_CONF_DIR是否设置正确,其指向的目录里的yarn-site.xml的yarn.resourcemanager.hostname等配置是否设置正确 Best, Biao Geng Biao Geng 于2022年7月14日周四 11:32写道: > hi, > 你有试过提交flink > example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep > -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 > > Best, > Biao Geng > > lishiyuan0506 于2022年7月14日周四 11:06写道: > >> 您好,环境变量里面有,而且flink的conf.sh也设置了 >> >> >> lishiyuan0506 >> lishiyuan0...@163.com >> >> <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D> >> >> Replied Message >> From Yang Wang >> Date 07/14/2022 11:00 >> To user-zh >> Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 >> 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 >> >> Best, >> Yang >> >> lishiyuan0506 于2022年7月14日周四 09:41写道: >> >> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: >> 0.0.0.0/0.0.0.0:8030这个异常 >> >> >> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 >> >> >> | | >> lishiyuan0506 >> | >> | >> lishiyuan0...@163.com >> | >> >> >>
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
您好,运行example仍然是这个问题,检查了lib没有多余的yarn配置,从官网下了一个干净的flink运行example还是出现这个问题。 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Biao Geng | | Date | 07/14/2022 11:32 | | To | | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: 您好,环境变量里面有,而且flink的conf.sh也设置了 lishiyuan0506 lishiyuan0...@163.com <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D> Replied Message From Yang Wang Date 07/14/2022 11:00 To user-zh Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
hi, 你有试过提交flink example(比如wordcount作业)吗?如果报了一样的错误的话,可以检查一下你的flink/lib目录下是否有放多余的YARN配置(比如运行grep -irn "0.0.0.0" $FLINK_HOME);如果example可以成功提交,可以看看是不是你的作业jar里打进了错误的YARN配置。 Best, Biao Geng lishiyuan0506 于2022年7月14日周四 11:06写道: > 您好,环境变量里面有,而且flink的conf.sh也设置了 > > > lishiyuan0506 > lishiyuan0...@163.com > > <https://maas.mail.163.com/dashi-web-extend/html/proSignature.html?ftlId=1=lishiyuan0506=lishiyuan0506%40163.com=https%3A%2F%2Fmail-online.nosdn.127.net%2Fqiyelogo%2FdefaultAvatar.png=%5B%22lishiyuan0506%40163.com%22%5D> > > Replied Message > From Yang Wang > Date 07/14/2022 11:00 > To user-zh > Subject Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 > 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 > > Best, > Yang > > lishiyuan0506 于2022年7月14日周四 09:41写道: > > 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: > 0.0.0.0/0.0.0.0:8030这个异常 > > > hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 > > > | | > lishiyuan0506 > | > | > lishiyuan0...@163.com > | > > >
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
您好,环境变量里面有,而且flink的conf.sh也设置了 | | lishiyuan0506 | | lishiyuan0...@163.com | Replied Message | From | Yang Wang | | Date | 07/14/2022 11:00 | | To | user-zh | | Subject | Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030 | 确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |
Re: Retrying connect to server: 0.0.0.0/0.0.0.0:8030
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量 Best, Yang lishiyuan0506 于2022年7月14日周四 09:41写道: > 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: > 0.0.0.0/0.0.0.0:8030这个异常 > > > hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 > > > | | > lishiyuan0506 > | > | > lishiyuan0...@163.com > | > >
Retrying connect to server: 0.0.0.0/0.0.0.0:8030
打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server: 0.0.0.0/0.0.0.0:8030这个异常 hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题 | | lishiyuan0506 | | lishiyuan0...@163.com |