flink Connection timed out ????????
flink??slots??100+TM Connection timed out flink ?? flink?? 1.9.1 ??standalone??tm??slot??150+checkpoint taskmanager.heap.size: 1536m taskmanager.memory.fraction: 0.1 env.java.opts.taskmanager: -XX:+UseG1GC -Xss512K taskmanager.numberOfTaskSlots: 1 taskmanager.network.memory.fraction: 0.3 taskmanager.network.memory.min: 512mb taskmanager.network.memory.max: 512mb ?? org.apache.flink.runtime.io.network.netty.exception.LocalTransportException: Connection timed out (connection to '/10.20.84.44:37391') at org.apache.flink.runtime.io.network.netty.CreditBasedPartitionRequestClientHandler.exceptionCaught(CreditBasedPartitionRequestClientHandler.java:165) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:256) at org.apache.flink.shaded.netty4.io.netty.channel.ChannelInboundHandlerAdapter.exceptionCaught(ChannelInboundHandlerAdapter.java:131) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:256) at org.apache.flink.shaded.netty4.io.netty.channel.ChannelHandlerAdapter.exceptionCaught(ChannelHandlerAdapter.java:87) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:256) at org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline$HeadContext.exceptionCaught(DefaultChannelPipeline.java:1401) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285) at org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264) at org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline.fireExceptionCaught(DefaultChannelPipeline.java:953) at org.apache.flink.shaded.netty4.io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.handleReadException(AbstractNioByteChannel.java:125) at org.apache.flink.shaded.netty4.io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:174) at org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:656) at org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:591) at org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:508) at org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:470) at org.apache.flink.shaded.netty4.io.netty.util.concurrent.SingleThreadEventExecutor$5.run(SingleThreadEventExecutor.java:909) at java.lang.Thread.run(Thread.java:748) Caused by: java.io.IOException: Connection timed out at sun.nio.ch.FileDispatcherImpl.read0(Native Method) at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39) at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223) at sun.nio.ch.IOUtil.read(IOUtil.java:192) at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380) at org.apache.flink.shaded.netty4.io.netty.buffer.PooledUnsafeDirectByteBuf.setBytes(PooledUnsafeDirectByteBuf.java:288) at org.apache.flink.shaded.netty4.io.netty.buffer.AbstractByteBuf.writeBytes(AbstractByteBuf.java:1132) at org.apache.flink.shaded.netty4.io.netty.channel.socket.nio.NioSocketChannel.doReadBytes(NioSocketChannel.java:347) at org.apache.flink.shaded.netty4.io.netty.
Re: 状态一直是in progress
Hi, 邮件里的图片看不到... 可以通过附件的形式再发一次图片吗? sun <1392427...@qq.com> 于2019年11月27日周三 下午8:18写道: > > > > 请问我的状态一直是in progress是个什么问题啊 > > >
????????????????????????????????70??????????????????????????????????????????????????????failed????
Re: flink 1.9.1状态持续增大
我在用Flink的Blink Table Api,状态设置为: streamTableEnv.getConfig().setIdleStateRetentionTime(Time.minutes(15), Time.minutes(20)); ,我预期过期状态自动清理,总的状态大小在一个范围内波动,但是现在过期状态并没有清理,导致状态越来越大,最终内存溢出;并且先前对于订阅单topic的流使用子查询sql,最外层使用处理时间时间窗口统计,单过期状态也不清理(这种情况不知道是不是误用导致的) On Wed, Nov 27, 2019 at 8:18 PM Congxian Qiu wrote: > Hi > > 你使用 TTL state 吗? 你怎么使用的,预期行为是什么 > > Best, > Congxian > > > 谷歌-akulaku 于2019年11月27日周三 下午5:54写道: > > > Hello,我这面用FlinkKafkaConsumer011订阅topic list,在设置过期时间后过期状态没有清理,请问有什么解决办法吗, > > 并且使用双流union过期状态也是不清理,但是单流的和单topic的情况是可以清理的,请问这是bug吗 > > > > > > > > 发送自 Windows 10 版邮件应用 > > > > >
Re: flink 1.9.1状态持续增大
Hi 你使用 TTL state 吗? 你怎么使用的,预期行为是什么 Best, Congxian 谷歌-akulaku 于2019年11月27日周三 下午5:54写道: > Hello,我这面用FlinkKafkaConsumer011订阅topic list,在设置过期时间后过期状态没有清理,请问有什么解决办法吗, > 并且使用双流union过期状态也是不清理,但是单流的和单topic的情况是可以清理的,请问这是bug吗 > > > > 发送自 Windows 10 版邮件应用 > >
Re: checkpoint文件一直在增涨
Hi 你的图挂了,如果是文件数一直在增长,可以看一下 job 配置保留多少个 checkpoint(也就是 retained checkpoint 是多少),理论上过期的 checkpoint 都会被删掉的。 Best, Congxian sun <1392427...@qq.com> 于2019年11月27日周三 下午7:36写道: > 你好: > > 我的flink配置是: > > ,然后我的checkpoint文件一直在增涨 > > > > > 请问怎么解决这个问题,万分感谢 >
??????????in progress
??in progress??
checkpoint??????????????
?? flink ??checkpoint?? ??
Re:回复: 回复: flink on yarn 的 kerberos 认证问题
我们的flink配置kerberos的,访问kerberos的组件kafka,HBase(zk也是kerberos)和开源的simple组件es,mysql这些 读写都没什么问题.(Kerberos都是在一个集群下的,安全认证的用户具有访问hdfs,zk,kafka的权限) 你说你的zookeeper也是simple的,两个simple组件互相访问是没问题, 但是确定simple的zk可以让flink访问配置kerberos的hbase及存储数据的hdfs?(这个我没测过) 1:确定simple模式的flink可以拿到kerberos的kafka,是的话应该可以排除掉simple模式flink跨集群访问kerberos的问题 2:有没有可能是simple模式不能访问配置kerberos集群的hdfs导致的, 在配置kerberos集群的core-site.xml开启allow simple 试试 ipc.client.fallback-to-simple-auth-allowedtrue 在 2019-11-27 17:08:48,"venn" 写道: >我们好像zookeeper 没有开安全认证,从Java 代码也没有添加 jaas.conf 文件,而且 >看 日志里面有 关于 zookeeper 已经建立连接相关的日志。 > > >问题其实还没到这一步,我现在的问题是:“Flink on yarn 运行在不用认证的hadoop >集群上,是否可以访问带kerberos 认证的hadoop集群的 hbase” > >现在是这两种现象: > 1、直接在不认证的hadoop集群提交 读认证hbase 的任务,可以从日志看到, >hadoop 运行在 simple 模式(默认模式,不认证模式),对应日志“Hadoop user set >to xxx (auth: SIMPLE) ”,任务卡在读hbase 的地方,直到超时 > 2、修改提交节点的 core-site.xml/hdfs-site.xml,注入一个新的 >core-site.xml 带配置参数 " Hadoop.security.authentication = kerberos",可以 >在日志中看到 "Hadoop user set to xxx (auth: KERBEROS)",但是任务一直处于 >“created” 状态,日志报:“server asks us to fall back to SIMPLE auth. But >the client is configured to only allow secure connections” > > > > >-邮件原件- >发件人: user-zh-return-1559-wxchunjhyy=163@flink.apache.org > 代表 guoshuai >发送时间: Wednesday, November 27, 2019 2:26 PM >收件人: user-zh@flink.apache.org >主题: Re:回复: flink on yarn 的 kerberos 认证问题 > > > >HBase认证需要ZooKeeper和Kerberos安全认证,跟ZooKeeper认证“jaas.conf”文件也 >加载进去了吗? > >LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName, >userKeytabFile); >LoginUtil.setZookeeperServerPrincipal(ZOOKEEPER_SERVER_PRINCIPAL_KEY, >ZOOKEEPER_DEFAULT_SERVER_PRINCIPAL); >LoginUtil.login(userName, userKeytabFile, krb5File, conf); > > > > > > > > >在 2019-11-27 14:00:15,"venn" 写道: >>我们kafka 可以正常认证、消费数据,认证hbase 和kafka 好像不一样,我们是不认 >证 >>读不到数据,认证了,任务又提交不到 yarn 上去了 >> >>如下: >>>看过对应位置的代码,将 “Hadoop.security.authentication = >>kerberos” >>>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集 >>>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数 >>“Hadoop.security. >>>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于 >>>created 状态,taskmanager.log 中一直报 “server asks us to fall back to >>SIMPLE >>>auth. But the client is configured to only allow secure connections” >> >> >> >>-邮件原件- >>发件人: user-zh-return-1557-wxchunjhyy=163@flink.apache.org >> 代表 guoshuai >>发送时间: Wednesday, November 27, 2019 1:31 PM >>收件人: user-zh@flink.apache.org >>主题: Re:flink on yarn 的 kerberos 认证问题 >> >>kerberos用户的krb5.conf ,user.keytab文件是否在程序运行时加载到了,我之前遇到 >>的kerberos问题是flink读kafka获取不到数据,通过yarn-session模式运行,认证阶段 >是 >>在yarn-session发布完成的. 最后问题出在kafka通信协议,可以看下hbase端的配置, >实 >>现不行 也可以解耦hbase跟flink中间加一个kafka >> >> >> >> >> >> >> >> >>在 2019-11-26 14:50:32,"venn" 写道: >>>各位大佬: >>> >>>请教一个flink 认证的问题: Flink on yarn 运行在不用认证的 >>Hadoop >>>集群上,怎样访问带kerberos 认证集群的 hbase ? >>> >>> >>> >>>下面是一些我们使用的描述和发现的问题: >>> >>>我们有两个hadoop 集群,一个使用 Kerberos 认证模式,一个是 >>simple >>>认证模式,Flink 1.9.0 部署在 simple 认证的集群上。 >>> >>>最近在使用flink 读取 Kerberos 认证的集群的 hbase 上遇到了问题。配置 >>>flink-conf.yaml 中的配置参数:security.kerberos.login.keytab 、 >>>security.kerberos.login.principal 。 >>> >>>我们计划在 map 中同步的读取 hbase 的数据,从输入数据中获取 >>>rowkey,使用get 方式获取hbase 数据,程序启动后,呈现 “卡” 在map 算子上, >>直 >>>到hbase get 超时,无法读取任何数据。在 taskmanager.log 中有发现有这样的日 >>>志: >>> >>> >>>org.apache.flink.yarn.YarnTaskExecutorRunner - OS current user: yarn >>> >>>org.apache.flink.yarn.YarnTaskExecutorRunner - current Hadoop/Kerberos >>>user: admin (注:登陆用户) >>> >>> >>> >>>org.apache.flink.yarn.YarnTaskExecutorRunner - YARN daemon is running >as: >>>admin Yarn client user obtainer: admin >>> >>>org.apache.flink.runtime.security.modules.HadoopModule - Hadoop user >>>set to admin (auth:SIMPLE) >>> >>> >>> >>>看过对应位置的代码,将 “Hadoop.security.authentication = >>kerberos” >>>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集 >>>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数 >>“Hadoop.security. >>>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于 >>>created 状态,taskmanager.log 中一直报 “server asks us to fall back to >>SIMPLE >>>auth. But the client is configured to only allow secure connections” >>> >>> >>> >>> >>> >>>看到官网文档有这样的描述: >>>https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/securi >>>t >>>y-ker >>>beros.html >>> >>> >>>Hadoop Security Module >>> >>>This module uses the Hadoop UserGroupInformation (UGI) class to >>>establish a process-wide login user context. The login user is then >>>used for all interactions with Hadoop, including HDFS, HBase, and YARN. >>> >>>If Hadoop security is enabled (in core-site.xml), the login user will >>>have whatever Kerberos credential is configured. Otherwise, the login >>>user conveys only the user identity of the OS account that launched >>>the >>cluster. >>> >>> >>> >>> >>> >>> >>>
flink 1.9.1状态持续增大
Hello,我这面用FlinkKafkaConsumer011订阅topic list,在设置过期时间后过期状态没有清理,请问有什么解决办法吗, 并且使用双流union过期状态也是不清理,但是单流的和单topic的情况是可以清理的,请问这是bug吗 发送自 Windows 10 版邮件应用
回复: 回复: flink on yarn 的 kerberos 认证问题
我们好像zookeeper 没有开安全认证,从Java 代码也没有添加 jaas.conf 文件,而且 看 日志里面有 关于 zookeeper 已经建立连接相关的日志。 问题其实还没到这一步,我现在的问题是:“Flink on yarn 运行在不用认证的hadoop 集群上,是否可以访问带kerberos 认证的hadoop集群的 hbase” 现在是这两种现象: 1、直接在不认证的hadoop集群提交 读认证hbase 的任务,可以从日志看到, hadoop 运行在 simple 模式(默认模式,不认证模式),对应日志“Hadoop user set to xxx (auth: SIMPLE) ”,任务卡在读hbase 的地方,直到超时 2、修改提交节点的 core-site.xml/hdfs-site.xml,注入一个新的 core-site.xml 带配置参数 " Hadoop.security.authentication = kerberos",可以 在日志中看到 "Hadoop user set to xxx (auth: KERBEROS)",但是任务一直处于 “created” 状态,日志报:“server asks us to fall back to SIMPLE auth. But the client is configured to only allow secure connections” -邮件原件- 发件人: user-zh-return-1559-wxchunjhyy=163@flink.apache.org 代表 guoshuai 发送时间: Wednesday, November 27, 2019 2:26 PM 收件人: user-zh@flink.apache.org 主题: Re:回复: flink on yarn 的 kerberos 认证问题 HBase认证需要ZooKeeper和Kerberos安全认证,跟ZooKeeper认证“jaas.conf”文件也 加载进去了吗? LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName, userKeytabFile); LoginUtil.setZookeeperServerPrincipal(ZOOKEEPER_SERVER_PRINCIPAL_KEY, ZOOKEEPER_DEFAULT_SERVER_PRINCIPAL); LoginUtil.login(userName, userKeytabFile, krb5File, conf); 在 2019-11-27 14:00:15,"venn" 写道: >我们kafka 可以正常认证、消费数据,认证hbase 和kafka 好像不一样,我们是不认 证 >读不到数据,认证了,任务又提交不到 yarn 上去了 > >如下: >>看过对应位置的代码,将 “Hadoop.security.authentication = >kerberos” >>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集 >>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数 >“Hadoop.security. >>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于 >>created 状态,taskmanager.log 中一直报 “server asks us to fall back to >SIMPLE >>auth. But the client is configured to only allow secure connections” > > > >-邮件原件- >发件人: user-zh-return-1557-wxchunjhyy=163@flink.apache.org > 代表 guoshuai >发送时间: Wednesday, November 27, 2019 1:31 PM >收件人: user-zh@flink.apache.org >主题: Re:flink on yarn 的 kerberos 认证问题 > >kerberos用户的krb5.conf ,user.keytab文件是否在程序运行时加载到了,我之前遇到 >的kerberos问题是flink读kafka获取不到数据,通过yarn-session模式运行,认证阶段 是 >在yarn-session发布完成的. 最后问题出在kafka通信协议,可以看下hbase端的配置, 实 >现不行 也可以解耦hbase跟flink中间加一个kafka > > > > > > > > >在 2019-11-26 14:50:32,"venn" 写道: >>各位大佬: >> >>请教一个flink 认证的问题: Flink on yarn 运行在不用认证的 >Hadoop >>集群上,怎样访问带kerberos 认证集群的 hbase ? >> >> >> >>下面是一些我们使用的描述和发现的问题: >> >>我们有两个hadoop 集群,一个使用 Kerberos 认证模式,一个是 >simple >>认证模式,Flink 1.9.0 部署在 simple 认证的集群上。 >> >>最近在使用flink 读取 Kerberos 认证的集群的 hbase 上遇到了问题。配置 >>flink-conf.yaml 中的配置参数:security.kerberos.login.keytab 、 >>security.kerberos.login.principal 。 >> >>我们计划在 map 中同步的读取 hbase 的数据,从输入数据中获取 >>rowkey,使用get 方式获取hbase 数据,程序启动后,呈现 “卡” 在map 算子上, >直 >>到hbase get 超时,无法读取任何数据。在 taskmanager.log 中有发现有这样的日 >>志: >> >> >>org.apache.flink.yarn.YarnTaskExecutorRunner - OS current user: yarn >> >>org.apache.flink.yarn.YarnTaskExecutorRunner - current Hadoop/Kerberos >>user: admin (注:登陆用户) >> >> >> >>org.apache.flink.yarn.YarnTaskExecutorRunner - YARN daemon is running as: >>admin Yarn client user obtainer: admin >> >>org.apache.flink.runtime.security.modules.HadoopModule - Hadoop user >>set to admin (auth:SIMPLE) >> >> >> >>看过对应位置的代码,将 “Hadoop.security.authentication = >kerberos” >>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集 >>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数 >“Hadoop.security. >>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于 >>created 状态,taskmanager.log 中一直报 “server asks us to fall back to >SIMPLE >>auth. But the client is configured to only allow secure connections” >> >> >> >> >> >>看到官网文档有这样的描述: >>https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/securi >>t >>y-ker >>beros.html >> >> >>Hadoop Security Module >> >>This module uses the Hadoop UserGroupInformation (UGI) class to >>establish a process-wide login user context. The login user is then >>used for all interactions with Hadoop, including HDFS, HBase, and YARN. >> >>If Hadoop security is enabled (in core-site.xml), the login user will >>have whatever Kerberos credential is configured. Otherwise, the login >>user conveys only the user identity of the OS account that launched >>the >cluster. >> >> >> >> >> >> >>