flink Connection timed out ????????

2019-11-27 文章 Mr.??????
flink??slots??100+TM Connection
 timed 
out flink

??


flink?? 1.9.1
??standalone??tm??slot??150+checkpoint

taskmanager.heap.size: 1536m
taskmanager.memory.fraction: 0.1
env.java.opts.taskmanager: -XX:+UseG1GC -Xss512K
taskmanager.numberOfTaskSlots: 1
taskmanager.network.memory.fraction: 0.3
taskmanager.network.memory.min: 512mb
taskmanager.network.memory.max: 512mb



??
org.apache.flink.runtime.io.network.netty.exception.LocalTransportException: 
Connection timed out (connection to '/10.20.84.44:37391')
at 
org.apache.flink.runtime.io.network.netty.CreditBasedPartitionRequestClientHandler.exceptionCaught(CreditBasedPartitionRequestClientHandler.java:165)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:256)
at 
org.apache.flink.shaded.netty4.io.netty.channel.ChannelInboundHandlerAdapter.exceptionCaught(ChannelInboundHandlerAdapter.java:131)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:256)
at 
org.apache.flink.shaded.netty4.io.netty.channel.ChannelHandlerAdapter.exceptionCaught(ChannelHandlerAdapter.java:87)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.fireExceptionCaught(AbstractChannelHandlerContext.java:256)
at 
org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline$HeadContext.exceptionCaught(DefaultChannelPipeline.java:1401)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:285)
at 
org.apache.flink.shaded.netty4.io.netty.channel.AbstractChannelHandlerContext.invokeExceptionCaught(AbstractChannelHandlerContext.java:264)
at 
org.apache.flink.shaded.netty4.io.netty.channel.DefaultChannelPipeline.fireExceptionCaught(DefaultChannelPipeline.java:953)
at 
org.apache.flink.shaded.netty4.io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.handleReadException(AbstractNioByteChannel.java:125)
at 
org.apache.flink.shaded.netty4.io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:174)
at 
org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:656)
at 
org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:591)
at 
org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:508)
at 
org.apache.flink.shaded.netty4.io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:470)
at 
org.apache.flink.shaded.netty4.io.netty.util.concurrent.SingleThreadEventExecutor$5.run(SingleThreadEventExecutor.java:909)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.io.IOException: Connection timed out
at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
at sun.nio.ch.IOUtil.read(IOUtil.java:192)
at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
at 
org.apache.flink.shaded.netty4.io.netty.buffer.PooledUnsafeDirectByteBuf.setBytes(PooledUnsafeDirectByteBuf.java:288)
at 
org.apache.flink.shaded.netty4.io.netty.buffer.AbstractByteBuf.writeBytes(AbstractByteBuf.java:1132)
at 
org.apache.flink.shaded.netty4.io.netty.channel.socket.nio.NioSocketChannel.doReadBytes(NioSocketChannel.java:347)
at 
org.apache.flink.shaded.netty4.io.netty.

Re: 状态一直是in progress

2019-11-27 文章 Caizhi Weng
Hi,

邮件里的图片看不到... 可以通过附件的形式再发一次图片吗?

sun <1392427...@qq.com> 于2019年11月27日周三 下午8:18写道:

>
>
>
> 请问我的状态一直是in progress是个什么问题啊
>
>
>


????????????????????????????????70??????????????????????????????????????????????????????failed????

2019-11-27 文章 sun


Re: flink 1.9.1状态持续增大

2019-11-27 文章 宇张
我在用Flink的Blink Table Api,状态设置为:
streamTableEnv.getConfig().setIdleStateRetentionTime(Time.minutes(15),
Time.minutes(20));
,我预期过期状态自动清理,总的状态大小在一个范围内波动,但是现在过期状态并没有清理,导致状态越来越大,最终内存溢出;并且先前对于订阅单topic的流使用子查询sql,最外层使用处理时间时间窗口统计,单过期状态也不清理(这种情况不知道是不是误用导致的)

On Wed, Nov 27, 2019 at 8:18 PM Congxian Qiu  wrote:

> Hi
>
> 你使用 TTL state 吗? 你怎么使用的,预期行为是什么
>
> Best,
> Congxian
>
>
> 谷歌-akulaku  于2019年11月27日周三 下午5:54写道:
>
> > Hello,我这面用FlinkKafkaConsumer011订阅topic list,在设置过期时间后过期状态没有清理,请问有什么解决办法吗,
> > 并且使用双流union过期状态也是不清理,但是单流的和单topic的情况是可以清理的,请问这是bug吗
> >
> >
> >
> > 发送自 Windows 10 版邮件应用
> >
> >
>


Re: flink 1.9.1状态持续增大

2019-11-27 文章 Congxian Qiu
Hi

你使用 TTL state 吗? 你怎么使用的,预期行为是什么

Best,
Congxian


谷歌-akulaku  于2019年11月27日周三 下午5:54写道:

> Hello,我这面用FlinkKafkaConsumer011订阅topic list,在设置过期时间后过期状态没有清理,请问有什么解决办法吗,
> 并且使用双流union过期状态也是不清理,但是单流的和单topic的情况是可以清理的,请问这是bug吗
>
>
>
> 发送自 Windows 10 版邮件应用
>
>


Re: checkpoint文件一直在增涨

2019-11-27 文章 Congxian Qiu
Hi

你的图挂了,如果是文件数一直在增长,可以看一下 job 配置保留多少个 checkpoint(也就是 retained checkpoint
是多少),理论上过期的 checkpoint 都会被删掉的。


Best,
Congxian


sun <1392427...@qq.com> 于2019年11月27日周三 下午7:36写道:

> 你好:
>
>   我的flink配置是:
>
> ,然后我的checkpoint文件一直在增涨
>
>
>
>
> 请问怎么解决这个问题,万分感谢
>


??????????in progress

2019-11-27 文章 sun
??in progress??

checkpoint??????????????

2019-11-27 文章 sun
??


      flink

??checkpoint??







??

Re:回复: 回复: flink on yarn 的 kerberos 认证问题

2019-11-27 文章 guoshuai
我们的flink配置kerberos的,访问kerberos的组件kafka,HBase(zk也是kerberos)和开源的simple组件es,mysql这些
 读写都没什么问题.(Kerberos都是在一个集群下的,安全认证的用户具有访问hdfs,zk,kafka的权限)

你说你的zookeeper也是simple的,两个simple组件互相访问是没问题,   
但是确定simple的zk可以让flink访问配置kerberos的hbase及存储数据的hdfs?(这个我没测过)
1:确定simple模式的flink可以拿到kerberos的kafka,是的话应该可以排除掉simple模式flink跨集群访问kerberos的问题
2:有没有可能是simple模式不能访问配置kerberos集群的hdfs导致的,

在配置kerberos集群的core-site.xml开启allow simple 试试

ipc.client.fallback-to-simple-auth-allowedtrue
 








在 2019-11-27 17:08:48,"venn"  写道:
>我们好像zookeeper 没有开安全认证,从Java 代码也没有添加 jaas.conf 文件,而且
>看 日志里面有 关于 zookeeper 已经建立连接相关的日志。
>
>
>问题其实还没到这一步,我现在的问题是:“Flink on yarn 运行在不用认证的hadoop
>集群上,是否可以访问带kerberos 认证的hadoop集群的 hbase”
>
>现在是这两种现象:
>   1、直接在不认证的hadoop集群提交 读认证hbase 的任务,可以从日志看到,
>hadoop 运行在 simple 模式(默认模式,不认证模式),对应日志“Hadoop user set
>to xxx (auth: SIMPLE) ”,任务卡在读hbase 的地方,直到超时
>   2、修改提交节点的 core-site.xml/hdfs-site.xml,注入一个新的
>core-site.xml 带配置参数 " Hadoop.security.authentication  = kerberos",可以
>在日志中看到 "Hadoop user set to xxx (auth: KERBEROS)",但是任务一直处于
>“created” 状态,日志报:“server asks us to fall back to SIMPLE auth. But
>the client is configured to only allow secure connections”
>
>
>
>
>-邮件原件-
>发件人: user-zh-return-1559-wxchunjhyy=163@flink.apache.org
> 代表 guoshuai
>发送时间: Wednesday, November 27, 2019 2:26 PM
>收件人: user-zh@flink.apache.org
>主题: Re:回复: flink on yarn 的 kerberos 认证问题
>
>
>
>HBase认证需要ZooKeeper和Kerberos安全认证,跟ZooKeeper认证“jaas.conf”文件也
>加载进去了吗?
>
>LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName,
>userKeytabFile);
>LoginUtil.setZookeeperServerPrincipal(ZOOKEEPER_SERVER_PRINCIPAL_KEY,
>ZOOKEEPER_DEFAULT_SERVER_PRINCIPAL);
>LoginUtil.login(userName, userKeytabFile, krb5File, conf);
>
>
>
>
>
>
>
>
>在 2019-11-27 14:00:15,"venn"  写道:
>>我们kafka 可以正常认证、消费数据,认证hbase 和kafka 好像不一样,我们是不认
>证
>>读不到数据,认证了,任务又提交不到 yarn 上去了
>>
>>如下:
>>>看过对应位置的代码,将 “Hadoop.security.authentication =
>>kerberos” 
>>>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集
>>>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数
>>“Hadoop.security.
>>>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于
>>>created 状态,taskmanager.log 中一直报 “server asks us to fall back to
>>SIMPLE
>>>auth. But the client is configured to only allow secure connections”
>>
>>
>>
>>-邮件原件-
>>发件人: user-zh-return-1557-wxchunjhyy=163@flink.apache.org
>> 代表 guoshuai
>>发送时间: Wednesday, November 27, 2019 1:31 PM
>>收件人: user-zh@flink.apache.org
>>主题: Re:flink on yarn 的 kerberos 认证问题
>>
>>kerberos用户的krb5.conf ,user.keytab文件是否在程序运行时加载到了,我之前遇到
>>的kerberos问题是flink读kafka获取不到数据,通过yarn-session模式运行,认证阶段
>是
>>在yarn-session发布完成的. 最后问题出在kafka通信协议,可以看下hbase端的配置,
>实
>>现不行 也可以解耦hbase跟flink中间加一个kafka
>>
>>
>>
>>
>>
>>
>>
>>
>>在 2019-11-26 14:50:32,"venn"  写道:
>>>各位大佬:
>>>
>>>请教一个flink 认证的问题: Flink on yarn 运行在不用认证的
>>Hadoop
>>>集群上,怎样访问带kerberos 认证集群的 hbase ?
>>>
>>> 
>>>
>>>下面是一些我们使用的描述和发现的问题:
>>>
>>>我们有两个hadoop 集群,一个使用 Kerberos 认证模式,一个是
>>simple
>>>认证模式,Flink 1.9.0  部署在 simple 认证的集群上。
>>>
>>>最近在使用flink 读取 Kerberos 认证的集群的 hbase 上遇到了问题。配置
>>>flink-conf.yaml 中的配置参数:security.kerberos.login.keytab 、
>>>security.kerberos.login.principal 。
>>>
>>>我们计划在 map 中同步的读取 hbase 的数据,从输入数据中获取
>>>rowkey,使用get 方式获取hbase 数据,程序启动后,呈现 “卡” 在map 算子上,
>>直
>>>到hbase get 超时,无法读取任何数据。在 taskmanager.log 中有发现有这样的日
>>>志: 
>>>
>>>
>>>org.apache.flink.yarn.YarnTaskExecutorRunner   - OS current user: yarn
>>>
>>>org.apache.flink.yarn.YarnTaskExecutorRunner   - current Hadoop/Kerberos
>>>user: admin (注:登陆用户)
>>>
>>> 
>>>
>>>org.apache.flink.yarn.YarnTaskExecutorRunner   - YARN daemon is running
>as:
>>>admin Yarn client user obtainer: admin
>>>
>>>org.apache.flink.runtime.security.modules.HadoopModule  - Hadoop user 
>>>set to admin (auth:SIMPLE)
>>>
>>> 
>>>
>>>看过对应位置的代码,将 “Hadoop.security.authentication =
>>kerberos” 
>>>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集
>>>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数
>>“Hadoop.security.
>>>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于
>>>created 状态,taskmanager.log 中一直报 “server asks us to fall back to
>>SIMPLE
>>>auth. But the client is configured to only allow secure connections”
>>>
>>> 
>>>
>>> 
>>>
>>>看到官网文档有这样的描述:
>>>https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/securi
>>>t
>>>y-ker
>>>beros.html
>>>
>>>
>>>Hadoop Security Module
>>>
>>>This module uses the Hadoop UserGroupInformation (UGI) class to 
>>>establish a process-wide login user context. The login user is then 
>>>used for all interactions with Hadoop, including HDFS, HBase, and YARN.
>>>
>>>If Hadoop security is enabled (in core-site.xml), the login user will 
>>>have whatever Kerberos credential is configured. Otherwise, the login 
>>>user conveys only the user identity of the OS account that launched 
>>>the
>>cluster.
>>>
>>> 
>>>
>>> 
>>>
>>> 
>>>


flink 1.9.1状态持续增大

2019-11-27 文章 谷歌-akulaku
Hello,我这面用FlinkKafkaConsumer011订阅topic list,在设置过期时间后过期状态没有清理,请问有什么解决办法吗,
并且使用双流union过期状态也是不清理,但是单流的和单topic的情况是可以清理的,请问这是bug吗



发送自 Windows 10 版邮件应用



回复: 回复: flink on yarn 的 kerberos 认证问题

2019-11-27 文章 venn
我们好像zookeeper 没有开安全认证,从Java 代码也没有添加 jaas.conf 文件,而且
看 日志里面有 关于 zookeeper 已经建立连接相关的日志。


问题其实还没到这一步,我现在的问题是:“Flink on yarn 运行在不用认证的hadoop
集群上,是否可以访问带kerberos 认证的hadoop集群的 hbase”

现在是这两种现象:
1、直接在不认证的hadoop集群提交 读认证hbase 的任务,可以从日志看到,
hadoop 运行在 simple 模式(默认模式,不认证模式),对应日志“Hadoop user set
to xxx (auth: SIMPLE) ”,任务卡在读hbase 的地方,直到超时
2、修改提交节点的 core-site.xml/hdfs-site.xml,注入一个新的
core-site.xml 带配置参数 " Hadoop.security.authentication  = kerberos",可以
在日志中看到 "Hadoop user set to xxx (auth: KERBEROS)",但是任务一直处于
“created” 状态,日志报:“server asks us to fall back to SIMPLE auth. But
the client is configured to only allow secure connections”




-邮件原件-
发件人: user-zh-return-1559-wxchunjhyy=163@flink.apache.org
 代表 guoshuai
发送时间: Wednesday, November 27, 2019 2:26 PM
收件人: user-zh@flink.apache.org
主题: Re:回复: flink on yarn 的 kerberos 认证问题



HBase认证需要ZooKeeper和Kerberos安全认证,跟ZooKeeper认证“jaas.conf”文件也
加载进去了吗?

LoginUtil.setJaasConf(ZOOKEEPER_DEFAULT_LOGIN_CONTEXT_NAME, userName,
userKeytabFile);
LoginUtil.setZookeeperServerPrincipal(ZOOKEEPER_SERVER_PRINCIPAL_KEY,
ZOOKEEPER_DEFAULT_SERVER_PRINCIPAL);
LoginUtil.login(userName, userKeytabFile, krb5File, conf);








在 2019-11-27 14:00:15,"venn"  写道:
>我们kafka 可以正常认证、消费数据,认证hbase 和kafka 好像不一样,我们是不认
证
>读不到数据,认证了,任务又提交不到 yarn 上去了
>
>如下:
>>看过对应位置的代码,将 “Hadoop.security.authentication =
>kerberos” 
>>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集
>>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数
>“Hadoop.security.
>>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于
>>created 状态,taskmanager.log 中一直报 “server asks us to fall back to
>SIMPLE
>>auth. But the client is configured to only allow secure connections”
>
>
>
>-邮件原件-
>发件人: user-zh-return-1557-wxchunjhyy=163@flink.apache.org
> 代表 guoshuai
>发送时间: Wednesday, November 27, 2019 1:31 PM
>收件人: user-zh@flink.apache.org
>主题: Re:flink on yarn 的 kerberos 认证问题
>
>kerberos用户的krb5.conf ,user.keytab文件是否在程序运行时加载到了,我之前遇到
>的kerberos问题是flink读kafka获取不到数据,通过yarn-session模式运行,认证阶段
是
>在yarn-session发布完成的. 最后问题出在kafka通信协议,可以看下hbase端的配置,
实
>现不行 也可以解耦hbase跟flink中间加一个kafka
>
>
>
>
>
>
>
>
>在 2019-11-26 14:50:32,"venn"  写道:
>>各位大佬:
>>
>>请教一个flink 认证的问题: Flink on yarn 运行在不用认证的
>Hadoop
>>集群上,怎样访问带kerberos 认证集群的 hbase ?
>>
>> 
>>
>>下面是一些我们使用的描述和发现的问题:
>>
>>我们有两个hadoop 集群,一个使用 Kerberos 认证模式,一个是
>simple
>>认证模式,Flink 1.9.0  部署在 simple 认证的集群上。
>>
>>最近在使用flink 读取 Kerberos 认证的集群的 hbase 上遇到了问题。配置
>>flink-conf.yaml 中的配置参数:security.kerberos.login.keytab 、
>>security.kerberos.login.principal 。
>>
>>我们计划在 map 中同步的读取 hbase 的数据,从输入数据中获取
>>rowkey,使用get 方式获取hbase 数据,程序启动后,呈现 “卡” 在map 算子上,
>直
>>到hbase get 超时,无法读取任何数据。在 taskmanager.log 中有发现有这样的日
>>志: 
>>
>>
>>org.apache.flink.yarn.YarnTaskExecutorRunner   - OS current user: yarn
>>
>>org.apache.flink.yarn.YarnTaskExecutorRunner   - current Hadoop/Kerberos
>>user: admin (注:登陆用户)
>>
>> 
>>
>>org.apache.flink.yarn.YarnTaskExecutorRunner   - YARN daemon is running
as:
>>admin Yarn client user obtainer: admin
>>
>>org.apache.flink.runtime.security.modules.HadoopModule  - Hadoop user 
>>set to admin (auth:SIMPLE)
>>
>> 
>>
>>看过对应位置的代码,将 “Hadoop.security.authentication =
>kerberos” 
>>参数添加到 Hadoop 的 配置文件中(注: 使用 simple 认证的 hadoop集
>>群使用 amberi 部署 的 hdp 集群,不开启 Kerberos 认证 参数
>“Hadoop.security.
>>authentication” 的值为 simple ),使程序认证通过,但是 flink job 一直处于
>>created 状态,taskmanager.log 中一直报 “server asks us to fall back to
>SIMPLE
>>auth. But the client is configured to only allow secure connections”
>>
>> 
>>
>> 
>>
>>看到官网文档有这样的描述:
>>https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/securi
>>t
>>y-ker
>>beros.html
>>
>>
>>Hadoop Security Module
>>
>>This module uses the Hadoop UserGroupInformation (UGI) class to 
>>establish a process-wide login user context. The login user is then 
>>used for all interactions with Hadoop, including HDFS, HBase, and YARN.
>>
>>If Hadoop security is enabled (in core-site.xml), the login user will 
>>have whatever Kerberos credential is configured. Otherwise, the login 
>>user conveys only the user identity of the OS account that launched 
>>the
>cluster.
>>
>> 
>>
>> 
>>
>> 
>>