Re: 频繁发生 'ResourceManager leader changed to new address null' 异常导致任务重启

2021-03-08 文章 yidan zhao
而且大家推荐怎么设置呢,我可能默认就G1了。不清楚G1是否也需要精调。
我目前设置的内存还是比较大的。(50G的,100G的TaskManager都有),这么大heap,是否需要特别设置啥呢?

或者是否有必要拆小,比如设置10Gheap,然后把taskmanager数量提上去。

yidan zhao  于2021年3月9日周二 下午2:56写道:

> 好的,我会看下。
> 然后我今天发现我好多个集群GC collector不一样。
> 目前发现3种,默认的是G1。flink conf中配置了env.java.opts:
> "-XX:-OmitStackTraceInFastThrow"的情况出现了2种,一种是Parallel GC with 83
> threads,还有一种是Mark Sweep Compact GC。
> 大佬们,Flink是根据内存大小有什么动态调整吗。
>
>
> 不使用G1我大概理解了,可能设置了java.opts这个是覆盖,不是追加。本身我只是希望设置下-XX:-OmitStackTraceInFastThrow而已。
>
>
> 杨杰 <471419...@qq.com> 于2021年3月8日周一 下午3:09写道:
>
>> Hi,
>>
>>   可以排查下 GC 情况,频繁 FGC 也会导致这些情况。
>>
>> Best,
>> jjiey
>>
>> > 2021年3月8日 14:37,yidan zhao  写道:
>> >
>> >
>> 如题,我有个任务频繁发生该异常然后重启。今天任务启动1h后,看了下WEB-UI的检查点也没,restored达到了8已经。然后Exception页面显示该错误,估计大多数都是因为该错误导致的restore。
>> > 除此外,就是 ‘Job leader for job id eb5d2893c4c6f4034995b9c8e180f01e lost
>> > leadership’ 错导致任务重启。
>> >
>> > 下面给出刚刚的一个错误日志(环境flink1.12,standalone集群,5JM+5TM,JM和TM混部在相同机器):
>> > 2021-03-08 14:31:40
>> > org.apache.flink.runtime.io
>> .network.netty.exception.RemoteTransportException:
>> > Error at remote task manager '10.35.185.38/10.35.185.38:2016'.
>> >at org.apache.flink.runtime.io.network.netty.
>> > CreditBasedPartitionRequestClientHandler.decodeMsg(
>> > CreditBasedPartitionRequestClientHandler.java:294)
>> >at org.apache.flink.runtime.io.network.netty.
>> > CreditBasedPartitionRequestClientHandler.channelRead(
>> > CreditBasedPartitionRequestClientHandler.java:183)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:379)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:365)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> >
>> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
>> > .java:357)
>> >at org.apache.flink.runtime.io.network.netty.
>> > NettyMessageClientDecoderDelegate.channelRead(
>> > NettyMessageClientDecoderDelegate.java:115)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:379)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:365)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> >
>> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
>> > .java:357)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> >
>> DefaultChannelPipeline$HeadContext.channelRead(DefaultChannelPipeline.java:
>> > 1410)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:379)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:365)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:919)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.epoll.
>> > AbstractEpollStreamChannel$EpollStreamUnsafe.epollInReady(
>> > AbstractEpollStreamChannel.java:792)
>> >at
>> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
>> > .processReady(EpollEventLoop.java:475)
>> >at
>> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
>> > .run(EpollEventLoop.java:378)
>> >at org.apache.flink.shaded.netty4.io.netty.util.concurrent.
>> > SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:989)
>> >at org.apache.flink.shaded.netty4.io.netty.util.internal.
>> > ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
>> >at java.lang.Thread.run(Thread.java:748)
>> > Caused by: org.apache.flink.runtime.io.network.partition.
>> > ProducerFailedException: org.apache.flink.util.FlinkException:
>> JobManager
>> > responsible for eb5d2893c4c6f4034995b9c8e180f01e lost the leadership.
>> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
>> > .writeAndFlushNextMessageIfPossible(PartitionRequestQueue.java:221)
>> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
>> > .enqueueAvailableReader(PartitionRequestQueue.java:108)
>> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
>> > .userEventTriggered(PartitionRequestQueue.java:170)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeUserEventTriggered(
>> > AbstractChannelHandlerContext.java:346)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeUserEventTriggered(
>> > AbstractChannelHandlerContext.java:332)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.fireUserEventTriggered(
>> > 

Re: 频繁发生 'ResourceManager leader changed to new address null' 异常导致任务重启

2021-03-08 文章 yidan zhao
好的,我会看下。
然后我今天发现我好多个集群GC collector不一样。
目前发现3种,默认的是G1。flink conf中配置了env.java.opts:
"-XX:-OmitStackTraceInFastThrow"的情况出现了2种,一种是Parallel GC with 83
threads,还有一种是Mark Sweep Compact GC。
大佬们,Flink是根据内存大小有什么动态调整吗。

不使用G1我大概理解了,可能设置了java.opts这个是覆盖,不是追加。本身我只是希望设置下-XX:-OmitStackTraceInFastThrow而已。


杨杰 <471419...@qq.com> 于2021年3月8日周一 下午3:09写道:

> Hi,
>
>   可以排查下 GC 情况,频繁 FGC 也会导致这些情况。
>
> Best,
> jjiey
>
> > 2021年3月8日 14:37,yidan zhao  写道:
> >
> >
> 如题,我有个任务频繁发生该异常然后重启。今天任务启动1h后,看了下WEB-UI的检查点也没,restored达到了8已经。然后Exception页面显示该错误,估计大多数都是因为该错误导致的restore。
> > 除此外,就是 ‘Job leader for job id eb5d2893c4c6f4034995b9c8e180f01e lost
> > leadership’ 错导致任务重启。
> >
> > 下面给出刚刚的一个错误日志(环境flink1.12,standalone集群,5JM+5TM,JM和TM混部在相同机器):
> > 2021-03-08 14:31:40
> > org.apache.flink.runtime.io
> .network.netty.exception.RemoteTransportException:
> > Error at remote task manager '10.35.185.38/10.35.185.38:2016'.
> >at org.apache.flink.runtime.io.network.netty.
> > CreditBasedPartitionRequestClientHandler.decodeMsg(
> > CreditBasedPartitionRequestClientHandler.java:294)
> >at org.apache.flink.runtime.io.network.netty.
> > CreditBasedPartitionRequestClientHandler.channelRead(
> > CreditBasedPartitionRequestClientHandler.java:183)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:379)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:365)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
> > .java:357)
> >at org.apache.flink.runtime.io.network.netty.
> > NettyMessageClientDecoderDelegate.channelRead(
> > NettyMessageClientDecoderDelegate.java:115)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:379)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:365)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
> > .java:357)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> DefaultChannelPipeline$HeadContext.channelRead(DefaultChannelPipeline.java:
> > 1410)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:379)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:365)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:919)
> >at org.apache.flink.shaded.netty4.io.netty.channel.epoll.
> > AbstractEpollStreamChannel$EpollStreamUnsafe.epollInReady(
> > AbstractEpollStreamChannel.java:792)
> >at
> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
> > .processReady(EpollEventLoop.java:475)
> >at
> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
> > .run(EpollEventLoop.java:378)
> >at org.apache.flink.shaded.netty4.io.netty.util.concurrent.
> > SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:989)
> >at org.apache.flink.shaded.netty4.io.netty.util.internal.
> > ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
> >at java.lang.Thread.run(Thread.java:748)
> > Caused by: org.apache.flink.runtime.io.network.partition.
> > ProducerFailedException: org.apache.flink.util.FlinkException: JobManager
> > responsible for eb5d2893c4c6f4034995b9c8e180f01e lost the leadership.
> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
> > .writeAndFlushNextMessageIfPossible(PartitionRequestQueue.java:221)
> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
> > .enqueueAvailableReader(PartitionRequestQueue.java:108)
> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
> > .userEventTriggered(PartitionRequestQueue.java:170)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeUserEventTriggered(
> > AbstractChannelHandlerContext.java:346)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeUserEventTriggered(
> > AbstractChannelHandlerContext.java:332)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.fireUserEventTriggered(
> > AbstractChannelHandlerContext.java:324)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> ChannelInboundHandlerAdapter.userEventTriggered(ChannelInboundHandlerAdapter
> > .java:117)
> >at org.apache.flink.shaded.netty4.io.netty.handler.codec.
> > 

Re: flink Application Native k8s使用oss作为backend日志偶尔报错

2021-03-08 文章 seuzxc
请问您这个问题解决了吗,我的也有这个错误信息



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink RocksDBStateBackend 可以设置阿里云 OSS 存储吗?

2021-03-08 文章 seuzxc
我用oss设置,状态信息能写入,但是oss日志总是提示如下的信息,有遇到过吗?

2021-03-08 20:18:58.512  [INFO][cluster-io-thread-2]:
o.a.f.f.o.s.c.a.o.c.u.LogUtils 66 logException - [Server]Unable to execute
HTTP request: Not Found
[ErrorCode]: NoSuchKey
[RequestId]: 604616328586350B9C61
[HostId]: null




--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: rowtime 的类型序列化问题

2021-03-08 文章 JudeZhu
我也遇到了同样的问题,请问最后是怎么解决的?



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: rowtime 的类型序列化问题

2021-03-08 文章 JudeZhu
我跟你使用的方法一样,也是加工数据源创建临时view然后传递到sink,其中用到了rowtime,遇到和你同样的错,请问是怎么解决的最后



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

2021-03-08 文章 Smile
对,离线和实时的计算语义本来就是不一样的,所以这个地方也没有特别完美的解决方案,一般都是 case by case 看一下。
有一些显而易见的问题比如 Join 是否关联成功这种还是比较容易查,其他的确实不太好判断。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink 与 hive版本选择

2021-03-08 文章 张锴
请教一下各位大佬,flink哪个版本与hive3.x以上的版本兼容性更好呢,目前在flink版本上做选择,后续暂不会升级,希望大佬们给点建议。


Re: Flink Job 如何集成到自己的系统,方便管理

2021-03-08 文章 Jacob
谢谢大佬答疑。
我先尝试使用 YarnClusterDescriptor 这些类提交Job。看看后续使用情况 是否合适



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Flink Job 如何集成到自己的系统,方便管理

2021-03-08 文章 tison
>意思是可以通过相关API,去读一个jar包并提交Job吗?要提交到的集群也是通过配置参数传入代码里,是大
概这样的一个过程吗?有相关的文档或者demo吗?我在网上一直找不到相关内容。

是的,目前公开的 API 是命令行,内部是 ClusterDescriptor、CliFrontend
等一系列类在驱动。定制的时候通常直接根据内部类来编程,但是它们不是公开接口,可能随时会改变。目前没有更好的办法。

>如果和自己系统集成的话,是把这些页面以超链接的形式集成到系统里面吗,在系统dashboard中点某个按钮,跳转到flink webui的某一个模块里?

这个集成有很多种办法了,包括你页面嵌套页面,或者页面跳转页面,或者直接二开 Flink Web 模块,或者在完全自主开发的页面里调用 REST
API,等等。

Best,
tison.


Jacob <17691150...@163.com> 于2021年3月9日周二 上午9:42写道:

> 谢谢提供思路,刚通过接口编程这个思路找到了一些文章和demo。
>
>
>
> -
> Thanks!
> Jacob
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>


Re: Flink Job 如何集成到自己的系统,方便管理

2021-03-08 文章 Jacob
谢谢提供思路,刚通过接口编程这个思路找到了一些文章和demo。



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/


回复:【flink sql-client 读写 Kerberos认证的hive】

2021-03-08 文章 guoyb
好的,谢谢!



---原始邮件---
发件人: "Rui Li"https://issues.apache.org/jira/browse/FLINK-20913
有关了,这个issue是1.12.2修复的,可以升级一下试试。

On Mon, Mar 8, 2021 at 2:15 PM guoyb <861277...@qq.com wrote:

 您好!
 hive.metastore.sasl.enabled 是true


 启动sql client的时候,可以正常读取到认证信息,并读取metastore的表名。


 读和写,认证就失败了。



 ---原始邮件---
 发件人: "Rui Li"

什么原因导致 Could not connect to BlobServer ?

2021-03-08 文章 macdoor
运行 1.12.2 standalone 集群,不定期会出现类似这种错误,请问这有可能是什么原因导致的?谢谢!

Caused by: java.io.IOException: Failed to fetch BLOB
fb90d0fce9ff3ad8353ea97e46f9c913/p-bc0d39187ed200f9df64f90463534862858961a2-2ff77a5adb95af29376c6699173c3969
from hb3-dev-gem-svc1-000/10.30.69.13:43003 and store it under
/home/gum/flink_tmp/blobStore-e82a4a09-0f9c-4846-902c-b18c6fd09dae/incoming/temp-1153
at
org.apache.flink.runtime.blob.BlobClient.downloadFromBlobServer(BlobClient.java:167)
at
org.apache.flink.runtime.blob.AbstractBlobCache.getFileInternal(AbstractBlobCache.java:166)
at
org.apache.flink.runtime.blob.PermanentBlobCache.getFile(PermanentBlobCache.java:187)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.createUserCodeClassLoader(BlobLibraryCacheManager.java:251)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.getOrResolveClassLoader(BlobLibraryCacheManager.java:228)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.access$1100(BlobLibraryCacheManager.java:199)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$DefaultClassLoaderLease.getOrResolveClassLoader(BlobLibraryCacheManager.java:333)
at
org.apache.flink.runtime.taskmanager.Task.createUserCodeClassloader(Task.java:983)
at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:632)
at org.apache.flink.runtime.taskmanager.Task.run(Task.java:570)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.io.IOException: Could not connect to BlobServer at address
hb3-dev-gem-svc1-000/10.30.69.13:43003
at org.apache.flink.runtime.blob.BlobClient.(BlobClient.java:102)
at
org.apache.flink.runtime.blob.BlobClient.downloadFromBlobServer(BlobClient.java:137)
... 10 more
Caused by: java.net.UnknownHostException: hb3-dev-gem-svc1-000
at
java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:184)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
at java.net.Socket.connect(Socket.java:607)
at org.apache.flink.runtime.blob.BlobClient.(BlobClient.java:96)
... 11 more




--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复:pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 kk
我之前测试过slide window,可以使用。就是无法在session window中使用,group windowed table不支持。



--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Flink Job 如何集成到自己的系统,方便管理

2021-03-08 文章 Jacob
谢谢回复!

这两天有事回复晚了抱歉。

我flink job是运行在hadoop集群的,即On Yarn模式。
根据您所说的 


1.[通过 FLINK 和 YARN 或 k8s
的接口进行编程,管理元数据,管理用户文件,支持提交作业及之后管理作业状态],意思是可以通过相关API,去读一个jar包并提交Job吗?要提交到的集群也是通过配置参数传入代码里,是大概这样的一个过程吗?有相关的文档或者demo吗?我在网上一直找不到相关内容。


2. [Flink 本身有一个 Web
前端,可以支持你要的大部分功能],这个我清楚,也经常打开这个webUI查看日志,那如果和自己系统集成的话,是把这些页面以超链接的形式集成到系统里面吗,在系统dashboard中点某个按钮,跳转到flink
webui的某一个模块里?



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 Xingbo Huang
Hi,
1.12 还不支持session window的udaf,在1.13上将提供这部分的支持,具体可以关注JIRA[1]。
然后,1.12是支持ProcessFunction和KeyedProcessFunction的,具体可以参考代码[2]

[1] https://issues.apache.org/jira/browse/FLINK-21630
[2]
https://github.com/apache/flink/blob/release-1.12/flink-python/pyflink/datastream/functions.py

Best,
Xingbo

Hongyuan Ma  于2021年3月8日周一 下午7:10写道:

> 我也想知道,我看文档,目前pyflink似乎还不支持processfunction
>
>
> 在2021年03月08日 19:03,kk 写道:
> hi,all:
>
> 一账号一段时间内连续操作为一个pv,间隔时间超过阈值后会记为新的pv。系统需要获取流式日志,使用日志统计实时数据的各项指标。但是我们在使用session
> window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
> 希望知道的大佬能给点建议。感谢!!!
>
> session_window = Session.with_gap("60.second").on("pv_time").alias("w")
> t_env.from_path('source') \
>.window(session_window) \
>.group_by("w,pv_id") \
>.select("pv_id,get_act(act)").insert_into("sink")
>
> <
> http://apache-flink.147419.n8.nabble.com/file/t1355/infoflow_2021-03-08_19-02-16.png
> ;
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>


回复:pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 Hongyuan Ma
我也想知道,我看文档,目前pyflink似乎还不支持processfunction


在2021年03月08日 19:03,kk 写道:
hi,all:
一账号一段时间内连续操作为一个pv,间隔时间超过阈值后会记为新的pv。系统需要获取流式日志,使用日志统计实时数据的各项指标。但是我们在使用session
window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
希望知道的大佬能给点建议。感谢!!!

session_window = Session.with_gap("60.second").on("pv_time").alias("w")
t_env.from_path('source') \
   .window(session_window) \
   .group_by("w,pv_id") \
   .select("pv_id,get_act(act)").insert_into("sink")



pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 kk
hi,all:
一账号一段时间内连续操作为一个pv,间隔时间超过阈值后会记为新的pv。系统需要获取流式日志,使用日志统计实时数据的各项指标。但是我们在使用session
window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
希望知道的大佬能给点建议。感谢!!!

session_window = Session.with_gap("60.second").on("pv_time").alias("w")
t_env.from_path('source') \
.window(session_window) \
.group_by("w,pv_id") \
.select("pv_id,get_act(act)").insert_into("sink")


 



--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 【flink sql-client 读写 Kerberos认证的hive】

2021-03-08 文章 Rui Li
那应该就是跟https://issues.apache.org/jira/browse/FLINK-20913
 有关了,这个issue是1.12.2修复的,可以升级一下试试。

On Mon, Mar 8, 2021 at 2:15 PM guoyb <861277...@qq.com> wrote:

> 您好!
> hive.metastore.sasl.enabled 是true
>
>
> 启动sql client的时候,可以正常读取到认证信息,并读取metastore的表名。
>
>
> 读和写,认证就失败了。
>
>
>
> ---原始邮件---
> 发件人: "Rui Li" 发送时间: 2021年3月8日(周一) 中午12:12
> 收件人: "user-zh" 主题: Re: 【flink sql-client 读写 Kerberos认证的hive】
>
>
> Hi,
>
>
> 从你发的stacktrace来看,走到了set_ugi方法说明client认为server没有开启kerberos。确认一下你HiveCatalog这边指定的hive-site.xml是否配置正确呢,像hive.metastore.sasl.enabled是不是设置成true了?
>
> On Sun, Mar 7, 2021 at 5:49 PM 861277...@qq.com <861277...@qq.com
> wrote:
>
>  环境:
>  flink1.12.1nbsp;
>  hive2.1.0
>  CDH6.2.0
> 
> 
>  【问题描述】
>  nbsp;在没开启Kerberos认证时,可以正常读写hive表
>  nbsp;
>  nbsp;开启Kerberos认证后,
>  nbsp;启动时可以正常读取到hive metastore的元数据信息,读写不了表。
> 
> 
>  【sql-client.sh embedded】
>  Flink SQLgt; show tables;
>  dimension_table
>  dimension_table1
>  test
> 
> 
>  Flink SQLgt; select * from test;
>  [ERROR] Could not execute SQL statement. Reason:
>  org.apache.flink.connectors.hive.FlinkHiveException: Failed to
> collect all
>  partitions from hive metaStore
> 
> 
>  【完整日志
> 
> /opt/cloudera/parcels/FLINK-1.12.1-BIN-SCALA_2.11/lib/flink/log/flink-root-sql-client-cdh6.com.log】
> 
>  2021-03-07 10:29:18.776 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Trying to connect to localhost/127.0.0.1:6123
>  2021-03-07 10:29:18.777 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address 'cdh6.com/192.168.31.10': Connection
>  refused (Connection refused)
>  2021-03-07 10:29:18.778 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.778 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address
> '/fe80:0:0:0:20c:29ff:fea1:6d6b%ens33':
>  Network is unreachable (connect failed)
>  2021-03-07 10:29:18.778 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/192.168.31.10': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/0:0:0:0:0:0:0:1%lo': Network is
>  unreachable (connect failed)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address
> '/fe80:0:0:0:20c:29ff:fea1:6d6b%ens33':
>  Network is unreachable (connect failed)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/192.168.31.10': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.780 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/0:0:0:0:0:0:0:1%lo': Network is
>  unreachable (connect failed)
>  2021-03-07 10:29:18.780 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.780 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Could not connect. Waiting for 1600 msecs before next attempt
>  2021-03-07 10:29:20.381 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Trying to connect to localhost/127.0.0.1:6123
>  2021-03-07 10:29:20.381 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address 'cdh6.com/192.168.31.10': Connection
>  refused (Connection refused)
>  2021-03-07 10:29:20.382 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address
> '/fe80:0:0:0:20c:29ff:fea1:6d6b%ens33':
>  Network is unreachable (connect failed)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/192.168.31.10': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/0:0:0:0:0:0:0:1%lo': Network is
>  unreachable (connect failed)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:20.384 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect 

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

2021-03-08 文章 jindy_liu
恩,这里有个问题就是,假设我们以离线结果为基准去对比,但离线结果一般天级或小时级,但实时部分可能是秒级的,两个结果在连线环境做比较,也不好去看这个结果有差异的时候,到底实时计算部分有没有问题!

有很多种原因可能会导致这个结果不准确。。。比如flink sql的bug或都流式消息丢失了等等!




--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink作业报 task manager连接错误

2021-03-08 文章 Smile
你好,
可以看下具体那个 TaskManager 的日志,我之前遇到的这种情况一般都是内存用超被容器(比如Yarn)Kill 掉或者是 TaskManager
里面抛异常了。如果是 received signal 15 一般就是被容器 kill 掉了,可以看下容器的日志,其他情况可以看下具体的异常。

Smile



--
Sent from: http://apache-flink.147419.n8.nabble.com/

BUG :DataStream 转 Table 后无法 触发窗口计算

2021-03-08 文章 HunterXHunter
1:当DataStream是由 一个table 经过 group by rowtime 转换过来的就无法触发窗口

例如:
 tableEnv.createTemporaryView("test3", tableEnv.sqlQuery("select msg,rowtime
from test group by msg,rowtime"));

// 获得 DataStream,并定义wtm生成
SingleOutputStreamOperator r =
tableEnv.toRetractStream(tableEnv.from("test3"), Row.class)
.filter(x -> x.f0)
// map 
.returns(Types.TUPLE(Types.STRING, Types.LONG))
.assignTimestampsAndWatermarks(
WatermarkStrategy.>forBoundedOutOfOrderness(Duration.ofSeconds(1))
.withTimestampAssigner(((element,
recordTimestamp) -> element.f1))
);


参考 官方文档:
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/streaming/time_attributes.html


// stream - 转 Table,指定Rowtime
tableEnv.createTemporaryView("test5",
r,
$("msg"),
$("rowtime").rowtime());

String sql5 = "select " +
"msg," +
"count(1) cnt" +
" from test5 " +
" group by TUMBLE(rowtime, INTERVAL '30' SECOND), msg " +
"";
tableEnv.executeSql("insert into printlnRetractSink " + sql5);


结果: 无法触发窗口操作。
查调试源码: org.apache.flink.table.runtime.operators.window.WindowOperator
// 返回的wtm永远都是 -9223372036854775808
public long getCurrentWatermark() {
return internalTimerService.currentWatermark();
}

//
查看任务,watermark是正常在生成的。InternalTimerServiceImpl.advanceWatermark是正常为currentWatermark赋值。但是
internalTimerService.currentWatermark() 却拿的是-9223372036854775808

// 当  tableEnv.createTemporaryView("test3", tableEnv.sqlQuery("select
msg,rowtime from test group by msg,rowtime"));
语句改为
tableEnv.createTemporaryView("test3", tableEnv.sqlQuery("select msg,rowtime
from test"));

结果就是正确的。
所以这是一个bug吗??








--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对?

2021-03-08 文章 Smile
你好,
实时和离线对数的问题确实也比较难,没有很完美的解决方案。
一般可以考虑把实时产出结果也落离线表,然后对两张离线表做对比,离线 Join 上然后跑具体对比逻辑即可。

Smile


jindy_liu wrote
> 有没有大佬有思路可以参考下?
> 
> 
> 
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/





--
Sent from: http://apache-flink.147419.n8.nabble.com/