date:20210308

Re: 频繁发生 'ResourceManager leader changed to new address null' 异常导致任务重启

2021-03-08 文章 yidan zhao

而且大家推荐怎么设置呢，我可能默认就G1了。不清楚G1是否也需要精调。
我目前设置的内存还是比较大的。（50G的，100G的TaskManager都有），这么大heap，是否需要特别设置啥呢？

或者是否有必要拆小，比如设置10Gheap，然后把taskmanager数量提上去。

yidan zhao  于2021年3月9日周二 下午2:56写道：

> 好的，我会看下。
> 然后我今天发现我好多个集群GC collector不一样。
> 目前发现3种，默认的是G1。flink conf中配置了env.java.opts:
> "-XX:-OmitStackTraceInFastThrow"的情况出现了2种，一种是Parallel GC with 83
> threads，还有一种是Mark Sweep Compact GC。
> 大佬们，Flink是根据内存大小有什么动态调整吗。
>
>
> 不使用G1我大概理解了，可能设置了java.opts这个是覆盖，不是追加。本身我只是希望设置下-XX:-OmitStackTraceInFastThrow而已。
>
>
> 杨杰 <471419...@qq.com> 于2021年3月8日周一 下午3:09写道：
>
>> Hi,
>>
>>   可以排查下 GC 情况，频繁 FGC 也会导致这些情况。
>>
>> Best,
>> jjiey
>>
>> > 2021年3月8日 14:37，yidan zhao  写道：
>> >
>> >
>> 如题，我有个任务频繁发生该异常然后重启。今天任务启动1h后，看了下WEB-UI的检查点也没，restored达到了8已经。然后Exception页面显示该错误，估计大多数都是因为该错误导致的restore。
>> > 除此外，就是 ‘Job leader for job id eb5d2893c4c6f4034995b9c8e180f01e lost
>> > leadership’ 错导致任务重启。
>> >
>> > 下面给出刚刚的一个错误日志（环境flink1.12，standalone集群，5JM+5TM，JM和TM混部在相同机器）：
>> > 2021-03-08 14:31:40
>> > org.apache.flink.runtime.io
>> .network.netty.exception.RemoteTransportException:
>> > Error at remote task manager '10.35.185.38/10.35.185.38:2016'.
>> >at org.apache.flink.runtime.io.network.netty.
>> > CreditBasedPartitionRequestClientHandler.decodeMsg(
>> > CreditBasedPartitionRequestClientHandler.java:294)
>> >at org.apache.flink.runtime.io.network.netty.
>> > CreditBasedPartitionRequestClientHandler.channelRead(
>> > CreditBasedPartitionRequestClientHandler.java:183)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:379)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:365)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> >
>> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
>> > .java:357)
>> >at org.apache.flink.runtime.io.network.netty.
>> > NettyMessageClientDecoderDelegate.channelRead(
>> > NettyMessageClientDecoderDelegate.java:115)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:379)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:365)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> >
>> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
>> > .java:357)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> >
>> DefaultChannelPipeline$HeadContext.channelRead(DefaultChannelPipeline.java:
>> > 1410)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:379)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeChannelRead(
>> > AbstractChannelHandlerContext.java:365)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:919)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.epoll.
>> > AbstractEpollStreamChannel$EpollStreamUnsafe.epollInReady(
>> > AbstractEpollStreamChannel.java:792)
>> >at
>> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
>> > .processReady(EpollEventLoop.java:475)
>> >at
>> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
>> > .run(EpollEventLoop.java:378)
>> >at org.apache.flink.shaded.netty4.io.netty.util.concurrent.
>> > SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:989)
>> >at org.apache.flink.shaded.netty4.io.netty.util.internal.
>> > ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
>> >at java.lang.Thread.run(Thread.java:748)
>> > Caused by: org.apache.flink.runtime.io.network.partition.
>> > ProducerFailedException: org.apache.flink.util.FlinkException:
>> JobManager
>> > responsible for eb5d2893c4c6f4034995b9c8e180f01e lost the leadership.
>> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
>> > .writeAndFlushNextMessageIfPossible(PartitionRequestQueue.java:221)
>> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
>> > .enqueueAvailableReader(PartitionRequestQueue.java:108)
>> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
>> > .userEventTriggered(PartitionRequestQueue.java:170)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeUserEventTriggered(
>> > AbstractChannelHandlerContext.java:346)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.invokeUserEventTriggered(
>> > AbstractChannelHandlerContext.java:332)
>> >at org.apache.flink.shaded.netty4.io.netty.channel.
>> > AbstractChannelHandlerContext.fireUserEventTriggered(
>> >

Re: 频繁发生 'ResourceManager leader changed to new address null' 异常导致任务重启

2021-03-08 文章 yidan zhao

好的，我会看下。
然后我今天发现我好多个集群GC collector不一样。
目前发现3种，默认的是G1。flink conf中配置了env.java.opts:
"-XX:-OmitStackTraceInFastThrow"的情况出现了2种，一种是Parallel GC with 83
threads，还有一种是Mark Sweep Compact GC。
大佬们，Flink是根据内存大小有什么动态调整吗。

不使用G1我大概理解了，可能设置了java.opts这个是覆盖，不是追加。本身我只是希望设置下-XX:-OmitStackTraceInFastThrow而已。


杨杰 <471419...@qq.com> 于2021年3月8日周一 下午3:09写道：

> Hi,
>
>   可以排查下 GC 情况，频繁 FGC 也会导致这些情况。
>
> Best,
> jjiey
>
> > 2021年3月8日 14:37，yidan zhao  写道：
> >
> >
> 如题，我有个任务频繁发生该异常然后重启。今天任务启动1h后，看了下WEB-UI的检查点也没，restored达到了8已经。然后Exception页面显示该错误，估计大多数都是因为该错误导致的restore。
> > 除此外，就是 ‘Job leader for job id eb5d2893c4c6f4034995b9c8e180f01e lost
> > leadership’ 错导致任务重启。
> >
> > 下面给出刚刚的一个错误日志（环境flink1.12，standalone集群，5JM+5TM，JM和TM混部在相同机器）：
> > 2021-03-08 14:31:40
> > org.apache.flink.runtime.io
> .network.netty.exception.RemoteTransportException:
> > Error at remote task manager '10.35.185.38/10.35.185.38:2016'.
> >at org.apache.flink.runtime.io.network.netty.
> > CreditBasedPartitionRequestClientHandler.decodeMsg(
> > CreditBasedPartitionRequestClientHandler.java:294)
> >at org.apache.flink.runtime.io.network.netty.
> > CreditBasedPartitionRequestClientHandler.channelRead(
> > CreditBasedPartitionRequestClientHandler.java:183)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:379)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:365)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
> > .java:357)
> >at org.apache.flink.runtime.io.network.netty.
> > NettyMessageClientDecoderDelegate.channelRead(
> > NettyMessageClientDecoderDelegate.java:115)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:379)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:365)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext
> > .java:357)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> DefaultChannelPipeline$HeadContext.channelRead(DefaultChannelPipeline.java:
> > 1410)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:379)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeChannelRead(
> > AbstractChannelHandlerContext.java:365)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:919)
> >at org.apache.flink.shaded.netty4.io.netty.channel.epoll.
> > AbstractEpollStreamChannel$EpollStreamUnsafe.epollInReady(
> > AbstractEpollStreamChannel.java:792)
> >at
> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
> > .processReady(EpollEventLoop.java:475)
> >at
> org.apache.flink.shaded.netty4.io.netty.channel.epoll.EpollEventLoop
> > .run(EpollEventLoop.java:378)
> >at org.apache.flink.shaded.netty4.io.netty.util.concurrent.
> > SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:989)
> >at org.apache.flink.shaded.netty4.io.netty.util.internal.
> > ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
> >at java.lang.Thread.run(Thread.java:748)
> > Caused by: org.apache.flink.runtime.io.network.partition.
> > ProducerFailedException: org.apache.flink.util.FlinkException: JobManager
> > responsible for eb5d2893c4c6f4034995b9c8e180f01e lost the leadership.
> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
> > .writeAndFlushNextMessageIfPossible(PartitionRequestQueue.java:221)
> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
> > .enqueueAvailableReader(PartitionRequestQueue.java:108)
> >at org.apache.flink.runtime.io.network.netty.PartitionRequestQueue
> > .userEventTriggered(PartitionRequestQueue.java:170)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeUserEventTriggered(
> > AbstractChannelHandlerContext.java:346)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.invokeUserEventTriggered(
> > AbstractChannelHandlerContext.java:332)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> > AbstractChannelHandlerContext.fireUserEventTriggered(
> > AbstractChannelHandlerContext.java:324)
> >at org.apache.flink.shaded.netty4.io.netty.channel.
> >
> ChannelInboundHandlerAdapter.userEventTriggered(ChannelInboundHandlerAdapter
> > .java:117)
> >at org.apache.flink.shaded.netty4.io.netty.handler.codec.
> >

Re: flink Application Native k8s使用oss作为backend日志偶尔报错

2021-03-08 文章 seuzxc

请问您这个问题解决了吗，我的也有这个错误信息



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink RocksDBStateBackend 可以设置阿里云 OSS 存储吗？

2021-03-08 文章 seuzxc

我用oss设置，状态信息能写入，但是oss日志总是提示如下的信息，有遇到过吗？

2021-03-08 20:18:58.512  [INFO][cluster-io-thread-2]:
o.a.f.f.o.s.c.a.o.c.u.LogUtils 66 logException - [Server]Unable to execute
HTTP request: Not Found
[ErrorCode]: NoSuchKey
[RequestId]: 604616328586350B9C61
[HostId]: null




--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: rowtime 的类型序列化问题

2021-03-08 文章 JudeZhu

我也遇到了同样的问题，请问最后是怎么解决的？



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: rowtime 的类型序列化问题

2021-03-08 文章 JudeZhu

我跟你使用的方法一样，也是加工数据源创建临时view然后传递到sink，其中用到了rowtime，遇到和你同样的错，请问是怎么解决的最后



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对？

2021-03-08 文章 Smile

对，离线和实时的计算语义本来就是不一样的，所以这个地方也没有特别完美的解决方案，一般都是 case by case 看一下。
有一些显而易见的问题比如 Join 是否关联成功这种还是比较容易查，其他的确实不太好判断。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink 与 hive版本选择

2021-03-08 文章张锴

请教一下各位大佬，flink哪个版本与hive3.x以上的版本兼容性更好呢，目前在flink版本上做选择，后续暂不会升级，希望大佬们给点建议。

Re: Flink Job 如何集成到自己的系统，方便管理

2021-03-08 文章 Jacob

谢谢大佬答疑。
我先尝试使用 YarnClusterDescriptor 这些类提交Job。看看后续使用情况 是否合适



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Job 如何集成到自己的系统，方便管理

2021-03-08 文章 tison

>意思是可以通过相关API，去读一个jar包并提交Job吗？要提交到的集群也是通过配置参数传入代码里，是大
概这样的一个过程吗？有相关的文档或者demo吗？我在网上一直找不到相关内容。

是的，目前公开的 API 是命令行，内部是 ClusterDescriptor、CliFrontend
等一系列类在驱动。定制的时候通常直接根据内部类来编程，但是它们不是公开接口，可能随时会改变。目前没有更好的办法。

>如果和自己系统集成的话，是把这些页面以超链接的形式集成到系统里面吗，在系统dashboard中点某个按钮，跳转到flink webui的某一个模块里？

这个集成有很多种办法了，包括你页面嵌套页面，或者页面跳转页面，或者直接二开 Flink Web 模块，或者在完全自主开发的页面里调用 REST
API，等等。

Best,
tison.


Jacob <17691150...@163.com> 于2021年3月9日周二 上午9:42写道：

> 谢谢提供思路，刚通过接口编程这个思路找到了一些文章和demo。
>
>
>
> -
> Thanks!
> Jacob
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>

Re: Flink Job 如何集成到自己的系统，方便管理

2021-03-08 文章 Jacob

谢谢提供思路，刚通过接口编程这个思路找到了一些文章和demo。



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

回复：【flink sql-client 读写 Kerberos认证的hive】

2021-03-08 文章 guoyb

好的，谢谢！



---原始邮件---
发件人: "Rui Li"https://issues.apache.org/jira/browse/FLINK-20913
有关了，这个issue是1.12.2修复的，可以升级一下试试。

On Mon, Mar 8, 2021 at 2:15 PM guoyb <861277...@qq.com wrote:

 您好！
 hive.metastore.sasl.enabled 是true


 启动sql client的时候，可以正常读取到认证信息，并读取metastore的表名。


 读和写，认证就失败了。



 ---原始邮件---
 发件人: "Rui Li"

什么原因导致 Could not connect to BlobServer ？

2021-03-08 文章 macdoor

运行 1.12.2 standalone 集群，不定期会出现类似这种错误，请问这有可能是什么原因导致的？谢谢！

Caused by: java.io.IOException: Failed to fetch BLOB
fb90d0fce9ff3ad8353ea97e46f9c913/p-bc0d39187ed200f9df64f90463534862858961a2-2ff77a5adb95af29376c6699173c3969
from hb3-dev-gem-svc1-000/10.30.69.13:43003 and store it under
/home/gum/flink_tmp/blobStore-e82a4a09-0f9c-4846-902c-b18c6fd09dae/incoming/temp-1153
at
org.apache.flink.runtime.blob.BlobClient.downloadFromBlobServer(BlobClient.java:167)
at
org.apache.flink.runtime.blob.AbstractBlobCache.getFileInternal(AbstractBlobCache.java:166)
at
org.apache.flink.runtime.blob.PermanentBlobCache.getFile(PermanentBlobCache.java:187)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.createUserCodeClassLoader(BlobLibraryCacheManager.java:251)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.getOrResolveClassLoader(BlobLibraryCacheManager.java:228)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$LibraryCacheEntry.access$1100(BlobLibraryCacheManager.java:199)
at
org.apache.flink.runtime.execution.librarycache.BlobLibraryCacheManager$DefaultClassLoaderLease.getOrResolveClassLoader(BlobLibraryCacheManager.java:333)
at
org.apache.flink.runtime.taskmanager.Task.createUserCodeClassloader(Task.java:983)
at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:632)
at org.apache.flink.runtime.taskmanager.Task.run(Task.java:570)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.io.IOException: Could not connect to BlobServer at address
hb3-dev-gem-svc1-000/10.30.69.13:43003
at org.apache.flink.runtime.blob.BlobClient.(BlobClient.java:102)
at
org.apache.flink.runtime.blob.BlobClient.downloadFromBlobServer(BlobClient.java:137)
... 10 more
Caused by: java.net.UnknownHostException: hb3-dev-gem-svc1-000
at
java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:184)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
at java.net.Socket.connect(Socket.java:607)
at org.apache.flink.runtime.blob.BlobClient.(BlobClient.java:96)
... 11 more




--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 kk

我之前测试过slide window，可以使用。就是无法在session window中使用，group windowed table不支持。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Job 如何集成到自己的系统，方便管理

2021-03-08 文章 Jacob

谢谢回复！

这两天有事回复晚了抱歉。

我flink job是运行在hadoop集群的，即On Yarn模式。
根据您所说的 


1.[通过 FLINK 和 YARN 或 k8s
的接口进行编程，管理元数据，管理用户文件，支持提交作业及之后管理作业状态]，意思是可以通过相关API，去读一个jar包并提交Job吗？要提交到的集群也是通过配置参数传入代码里，是大概这样的一个过程吗？有相关的文档或者demo吗？我在网上一直找不到相关内容。


2. [Flink 本身有一个 Web
前端，可以支持你要的大部分功能]，这个我清楚，也经常打开这个webUI查看日志，那如果和自己系统集成的话，是把这些页面以超链接的形式集成到系统里面吗，在系统dashboard中点某个按钮，跳转到flink
webui的某一个模块里？



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 Xingbo Huang

Hi,
1.12 还不支持session window的udaf，在1.13上将提供这部分的支持，具体可以关注JIRA[1]。
然后，1.12是支持ProcessFunction和KeyedProcessFunction的，具体可以参考代码[2]

[1] https://issues.apache.org/jira/browse/FLINK-21630
[2]
https://github.com/apache/flink/blob/release-1.12/flink-python/pyflink/datastream/functions.py

Best,
Xingbo

Hongyuan Ma  于2021年3月8日周一 下午7:10写道：

> 我也想知道，我看文档，目前pyflink似乎还不支持processfunction
>
>
> 在2021年03月08日 19:03，kk 写道：
> hi,all：
>
> 一账号一段时间内连续操作为一个pv，间隔时间超过阈值后会记为新的pv。系统需要获取流式日志，使用日志统计实时数据的各项指标。但是我们在使用session
> window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
> 希望知道的大佬能给点建议。感谢！！！
>
> session_window = Session.with_gap("60.second").on("pv_time").alias("w")
> t_env.from_path('source') \
>.window(session_window) \
>.group_by("w,pv_id") \
>.select("pv_id,get_act(act)").insert_into("sink")
>
> <
> http://apache-flink.147419.n8.nabble.com/file/t1355/infoflow_2021-03-08_19-02-16.png
> ;
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>

回复：pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 Hongyuan Ma

我也想知道，我看文档，目前pyflink似乎还不支持processfunction


在2021年03月08日 19:03，kk 写道：
hi,all：
一账号一段时间内连续操作为一个pv，间隔时间超过阈值后会记为新的pv。系统需要获取流式日志，使用日志统计实时数据的各项指标。但是我们在使用session
window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
希望知道的大佬能给点建议。感谢！！！

session_window = Session.with_gap("60.second").on("pv_time").alias("w")
t_env.from_path('source') \
   .window(session_window) \
   .group_by("w,pv_id") \
   .select("pv_id,get_act(act)").insert_into("sink")

pyflink 如何使用session window对相同pv数据聚合

2021-03-08 文章 kk

hi,all：
一账号一段时间内连续操作为一个pv，间隔时间超过阈值后会记为新的pv。系统需要获取流式日志，使用日志统计实时数据的各项指标。但是我们在使用session
window的时候无法使用udaf(自定义聚合函数)对相同pv日志进行聚合统计。
希望知道的大佬能给点建议。感谢！！！

session_window = Session.with_gap("60.second").on("pv_time").alias("w")
t_env.from_path('source') \
.window(session_window) \
.group_by("w,pv_id") \
.select("pv_id,get_act(act)").insert_into("sink")


 



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 【flink sql-client 读写 Kerberos认证的hive】

2021-03-08 文章 Rui Li

那应该就是跟https://issues.apache.org/jira/browse/FLINK-20913
 有关了，这个issue是1.12.2修复的，可以升级一下试试。

On Mon, Mar 8, 2021 at 2:15 PM guoyb <861277...@qq.com> wrote:

> 您好！
> hive.metastore.sasl.enabled 是true
>
>
> 启动sql client的时候，可以正常读取到认证信息，并读取metastore的表名。
>
>
> 读和写，认证就失败了。
>
>
>
> ---原始邮件---
> 发件人: "Rui Li" 发送时间: 2021年3月8日(周一) 中午12:12
> 收件人: "user-zh" 主题: Re: 【flink sql-client 读写 Kerberos认证的hive】
>
>
> Hi，
>
>
> 从你发的stacktrace来看，走到了set_ugi方法说明client认为server没有开启kerberos。确认一下你HiveCatalog这边指定的hive-site.xml是否配置正确呢，像hive.metastore.sasl.enabled是不是设置成true了？
>
> On Sun, Mar 7, 2021 at 5:49 PM 861277...@qq.com <861277...@qq.com
> wrote:
>
>  环境：
>  flink1.12.1nbsp;
>  hive2.1.0
>  CDH6.2.0
> 
> 
>  【问题描述】
>  nbsp;在没开启Kerberos认证时，可以正常读写hive表
>  nbsp;
>  nbsp;开启Kerberos认证后，
>  nbsp;启动时可以正常读取到hive metastore的元数据信息，读写不了表。
> 
> 
>  【sql-client.sh embedded】
>  Flink SQLgt; show tables;
>  dimension_table
>  dimension_table1
>  test
> 
> 
>  Flink SQLgt; select * from test;
>  [ERROR] Could not execute SQL statement. Reason:
>  org.apache.flink.connectors.hive.FlinkHiveException: Failed to
> collect all
>  partitions from hive metaStore
> 
> 
>  【完整日志
> 
> /opt/cloudera/parcels/FLINK-1.12.1-BIN-SCALA_2.11/lib/flink/log/flink-root-sql-client-cdh6.com.log】
> 
>  2021-03-07 10:29:18.776 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Trying to connect to localhost/127.0.0.1:6123
>  2021-03-07 10:29:18.777 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address 'cdh6.com/192.168.31.10': Connection
>  refused (Connection refused)
>  2021-03-07 10:29:18.778 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.778 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address
> '/fe80:0:0:0:20c:29ff:fea1:6d6b%ens33':
>  Network is unreachable (connect failed)
>  2021-03-07 10:29:18.778 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/192.168.31.10': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/0:0:0:0:0:0:0:1%lo': Network is
>  unreachable (connect failed)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address
> '/fe80:0:0:0:20c:29ff:fea1:6d6b%ens33':
>  Network is unreachable (connect failed)
>  2021-03-07 10:29:18.779 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/192.168.31.10': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.780 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/0:0:0:0:0:0:0:1%lo': Network is
>  unreachable (connect failed)
>  2021-03-07 10:29:18.780 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:18.780 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Could not connect. Waiting for 1600 msecs before next attempt
>  2021-03-07 10:29:20.381 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Trying to connect to localhost/127.0.0.1:6123
>  2021-03-07 10:29:20.381 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address 'cdh6.com/192.168.31.10': Connection
>  refused (Connection refused)
>  2021-03-07 10:29:20.382 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address
> '/fe80:0:0:0:20c:29ff:fea1:6d6b%ens33':
>  Network is unreachable (connect failed)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/192.168.31.10': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/0:0:0:0:0:0:0:1%lo': Network is
>  unreachable (connect failed)
>  2021-03-07 10:29:20.383 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect from address '/127.0.0.1': Connection refused
>  (Connection refused)
>  2021-03-07 10:29:20.384 [main] INFOnbsp;
> org.apache.flink.runtime.net.ConnectionUtilsnbsp;
>  - Failed to connect

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对？

2021-03-08 文章 jindy_liu

恩，这里有个问题就是，假设我们以离线结果为基准去对比，但离线结果一般天级或小时级，但实时部分可能是秒级的，两个结果在连线环境做比较，也不好去看这个结果有差异的时候，到底实时计算部分有没有问题！

有很多种原因可能会导致这个结果不准确。。。比如flink sql的bug或都流式消息丢失了等等！




--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink作业报 task manager连接错误

2021-03-08 文章 Smile

你好，
可以看下具体那个 TaskManager 的日志，我之前遇到的这种情况一般都是内存用超被容器（比如Yarn）Kill 掉或者是 TaskManager
里面抛异常了。如果是 received signal 15 一般就是被容器 kill 掉了，可以看下容器的日志，其他情况可以看下具体的异常。

Smile



--
Sent from: http://apache-flink.147419.n8.nabble.com/

BUG ：DataStream 转 Table 后无法触发窗口计算

2021-03-08 文章 HunterXHunter

1：当DataStream是由 一个table 经过 group by rowtime 转换过来的就无法触发窗口

例如：
 tableEnv.createTemporaryView("test3", tableEnv.sqlQuery("select msg,rowtime
from test group by msg,rowtime"));

// 获得 DataStream，并定义wtm生成
SingleOutputStreamOperator r =
tableEnv.toRetractStream(tableEnv.from("test3"), Row.class)
.filter(x -> x.f0)
// map 
.returns(Types.TUPLE(Types.STRING, Types.LONG))
.assignTimestampsAndWatermarks(
WatermarkStrategy.>forBoundedOutOfOrderness(Duration.ofSeconds(1))
.withTimestampAssigner(((element,
recordTimestamp) -> element.f1))
);


参考 官方文档：
https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/streaming/time_attributes.html


// stream - 转 Table，指定Rowtime
tableEnv.createTemporaryView("test5",
r,
$("msg"),
$("rowtime").rowtime());

String sql5 = "select " +
"msg," +
"count(1) cnt" +
" from test5 " +
" group by TUMBLE(rowtime, INTERVAL '30' SECOND), msg " +
"";
tableEnv.executeSql("insert into printlnRetractSink " + sql5);


结果： 无法触发窗口操作。
查调试源码： org.apache.flink.table.runtime.operators.window.WindowOperator
// 返回的wtm永远都是 -9223372036854775808
public long getCurrentWatermark() {
return internalTimerService.currentWatermark();
}

//
查看任务，watermark是正常在生成的。InternalTimerServiceImpl.advanceWatermark是正常为currentWatermark赋值。但是
internalTimerService.currentWatermark() 却拿的是-9223372036854775808

// 当  tableEnv.createTemporaryView("test3", tableEnv.sqlQuery("select
msg,rowtime from test group by msg,rowtime"));
语句改为
tableEnv.createTemporaryView("test3", tableEnv.sqlQuery("select msg,rowtime
from test"));

结果就是正确的。
所以这是一个bug吗？？








--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对？

2021-03-08 文章 Smile

你好，
实时和离线对数的问题确实也比较难，没有很完美的解决方案。
一般可以考虑把实时产出结果也落离线表，然后对两张离线表做对比，离线 Join 上然后跑具体对比逻辑即可。

Smile


jindy_liu wrote
> 有没有大佬有思路可以参考下？
> 
> 
> 
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/





--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 频繁发生 'ResourceManager leader changed to new address null' 异常导致任务重启

Re: 频繁发生 'ResourceManager leader changed to new address null' 异常导致任务重启

Re: flink Application Native k8s使用oss作为backend日志偶尔报错

Re: Flink RocksDBStateBackend 可以设置阿里云 OSS 存储吗？

Re: rowtime 的类型序列化问题

Re: rowtime 的类型序列化问题

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对？

flink 与 hive版本选择

Re: Flink Job 如何集成到自己的系统，方便管理

Re: Flink Job 如何集成到自己的系统，方便管理

Re: Flink Job 如何集成到自己的系统，方便管理

回复：【flink sql-client 读写 Kerberos认证的hive】

什么原因导致 Could not connect to BlobServer ？

Re: 回复：pyflink 如何使用session window对相同pv数据聚合

Re: Flink Job 如何集成到自己的系统，方便管理

Re: pyflink 如何使用session window对相同pv数据聚合

回复：pyflink 如何使用session window对相同pv数据聚合

pyflink 如何使用session window对相同pv数据聚合

Re: 【flink sql-client 读写 Kerberos认证的hive】

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对？

Re: flink作业报 task manager连接错误

BUG ：DataStream 转 Table 后无法触发窗口计算

Re: flink sql 这种实时计算结果如何与离线计算的结果做数据比对？

23 matches

Site Navigation

Mail list logo

Footer information