Re: 实时数仓场景落地问题

2024-01-23 文章 xiaohui zhang
实时数仓落地建议先动手做一两个场景真实应用起来,见过好几个项目一开始目标定得过大,实时数仓、流批一体、数据管控啥的都规划进去,结果项目陷入无尽的扯皮,架构设计也如空中楼阁。
实践过程中不要太过于向已有数仓分层模型靠拢,从源系统直接拼接宽表到dws层就足以应付大部分需求了。下游应用再用MPP来满足业务层的实时聚合、BI需求。
等立了几个烟囱,自己项目的实时数仓怎么做也基本有了思路


Re: RocksDB增量模式checkpoint大小持续增长的问题

2024-01-23 文章 yuanfeng hu


> 2024年1月18日 14:59,fufu  写道:
> 
> 看hdfs上shard文件比chk-xxx要大很多。
> 
> 
> 
> 在 2024-01-18 14:49:14,"fufu"  写道:
> 
> 是datastream作业,窗口算子本身没有设置TTL,其余算子设置了TTL,是在Flink 
> UI上看到窗口算子的size不断增大,一天能增加个600~800M,持续不断的增大。以下图为例:ID为313的cp比ID为304的大了将近10M,一直运行,会一直这么增加下去。cp文件和rocksdb文件正在看~
> 
> 在 2024-01-18 10:56:51,"Zakelly Lan"  写道:
> 
>> 你好,能提供一些详细的信息吗,比如:是datastream作业吧?是否设置了State
>> TTL?观测到逐渐变大是通过checkpoint监控吗,总量是什么级别。cp文件或者本地rocksdb目录下哪些文件最大
>> 
>> On Wed, Jan 17, 2024 at 4:09 PM fufu  wrote:
>> 
>>> 
>>> 我有一个Flink任务,使用的是flink1.14.6版本,任务中有一个增量(AggregateFunction)+全量(ProcessWindowFunction)的窗口,任务运行的时候这个算子的状态在不断增大,每天能增大个几百M这种,这个问题怎么排查?使用的事件时间,水位线下发正常,其余的算子都正常,就这个算子在不断增长,非常诡异。在网上搜到一个类似的文章:
>>> https://blog.csdn.net/RL_LEEE/article/details/123864487,想尝试下,但不知道manifest大小如何设置,没有找到对应的参数,
>>> 请社区指导下,或者有没有别的解决方案?感谢社区!
Manifest  
文件是会一直增大的,flink没有提供参数给你设置,如果需要设置的话需要实现ConfigurableRocksDBOptionsFactory,在我们的实践中合理设置manifest大小是对checkpoint大小有作用的

关于 flink Async io checkpoint restore

2024-01-23 文章 zhhui yan
HI All
flink 1.18.0 jdk 17 使用异步IO 失败后无法恢复,一直报序列化问题;
我调整使用 string 类型和bytes 都不能够恢复
Caused by: org.apache.flink.runtime.state.BackendBuildingException: Failed
when trying to restore operator state backend
at org.apache.flink.runtime.state.DefaultOperatorStateBackendBuilder.build(
DefaultOperatorStateBackendBuilder.java:88)
at org.apache.flink.contrib.streaming.state.EmbeddedRocksDBStateBackend
.createOperatorStateBackend(EmbeddedRocksDBStateBackend.java:533)
at org.apache.flink.streaming.api.operators.StreamTaskStateInitializerImpl
.lambda$operatorStateBackend$0(StreamTaskStateInitializerImpl.java:280)
at org.apache.flink.streaming.api.operators.BackendRestorerProcedure
.attemptCreateAndRestore(BackendRestorerProcedure.java:168)
at org.apache.flink.streaming.api.operators.BackendRestorerProcedure
.createAndRestore(BackendRestorerProcedure.java:135)
... 13 more
Caused by: java.io.IOException: Corrupt stream, found tag: 93
at org.apache.flink.streaming.runtime.streamrecord.StreamElementSerializer
.deserialize(StreamElementSerializer.java:201)
at org.apache.flink.streaming.runtime.streamrecord.StreamElementSerializer
.deserialize(StreamElementSerializer.java:43)
at org.apache.flink.runtime.state.OperatorStateRestoreOperation
.deserializeOperatorStateValues(OperatorStateRestoreOperation.java:231)
at org.apache.flink.runtime.state.OperatorStateRestoreOperation.restore(
OperatorStateRestoreOperation.java:201)
at org.apache.flink.runtime.state.DefaultOperatorStateBackendBuilder.build(
DefaultOperatorStateBackendBuilder.java:85)
... 17 more
-- 
best with you!
zhhuiyan


Re: flink ui 算子数据展示一直loading...

2024-01-23 文章 Feng Jin
可以尝试着下面几种方式确认下原因:


   1.

   打开浏览器开发者模式,看是否因为请求某个接口卡住
   2.

   查看下 JobManager 的 GC 情况,是否频繁 FullGC
   3.

   查看下 JobManager 的日志,是否存在某些资源文件丢失或者磁盘异常情况导致 web UI 无法访问.


Best,
Feng


On Tue, Jan 23, 2024 at 6:16 PM 阿华田  wrote:

>
>
> 如下图,任务处理数据正常,任务状态也正常,但是flink_ui一致处于loading中,只有个别任务这样,其他正常,有可能是metirc包的某个类冲突导致的吗?
> 阿华田
> a15733178...@163.com
>
> 
> 签名由 网易邮箱大师  定制
>
>


flink ui 算子数据展示一直loading...

2024-01-23 文章 阿华田


如下图,任务处理数据正常,任务状态也正常,但是flink_ui一致处于loading中,只有个别任务这样,其他正常,有可能是metirc包的某个类冲突导致的吗?
| |
阿华田
|
|
a15733178...@163.com
|
签名由网易邮箱大师定制