Flink-1.15 HiveDynamicTableFactory 取Catalog使用

2022-09-19 Thread yanggang_it_job
当前使用HiveDynamicTableFactory需要先声明HiveCatalog才可以使用。 请问能否把HiveDynamicTableFactory直接作为一个connector使用,或者说需要怎么调整才可以直接使用?

Re: 某作业计算算子处于busy状态

2022-09-19 Thread yidan zhao
那你代码检查下有没有内存泄露呢。 杨扬 于2022年9月19日周一 11:21写道: > > 还有一个现象,观察到 > taskHeap内存占用在逐步升高,作业刚启动的时候占用在10%左右,一周后增加至25%左右,两周后增加至50%左右,上述指的是GC后观察到的内存占用值。两周后计算算子几乎一直100%busy状态,端到端延迟已经达到了10s左右,作业已经不可用需要重启了。 > > > > > > 在 2022年9月15日,下午8:58,yidan zhao 写道: > > > > 本身低延迟一定程度上就是靠“资源低利用率”实现的。资源高利用率情况,就是尽可能满负荷够用就行的意思。

flink hybrid source问题

2022-09-19 Thread casel.chen
我有一个flink实时计算场景是需要先从MaxCompute读取一张表的存量数据,再从相应的kafka topic读取增量数据,一并进行计算处理。 看了一下需要用到hybrid source,目前最新flink社区版提供了Kafka/Hive/File Source,其他数据源的source是需要自己开发吗?社区有没有一个贡献source的地方? 有没有介绍如何自定义基于新版source架构的source文章或博客呢?谢谢!

Re:Flink+Hudi:java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

2022-09-19 Thread Xuyang
Hi, 看起来像是这几个项目中的版本并不适配,导致com.google.common.base.Preconditions这个类版本冲突导致的,可以尝试下将这个包在flink和hudi中shade一下试试 -- Best! Xuyang At 2022-09-14 09:27:45, "Summer" wrote: > >版本:Flink1.13.3、Hudi0.10.1、Hive3.1.2、Hadoop3.2.1 > > >编译:Hudi:mvn clean package -DskipITs -Dmaven.test.skip=

Re:flink-sql-connector-hbase-2.2模块在shade打包时遗漏了commons-io依赖

2022-09-19 Thread Xuyang
Hi,可以向社区jira[1]报告一下这个bug,详细记录下flink版本、错误信息等。 可以通过手动修改flink源码下hbase connector pom文件,并重新编译打包的方式来快速fix这个bug。 [1] https://issues.apache.org/jira/projects/FLINK/issues -- Best! Xuyang 在 2022-09-16 09:34:02,"junjie.m...@goupwith.com" 写道: >flink-sql-connector-hbase-2.2模块在shade打包时遗漏了

Re:flink实时双流驱动join问题

2022-09-19 Thread Xuyang
Hi, 看上去这种情况只能使用inner join来实现,state很大的话有考虑过用FsStateBackend或者RocksDB StateBackend来存储state么? -- Best! Xuyang 在 2022-09-17 10:59:16,"casel.chen" 写道: >请教一个flink实现实时双流驱动join问题: > > >order cdc流字段:order_id, order_status, order_time, user_id (order_id是主键) >user cdc流字段:user_id, user_name,

Re: flink实时双流驱动join问题

2022-09-19 Thread Jinzhong Li
hi,casel, 关于你们的业务场景,我有几个问题, 希望可以交流一下。 1. 一般双流join为避免state无限膨胀,都会设置ttl,你这边的业务场景ttl需要保留n个月? 2. order流和user流在业务场景上要求的state ttl时长是不是不一样? (从你描述上来看,user流的ttl需要几个月,order流可以比较短些?) 3. order流和user流的数据规模/state size规模大概可以到什么级别? casel.chen 于2022年9月17日周六 10:59写道: > 请教一个flink实现实时双流驱动join问题: > > > order cdc流字段: