如何写 flink udf 的 ut?

2022-06-20 文章 forideal
你好我的朋友: 太久没有写 flink 的代码了.今天写了一个 flink 的 udf.可能需要调用一下 open 函数.但是我不知道如何构造那个 context.有同学能帮忙吗? 非常感谢! Best wishes!!!

Re:Re: Re: 如何设置FlinkSQL并行度

2020-08-24 文章 forideal
Hi 本超, 感谢你的回复,这个地方的代码我们确实改动过,官方代码的行为是正常的。非常感谢! > 目前 Flink SQL 我这边使用也是无法指定各个算子的并行度。 > 1.并行度超过 topic partition 的时候会造成资源浪费 > 2.并行度超过 topic partition 后,checkpoint 也无法正常触发了 其中第二个问题是我们自己改动官方 Flink 源码造成的。 Best forideal 在 2020-08-22 11:37:20,"Benchao Li" 写道: >Hi f

Re:Re: ScalarFunction 访问 state

2020-08-19 文章 forideal
。 Best, forideal 在 2020-08-19 10:06:46,"godfrey he" 写道: >看看deduplication语法[1] 是否满足你的需求 > >[1] >https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/sql/queries.html#deduplication > >forideal 于2020年8月17日周一 下午12:13写道: > >> Hi, >

ScalarFunction 访问 state

2020-08-16 文章 forideal
Hi, 最近我有一个使用 Flink SQL 做简单的数据去重的需求,想使用 Flink 的 `ScalarFunction`,通过阅读 API 发现 FunctionContext context 并不支持访问 state。 我准备使用 Guava cache 做,不知道小伙伴有没有更好的建议哈!感谢。 Best,forideal

Re:Re: 如何设置FlinkSQL并行度

2020-08-15 文章 forideal
Hi 赵一旦, 目前 Flink SQL 我这边使用也是无法指定各个算子的并行度。目前我这边遇到两个问题。 1.并行度超过 topic partition 的时候会造成资源浪费 2.并行度超过 topic partition 后,checkpoint 也无法正常触发了 Best forideal 在 2020-08-14 12:03:32,"赵一旦" 写道: >检查点呢,大多数用FlinkSQL的同学们,你们的任务是随时可运行那种吗,不是必须保证不可间断的准确性级别吗? > >Xingbo Huang 于2

Re:Re:Re:Re:Re:Re:Flink SQL No Watermark

2020-08-13 文章 forideal
将能减少用户的成本。 Best forideal 在 2020-08-13 16:33:29,"Zhou Zach" 写道: > > > >Hi forideal, Shengkai Fang, > >加上env.disableOperatorChaining()之后,发现5个算子, > > > > >Source: TableSourceScan(table=[[default_catalog, default_databa

Re:Re:Re:Re:Flink SQL No Watermark

2020-08-13 文章 forideal
ime - INTERVAL '10' SECOND Best forideal 在 2020-08-13 15:20:13,"Zhou Zach" 写道: > > > >Hi forideal, >我也遇到了No Watermark问题,我也设置了table.exec.source.idle-timeout 参数,如下: > > >val streamExecutionEnv = StreamExecuti

Re:Re:Flink SQL No Watermark

2020-08-13 文章 forideal
这个问题的分析路径会更简单。我应该直接可以发现大部分 task 可以生成 watermark,少部分 task 无 watermark,能够快速的减少debug的时间。当前使用 disable chain 观察每个 op 的情况,对于 Flink sql 的 debug 有很大的便利之处,不知社区是否有相关参数帮助开发者。 Best forideal 在 2020-08-13 12:56:57,"forideal" 写道: >大家好 > > >关于这个问题我进行了一些 debug,发现了 wa

Re:Flink SQL No Watermark

2020-08-12 文章 forideal
实无法进一步debug了。 如果大家有什么好的 debug codegen 生成的代码,可以告诉我哈,非常感谢 Best forideal 在 2020-08-11 17:13:01,"forideal" 写道: >大家好,请教一个问题 > > > 我有一条进行 session window 的 sql。这条 sql 消费较少数据量的 topic 的时候,是可以生成 > watermark。消费大量的数据的时候,就无法生成watermark。 > 一直是

Flink SQL No Watermark

2020-08-11 文章 forideal
test ) T where user_id is not null and user_id <> '' and CHARACTER_LENGTH(user_id) = 24 ) T group by SESSION(event_time, INTERVAL '10' SECOND), user_id Best forideal

Re:Re: Flink sql 主动使数据延时一段时间有什么方案

2020-07-03 文章 forideal
等一会儿发到下游。起到等一会的效果。 Best forideal 在 2020-07-03 23:05:06,"Benchao Li" 写道: >奥,对,还有一种思路。如果你的source的mq支持延迟消息,这个应该就不需要Flink做什么了,直接用mq的延迟消息就可以了。 > >admin <17626017...@163.com> 于2020年7月3日周五 下午5:54写道: > >> Hi,all >> 我们有这样一个场景,双流join,一个快流,一个慢流,想让快流

Re:flink asynctablefunction调用异常

2020-07-03 文章 forideal
st(new Row(this.fieldNames.length))); } } catch (Exception e) { result.complete(Collections.singletonList(new Row(this.fieldNames.length))); } }); } Best forideal. 在 2020-07-02 15:56:46,"sunfulin" 写道: >hi, >我在使用flink 1.10.1 blink >planner,通过扩展tablesourcesinkfac

Re: 关于flink sql问题

2020-07-02 文章 forideal
Hi 本超 关于Mysql 做维表,关掉cache后的优化手段,有什么建议吗? 比如,20k records per second 的流量,关掉 cache 会对 mysql 产生很大的压力。不知道 MySQL Lookup 做成 async + batch 会不会提升性能或者有副作用。 Best forideal. 在 Benchao Li ,2020年7月1日 13:22写道: 我理解你只需要把这同一个Mysql表再做一个维表即可。可以写两次DDL,一个给维表用,一个给sink用。 如果你就觉得它是实时变化的,你可以把维表的cache关掉,保证

Re:Re: Flink SQL UDF 动态类型

2020-06-09 文章 forideal
ns()内指定我们解析出的TypeInformation,这个TypeInformation可以是任何动态类型的。 >> > >> > >> > >> > >> 但是你的场景是使用udf,根据你发的udf示例来看,我明白你想要动态类型输出,但是实际上我不了解你们的场景,不明白什么样的场景需要用到这种处理,以及会用到一个udf产出不同的结果,因为我理解为了udf的管理方便、可读性以及可维护性,udf的输出参数类型应该定下来比较好一点。 >> > >> > >> &g

Flink SQL UDF 动态类型

2020-06-08 文章 forideal
你好,我的朋友: 我使用的是 Flink 1.10 Blink Planer。 我想构造一个Flink UDF ,这个 UDF 可以根据不同的参数返回不同的类型。 为什么我想要这个功能: 场景1: 我的数据是一个 pb 的 bytes,我想从里面获取数据,如果统一的返回 string,后面还需要 cast 比较繁琐,如果使用 get_int、get_double、get_string 这样的方式,实现起来又非常多 场景2: 我的数据是一个 Json ,问题同上。 在场景1中,我改了下 Flink 的源码,在

Re:回复: flink 如何自定义connector

2020-05-27 文章 forideal
] https://ci.apache.org/projects/flink/flink-docs-release-1.10/monitoring/debugging_classloading.html#x-cannot-be-cast-to-x-exceptions Best forideal 在 2020-05-28 10:16:45,"111" 写道: >Hi, >想要在sqlgateway里面使用,那么可以看看下面几个条件: >1 满足SPI的要求,能让flink自动发现实现类 >2 配置FLINK_HO

Flink Weekly | 每周社区动态更新 - 2020/05/14

2020-05-14 文章 forideal
forideal

Re:Re: Flink Buildin UDF 性能较慢

2020-04-27 文章 forideal
Hi Jark: Thanks for your replay! 1. 是基于哪个版本,哪个 planner 进行的测试? Flink 1.9.0 Blink Planner 2. 流计算模式还是批计算模式? 流计算模式 3. 你的自定义 UDAF 有注册成 "sum" 吗?能使用另一个名字,比如"mysum" 来避免可能的命名冲突吗? 注册的名字为 red_sum Best forideal 在 2020-04-28 11:13:50,"Jark Wu" 写道: >Hi,

Flink Buildin UDF 性能较慢

2020-04-27 文章 forideal
大家好: 我最近在使用 Flink SQL 做一些性能测试,我发现 Flink Buildin 的 Aggr 性能都很慢,比如 COUNT,LISTAGG 等等。 我采用自己写的 count 性能是 buildin 的 COUNT 的函数的两倍都不止。(各种窗口都测试过,不知道是不是我使用错误) SQL: select query_nor, sum(cast (1asbigint))as query_nor_counter from ods_search_track groupby query_nor,

Flink Weekly | 每周社区动态更新 - 2020/03/26

2020-03-26 文章 forideal
大家好,本文为 Flink Weekly 的第十期,由张成整理,主要内容包括:近期社区开发进展,邮件问题答疑以及社区直播和相关技术博客。 社区开发进展 [release] 关于发布 Flink 1.10.1 的讨论正在火热进行,最新消息请参考 Yu Li 发起的讨论。 [1]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-Releasing-Flink-1-10-1-td38689.html [Checkpoint] Arvid Heise 发起 FLIP-76

Flink Weekly | 每周社区动态更新 - 2020/03/14

2020-03-13 文章 forideal
大家好,本文为 Flink Weekly 的第八期,由张成整理,主要内容包括:近期社区开发进展,邮件问题答疑以及社区直播和相关技术博客。 社区开发进展 Yangze Guo 在 FLIP-108 中建议 Flink 支持对 GPU 的资源管理。 [1]http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-108-Add-GPU-support-in-Flink-tp38286.html 从 Flink 1.10.0 开始,Apache Flink 项目开始维护