flinksql维表join

2020-12-04 Thread leiyanrui
flinksql维表join之后不能做些过滤这样的操作吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: taskmanager.cpu.cores 1.7976931348623157E308

2020-12-04 Thread Rex Fenley
We're running this in a local environment so that may be contributing to what we're seeing. On Fri, Dec 4, 2020 at 10:41 PM Rex Fenley wrote: > Hello, > > I'm tuning flink for parallelism right now and when I look at the > JobManager I see > *taskmanager.cpu.cores* 1.7976931348623157E308 >

taskmanager.cpu.cores 1.7976931348623157E308

2020-12-04 Thread Rex Fenley
Hello, I'm tuning flink for parallelism right now and when I look at the JobManager I see *taskmanager.cpu.cores* 1.7976931348623157E308 Which looks like the maximum double number. We have 8 cpu cores, so we figured we'd bump to 16 for hyper threading. We have 37 operators so we rounded up and

Re: Broadcasting control messages to a sink

2020-12-04 Thread Jaffe, Julian
Hey AJ, Depending on your control messages and what you’re trying to accomplish you can simplify the application even further by stripping out the second broadcast and letting operator chaining guarantee that control messages flow appropriately. This results in ___

Re: Broadcasting control messages to a sink

2020-12-04 Thread aj
Hi Jafee, Can u please help me out with the sample code how you have written the custom sink and how you using this broadcast pattern to update schema at run time. It will help me. On Sat, Oct 17, 2020 at 1:55 PM Piotr Nowojski wrote: > Hi Julian, > > Glad to hear it worked! And thanks for

Flink 1.12 Release Preview Meetup

2020-12-04 Thread Ana Vasiliuk
Hi everyone! We'll be hosting a meetup on the upcoming Apache Flink 1.12 release on December 9. Join the Ask-Me-Anything (AMA) session with Aljoscha Krettek, Timo Walther, Stephan Ewen, Arvid Heise and Robert Metzger. The AMA will be live-streamed on Youtube (link TBA in the meetup groups

Re: 生产hive sql 迁移flink 11 引擎,碰到的问题

2020-12-04 Thread Rui Li
Hi, 目前加载HiveModule可以使用(大部分)hive内置函数,也能解决调用内置函数时的类型转换问题。不过更全面的语法兼容还需要等FLIP-152实现了才能支持,欢迎关注。 On Fri, Dec 4, 2020 at 8:44 PM Jark Wu wrote: > Hi, > > Flink SQL 1.11 暂时还不兼容 Hive SQL 语法。这个功能的设计,最近才在社区中讨论,预计1.13中支持。可以关注下这个 > design 的讨论: > > >

Re: flink 1.11.2写hive 2.1.1 orc 遇到的问题

2020-12-04 Thread Rui Li
Hi, 现在CDC的数据是没办法直接对接hive的,目前流式数据写hive只能是insert-only的。 On Fri, Dec 4, 2020 at 10:56 AM yang xu <316481...@qq.com> wrote: > Hi > 如果不支持ACID,那如果监听binlog日志的更新和删除操作需要另外写任务来处理么,如何才能做到真的批流统一 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ -- Best regards! Rui Li

Re: 动态表 Change Log 格式

2020-12-04 Thread Jark Wu
是完整的记录。 upsert kafka 就是这样子实现的,只存储最新镜像。 但是有的 query 是会产生 delete 消息的,所以有时候还是需要存下 delete,像 upsert kafka 里就存成了kafka 的 tombstone 消息。 Best, Jark On Fri, 4 Dec 2020 at 17:00, jie mei wrote: > Hi, Community > > Flink 动态表的 Change Log 会有四种消息(INSERT, UPDATE_BEFORE, UPDATE_AFTER, > DELETE). > 其中

Re: 为什么要关闭calcite的隐式转换功能

2020-12-04 Thread Jark Wu
社区已经开始 Hive query 语法兼容的设计讨论,可以关注下: http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-152-Hive-Query-Syntax-Compatibility-td46928.html Best, Jark On Fri, 4 Dec 2020 at 15:37, stgztsw wrote: > 我觉得既然社区准备兼容hive,隐式转换和其他hive的语法兼容还是必须的。实际生产环境里运行的hive >

Re: 生产hive sql 迁移flink 11 引擎,碰到的问题

2020-12-04 Thread Jark Wu
Hi, Flink SQL 1.11 暂时还不兼容 Hive SQL 语法。这个功能的设计,最近才在社区中讨论,预计1.13中支持。可以关注下这个 design 的讨论: http://apache-flink-mailing-list-archive.1008284.n3.nabble.com/DISCUSS-FLIP-152-Hive-Query-Syntax-Compatibility-td46928.html Best, Jark On Fri, 4 Dec 2020 at 11:45, 莫失莫忘 wrote: > 最近尝试把一个生产 hive sql

Re: SQL解析复杂JSON问题

2020-12-04 Thread Wei Zhong
是的,1.11想做JSON的自定义解析和映射只能在json format以外的地方进行了 > 在 2020年12月4日,17:19,李轲 写道: > > 如果1.11想做自定义解析和映射,只能通过udf么? > > 发自我的iPhone > >> 在 2020年12月4日,16:52,Wei Zhong 写道: >> >> Hi 你好, >> >> 这个取决于你使用的flink版本,1.11版本会自动从table schema中解析,而1.10版本如果table schema和json >> schema不是完全相同的话,需要手动写json-schema: >>

使用DataStream → IterativeStream → DataStream 方式做流关联

2020-12-04 Thread 163
想请教各位一个问题:目前有一个这样的需求: 两个事实流A 和B, 需要使用B 去关联A 。现在A的消息可能比B或早或晚达到,时间长度最长可能晚两天。 目前方案是:StreamA connect StreamB , 将A、B分别去对方的mapstate中去关联,关联上则下发,关联不上则写入自己的mapstate中,等待对方来关联。但是目前还是存在一些误差,猜测是 部分AB的消息同时到达同时写入自身的mapstate中,无法触发关联下发。 所以目前在想了另一个方案: 将 流A写入外部kv(tair)存储中,

Re: Problem with flink-orc and hive

2020-12-04 Thread Sivaprasanna
Let me try this out on my standalone Hive. I remember reading something similar on SO[1]. In this case, it was an external ORC generated by Spark and an external table was created using CDH. The OP answered referring to a community post[2] on Cloudera. It may be worth checking. [1]

Re: 回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 Thread bradyMk
对对对,可以取hashCode,我短路了,谢谢哈~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 Thread xuhaiLong
id 是字符串 走哈希取余试试看? 在2020年12月4日 18:12,502347601<502347...@qq.com> 写道: hello~不能按照keyId来keyby,这样state的个数也就10亿个了,checkpoint会有性能问题。你可以先求余一下,比如求余分成10组。类似这样keyid%10。 -- Original Message -- From: "bradyMk"; Date: 2020-12-04 18:05 To: "user-zh"; Subject: Re: re:Re:

Re: re:Re: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 Thread bradyMk
这样啊。。那请问如果id是字符串的话,有什么好办法去减少分组么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Problem with flink-orc and hive

2020-12-04 Thread Arvid Heise
For cross-referencing, here is the SO thread[1]. Unfortunately, I don't have a good answer for you, except try to align the ORC versions somehow. [1] https://stackoverflow.com/questions/65126074/orc-files-generated-by-flink-can-not-be-used-in-hive On Fri, Dec 4, 2020 at 9:00 AM Сергей Чернов

re:Re: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 Thread 502347601
hello~不能按照keyId来keyby,这样state的个数也就10亿个了,checkpoint会有性能问题。你可以先求余一下,比如求余分成10组。类似这样keyid%10。 -- Original Message -- From: "bradyMk"; Date: 2020-12-04 18:05 To: "user-zh"; Subject: Re: re:Re: 回复:一个关于实时合并数据的问题 所以您说的这个思路应该是和我上面说的是一样的了吧,根据10亿id做keyby,不会有什么问题么? -

Re: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 Thread bradyMk
所以您说的这个思路应该是和我上面说的是一样的了吧,根据10亿id做keyby,不会有什么问题么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 Thread 502347601
嗯嗯是的,所以你需要keyby下~ -- Original Message -- From: "bradyMk"; Date: 2020-12-04 17:58 To: "user-zh"; Subject: Re: 回复:一个关于实时合并数据的问题 Hi~ 可是MapState是只针对keyby后的流才能用啊 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:一个关于实时合并数据的问题

2020-12-04 Thread bradyMk
Hi~ 可是MapState是只针对keyby后的流才能用啊 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink 1.9Version State TTL parameter configuration it does not work

2020-12-04 Thread Andrey Zagrebin
Hi Yang, (redirecting this to user mailing list as this is not a dev question) I am not sure why the state loading is stuck after enabling the compaction filter but the background cleanup of RocksDB state with TTL will not work without activating the filter. This happens on RocksDB opening in

Re: flink-cdc 无法读出binlog,程序也不报错

2020-12-04 Thread Jark Wu
这个听起来不太合理。总得报个什么错 作业再失败吧。 或者TaskManager 的日志中有没有什么异常信息? On Fri, 4 Dec 2020 at 09:23, chenjb wrote: > > 谢谢老哥关注,我是int对应成bigint了,原以为bigint范围更大应该可以兼容,没认真看文档,然后mysql有错误日志但程序没报错,注意力就放mysql那边了。这两天试了下flink-cdc-sql发现有些有错误的场景不报错,比如连不上mysql(密码错误)也是程序直接退出exit > 0,没任何报错或提示,是还要设置什么吗?我是java小白,这块不是很懂 > > > > --

Re: SQL解析复杂JSON问题

2020-12-04 Thread 李轲
如果1.11想做自定义解析和映射,只能通过udf么? 发自我的iPhone > 在 2020年12月4日,16:52,Wei Zhong 写道: > > Hi 你好, > > 这个取决于你使用的flink版本,1.11版本会自动从table schema中解析,而1.10版本如果table schema和json > schema不是完全相同的话,需要手动写json-schema: >

????????????????????????????????

2020-12-04 Thread ????
hello?? id ?? id ?? keyby id mod ?? processFunction ?? MapState http://apache-flink.147419.n8.nabble.com/

动态表 Change Log 格式

2020-12-04 Thread jie mei
Hi, Community Flink 动态表的 Change Log 会有四种消息(INSERT, UPDATE_BEFORE, UPDATE_AFTER, DELETE). 其中 UPDATE_BEFORE 对应的是更新之前的完整记录,UPDATE_AFTER 对应的是更新之后的完整记录吗? 我的问题特意强调完整记录,是为了确认 Change Log 的内容是更新后的完整数据,而不是 Set A = 'a' 这样的操作日志/更新语句。 此外,Delete语句对应的数据是完整记录还是操作日志呢? 这意味着Table Sink的时候,只需要获得INSERT,

Re: SQL解析复杂JSON问题

2020-12-04 Thread Wei Zhong
Hi 你好, 这个取决于你使用的flink版本,1.11版本会自动从table schema中解析,而1.10版本如果table schema和json schema不是完全相同的话,需要手动写json-schema: https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/formats/json.html#data-type-mapping

一个关于实时合并数据的问题

2020-12-04 Thread bradyMk
想请教各位一个问题:目前有一个这样的需求: 数据流40W/s,数据有id,time,type等字段,id有10亿个,现在想30分钟内,同一个id的信息只保存一条,时间的话要用事件的事件,不能用处理的时间。 本人现在的思路是:根据id分组,然后做增量ck,状态信息存储每个id的最后的时间,然后每来一条数据会读取状态信息,然后做时间判断。但是发现这样做背压很高,数据消费很慢 请问各位,我这种思路是否可行?根据id分组会产生10亿个分组,这样会影响什么?还有其他更好的方法么? 谢谢各位解答疑惑! - Best Wishes -- Sent from:

Re: Flink1.9设置TTL不生效

2020-12-04 Thread Yang Peng
没人遇到这种问题吗? Yang Peng 于2020年12月3日周四 下午8:49写道: > Hi,咨询一个问题 我们生产环境使用flink1.9版本,使用的statebackend为RocksDB,具体代码设置如下: > > private static final String EV_STATE_FLAG = "EV_EID_FLAG"; > > StateTtlConfig ttlConfig = StateTtlConfig > .newBuilder(Time.minutes(60)) >

SQL解析复杂JSON问题

2020-12-04 Thread guaishushu1...@163.com
麻烦问下我已经在字段上面定了结构,还需要再写format.json-schema吗?CREATE TABLE user_log( id VARCHAR, timestam VARCHAR, user_info ROW(user_id string, name string ), jsonArray ARRAY ) WITH ( 'connector.type' = 'kafka', 'connector.version' = 'universal', 'connector.topic' = 'complex_string',

Problem with flink-orc and hive

2020-12-04 Thread Сергей Чернов
Hello,   My situation is following: * I write data in ORC format by Flink into HDFS: * I implements   Vectorizer   interface for processing my data and converting it into   VectorizedRowBatch *   I create   OrcBulkWriter: OrcBulkWriterFactory orcBulkWriterFactory = new