Re: flink 批方式如何读取多路径文件或通配符文件

2020-04-26 文章 Jark Wu
抱歉,粘贴错 issue 了。 正确的链接是:https://issues.apache.org/jira/browse/FLINK-17398 On Mon, 27 Apr 2020 at 13:36, Jark Wu wrote: > FYI: the issue number is FLINK-17397 > > > 2020年4月27日 11:36,Jingsong Li 写道: > > > > FYI: > > 建了个ISSUE来支持通配符。 > > > > Best, > > Jingsong Lee > > > > On Mon, Apr 27, 2020 at 9:2

Re: flink 批方式如何读取多路径文件或通配符文件

2020-04-26 文章 Jark Wu
FYI: the issue number is FLINK-17397 > 2020年4月27日 11:36,Jingsong Li 写道: > > FYI: > 建了个ISSUE来支持通配符。 > > Best, > Jingsong Lee > > On Mon, Apr 27, 2020 at 9:29 AM Jingsong Li wrote: > >> Hi, >> >> 你是在用Dataset还是SQL? >> >> 如果是Dataset或是Datastream >> 先把文件筛选出来,然后FileInputFormat.setFilePaths? >> >

Re: FlinkSQL Upsert/Retraction 写入 MySQL 的问题

2020-04-26 文章 Leonard Xu
Hi,wanglei > INSERT INTO mysql_sink SELECT f1, count(*) FROM kafka_src GROUP BY f1 > 每从 kafka 过来一条新的记录,会生成两条记录 Tuple2, 旧的被删除,新的会添加上。 这是query是会一个会产生retract stream的query,可以简单理解成每条kafka的数据过来会产生两条记录,但是最终写入下游的系统 需要看下游的系统支持和实现的sink(现在有三种sink AppendStreamSink, UpsertStreamSink, RetractStreamSink) > 我

FlinkSQL Upsert/Retraction 写入 MySQL 的问题

2020-04-26 文章 wangl...@geekplus.com.cn
INSERT INTO mysql_sink SELECT f1, count(*) FROM kafka_src GROUP BY f1 每从 kafka 过来一条新的记录,会生成两条记录 Tuple2, 旧的被删除,新的会添加上。 但这个 Sink 到底是用到了 UpsertStream 还是 RetractStream 呢,怎么判断是 UpsertStream 还是 RetractStream 呢? 我看 https://github.com/apache/flink/tree/master/flink-connectors/flink-jdbc/src/main/ja

Re: FlinkSQL Upsert/Retraction 写入 MySQL 的问题

2020-04-26 文章 Leonard Xu
Hi, wanglei PLEASE use English when send mails to user(u...@flink.apache.org) mail list. You should send to to user-zh(user-zh@flink.apache.org) mail list, and I’m pleasure to answer the question here. Best, Leonard Xu > 在 2020年4月27日,12:14,wangl...@geekplus.com.cn 写道: > > > > INSERT INTO mys

Re: flink 1.10内存设置

2020-04-26 文章 Xintong Song
你好, Flink 1.10 对不同的内存类型进行了更精细的控制,明确了总内存中每种类型、用途的内存的大小。举个例子,如果简单考虑 TM 中有 heap, direct, native 三种内存类型,总内存大小是 300mb。在之前的版本中,可能是 heap 固定占用100mb,剩下 direct 和 native 共用 200mb。理论上,direct/native 可以分别占用 200/0, 100/100, 0/200,只要总大小不超过 200 即可。但是一旦出现超用,我们很难判断是 direct 还是 native 内存造成的。在 Flink 1.10 里,对 direct/nat

Re: flink 批方式如何读取多路径文件或通配符文件

2020-04-26 文章 Jingsong Li
FYI: 建了个ISSUE来支持通配符。 Best, Jingsong Lee On Mon, Apr 27, 2020 at 9:29 AM Jingsong Li wrote: > Hi, > > 你是在用Dataset还是SQL? > > 如果是Dataset或是Datastream > 先把文件筛选出来,然后FileInputFormat.setFilePaths? > > Best, > Jingsong Lee > > On Sun, Apr 26, 2020 at 10:01 PM 无痕 <95509...@qq.com> wrote: > >> HI ALL : >>

user-zh@flink.apache.org

2020-04-26 文章 Jingsong Li
能生效 Table中就是使用FlinkKafkaProducer的,它就是一个TwoPhaseCommitSinkFunction Best, Jingsong Lee On Mon, Apr 27, 2020 at 10:50 AM lec ssmi wrote: > Hi: >将TwoPhaseCommitSinkFunction 在TableAPI中的Sink实现,能够生效吗?看案例都是DataStream > API在使用。 > 谢谢。 > -- Best, Jingsong Lee

user-zh@flink.apache.org

2020-04-26 文章 lec ssmi
Hi: 将TwoPhaseCommitSinkFunction 在TableAPI中的Sink实现,能够生效吗?看案例都是DataStream API在使用。 谢谢。

flink 1.10????????

2020-04-26 文章 ??????(Jiacheng Jiang)
hi    ??standalone flinkjob??tm??8gflink1.10??taskmanager.memory.flink.size??10g??job??jobjava.lang.OutOfMemoryError: Direct buffer memory??1??job??Direct Mem

Re: Re: RichInputFormat 无法得到 查询参数

2020-04-26 文章 王双利
这个后来看了一下是没复写 expainSource(),应该是这个原因,不过这样用过滤的话,还是不能满足我的原始需求,只是想从源里面得到部分数据,避免结果集太大的问题 发件人: Jark Wu 发送时间: 2020-04-27 09:52 收件人: user-zh 主题: Re: Re: RichInputFormat 无法得到 查询参数 多谢回复。你能提供一个可复现的测试代码吗?这样我们可以帮你看下问题出在哪里。 Best, Jark On Mon, 27 Apr 2020 at 06:11, 王双利 wrote: > 1.10 版本 > blink planner

Re: sql 行转列

2020-04-26 文章 Jark Wu
> 这个执行的结果是 successct,failct总有一个是0,两个不能共存 你的测试集是什么样的呢?理论上如果测试集是: ip| t | status ip1 | 1 | success ip1 | 2 | failed ip1 | 3 | success ip1 | 4 | failed 那么出来的结果应该是 ip | succss sum | failed sum -- ip1| 4| 6 如果总有一个是0,那可能的原因是

Re: Re: RichInputFormat 无法得到 查询参数

2020-04-26 文章 Jark Wu
多谢回复。你能提供一个可复现的测试代码吗?这样我们可以帮你看下问题出在哪里。 Best, Jark On Mon, 27 Apr 2020 at 06:11, 王双利 wrote: > 1.10 版本 > blink planner > 是上面的query语句 > > 发件人: Jark Wu > 发送时间: 2020-04-26 23:47 > 收件人: user-zh > 主题: Re: Re: RichInputFormat 无法得到 查询参数 > 理论上是会调用的。 > > 1) 你的是的哪个版本?blink planner or old planner? > 2) 你的

Re: sql 行转列

2020-04-26 文章 Leonard Xu
Hi, FILTER是SQL标准里的语法,可以参考[1] FLINK SQL是支持该语法的,类似的例子官网文档可以参考 [2]中最后的例子 Best, Leonard Xu [1] https://modern-sql.com/feature/filter [2]https://ci.apache.org/projects/flink/flink-docs-master/zh/dev/table/tuning/streaming_aggregation_optimization.html

Re: flink 批方式如何读取多路径文件或通配符文件

2020-04-26 文章 Jingsong Li
Hi, 你是在用Dataset还是SQL? 如果是Dataset或是Datastream 先把文件筛选出来,然后FileInputFormat.setFilePaths? Best, Jingsong Lee On Sun, Apr 26, 2020 at 10:01 PM 无痕 <95509...@qq.com> wrote: > HI ALL : >      请问下,flink批方式如何读取多路径文件或通配符文件?如下: >            /abc/202004*/t1.data  > 读2020年4月所有t1.data文件; >            /abc/20

Re: [ANNOUNCE] Apache Flink 1.9.3 released

2020-04-26 文章 Jingsong Li
Thanks Dian for managing this release! Best, Jingsong Lee On Sun, Apr 26, 2020 at 7:17 PM Jark Wu wrote: > Thanks Dian for being the release manager and thanks all who make this > possible. > > Best, > Jark > > On Sun, 26 Apr 2020 at 18:06, Leonard Xu wrote: > > > Thanks Dian for the release a

Re: Re: RichInputFormat 无法得到 查询参数

2020-04-26 文章 王双利
1.10 版本 blink planner 是上面的query语句 发件人: Jark Wu 发送时间: 2020-04-26 23:47 收件人: user-zh 主题: Re: Re: RichInputFormat 无法得到 查询参数 理论上是会调用的。 1) 你的是的哪个版本?blink planner or old planner? 2) 你的 debug query 中有 where 表达式吗?是你上面那个 query 吗? On Sun, 26 Apr 2020 at 15:31, 王双利 wrote: > 主要原因是想在查询的时候直接从redis或者

Re: Re: sql 行转列

2020-04-26 文章 王双利
没找到 filter这个语法 王双利 发件人: Jark Wu 发送时间: 2020-04-26 23:50 收件人: user-zh 主题: Re: sql 行转列 Hi 如果我理解的没错,agg with filter 语法能满足你的需求。 select ip, sum(t) filter (where status = 'success') sum(t) filter (where status = 'fail') from view1 group by ip Best, Jark On Sun, 26 Apr 2020 at 20:56, Leon

Re: Re: sql 行转列

2020-04-26 文章 王双利
这个执行的结果是 successct,failct总有一个是0,两个不能共存 王双利 发件人: Benchao Li 发送时间: 2020-04-26 20:30 收件人: user-zh 主题: Re: sql 行转列 现在看起来你最开始发的SQL就可以做到你说的这个需求呀。 王双利 于2020年4月26日周日 下午6:47写道: > 原始存的是ip status 次数,status是成功或者失败,想达到的是统计一个ip的成功和失败次数,在一行里面显示 > > > | | > 王双利 > | > | > 邮箱:all...@163.com > | > >

Re: sql 行转列

2020-04-26 文章 Jark Wu
Hi 如果我理解的没错,agg with filter 语法能满足你的需求。 select ip, sum(t) filter (where status = 'success') sum(t) filter (where status = 'fail') from view1 group by ip Best, Jark On Sun, 26 Apr 2020 at 20:56, Leonard Xu wrote: > Hi, > > > select ip, > > case status when 'success' THEN sum(t) ELSE 0 end s

Re: Re: RichInputFormat 无法得到 查询参数

2020-04-26 文章 Jark Wu
理论上是会调用的。 1) 你的是的哪个版本?blink planner or old planner? 2) 你的 debug query 中有 where 表达式吗?是你上面那个 query 吗? On Sun, 26 Apr 2020 at 15:31, 王双利 wrote: > 主要原因是想在查询的时候直接从redis或者数据库中过滤一些数据,要不怕返回的数据太大了。 > > > > 发件人: 王双利 > 发送时间: 2020-04-26 14:55 > 收件人: user-zh > 主题: Re: Re: RichInputFormat 无法得到 查询参数 > > 无法调用

flink ????????????????????????????????????

2020-04-26 文章 ????
HI ALL ??      flink            /abc/202004*/t1.data  ??2020??4??t1.data??            /abc/20200401/t*.data ??2020??4??1t??      ??

Re: sql 行转列

2020-04-26 文章 Leonard Xu
Hi, > select ip, > case status when 'success' THEN sum(t) ELSE 0 end successct, > case status when 'fail' THEN sum(t) ELSE 0 end failct > from view1 > group by ip 这个 sql 应该ok的,看讨论也可以满足你的需求,是有报错吗?麻烦贴下报错和 view1的大致逻辑 Best, Leonard Xu

flink reduce becoming increasingly over time

2020-04-26 文章 XW Marvin
Hi All This My Coding: statDataStream .map(new InnerStatMap(logType)) .uid("InnerStatMap").name("InnerStatMap") .keyBy(new InnerKeySelector) .timeWindow(Time.seconds(statTimeWindow)) .reduce(new InnerStatReduce) .uid("InnerReduce").name("InnerReduce") .addSink(innerStatProducer)

Re: sql 行转列

2020-04-26 文章 Benchao Li
现在看起来你最开始发的SQL就可以做到你说的这个需求呀。 王双利 于2020年4月26日周日 下午6:47写道: > 原始存的是ip status 次数,status是成功或者失败,想达到的是统计一个ip的成功和失败次数,在一行里面显示 > > > | | > 王双利 > | > | > 邮箱:all...@163.com > | > > 签名由 网易邮箱大师 定制 > > 在2020年04月26日 18:14,王双利 写道: > 看到的例子,都是 对单行数据进行转行的,这种多行数据的,有相关例子吗? > > 发件人: Benchao Li > 发送时间: 2020-04-26 1

Re: [ANNOUNCE] Apache Flink 1.9.3 released

2020-04-26 文章 Jark Wu
Thanks Dian for being the release manager and thanks all who make this possible. Best, Jark On Sun, 26 Apr 2020 at 18:06, Leonard Xu wrote: > Thanks Dian for the release and being the release manager ! > > Best, > Leonard Xu > > > 在 2020年4月26日,17:58,Benchao Li 写道: > > Thanks Dian for the effor

?????? [????????] ?????????? & ??????????

2020-04-26 文章 i'mpossible
    @Benchao Li @Leonard Xu ?? --  -- ??: "Leonard Xu"https://ci.apache.org/projects/flink/flink-docs-stable/zh/dev/stream/state/state.html

回复:sql 行转列

2020-04-26 文章 王双利
原始存的是ip status 次数,status是成功或者失败,想达到的是统计一个ip的成功和失败次数,在一行里面显示 | | 王双利 | | 邮箱:all...@163.com | 签名由 网易邮箱大师 定制 在2020年04月26日 18:14,王双利 写道: 看到的例子,都是 对单行数据进行转行的,这种多行数据的,有相关例子吗? 发件人: Benchao Li 发送时间: 2020-04-26 17:31 收件人: user-zh 主题: Re: sql 行转列 Hi 双利, 在Flink里面行转列用的是Table Function,你可以参考下[1] 里面的 ”Joi

Re: Re: sql 行转列

2020-04-26 文章 Kurt Young
从你的原始sql看起来,我猜测你是想在做统计的时候,要套用一个过滤条件?从你的原始sql我没看出任何和“行转列”相关的迹象和需求,能否详细解释一下 Best, Kurt On Sun, Apr 26, 2020 at 6:20 PM Benchao Li wrote: > 你指的是多行转多行么?如果是的话,那你需要的应该是Table Aggregate Function[1],但是这个只能在Table Api里使用, > 在SQL里面没有这种语义可以直接使用。 > > [1] > > https://ci.apache.org/projects/flink/flink-docs-m

Re: Re: sql 行转列

2020-04-26 文章 Benchao Li
你指的是多行转多行么?如果是的话,那你需要的应该是Table Aggregate Function[1],但是这个只能在Table Api里使用, 在SQL里面没有这种语义可以直接使用。 [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/functions/udfs.html#table-aggregation-functions 王双利 于2020年4月26日周日 下午6:14写道: >看到的例子,都是 对单行数据进行转行的,这种多行数据的,有相关例子吗? > > 发件人: Bencha

Re: Re: sql 行转列

2020-04-26 文章 王双利
看到的例子,都是 对单行数据进行转行的,这种多行数据的,有相关例子吗? 发件人: Benchao Li 发送时间: 2020-04-26 17:31 收件人: user-zh 主题: Re: sql 行转列 Hi 双利, 在Flink里面行转列用的是Table Function,你可以参考下[1] 里面的 ”Join with Table Function (UDTF)“ 部分。 [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/sql/queries.html#joins 王双利

Re: [ANNOUNCE] Apache Flink 1.9.3 released

2020-04-26 文章 Leonard Xu
Thanks Dian for the release and being the release manager ! Best, Leonard Xu > 在 2020年4月26日,17:58,Benchao Li 写道: > > Thanks Dian for the effort, and all who make this release possible. Great > work! > > Konstantin Knauf mailto:konstan...@ververica.com>> > 于2020年4月26日周日 下午5:21写道: > Thanks fo

Re: [基础定义] 有状态计算 & 无状态计算

2020-04-26 文章 Leonard Xu
Hi, 状态计算,简单地理解一次计算依赖上一次的计算结果,状态理解为算子的中间结果, 比如benchao举例的window或者聚合算子就是有状态的,filter 这种算子就是无状态的。 1.10的中文文档还是非常详细的,可以参考CountWindowAverage这个例子[1] 祝好, Leonard Xu [1]https://ci.apache.org/projects/flink/flink-docs-stable/zh/dev/stream/state/state.html

Re: [ANNOUNCE] Apache Flink 1.9.3 released

2020-04-26 文章 Benchao Li
Thanks Dian for the effort, and all who make this release possible. Great work! Konstantin Knauf 于2020年4月26日周日 下午5:21写道: > Thanks for managing this release! > > On Sun, Apr 26, 2020 at 3:58 AM jincheng sun > wrote: > >> Thanks for your great job, Dian! >> >> Best, >> Jincheng >> >> >> Hequn Che

Re: sql 行转列

2020-04-26 文章 Benchao Li
Hi 双利, 在Flink里面行转列用的是Table Function,你可以参考下[1] 里面的 ”Join with Table Function (UDTF)“ 部分。 [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/sql/queries.html#joins 王双利 于2020年4月26日周日 下午5:19写道: > select ip, > case status when 'success' THEN sum(t) ELSE 0 end successct, > case sta

Re: [基础定义] 有状态计算 & 无状态计算

2020-04-26 文章 Benchao Li
Hi, 我尝试一下从一个场景来阐述一下状态的定义吧,这样容易理解一些。 比如我们要做一个窗口的聚合。那这个聚合的结果可以认为是一个中间状态,这个状态在窗口没有结束之前, 是不会输出到下游的。如果我们只是把这个状态放到内存里,那中间如果任务挂了,这个状态就丢了。 如果框架没有提供状态的能力,一般我们就会选择把这个中间结果存储到外部的kv系统(比如hbase)里,每当窗口内来了 一条数据,就更新一下这个结果,并且存储到外部的kv系统。这样子如果中间任务挂了,重启起来的时候我们还能 从外部kv系统里拿到这个状态继续计算,不会导致计算结果不准确。但是这个只是一定程度上缓解了中间结果的丢失 问题

sql 行转列

2020-04-26 文章 王双利
select ip, case status when 'success' THEN sum(t) ELSE 0 end successct, case status when 'fail' THEN sum(t) ELSE 0 end failct from view1 group by ip 这样不能行转列,有解决方案吗?

双流JOIN的源代码解读

2020-04-26 文章 xue...@outlook.com
DataStream 双流join时,看代码是使用CoGroupedStream的TaggedUnion,把T1,T2变成TaggedUnion统一对象后,union流后处理的,但是未找到如何处理UnionKeySelector unionKeySelector,即对T1.key.equals(T2.key)进行处理的代码在哪里,这个有人知道吗 ``` UnionTypeInfo unionType = new UnionTypeInfo<>(input1.getType(), input2.getType()); UnionKeySelector unionKeySelector

[????????] ?????????? & ??????????

2020-04-26 文章 i'mpossible
Hi??     ??     FlinkFlink?? ""?? ??     ??

Re: Re: RichInputFormat 无法得到 查询参数

2020-04-26 文章 王双利
主要原因是想在查询的时候直接从redis或者数据库中过滤一些数据,要不怕返回的数据太大了。 发件人: 王双利 发送时间: 2020-04-26 14:55 收件人: user-zh 主题: Re: Re: RichInputFormat 无法得到 查询参数 无法调用 applyPredicate 方法 刚才测试了一下 ,是在什么情况下会调用 applyPredicate 方法呢? 继承例子 如下 public class RedisStreamTableSource implements StreamTableSource, LookupableTableSource