Re: ParquetTableSource在blink table planner下的使用问题

2020-02-17 Thread jun su
Wu 于2020年2月17日周一 下午5:03写道: > 排查了下,确实是个 bug,我开了个 issue 来跟进解决: > https://issues.apache.org/jira/browse/FLINK-16113 > > 当前的 workaround 可以将常量放到 selelct 中,比如 select a,b,'windows进程创建' from MyTable > where c = 'windows进程创建' > > Best, > Jark > > On Mo

Re: ParquetTableSource在blink table planner下的使用问题

2020-02-17 Thread Jark Wu
gt; https://issues.apache.org/jira/browse/FLINK-16113 >> >> 当前的 workaround 可以将常量放到 selelct 中,比如 select a,b,'windows进程创建' from MyTable >> where c = 'windows进程创建' >> >> Best, >> Jark >> >> On Mon, 17 Feb 2020 at 15:15, jun su wr

Re: ParquetTableSource在blink table planner下的使用问题

2020-02-17 Thread jun su
t; >>> 当前的 workaround 可以将常量放到 selelct 中,比如 select a,b,'windows进程创建' from >>> MyTable where c = 'windows进程创建' >>> >>> Best, >>> Jark >>> >>> On Mon, 17 Feb 2020 at 15:15, jun su wrote: >>> >>&g

Re: Blink对是否对迭代进行了优化?

2019-02-27 Thread Becket Qin
Blink 目前没有对迭代进行特别优化。不过Blink是基于社区1.5.1版本的,建议你用Flink 1.5.1版本测试一下看看是不是还是有区别。 On Thu, Feb 28, 2019 at 10:17 AM Dreamer <1762882...@qq.com> wrote: > 各位,我想请教一下,Blink是否对Flink的迭代进行了优化?如果优化了的话是对批处理进行的优化还是流计算进行的优化?主要采用了哪些优化技术? > > 我前两天用flink1.4.2和Blink自带的example中streaming中的Iteation例子进行了实验对比

Re: blink sql中如何清除state中的数据

2019-03-24 Thread Moxingxing Lei
B 可以带上一个 delete 的标记, join 之后用 where 过滤掉 492341344 于2019年3月25日周一 上午9:23写道: > 我觉得应该不行,原因有两点:1.淘汰时间设置多少不确定。2.会淘汰其他没有被delete的数据,但是这些数据很久没更新过。 > -- 原始邮件 -- > 发件人: "greemqqran"; > 发送时间: 2019年3月23日(星期六) 上午8:53 > 收件人: "492341344"; >

Re: Re: 请教一下Blink资源分配问题

2019-03-29 Thread 邓成刚【qq】
是的。 发件人: moxian 发送时间: 2019-03-29 17:06 收件人: user-zh 主题: Re: 请教一下Blink资源分配问题 standalone 模式?   邓成刚【qq】 于2019年3月29日周五 上午9:59写道:   > 请教一下Blink资源分配问题: > blink 任务并行度设置 20  提示0个满足:Batch request 40 slots, but only 0 are fulfilled. > 调整到 3 并行度 提示:Batch request 6 slots, but only 4 are fulfilled

Re: Re: 请教一下Blink资源分配问题

2019-03-29 Thread Guowei Ma
用的什么api,DataStream还是Table? 如果是DataStream的话,申请什么样的资源? 详细列下。 Best, Guowei 邓成刚【qq】 于2019年3月29日周五 下午5:09写道: > 是的。 > > 发件人: moxian > 发送时间: 2019-03-29 17:06 > 收件人: user-zh > 主题: Re: 请教一下Blink资源分配问题 > standalone 模式? > > 邓成刚【qq】 于2019年3月29日周五 上午9:59写道: > > > 请教一下B

Re: Re: 请教一下Blink资源分配问题

2019-03-29 Thread 邓成刚【qq】
c3742a90378a264341e8d1a573c67535.   发件人: Guowei Ma 发送时间: 2019-03-29 17:12 收件人: user-zh 主题: Re: Re: 请教一下Blink资源分配问题 用的什么api,DataStream还是Table? 如果是DataStream的话,申请什么样的资源? 详细列下。   Best, Guowei     邓成刚【qq】 于2019年3月29日周五 下午5:09写道:   > 是的。 > > 发件人: moxian > 发送时间: 2019-03-29 17:06 > 收件人: user-zh > 主题:

Re: Re: 请教一下Blink资源分配问题

2019-03-29 Thread Guowei Ma
; ResourceProfile{cpuCores=0.6, heapMemoryInMB=96, directMemoryInMB=0, > nativeMemoryInMB=0, networkMemoryInMB=2, MANAGED_MEMORY_MB=0.0, > FLOATING_MANAGED_MEMORY_MB=0.0} for job e40415828bbe184dc051e422e85e98c3 > with allocation id c3742a90378a264341e8d1a573c67535. > > > 发件人: Gu

blink提交yarn卡在一直重复分配container

2019-04-07 Thread 苏 欣
我以per-job方式提交了一个作业到yarn上面,发现会出现不断重复分配container的现象。 现象为从yarn的web ui上看一瞬间tm的container分配成功了,但是立刻变为只剩一个jm的container,接着会继续分配tm的container。不断的重复这个过程直到作业调度不到资源而失败。 我查了一下exit code没找到31代表是什么意思,有没有大佬帮忙分析下,非常感谢! [cid:image003.png@01D4EDF4.496DE910] 发送自 Windows 10 版邮件

回复:blink 版本 消费kafka 看不到group id

2019-06-24 Thread 雷水鱼
问题实际上就是在kafka server 那里看不到消费者组,也就是group id , 表现出来的现象就是就是flink重启后,根本就没有按上次的offset开始继续消费 也就是之前flink,一直都没有提交过offset,也看不到消费者组, 可以用blink那个版本的pom测试一下 -- 发件人:Biao Liu 发送时间:2019年6月25日(星期二) 12:10 收件人:user-zh ; 雷水鱼 主 题:Re: blink 版本 消费kafka

Re:回复: Re: flink1.9 blink planner table ddl 使用问题

2019-08-26 Thread hb
kafka版本是 kafka_2.11-1.1.0, 支持的kafka版本有哪些 在 2019-08-26 14:23:19,"pengcheng...@bonc.com.cn" 写道: >检查一下代码的kafka版本,可能是这方面的错误 > > > >pengcheng...@bonc.com.cn > >发件人: hb >发送时间: 2019-08-26 15:14 >收件人: user-zh >主题: Re:Re: flink1.9 blink planner table ddl 使用问题 >

Re:Re:回复: Re: flink1.9 blink planner table ddl 使用问题

2019-08-26 Thread hb
感谢,解决了, 指定 'connector.version' = '0.11' 就可以了. Blink SQL这方面的官方资料和文档好少啊,开发容易遇到问题. 在 2019-08-26 14:26:15,"hb" <343122...@163.com> 写道: >kafka版本是 kafka_2.11-1.1.0, >支持的kafka版本有哪些 >在 2019-08-26 14:23:19,"pengcheng...@bonc.com.cn" 写道: >>

Re: flink1.9中关于blink的文档在哪看呀

2019-08-26 Thread Zili Chen
Blink 的文档应该都在 [1] 了,并没有跟着 Flink 版本变化而变化的意思呀(x Best, tison. [1] https://github.com/apache/flink/blob/blink/README.md rockey...@163.com 于2019年8月27日周二 上午10:18写道: > > hi,all > flink1.9中关于blink的文档在哪看呀?找了半天找不到 0.0 > > > rockey...@163.com > Have a good day ! >

Re: flink1.9中关于blink的文档在哪看呀

2019-08-26 Thread Jark Wu
Blink 合并到 flink 后,是作为一种 planner 的实现存在,所以文档是和 flink 在一起的。 如何使用 blink planner,可以看这里:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/common.html#create-a-tableenvironment <https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/common.html#creat

Re:回复: Flink 1.9 Blink planner 时间字段问题

2019-09-05 Thread hb
实际应用中, 时间字段最常用的就是Long类型的毫秒时间戳, 难道这个不支持么. 在 2019-09-05 14:06:08,"pengcheng...@bonc.com.cn" 写道: >FLINK 应该不能把输入的eventTime的long类型转成SQL_TIMESTAMP类型 > > >发件人: hb >发送时间: 2019-09-05 14:24 >收件人: user-zh >主题: Flink 1.9 Blink planner 时间字段问题 >代码里定义了kafka connectorDesc

使用Flink 1.10 blink planner写ES的异常问题

2020-02-14 Thread sunfulin
Hi, 我使用Flink 1.10,开启了Blink Planner,在尝试写入ES且使用UpsertMode时(sql就是insert into table select xxx group by x),抛出了如下异常: 我通过DDL尝试定义一个ESTableSink,且声名primary key时,运行时又说Primary key和unique key目前不支持。。那这就是个悖论啊。。真的不科学。 关键问题:我切换回使用老的planner时,是没问题的。。这可能是Blink Planner的bug么?真心请教

blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗?

2019-03-25 Thread 陈韬
blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗? 谢谢

Re: blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗?

2019-03-25 Thread Jark Wu
blink 文档的地址: https://flink-china.org/doc/blink On Tue, 26 Mar 2019 at 09:14, 蒋晓峰 wrote: > 你可以看看这份文档: > https://files.alicdn.com/tpsservice/4824447b829149c86bedd19424d05915.pdf > > > > 在2019年03月26日 08:52,邓成刚【qq】 写道: > 看一下这里,是不是你想要的。。。 > http://fetching118.com/article/5.ht

回复: blink sql中如何清除state中的数据

2019-03-22 Thread greemqqran
用时间淘汰可行不? 发自vivo智能手机 > 你好,实时数仓中A,B两个表join,如果A是一条带有delete操作的数据过来,与B表中的某条数据能join上, > 请问怎么把A表中state存的那条数据清除掉,不清除的话,如果B表中来一条数据就能跟A那条delete的数据 > join上,我想要的是不能join上。

请教大佬们,blink提交yarn集群的问题

2019-04-02 Thread 苏 欣
我在fink-conf.yaml文件中配置了principal和keytab,可以提交到带有kerberos认证的yarn集群中,现在我有两个问题: 1.同一客户机切换到不同的yarn集群时,提交作业之前需要改变HADOOP_CONF_DIR,krb5.conf和fink-conf.yaml的配置。这样做有点不太方便,也不太好处理同时提交的问题。 blink目前能否通过提交命令传参的方式来切换票据,或者有没有什么使用上的建议呢? 2.我看到文档上说,缓存票据目前只支持在yarn上的独立集群,这句话的意思是指目前缓存票据只能用在flink yarn session模式中吗? 发送自

Re: blink提交yarn卡在一直重复分配container

2019-04-07 Thread Zili Chen
你好,apache 的邮件列表不支持内嵌图片,请以附件或链接方式引用。 Best, tison. 苏 欣 于2019年4月8日周一 上午10:17写道: > 我以per-job方式提交了一个作业到yarn上面,发现会出现不断重复分配container的现象。 > > 现象为从yarn的web ui上看一瞬间tm的container分配成功了,但是立刻变为只剩一个jm的container,接着会继续分配tm的 > container。不断的重复这个过程直到作业调度不到资源而失败。 > > 我查了一下exit code没找到31代表是什么意思,有没有大佬帮忙分析下,非常感谢! > >

Re: Re:回复: Re: flink1.9 blink planner table ddl 使用问题

2019-08-27 Thread 徐骁
这部分有文档吗,看了好几圈没看到 hb <343122...@163.com> 于2019年8月26日周一 下午3:34写道: > 感谢,解决了, 指定 'connector.version' = '0.11' 就可以了. > Blink SQL这方面的官方资料和文档好少啊,开发容易遇到问题. > > 在 2019-08-26 14:26:15,"hb" <343122...@163.com> 写道: > >kafka版本是 kafka_2.11

Re: 使用Flink 1.10 blink planner写ES的异常问题

2020-02-15 Thread Jark Wu
Hi sunfulin, 这个异常是说通过 query 推断不出 query 的 primary key,不是说 sink 没有 primary key。至于为什么 query 推断不出 pk,可能要结合 query 看一下。 我看到你在 user@ 里面也发邮件了,我已经在那下面回复了,我们要不在 user@ 邮件下面继续讨论吧。可以将你们的 SQL 补充一下,包括 DDL。 Best, Jark On Fri, 14 Feb 2020 at 23:03, sunfulin wrote: > Hi, > 我使用Flink 1.10,开启了Blink Planner

Re:Re: 使用Flink 1.10 blink planner写ES的异常问题

2020-02-15 Thread sunfulin
DL。 > >Best, >Jark > >On Fri, 14 Feb 2020 at 23:03, sunfulin wrote: > >> Hi, >> 我使用Flink 1.10,开启了Blink Planner,在尝试写入ES且使用UpsertMode时(sql就是insert into >> table select xxx group by x),抛出了如下异常: >> 我通过DDL尝试定义一个ESTableSink,且声名primary key时,运行时又说Primary key和uni

回复: blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗?

2019-03-25 Thread 邓成刚【qq】
看一下这里,是不是你想要的。。。 http://fetching118.com/article/5.html 邓成刚【qq】 发件人: 陈韬 发送时间: 2019-03-26 08:20 收件人: user-zh 主题: blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗? blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗? 谢谢

回复:blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗?

2019-03-25 Thread 蒋晓峰
你可以看看这份文档: https://files.alicdn.com/tpsservice/4824447b829149c86bedd19424d05915.pdf 在2019年03月26日 08:52,邓成刚【qq】 写道: 看一下这里,是不是你想要的。。。 http://fetching118.com/article/5.html 邓成刚【qq】 发件人: 陈韬 发送时间: 2019-03-26 08:20 收件人: user-zh 主题: blink文档编译失败。有编译好的发布版本的blink文档,可以共享个访问地址吗? blink文档编译失败。有编译好的发布版本的

blink planner里的Scala代码,未来会由Java改写吗?

2021-04-01 Thread Luna Wong
目前blink planner中有大量Scala代码,Scala在这方面写起来确实简单不少。未来不需要用Java重写是吗?

Re: flink 1.11.2 如何获取blink计划下的BatchTableEnvironment对象

2020-11-08 Thread Danny Chan
> > BatchTableEnvironment 环境 是说 BatchTableEnvironment 对象吗 Asahi Lee <978466...@qq.com> 于2020年11月9日周一 上午10:48写道: > 你好! >       我使用的是flink 1.11.2版本,官网的文档中说明blink的batch执行环境以如下方式获取: > // ** // BLINK BATCH QUERY //

Re: flink 1.11.2 如何获取blink计划下的BatchTableEnvironment对象

2020-11-09 Thread Danny Chan
"user-zh" > < > danny0...@apache.org>; > 发送时间: 2020年11月9日(星期一) 中午12:34 > 收件人: "user-zh" > 主题: Re: flink 1.11.2 如何获取blink计划下的BatchTableEnvironment对象 > > > > > > > Bat

Re: flink 1.11.2 如何获取blink计划下的BatchTableEnvironment对象

2020-11-15 Thread Danny Chan
-- > 发件人: > "user-zh" > < > danny0...@apache.org>; > 发送时间: 2020年11月10日(星期二) 下午2:43 > 收件人: "user-zh" > 主题: Re: flink 1.11.2 如何获取bl

结邮 Re: Re: 请教一下Blink资源分配问题

2019-03-29 Thread 邓成刚【qq】
终于发现是什么问题了,是由于Blink的 配置与FLINK不同导致: Flink 里没有这个配置:  taskmanager.cpu.core  默认是   1    另外:blink 里 taskmanager.heap.mb   与 flink 的 taskmanager.heap.size  不同导致    taskmanager.heap 配置过小,默认1G 之前错误的配置: # The heap size for the JobManager JVM jobmanager.heap.size: 20480m # The heap size for the

答复: blink提交yarn卡在一直重复分配container

2019-04-08 Thread 苏 欣
;mailto:user-zh@flink.apache.org> 主题: Re: blink提交yarn卡在一直重复分配container 你好,apache 的邮件列表不支持内嵌图片,请以附件或链接方式引用。 Best, tison. 苏 欣 于2019年4月8日周一 上午10:17写道: > 我以per-job方式提交了一个作业到yarn上面,发现会出现不断重复分配container的现象。 > > 现象为从yarn的web ui上看一瞬间tm的container分配成功了,但是立刻变为只剩一个jm的container,接着会继续分配tm的 > c

如何限制blink中资源使用上限(perjob模式)

2019-10-19 Thread 蒋涛涛
Hi all, 我在使用blink提交的任务的时候(perjob模式),如何限制任务的资源使用上限啊,有个任务使用yarn的vcores特别多 曾使用: 1. taskmanager.multi-slots.max.cpu.core 2. taskmanager.cpu.core 3. taskmanager.capacity.cpu.core 这些参数都是无效 如何在perjob模式下控制住资源的使用上限? 祝好

求助帖:flink tpc-ds中加入blink的runtime filter问题

2020-01-16 Thread zhaoyunpython . d . 1

Blink模式下运用collect方法快速获取结果

2020-04-23 Thread jun su
hi all, blink模式下没法将table 转为 dataset , 所以如果直接collect了, 请问有类似方法可以获取到 结果用于代码调试么? -- Best, Jun Su

​请问是否有计划合并blink gemini到flink的计划

2022-07-13 Thread 蔡荣
看到一篇文章《数据处理能力相差 2.4 倍?Flink 使用 RocksDB 和 Gemini 的性能对比实验》, https://developer.aliyun.com/article/770793, 请问是否有计划合并gemini到flink的计划?

Blink 1.11 create view是不是没有办法把rowtime带下去?

2020-11-15 Thread 周虓岗
通过table api的// declare an additional logical field as an event time attribute Tabletable=tEnv.fromDataStream(stream,$("user_name"),$("data"),$("user_action_time").rowtime()"); 可以把eventtime往后传, 如果使用createview的话怎么把这个time attribute往后带吗? 不往后传的话可能会 这个有什么方法吗?

blink开源版本维表关联时开启缓存方式

2019-03-27 Thread 苏 欣
我在ppt里面看到这些内容,但是在开源的blink里面没有找到相关的配置,请问各位老师应该如何开启缓存策略? [cid:image001.png@01D4E4BC.02091040] 发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用

Re: 结邮 Re: Re: 请教一下Blink资源分配问题

2019-03-29 Thread Kurt Young
Blink是基于Flink 1.5.1做的二次开发,可能存在部分配置和最新版Flink不一致的情况。Sorry 让你踩坑了。 Best, Kurt On Fri, Mar 29, 2019 at 5:52 PM 邓成刚【qq】 wrote: > 终于发现是什么问题了,是由于Blink的 配置与FLINK不同导致: > Flink 里没有这个配置: taskmanager.cpu.core 默认是 1 > > 另外:blink 里 taskmanager.heap.mb 与 flink 的 taskmanager.hea

Re: 如何限制blink中资源使用上限(perjob模式)

2019-10-20 Thread Xintong Song
你好, blink perjob模式是根据job的资源需求按需申请资源的,不能限制整个job的资源上限。 你列出来的这几个参数,只能控制单个TM的资源上限,但是单个TM的资源上限减少了,整个job的资源需求并不会变,只是会申请更多的TM。 Thank you~ Xintong Song On Sat, Oct 19, 2019 at 3:56 PM 蒋涛涛 wrote: > Hi all, > > 我在使用blink提交的任务的时候(perjob模式),如何限制任务的资源使用上限啊,有个任务使用yarn的vcores特别多 &

Re: Blink模式下运用collect方法快速获取结果

2020-04-23 Thread jun su
于2020年4月24日周五 下午2:05写道: > hi all, > > blink模式下没法将table 转为 dataset , 所以如果直接collect了, 请问有类似方法可以获取到 > 结果用于代码调试么? > > -- > Best, > Jun Su > -- Best, Jun Su

Re: Blink模式下运用collect方法快速获取结果

2020-04-24 Thread Jingsong Li
e) > > val res = tEnv.execute("test") > val accResult: JArrayList[Array[Byte]] = res.getAccumulatorResult(id) > SerializedListAccumulator.deserializeList(accResult, typeSerializer) > } > > > jun su 于2020年4月24日周五 下午2:05写道: > > > hi all, > > >

Re: Blink模式下运用collect方法快速获取结果

2020-04-24 Thread jun su
: JArrayList[Array[Byte]] = res.getAccumulatorResult(id) > > SerializedListAccumulator.deserializeList(accResult, typeSerializer) > > } > > > > > > jun su 于2020年4月24日周五 下午2:05写道: > > > > > hi all, > > > > > > blink模式下没法将table 转为 dataset , 所以如果直接collect了, 请问有类似方法可以获取到 > > > 结果用于代码调试么? > > > > > > -- > > > Best, > > > Jun Su > > > > > > > > > -- > > Best, > > Jun Su > > > > > -- > Best, Jingsong Lee > -- Best, Jun Su

Re: ​请问是否有计划合并blink gemini到flink的计划

2022-07-13 Thread Hangxiang Yu
你好,是从阿里云产品的Blink迁移到Flink吗?这个迁移过程可以参考[1],Gemini在“实时计算Flink版”中的介绍和使用方式可以参考[2][3]。 关于合并到社区,短期内没有相关计划。 [1] https://help.aliyun.com/document_detail/421043.html [2] https://help.aliyun.com/document_detail/414255.html [3] https://help.aliyun.com/document_detail/414256.html Best, Hangxiang. On Wed, Jul

Re: ​请问是否有计划合并blink gemini到flink的计划

2022-07-13 Thread Yuan Mei
目前Gemini只用在 ververica platform 中作为 aliyun 商业化版本的 default statebackend 使用,短期还是会以提升 Gemini 更方面性能为主,后续会逐步将主要部分开源的。 Best Yuan On Wed, Jul 13, 2022 at 6:10 PM Hangxiang Yu wrote: > > 你好,是从阿里云产品的Blink迁移到Flink吗?这个迁移过程可以参考[1],Gemini在“实时计算Flink版”中的介绍和使用方式可以参考[2][3]。 > 关于合并到社区,短期内没有相关计划。 >

Re:Re: ​请问是否有计划合并blink gemini到flink的计划

2022-07-13 Thread mack143
退订 在 2022-07-13 19:14:02,"Yuan Mei" 写道: >目前Gemini只用在 ververica platform 中作为 aliyun 商业化版本的 default statebackend >使用,短期还是会以提升 Gemini 更方面性能为主,后续会逐步将主要部分开源的。 > >Best >Yuan > >On Wed, Jul 13, 2022 at 6:10 PM Hangxiang Yu wrote: > >> >> 你好,是从阿里云产品的Blink迁移到

Re:Re: ​请问是否有计划合并blink gemini到flink的计划

2022-07-13 Thread 蔡荣
谢谢回复 在 2022-07-13 19:14:02,"Yuan Mei" 写道: >目前Gemini只用在 ververica platform 中作为 aliyun 商业化版本的 default statebackend >使用,短期还是会以提升 Gemini 更方面性能为主,后续会逐步将主要部分开源的。 > >Best >Yuan > >On Wed, Jul 13, 2022 at 6:10 PM Hangxiang Yu wrote: > >> >>

Re: blink开源版本维表关联时开启缓存方式

2019-03-28 Thread Kurt Young
Hi, Blink开源的时候把Cache的实现暂时拿掉了,你可以根据自己的需要自己实现一个cache。 Best, Kurt On Wed, Mar 27, 2019 at 4:44 PM 苏 欣 wrote: > 我在ppt里面看到这些内容,但是在开源的blink里面没有找到相关的配置,请问各位老师应该如何开启缓存策略? > > > > 发送自 Windows 10 版邮件 <https://go.microsoft.com/fwlink/?LinkId=550986>应用 > > >

Re: blink开源版本维表关联时开启缓存方式

2019-03-29 Thread moxian
这么好的一个优化,为啥被拿掉了呢? Kurt Young 于2019年3月29日周五 上午9:39写道: > Hi, > > Blink开源的时候把Cache的实现暂时拿掉了,你可以根据自己的需要自己实现一个cache。 > > Best, > Kurt > > > On Wed, Mar 27, 2019 at 4:44 PM 苏 欣 wrote: > > > 我在ppt里面看到这些内容,但是在开源的blink里面没有找到相关的配置,请问各位老师应该如何开启缓存策略? >

Re: blink开源版本维表关联时开启缓存方式

2019-03-29 Thread Kurt Young
当时没有想清楚如何把Cache当成一个public的接口向外提供,它更像是一些实现上的特定优化。 后续我们在flink master上实现维表join的时候,会把这个问题考虑进去。 Best, Kurt On Fri, Mar 29, 2019 at 5:09 PM moxian wrote: > 这么好的一个优化,为啥被拿掉了呢? > > Kurt Young 于2019年3月29日周五 上午9:39写道: > > > Hi, > > > > Blink开源的时候把Cache的实现暂时拿掉了,你可以根据

回复: 答复: blink提交yarn卡在一直重复分配container

2019-04-08 Thread 苏 欣
sean...@live.com 发件人: 苏 欣<mailto:sean...@live.com> 发送时间: 2019-04-09 10:30 收件人: user-zh@flink.apache.org<mailto:user-zh@flink.apache.org> 主题: 答复: blink提交yarn卡在一直重复分配container 不好意思,已补充yarn的日志文件。 出现问题的原因我已经找到了,在配置flink-conf.yaml中的下面三项后,

Re: blink(基于flink1.5.1版本)可以使用两个hadoop集群吗?

2020-01-26 Thread Yun Tang
/yarn_setup.html#background--internals 祝好 唐云 From: Yong Sent: Wednesday, January 22, 2020 14:53 To: dev ; user-zh Subject: blink(基于flink1.5.1版本)可以使用两个hadoop集群吗? 大家好,     flink可以使用两个hadoop集群吗? 背景如下:     目前我这边基于blink搭建了flink standalone集群,状态存储使用公司的hadoop hdfs 并且使用了

答复: blink开源版本维表关联时开启缓存方式

2019-03-29 Thread 苏 欣
感谢大佬解答,我尝试了一下已经基本实现了缓存。期待能早日用上flink原生的维表缓存功能😆 发送自 Windows 10 版邮件<https://go.microsoft.com/fwlink/?LinkId=550986>应用 发件人: Kurt Young 发送时间: Friday, March 29, 2019 5:33:57 PM 收件人: user-zh@flink.apache.org 主题: Re: blink开源版本维表关联时开启缓存方式 当时没有想清楚如何把Cache当成一个p

【反馈收集】在 1.11 版本中将 blink planner 作为默认的 planner

2020-03-31 Thread Kurt Young
大家好, 正如大家所知,Blink planner 是 Flink 1.9 版本中引入的一个全新的 Table API 和 SQL 的翻译优化 器,并且我们已经在 1.10 版本中将其作为 SQL CLI 的默认 planner。由于社区很早就已经决定不再 针对老的优化器去增添任何新的功能,所以从功能和性能上来说,老的 flink planner 已经缺了很多 现在社区最新的 SQL 相关的功能,比如新的类型系统,更多的DDL的支持,以及即将在 1.11 发布 的新的 TableSource 和 TableSink 接口和随之而来的对 Binlog 类日志的解析。 因此我们打算尝试在接

[Blink]使用 CsvTableSource 做维度表,在 csv 文件修改后无法更新

2019-02-25 Thread 龙逸尘
Hi all, 我正在测试 Blink 的维度表 join 功能,参考 blink doc 上的案例,使用 CsvTableSource 做维度表,指定了 csv 文件路径。启动 flink 程序后,修改指定的 csv 文件,但是更新无法同步到已注册的维度表中。请问有什么解决办法吗? 另外想咨询下,如果想自己定义维度表的数据源,应该实现那些方法,有哪些注意事项?感谢!

求助,blink资源配置的问题,为什么资源还不足啊。。。

2019-04-04 Thread 邓成刚【qq】
求助,blink资源配置的问题,为什么资源还不足啊。。。 盼回复,谢谢! 为什么 2019-04-04 17:49:32,495 INFO   org.apache.flink.runtime.jobmaster.slotpool.SlotPool          - Requesting slot with profile ResourceProfile{cpuCores=26.44, heapMemoryInMB=4144, directMemoryInMB=0, nativeMemoryInMB=0, networkMemoryInMB=101

Re: Blink在Hive表没有统计信息的情况下如何优化

2019-05-27 Thread Kurt Young
没有统计信息确实很难生成比较靠谱的执行计划,这也是之前很多DBA的工作 ;-) 你可以试试以下以下操作: 1. 如果是join顺序不合理,可以手动调整sql中的join顺序,并且关闭join reorder 2. 看看fail的具体原因,如果是个别比较激进的算子表现不好,比如HashAggregate、HashJoin,你可以手动禁止掉这些算子,选择性能稍差但可能执行起来更稳健的算子,比如SortMergeJoin 这是我拍脑袋想的,具体的建议你先分析一下SQL为什么会fail,然后贴出具体的问题来。 另外,我们正在开发SQL hint功能,可以有效缓解类似问题。 Best, Kur

Re: Blink在Hive表没有统计信息的情况下如何优化

2019-05-28 Thread Kurt Young
你先试试把HashJoin这个算子禁用看看,TableConfig里添加这个配置 sql.exec.disabled-operators: HashJoin Best, Kurt On Tue, May 28, 2019 at 3:23 PM bigdatayunzhongyan < bigdatayunzhong...@aliyun.com> wrote: > 感谢 @Kurt Young 大神的回复,报错信息在附件。谢谢! > > > 在2019年05月28日 14:10,Kurt Young 写道: > > 没有统计信息确实很难生成比较靠谱的执行计划,这也是之前很多DBA的

Re: 【反馈收集】在 1.11 版本中将 blink planner 作为默认的 planner

2020-04-03 Thread Kurt Young
题 > -- 原始邮件 -- > 发件人: "Kurt Young" 发送时间: 2020年4月1日(星期三) 上午9:22 > 收件人: "user-zh" > 主题: 【反馈收集】在 1.11 版本中将 blink planner 作为默认的 planner > > > > 大家好, > > 正如大家所知,Blink planner 是 Flink 1.9 版本中引入的一个全新的 Table API 和 SQL 的翻译优化 > 器,并且我们已经在

Re: [Blink]使用 CsvTableSource 做维度表,在 csv 文件修改后无法更新

2019-02-25 Thread Dian Fu
CSVTableSource不支持动态更新。自定义维表可以实现LookupableTableSource接口 > 在 2019年2月25日,下午11:51,龙逸尘 写道: > > Hi all, > 我正在测试 Blink 的维度表 join 功能,参考 blink doc 上的案例,使用 CsvTableSource 做维度表,指定了 > csv 文件路径。启动 flink 程序后,修改指定的 csv 文件,但是更新无法同步到已注册的维度表中。请问有什么解决办法吗? >另外想咨询下,如果想自己定义维度表的数据源,应该实现那些方法,有哪些注意事项?感谢!

Re: [Blink]使用 CsvTableSource 做维度表,在 csv 文件修改后无法更新

2019-02-25 Thread Jark Wu
Hi, Csv 维表主要拿来测试用的,不支持动态更新。blink中的hbase也支持维表,可以试下。 Best, Jark On Tue, 26 Feb 2019 at 09:21, Dian Fu wrote: > CSVTableSource不支持动态更新。自定义维表可以实现LookupableTableSource接口 > > > > 在 2019年2月25日,下午11:51,龙逸尘 写道: > > > > Hi all, > >我正在测试 Blink 的维度表 join 功能,参考 blink d

Re: 求助,blink资源配置的问题,为什么资源还不足啊。。。

2019-04-08 Thread Biao Liu
Hi,可以提供更详细的信息吗?例如 1. 版本号 2. 完整的日志 3. 完整的集群配置文件 4. 集群是 on YARN 还是 standalone? 启动集群命令? 5. 完整的 job 信息?启动 job 的命令? 邓成刚【qq】 于2019年4月4日周四 下午6:13写道: > 求助,blink资源配置的问题,为什么资源还不足啊。。。 > 盼回复,谢谢! > > 为什么 > > 2019-04-04 17:49:32,495 INFO > org.apache.flink.runtime.jobmas

回复: Blink在Hive表没有统计信息的情况下如何优化

2019-05-28 Thread bigdatayunzhongyan
org.apache.flink.runtime.io.network.netty.exception.RemoteTransportException: Fatal error at remote task manager '/xx:14941'. at org.apache.flink.runtime.io.network.netty.CreditBasedPartitionRequestClientHandler.decodeMsg(CreditBasedPartitionRequestClientHandler.java:276) at

flink1.9 Blink sql 丢失主键+去重和时态表联合使用吞吐量低

2020-05-10 Thread 宇张
hi、 我这面使用flink1.9的Blink sql完成数据转换操作,但遇到如下问题: 1、使用row_number函数丢失主键 2、row_number函数和时态表关联联合使用程序吞吐量严重降低,对应sql如下: // 理论上这里面是不需要 distinct的,但sql中的主键blink提取不出来导致校验不通过,所以加了一个 SELECT distinct t1.id as order_id,...,DATE_FORMAT(t1.proctime,'-MM-dd HH:mm:ss') as etl_time FROM (select id,...,pro

Re: flink1.9 Blink sql 丢失主键+去重和时态表联合使用吞吐量低

2020-05-10 Thread Benchao Li
Hi, 你用的是什么state backend呢?看你的情况很有可能跟这个有关系。比如用的是rocksdb,然后是普通磁盘的话,很容易遇到IO瓶颈。 宇张 于2020年5月11日周一 上午11:14写道: > hi、 > 我这面使用flink1.9的Blink sql完成数据转换操作,但遇到如下问题: > 1、使用row_number函数丢失主键 > 2、row_number函数和时态表关联联合使用程序吞吐量严重降低,对应sql如下: > // 理论上这里面是不需要 distinct的,但sql中的主键blink提取不出来导致校验不通过,

Re: flink1.9 Blink sql 丢失主键+去重和时态表联合使用吞吐量低

2020-05-10 Thread 宇张
hi、 我这面state backend用的是FsStateBackend,状态保存在hdfs On Mon, May 11, 2020 at 11:19 AM Benchao Li wrote: > Hi, > > 你用的是什么state backend呢?看你的情况很有可能跟这个有关系。比如用的是rocksdb,然后是普通磁盘的话,很容易遇到IO瓶颈。 > > 宇张 于2020年5月11日周一 上午11:14写道: > > > hi、 > > 我这面使用flink1.9的Blink sql完成数据转换操作,但遇到

Re: Re: flink1.9 Blink sql 丢失主键+去重和时态表联合使用吞吐量低

2020-05-10 Thread 刘大龙
转换去Deduplication算子。 > -原始邮件- > 发件人: "宇张" > 发送时间: 2020-05-11 11:40:37 (星期一) > 收件人: user-zh@flink.apache.org > 抄送: > 主题: Re: flink1.9 Blink sql 丢失主键+去重和时态表联合使用吞吐量低 > > hi、 > 我这面state backend用的是FsStateBackend,状态保存在hdfs > > On Mon, May 11, 2020 at 11:19 A

blink消费kafka出现诡异的情况,困扰很久了,哪位大佬知道怎么回事

2019-03-26 Thread 邓成刚【qq】
HI,各位大佬:       发现一个很诡异的问题:使用SQL API时,在窗口上group by,JOB 5分钟后会timeout,但如果改成select * 就能正常消费kafka。。。 说明:本地模式和提交JOB均存在此异常 相关信息: blink 1.5.1 kafka 1.1.1 flink-connector-kafka-0.11_2.11-1.5.1-sql-jar.jar 消费正常的code: String sql = "select * from table1" Table sip_distinct_event_id = tableEn

Re: blink消费kafka出现诡异的情况,困扰很久了,哪位大佬知道怎么回事

2019-03-28 Thread 邓成刚【qq】
通过测试发现,不是sql 脚本的问题,是并行度的问题,30个并行度不行,改成5就OK了。。。 env.setParallelism(5);   发件人: 邓成刚【qq】 发送时间: 2019-03-26 18:17 收件人: user-zh 主题: blink消费kafka出现诡异的情况,困扰很久了,哪位大佬知道怎么回事 HI,各位大佬:       发现一个很诡异的问题:使用SQL API时,在窗口上group by,JOB 5分钟后会timeout,但如果改成select * 就能正常消费kafka。。。 说明:本地模式和提交JOB均存在此异常 相关信息: blink 1.5.1

问下大家,有做好的blink的docker image镜像吗?能够共享下坐标或者dockerfile,谢谢

2019-03-28 Thread 陈韬
问下大家,有做好的blink的docker image镜像吗?能够共享下坐标或者dockerfile,谢谢

附件好像发不过去,补充部分日志//回复: 回复: blink提交yarn卡在一直重复分配container

2019-04-08 Thread 苏 欣
ad-6] INFO org.apache.flink.yarn.YarnSessionResourceManager - Starting TaskManagers 2019-04-09 09:58:30.662 [pool-1-thread-7] INFO org.apache.flink.yarn.YarnSessionResourceManager - Starting TaskManagers 2019-04-09 09:58:30.662 [pool-1-thread-3] INFO org.apache.flink.yarn

<    1   2