Re:Re: Re: Re: StreamingFileWriter 压测性能

2020-09-18 文章 kandy.wang
hi wangenbao : 我这边还没出现过OOM的情况,我理解调大TM 的资源内存 CPU这些参数应当是可以的。 我这边遇到的问题是性能上不去。不过table.exec.hive.fallback-mapred-writer=false 确实有较大改观。 在 2020-09-18 16:45:29,"wangenbao" <156827...@qq.com> 写道: >我这边也遇到了这个bug,table.exec.hive.fallback-mapred-writer没配置的情况下,默认走到hadoop mr >write;

Re: Re: Re: StreamingFileWriter 压测性能

2020-09-18 文章 wangenbao
我这边也遇到了这个bug,table.exec.hive.fallback-mapred-writer没配置的情况下,默认走到hadoop mr write; 当我的数据比较分散,Hive三分区Parquet表(年月日,小时,hashtid),会产生多个writer,运行一会就TM就OOM; 相同数据量table.exec.hive.fallback-mapred-writer设置为false,用flink native write没有问题; Jingsong Li wrote > 是最新的代码吗? >

Re: Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-18 文章 Jingsong Li
Hi, 不好意思,麻烦试下 试下最新的release-1.11分支编译出来的Hive依赖 (flink-connector-hive的 改动) > 顺便问一下,你们1.12版本,针对小文件合并,会有改进么 ? 这是1.12的目标,这两天会出来JIRA和设计方案,类似会加上"auto-compaction"的配置,sink中自动合并 Best, Jingsong On Fri, Sep 18, 2020 at 10:18 AM kandy.wang wrote: > > > > > > > @Jingsong Li > 测了一下,1.11.2还是和以前一样呢。

Re:Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-17 文章 kandy.wang
@Jingsong Li 测了一下,1.11.2还是和以前一样呢。 还是table.exec.hive.fallback-mapred-writer=false效果明显。 我们flink 环境是基于 flink 1.11 分支源码自己 打的jar 来测的。你们那边针对 StreamingFileWriter 修改应该都提交到flink 1.11分支了吧。 顺便问一下,你们1.12版本,针对小文件合并,会有改进么 ? 在 2020-09-17 14:19:42,"Jingsong Li" 写道: >是的,可以测一下,理论上 mr writer不应该有较大性能差距。 >

Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-17 文章 Jingsong Li
是的,可以测一下,理论上 mr writer不应该有较大性能差距。 > 为何要强制滚动文件 因为要保证Exactly-Once, 像Orc和parquet类似的 format,它并不能把一个文件拆成多次来写。 On Thu, Sep 17, 2020 at 2:05 PM kandy.wang wrote: > > > > ok. 就是用hadoop mr writer vs flink 自实现的native > writer之间的性能对比了。至少目前看了一下table.exec.hive.fallback-mapred-writer >

Re:Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-17 文章 kandy.wang
ok. 就是用hadoop mr writer vs flink 自实现的native writer之间的性能对比了。至少目前看了一下table.exec.hive.fallback-mapred-writer 改成false是可以满足我们的写hive需求了 还有一个问题,之前问过你,你还没回复: HiveRollingPolicy为什么 shouldRollOnCheckpoint true 为何要强制滚动文件,这个可以抽取成一个配置参数么? 如果强制滚动的话,基本上sink.rolling-policy.rollover-interval、

Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 Jingsong Li
可以再尝试下最新的1.11.2吗? https://flink.apache.org/downloads.html On Thu, Sep 17, 2020 at 1:33 PM kandy.wang wrote: > 是master分支代码 > 那你说的这个情况,刚好是table.exec.hive.fallback-mapred-writer默认是true 的情况 > 出现的,现在改成false 就走到else 部分 就暂时没这个问题了 > if (userMrWriter) { >builder =

Re:Re: Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 kandy.wang
是master分支代码 那你说的这个情况,刚好是table.exec.hive.fallback-mapred-writer默认是true 的情况 出现的,现在改成false 就走到else 部分 就暂时没这个问题了 if (userMrWriter) { builder = bucketsBuilderForMRWriter(recordWriterFactory, sd, assigner, rollingPolicy, outputFileConfig); LOG.info("Hive streaming sink: Use MapReduce RecordWriter

Re: Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 Jingsong Li
是最新的代码吗? 1.11.2解了一个bug:https://issues.apache.org/jira/browse/FLINK-19121 它是影响性能的,1.11.2已经投票通过,即将发布 On Thu, Sep 17, 2020 at 12:46 PM kandy.wang wrote: > @Jingsong Li > > public TableSink createTableSink(TableSinkFactory.Context context) { >CatalogTable table =

Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 Jingsong Li
Sink并行度 我理解是配置Sink并行度,这个一直在讨论,还没结论 HDFS性能 具体可以看HDFS到底什么瓶颈,是网络还是请求数还是连接数还是磁盘IO On Wed, Sep 16, 2020 at 8:16 PM kandy.wang wrote: > 场景很简单,就是kafka2hive > --5min入仓Hive > > INSERT INTO hive.temp_.hive_5min > > SELECT > > arg_service, > > time_local > > . > >