subject:"Re\: Re\: StreamingFileWriter 压测性能"

Re:Re: Re: Re: StreamingFileWriter 压测性能

2020-09-18 文章 kandy.wang

hi wangenbao : 我这边还没出现过OOM的情况，我理解调大TM 的资源内存 CPU这些参数应当是可以的。我这边遇到的问题是性能上不去。不过table.exec.hive.fallback-mapred-writer=false 确实有较大改观。在 2020-09-18 16:45:29，"wangenbao" <156827...@qq.com> 写道： >我这边也遇到了这个bug，table.exec.hive.fallback-mapred-writer没配置的情况下，默认走到hadoop mr >write；

Re: Re: Re: StreamingFileWriter 压测性能

2020-09-18 文章 wangenbao

我这边也遇到了这个bug，table.exec.hive.fallback-mapred-writer没配置的情况下，默认走到hadoop mr write；当我的数据比较分散，Hive三分区Parquet表（年月日，小时，hashtid），会产生多个writer，运行一会就TM就OOM；相同数据量table.exec.hive.fallback-mapred-writer设置为false，用flink native write没有问题； Jingsong Li wrote > 是最新的代码吗？ >

Re: Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-18 文章 Jingsong Li

Hi, 不好意思，麻烦试下试下最新的release-1.11分支编译出来的Hive依赖 (flink-connector-hive的改动) > 顺便问一下，你们1.12版本，针对小文件合并，会有改进么？这是1.12的目标，这两天会出来JIRA和设计方案，类似会加上"auto-compaction"的配置，sink中自动合并 Best, Jingsong On Fri, Sep 18, 2020 at 10:18 AM kandy.wang wrote: > > > > > > > @Jingsong Li > 测了一下，1.11.2还是和以前一样呢。

Re:Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-17 文章 kandy.wang

@Jingsong Li 测了一下，1.11.2还是和以前一样呢。还是table.exec.hive.fallback-mapred-writer=false效果明显。我们flink 环境是基于 flink 1.11 分支源码自己打的jar 来测的。你们那边针对 StreamingFileWriter 修改应该都提交到flink 1.11分支了吧。顺便问一下，你们1.12版本，针对小文件合并，会有改进么？在 2020-09-17 14:19:42，"Jingsong Li" 写道： >是的，可以测一下，理论上 mr writer不应该有较大性能差距。 >

Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-17 文章 Jingsong Li

是的，可以测一下，理论上 mr writer不应该有较大性能差距。 > 为何要强制滚动文件因为要保证Exactly-Once，像Orc和parquet类似的 format，它并不能把一个文件拆成多次来写。 On Thu, Sep 17, 2020 at 2:05 PM kandy.wang wrote: > > > > ok. 就是用hadoop mr writer vs flink 自实现的native > writer之间的性能对比了。至少目前看了一下table.exec.hive.fallback-mapred-writer >

Re:Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-17 文章 kandy.wang

ok. 就是用hadoop mr writer vs flink 自实现的native writer之间的性能对比了。至少目前看了一下table.exec.hive.fallback-mapred-writer 改成false是可以满足我们的写hive需求了还有一个问题，之前问过你，你还没回复： HiveRollingPolicy为什么 shouldRollOnCheckpoint true 为何要强制滚动文件，这个可以抽取成一个配置参数么？如果强制滚动的话，基本上sink.rolling-policy.rollover-interval、

Re: Re: Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 Jingsong Li

可以再尝试下最新的1.11.2吗？ https://flink.apache.org/downloads.html On Thu, Sep 17, 2020 at 1:33 PM kandy.wang wrote: > 是master分支代码 > 那你说的这个情况，刚好是table.exec.hive.fallback-mapred-writer默认是true 的情况 > 出现的，现在改成false 就走到else 部分就暂时没这个问题了 > if (userMrWriter) { >builder =

Re:Re: Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 kandy.wang

是master分支代码那你说的这个情况，刚好是table.exec.hive.fallback-mapred-writer默认是true 的情况出现的，现在改成false 就走到else 部分就暂时没这个问题了 if (userMrWriter) { builder = bucketsBuilderForMRWriter(recordWriterFactory, sd, assigner, rollingPolicy, outputFileConfig); LOG.info("Hive streaming sink: Use MapReduce RecordWriter

Re: Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 Jingsong Li

是最新的代码吗？ 1.11.2解了一个bug：https://issues.apache.org/jira/browse/FLINK-19121 它是影响性能的，1.11.2已经投票通过，即将发布 On Thu, Sep 17, 2020 at 12:46 PM kandy.wang wrote: > @Jingsong Li > > public TableSink createTableSink(TableSinkFactory.Context context) { >CatalogTable table =

Re: Re: StreamingFileWriter 压测性能

2020-09-16 文章 Jingsong Li

Sink并行度我理解是配置Sink并行度，这个一直在讨论，还没结论 HDFS性能具体可以看HDFS到底什么瓶颈，是网络还是请求数还是连接数还是磁盘IO On Wed, Sep 16, 2020 at 8:16 PM kandy.wang wrote: > 场景很简单，就是kafka2hive > --5min入仓Hive > > INSERT INTO hive.temp_.hive_5min > > SELECT > > arg_service, > > time_local > > . > >

Re:Re: Re: Re: StreamingFileWriter 压测性能

Re: Re: Re: StreamingFileWriter 压测性能

Re: Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

Re:Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

Re: Re: Re: Re: Re: StreamingFileWriter 压测性能

Re:Re: Re: Re: Re: StreamingFileWriter 压测性能

Re: Re: Re: Re: StreamingFileWriter 压测性能

Re:Re: Re: Re: StreamingFileWriter 压测性能

Re: Re: Re: StreamingFileWriter 压测性能

Re: Re: StreamingFileWriter 压测性能

10 matches

Site Navigation

Mail list logo

Footer information