hi wangenbao :
我这边还没出现过OOM的情况,我理解调大TM 的资源内存 CPU这些参数应当是可以的。
我这边遇到的问题是性能上不去。不过table.exec.hive.fallback-mapred-writer=false 确实有较大改观。
在 2020-09-18 16:45:29,"wangenbao" <156827...@qq.com> 写道:
>我这边也遇到了这个bug,table.exec.hive.fallback-mapred-writer没配置的情况下,默认走到hadoop mr
>write;
我这边也遇到了这个bug,table.exec.hive.fallback-mapred-writer没配置的情况下,默认走到hadoop mr
write;
当我的数据比较分散,Hive三分区Parquet表(年月日,小时,hashtid),会产生多个writer,运行一会就TM就OOM;
相同数据量table.exec.hive.fallback-mapred-writer设置为false,用flink native write没有问题;
Jingsong Li wrote
> 是最新的代码吗?
>
Hi,
不好意思,麻烦试下
试下最新的release-1.11分支编译出来的Hive依赖 (flink-connector-hive的 改动)
> 顺便问一下,你们1.12版本,针对小文件合并,会有改进么 ?
这是1.12的目标,这两天会出来JIRA和设计方案,类似会加上"auto-compaction"的配置,sink中自动合并
Best,
Jingsong
On Fri, Sep 18, 2020 at 10:18 AM kandy.wang wrote:
>
>
>
>
>
>
> @Jingsong Li
> 测了一下,1.11.2还是和以前一样呢。
@Jingsong Li
测了一下,1.11.2还是和以前一样呢。 还是table.exec.hive.fallback-mapred-writer=false效果明显。
我们flink 环境是基于 flink 1.11 分支源码自己 打的jar 来测的。你们那边针对 StreamingFileWriter
修改应该都提交到flink 1.11分支了吧。
顺便问一下,你们1.12版本,针对小文件合并,会有改进么 ?
在 2020-09-17 14:19:42,"Jingsong Li" 写道:
>是的,可以测一下,理论上 mr writer不应该有较大性能差距。
>
是的,可以测一下,理论上 mr writer不应该有较大性能差距。
> 为何要强制滚动文件
因为要保证Exactly-Once, 像Orc和parquet类似的 format,它并不能把一个文件拆成多次来写。
On Thu, Sep 17, 2020 at 2:05 PM kandy.wang wrote:
>
>
>
> ok. 就是用hadoop mr writer vs flink 自实现的native
> writer之间的性能对比了。至少目前看了一下table.exec.hive.fallback-mapred-writer
>
ok. 就是用hadoop mr writer vs flink 自实现的native
writer之间的性能对比了。至少目前看了一下table.exec.hive.fallback-mapred-writer
改成false是可以满足我们的写hive需求了
还有一个问题,之前问过你,你还没回复:
HiveRollingPolicy为什么 shouldRollOnCheckpoint true 为何要强制滚动文件,这个可以抽取成一个配置参数么?
如果强制滚动的话,基本上sink.rolling-policy.rollover-interval、
可以再尝试下最新的1.11.2吗?
https://flink.apache.org/downloads.html
On Thu, Sep 17, 2020 at 1:33 PM kandy.wang wrote:
> 是master分支代码
> 那你说的这个情况,刚好是table.exec.hive.fallback-mapred-writer默认是true 的情况
> 出现的,现在改成false 就走到else 部分 就暂时没这个问题了
> if (userMrWriter) {
>builder =
是master分支代码
那你说的这个情况,刚好是table.exec.hive.fallback-mapred-writer默认是true 的情况 出现的,现在改成false
就走到else 部分 就暂时没这个问题了
if (userMrWriter) {
builder = bucketsBuilderForMRWriter(recordWriterFactory, sd, assigner,
rollingPolicy, outputFileConfig);
LOG.info("Hive streaming sink: Use MapReduce RecordWriter
是最新的代码吗?
1.11.2解了一个bug:https://issues.apache.org/jira/browse/FLINK-19121
它是影响性能的,1.11.2已经投票通过,即将发布
On Thu, Sep 17, 2020 at 12:46 PM kandy.wang wrote:
> @Jingsong Li
>
> public TableSink createTableSink(TableSinkFactory.Context context) {
>CatalogTable table =
Sink并行度
我理解是配置Sink并行度,这个一直在讨论,还没结论
HDFS性能
具体可以看HDFS到底什么瓶颈,是网络还是请求数还是连接数还是磁盘IO
On Wed, Sep 16, 2020 at 8:16 PM kandy.wang wrote:
> 场景很简单,就是kafka2hive
> --5min入仓Hive
>
> INSERT INTO hive.temp_.hive_5min
>
> SELECT
>
> arg_service,
>
> time_local
>
> .
>
>
10 matches
Mail list logo