Re: 读取ORC文件的VectorizedRowBatch的最佳batchSize设置建议

Jingsong Li Mon, 16 Mar 2020 21:05:27 -0700

Hi,

1万行太大了，会占用太大内存。而且batchSize太大也不利于cache。
batchSize不一定要和row group一样，这种row group特别大的情况下，batchSize 够用就行了。


Best,
Jingsong Lee

On Tue, Mar 17, 2020 at 11:52 AM jun su <sujun891...@gmail.com> wrote:

> hi all:
>      在向量化读取orc文件时, 需要配置VectorizedRowBatch的batchSize, 用于设置每次读取的行数,
> 我知道根据orc索引, 读取orc文件最小的单位应该是row group(默认1w行), 底层会根据filter条件来精确到哪些row group,
> 那之前提到的batchSize设置为1000时 ， 那一个row group需要读取10次, 每个row group又是按列存储,
> 势必会存在非连续读取的可能, 这样岂不是做不到最大优化？ 是够将batchSize设置和row group配置一样才能读取效率最大化呢？
> 不知道我的理解是否正确.
>


-- 
Best, Jingsong Lee

Re: 读取ORC文件的VectorizedRowBatch的最佳batchSize设置建议

Reply via email to