);
if (log.isDebugEnabled()) {
scheduleRunAsync(this::scheduledLogStatus,
STATUS_LOG_INTERVAL_MS, TimeUnit.MILLISECONDS);
}
}
jun su 于2021年4月15日周四 下午4:50写道:
> hi all,
>
> 通过看源码发现了问题 :
>
> 短时间内提交大量Job后, JobManager进程会OOM的原因是这些Job所属的JobMaster没被及时的GC掉.
>
> 原因是JobMaster所属的SlotP
在这个delay时间内GC不掉.
同时job包含大量文件数, 导致JobMaster中包含的ExecutionGraph和FileSplit等信息占用堆栈空间比较大, 最后导致OOM
通过调整slot.idle.timeout和slot.request.timeout两个参数来缩短delay的时间,
保证GC及时回收JobMaster, 就会避免OOM的发生
jun su 于2021年4月13日周二 下午3:18写道:
> hi all,
> 为了触发该异常, 预设场景:
> 1. jobmanager 分配1g内存
>
FileSplit对象也会较大,所以导致新的job无法构建导致oom
而同样的jm内存配置 + 文件数, 如果任务运行的稍慢,比如运行10s才结束,
这时JM虽然也有高堆栈占用导致高GC的问题,但是不会出现OOM , 说明JobMaster在被垃圾回收.
我的疑问是既然 JobMaster 已经在job执行完后 onStop 掉释放了资源, 为什么没被及时或者无法被回收,
从而导致JM的oom呢? JobMaster在job执行完后, 还会存留一段时间? 有些引用还未释放?
--
Best,
Jun Su
physical.batch.BatchExecWindowAggregateRule.onMatch(BatchExecWindowAggregateRule.scala:111)
at
org.apache.calcite.plan.volcano.VolcanoRuleCall.onMatch(VolcanoRuleCall.java:217)
... 27 more
Jark Wu 于2020年12月11日周五 下午5:25写道:
> 建议将完整的代码展示出来,现在的信息不足以分析问题。
>
> On Fri, 11 Dec 2020 at 11:5
hi Danny,
尝试过是一样报错,debug看了下是LogicalWindowAggregateRuleBase在构建window时没有将Expr信息带下去
, 只带了别名,导致后续优化规则报错退出
Danny Chan 于2020年12月11日周五 上午11:47写道:
> 有木有尝试补充 watermark 语法
>
> jun su 于2020年12月11日周五 上午10:47写道:
>
> > hi all,
> >
> > flink 1.11.0版本, 使用computed column将long
)
at
org.apache.calcite.plan.volcano.VolcanoRuleCall.onMatch(VolcanoRuleCall.java:217)
... 27 more
--
Best,
Jun Su
ule 一直重复重复触发,可以将 debug 日志打开,看下是哪个 rule
> 被频繁触发了,之前修过一个类似的问题[1],可以参考下
>
> [1] https://issues.apache.org/jira/browse/CALCITE-3121
>
> Best,
> Danny Chan
> 在 2020年9月23日 +0800 AM10:23,jun su ,写道:
> > hi godfrey,
> > 方便说下是哪些rule fix了这个问题么? 我对这个比较好奇 , 想看下是什么原因导致的
>
hi godfrey,
方便说下是哪些rule fix了这个问题么? 我对这个比较好奇 , 想看下是什么原因导致的
godfrey he 于2020年9月23日周三 上午10:09写道:
> Hi Jun,
>
> 可能是old planner缺少一些rule导致遇到了corner case,
> blink planner之前解过一些类似的案例。
>
> jun su 于2020年9月23日周三 上午9:53写道:
>
> > hi godfrey,
> >
> > 刚看了下,
hi godfrey,
刚看了下, blink应该也会用hep , 上文说错了
jun su 于2020年9月23日周三 上午9:19写道:
> hi godfrey,
> 我用了最新代码的blink没这个问题, 我看代码flink是先用hep然后进valcano, 而blink貌似没用hep,
> 我将hep代码注释后valcano的迭代次数会大幅减少, 语句嵌套10层基本在4000次左右能获取最佳方案,我再debug看下原因
>
> godfrey he 于2020年9月22日周二 下午8:58写道:
>
>
hi godfrey,
我用了最新代码的blink没这个问题, 我看代码flink是先用hep然后进valcano, 而blink貌似没用hep,
我将hep代码注释后valcano的迭代次数会大幅减少, 语句嵌套10层基本在4000次左右能获取最佳方案,我再debug看下原因
godfrey he 于2020年9月22日周二 下午8:58写道:
> blink planner 有这个问题吗?
>
> jun su 于2020年9月22日周二 下午3:27写道:
>
> > hi all,
> >
> &g
quot;,t4)
val t5 = fbTableEnv.sqlQuery("select
Auth_Roles,Target_UserSid,Thread_ID,access_path,action from t4 where
action= 'e'")
--
Best,
Jun Su
t; > 参考zeppelin的做法,每个线程里都调用这个
> >
> >
> >
> https://github.com/apache/zeppelin/blob/master/flink/interpreter/src/main/java/org/apache/zeppelin/flink/FlinkSqlInterrpeter.java#L111
> >
> >
> > jun su 于2020年9月14日周一 上午11:54写道:
> >
>
)
at GeneratedMetadataHandler_NonCumulativeCost.getNonCumulativeCost(Unknown
Source)
--
Best,
Jun Su
sdb,和 rocksdb 刷磁盘还不是一回事。
> Best,
> Congxian
>
>
> jun su 于2020年7月31日周五 下午4:57写道:
>
> > hi,
> >
> > 看到 RocksDBWriteBatchWrapper类有 flushIfNeeded()方法 , 是这个么?
> >
> > private void flushIfNeeded() throws RocksDBException {
> > boolean needF
"user-zh"
> <
> sujun891...@gmail.com;
> 发送时间:2020年7月31日(星期五) 下午4:37
> 收件人:"user-zh"
> 主题:RocksDBKeyedStateBackend如何写磁盘
>
>
>
> hi all,
>
> 请问RocksDBKeyedStateBackend是何时将state序列化到磁盘的, 窗口结束时间?还是配置的checkpoint周期,谢谢
>
> --
> Best,
> Jun Su
--
Best,
Jun Su
hi all,
请问RocksDBKeyedStateBackend是何时将state序列化到磁盘的, 窗口结束时间?还是配置的checkpoint周期,谢谢
--
Best,
Jun Su
; [1]
>
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/config.html#table-exec-resource-default-parallelism
>
> jun su 于2020年7月27日周一 下午3:50写道:
>
> > hi all,
> >
> > Flink 目前的blink table planner batch mode
> > (读hdfs上的orc文件)只支持StreamTableSource
hi all,
Flink 目前的blink table planner batch mode
(读hdfs上的orc文件)只支持StreamTableSource和LookupableTableSource,
但是StreamTableSource的并行度默认应该是1 , 底层是ContinuousFileMonitoringFunction ,
那么如何能扩大并行度来优化性能呢?
--
Best,
Jun Su
是依赖问题,解决了
jun su 于2020年7月27日周一 下午2:29写道:
> hi Jark,
>
> 抱歉这么晚回复邮件, 在flink 1.11.0版本上按照你的方式试验了下,
> 创建StreamTableEnvironmentImpl的方式参照了StreamTableEnvironmentImpl#create,
> 只是删除了方法中检查模式的代码 settings.isStreamingMode() , 结果报以
(..
> execEnv, .., false); // 构造的参数可以参考 StreamTableEnvironmentImpl#create 的实现
>
> Best,
> Jark
>
> On Tue, 19 May 2020 at 15:27, jun su wrote:
>
> > hi all,
> >
> > 过去在ide中想连接远程flink集群可以 ExecutionEnvironment.createRemoteEnvironment()
> >
> > 官网Bli
hi all,
最初blink分支上有对batch模式下的table cache操作, 后续会merge到flink上来么?
--
Best,
Jun Su
hi all,
过去在ide中想连接远程flink集群可以 ExecutionEnvironment.createRemoteEnvironment()
官网Blink构建方式是:
val bbSettings =
EnvironmentSettings.newInstance().useBlinkPlanner().inBatchMode().build()
val bbTableEnv = TableEnvironment.create(bbSettings)
请问如何连接远程集群呢?
--
Best,
Jun Su
非常感谢, 我用的flink-1.9.2 , 但是直接将代码copy过来可以用了!
Jingsong Li 于2020年4月24日周五 下午3:02写道:
> 1.10里面有TableUtils了,里面有collectToList
>
>
> Best,
> Jingsong Lee
>
> On Fri, Apr 24, 2020 at 2:49 PM jun su wrote:
>
> > hi all,
> >
> > 找到了源码中BatchTableEnvUtil类使用了Collec
= UUID.randomUUID().toString
tEnv.registerTableSink(sinkName, sink)
tEnv.insertInto(table, sinkName)
val res = tEnv.execute("test")
val accResult: JArrayList[Array[Byte]] = res.getAccumulatorResult(id)
SerializedListAccumulator.deserializeList(accResult, typeSerializer)
}
jun su
hi all,
blink模式下没法将table 转为 dataset , 所以如果直接collect了, 请问有类似方法可以获取到
结果用于代码调试么?
--
Best,
Jun Su
ark,前面的watermark会被覆盖掉吗?
> 比如我再source端声明了watermark,进行了一系列操作后,我觉得watermark的延迟不满足需求,就再次声明一次。
> 另外,稍微咨询下另外一个问题,两个流join之后,watermark会消失吗?看书上说的是,以两个流最小的watermark(全局最小)为准。
> 主要是在阿里云Blink上,使用sql进行join后,说的是时间属性字段会消失。有点不明白。
>
--
Best,
Jun Su
> > | |
> > Jimmy Wong
> > |
> > |
> > wangzmk...@163.com
> > |
> > 签名由网易邮箱大师定制
> >
> >
> > 在2020年03月30日 20:58,tingli ke 写道:
> > 请教一个问题:kafka-per-partition 的watermark的分配,可以在keyby之后分配吗,想做key化的乱序处理能支持吗
> >
>
--
Best,
Jun Su
ize太大也不利于cache。
> batchSize不一定要和row group一样,这种row group特别大的情况下,batchSize 够用就行了。
>
> Best,
> Jingsong Lee
>
> On Tue, Mar 17, 2020 at 11:52 AM jun su wrote:
>
> > hi all:
> > 在向量化读取orc文件时, 需要配置VectorizedRowBatch的batchSize, 用于设置每次读取的行数,
> > 我知道根据orc索引, 读取orc文件
hi all:
在向量化读取orc文件时, 需要配置VectorizedRowBatch的batchSize, 用于设置每次读取的行数,
我知道根据orc索引, 读取orc文件最小的单位应该是row group(默认1w行), 底层会根据filter条件来精确到哪些row group,
那之前提到的batchSize设置为1000时 , 那一个row group需要读取10次, 每个row group又是按列存储,
势必会存在非连续读取的可能, 这样岂不是做不到最大优化? 是够将batchSize设置和row group配置一样才能读取效率最大化呢?
不知道我的理解是否正确.
应该只能改ContinuousFileMonitoringFunction源码 , 支持多path
王智 于2020年3月4日周三 下午6:34写道:
> 我的需求是2,现在我使用的是execEnv.createInput(inputFormat()),
>
> 我先去试试 env.addSource(new InputFormatSourceFunction(..)...)。
>
> 多谢~
>
>
>
>
>
>
>
>
> 原始邮件
>
>
> 发件人:"JingsongLee"< lzljs3620...@aliyun.com.INVALID ;
>
>
hi Jark,
就是因为我的数据里 event_name 字段的value 没有 "没有这个值" , 所以才比较奇怪
Jark Wu 于2020年2月18日周二 下午12:15写道:
> Hi jun,
>
> 这个是符合预期的行为哈。这说明你的 source 中有4条 event_name 的值是 '没有这个值'
>
> Best,
> Jark
>
> On Mon, 17 Feb 2020 at 23:26, jun su wrote:
>
>> hi Jark Wu,
1. 发现ParquetTableSource在flink table planner下, stream/batch 两个模式下都有以上提出的问题,
2. blink table planner下没有以上问题, 但是中文print方法有编码问题
不清数是不是我使用问题,麻烦查证下
jun su 于2020年2月14日周五 下午6:30写道:
> hi Jark Wu,
>
> 抱歉以下是我的代码和结果:
>
> public static void main(String[] args) throws Exception {
> Ex
hi JingsongLee,
我在测试ParquetTableSource时遇到一个问题: 我的数据中没有where条件设置的值, 但是打印的结果,
是将where条件直接赋值给了该字段
[image: image.png]
JingsongLee 于2020年2月14日周五 下午5:05写道:
> Hi jun,
>
> pushdown逻辑是批流复用的,应该work的很愉快。
>
> Best,
> Jingsong Lee
>
>
>
你好:
官网文档中说明Blink Table Planner并不支持BatchTableSource,
目前最新版1.10代码中的ParquetTableSource还是BatchTableSource,那么说明目前的ParquetTableSource还不支持blink
table planner ?如果将现有的ParquetTableSource改成StreamTableSource后,
pushdown逻辑会不会出现bug?
已经创建issue: https://issues.apache.org/jira/browse/FLINK-15563
Kurt Young 于2020年1月8日周三 下午5:33写道:
> 如果是优化器一直卡住不能退出,那基本肯定是BUG了。请开一个issue把这些信息上传上去吧,我们会调查一下是什么问题导致的。
>
> Best,
> Kurt
>
>
> On Wed, Jan 8, 2020 at 5:12 PM jun su wrote:
>
> > 添加代码文字:
> >
>
;:\"device\",\"type\":[\"null\",\"string\"],\"default\":null},{\"name\":\"timestamp_string\",\"type\":[\"null\",\"string\"],\"default\":null},{\"name\":\"occur_time\",\"type\":[
36 matches
Mail list logo