Hi Copperfield, To be honest, Kylin's current streaming impl is like a POC; We have the plan to make it more scalable and robust; Would you mind to summary each requirement/bug you found into a JIRA? We appreciate all the inputs, thank you!
在 2016年7月1日 下午4:40,Amuro Copperfield <[email protected]>写道: > > 您好, > > 因为问题比较多,怕英文表达不清楚,改用中文,请见谅,如果不方便我在补充一份英文的。 > > 这段时间在使用kafka作为数据源,在kylin中进行cube的构建,遇到了一些问题: > > 1. > 这个之前在微信已经说过,Kafka的数据一旦在Web界面被导入,则没法删除,也没法修改,相比之下Hive表的数据还有一个Unload选项,这就造成极大的不方便,一旦我在载入数据的时候填写错一些项,例如数据类型,就必须重新换个名字进行工作,或者去metadata下面修改 > > 2. > 研究了一下Kafka模块的代码,在Input部分感觉有点问题,不是bug或异常,个人认为不够健壮。在KafkaStreamingInput.java中,每个线程对应一个Kafka的partition,线程退出的方式(结束循环的方式)在于抓取到的数据作为时间戳列的值大于构建cube时end的时间+margin > 这里我遇到的几种情况: > 一、Kafka集群分布不均,木桶效应,导致有的线程在超时很久的情况下遇到仍然在消费数据,造成整个build无法按时完成 > 二、如果Kafka集群不稳定到某个partition根本没有数据,Kylin的build过程将陷入死循环 > > 对于实时业务来说,这种延迟的都呈现出不确定性 > -- > Best regards, > Amuro Copperfield > -- Best regards, Shaofeng Shi
