Streaming app with windowing and persistence

Alexander Krasheninnikov Mon, 27 Apr 2015 10:58:54 -0700

Hello, everyone.

I develop stream application, working with window functions - eachwindow create table and perform some SQL-operations on extracted data.I met such problem: when using window operations and checkpointing,application does not start next time.

Here is the code:


------------------------------------------------------------------------

finalDuration batchDuration = Durations.seconds(10);
finalDuration slideDuration = Durations.seconds(10);
finalDuration windowDuration = Durations.seconds(600);

finalSparkConf conf =newSparkConf();
conf.setAppName("Streaming");
conf.setMaster("local[4]");


JavaStreamingContextFactory contextFactory =newJavaStreamingContextFactory() {
    @Override
    publicJavaStreamingContext create() {
        JavaStreamingContext streamingContext 
=newJavaStreamingContext(conf,batchDuration);
        streamingContext.checkpoint(CHECKPOINT_DIR);

        returnstreamingContext;
    }
};

JavaStreamingContext streamingContext = 
JavaStreamingContext.getOrCreate(CHECKPOINT_DIR,newConfiguration(), 
contextFactory,true);
JavaDStream<String> lines = streamingContext.textFileStream(SOURCE_DIR);

lines.countByWindow(windowDuration,slideDuration).print();

streamingContext.start();
streamingContext.awaitTermination();

------------------------------------------------------------------------

I expect, that after application restart, Spark will merge old eventcounter with new values (if it is not so, I am ready to merge old datamanually).

But, after application restart, I have this error:

Exception in thread "main" org.apache.spark.SparkException:org.apache.spark.streaming.dstream.MappedDStream@49db6f23 has not beeninitializedatorg.apache.spark.streaming.dstream.DStream.isTimeValid(DStream.scala:266)atorg.apache.spark.streaming.dstream.DStream$$anonfun$getOrCompute$1.apply(DStream.scala:287)atorg.apache.spark.streaming.dstream.DStream$$anonfun$getOrCompute$1.apply(DStream.scala:287)

    at scala.Option.orElse(Option.scala:289)

atorg.apache.spark.streaming.dstream.DStream.getOrCompute(DStream.scala:284)atorg.apache.spark.streaming.dstream.ForEachDStream.generateJob(ForEachDStream.scala:38)atorg.apache.spark.streaming.DStreamGraph$$anonfun$1.apply(DStreamGraph.scala:116)atorg.apache.spark.streaming.DStreamGraph$$anonfun$1.apply(DStreamGraph.scala:116)atscala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:252)atscala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:252)atscala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)

    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)

atscala.collection.TraversableLike$class.flatMap(TraversableLike.scala:252)

    at scala.collection.AbstractTraversable.flatMap(Traversable.scala:104)

atorg.apache.spark.streaming.DStreamGraph.generateJobs(DStreamGraph.scala:116)atorg.apache.spark.streaming.scheduler.JobGenerator$$anonfun$restart$4.apply(JobGenerator.scala:223)atorg.apache.spark.streaming.scheduler.JobGenerator$$anonfun$restart$4.apply(JobGenerator.scala:218)atscala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)

    at scala.collection.mutable.ArrayOps$ofRef.foreach(ArrayOps.scala:186)

atorg.apache.spark.streaming.scheduler.JobGenerator.restart(JobGenerator.scala:218)atorg.apache.spark.streaming.scheduler.JobGenerator.start(JobGenerator.scala:89)atorg.apache.spark.streaming.scheduler.JobScheduler.start(JobScheduler.scala:67)atorg.apache.spark.streaming.StreamingContext.start(StreamingContext.scala:512)atorg.apache.spark.streaming.api.java.JavaStreamingContext.start(JavaStreamingContext.scala:584)

    at my.package.FileAggregations.main(FileAggregations.java:76)

At FileAggregations.java:76 is

streamingContext.start();

Spark version is 1.3.0.

---
wbr, Alexandr Krasheninnikov

Streaming app with windowing and persistence

Reply via email to