Re: Spark Sql with python udf fail

Cheng Lian Mon, 23 Mar 2015 01:25:35 -0700

Could you elaborate on the UDF code?

On 3/23/15 3:43 PM, lonely Feb wrote:

Hi all, I tried to transfer some hive jobs into spark-sql. When i rana sql job with python udf i got a exception:
java.lang.ArrayIndexOutOfBoundsException: 9
atorg.apache.spark.sql.catalyst.expressions.GenericRow.apply(Row.scala:142)atorg.apache.spark.sql.catalyst.expressions.BoundReference.eval(BoundAttribute.scala:37)atorg.apache.spark.sql.catalyst.expressions.EqualTo.eval(predicates.scala:166)atorg.apache.spark.sql.catalyst.expressions.InterpretedPredicate$$anonfun$apply$1.apply(predicates.scala:30)atorg.apache.spark.sql.catalyst.expressions.InterpretedPredicate$$anonfun$apply$1.apply(predicates.scala:30)
        at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
        at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:327)
atorg.apache.spark.sql.execution.Aggregate$$anonfun$execute$1$$anonfun$7.apply(Aggregate.scala:156)atorg.apache.spark.sql.execution.Aggregate$$anonfun$execute$1$$anonfun$7.apply(Aggregate.scala:151)
        at org.apache.spark.rdd.RDD$$anonfun$13.apply(RDD.scala:601)
        at org.apache.spark.rdd.RDD$$anonfun$13.apply(RDD.scala:601)
atorg.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
atorg.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:263)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:230)
atorg.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:68)atorg.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
        at org.apache.spark.scheduler.Task.run(Task.scala:56)
atorg.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:197)atjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)atjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:744)
I suspected there was an odd line in the input file. But the inputfile is so large and i could not found any abnormal lines with severaljobs to check. How can i get the abnormal line here ?



---------------------------------------------------------------------
To unsubscribe, e-mail: user-unsubscr...@spark.apache.org
For additional commands, e-mail: user-h...@spark.apache.org

Re: Spark Sql with python udf fail

Reply via email to