[jira] [Commented] (SPARK-17321) YARN shuffle service should use good disk from yarn.nodemanager.local-dirs

Saisai Shao (JIRA) Wed, 23 Aug 2017 20:19:33 -0700

    [ 
https://issues.apache.org/jira/browse/SPARK-17321?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=16139502#comment-16139502
 ]


Saisai Shao commented on SPARK-17321:
-------------------------------------

1. if NM recovery is enabled, then yarn will provide a recovery path, this 
recovery path will be used for any aux-service running on yarn (tez, mr, 
spark...) and NM itself to store state. So user/yarn should guarantee the 
availability of this path, if not then NM itself will be failed to restart. So 
as a conclusion if NM recovery is enabled, then we should always use recovery 
path.

2. Yes we will never use NM local dirs whether NM recovery is enabled or not. 
Previously we need to support Hadoop 2.6- which has no recovery path, so we 
choose a local dir instead. Since now we only support 2.6+, so there's no 
meaning to still use NM local dir.

3. The memory overhead should not be large, since it only stores some 
application/executor information. Also when you use external shuffle service in 
standalone and Mesos, it always use memory, so I don't think it is a big 
problem.

> YARN shuffle service should use good disk from yarn.nodemanager.local-dirs
> --------------------------------------------------------------------------
>
>                 Key: SPARK-17321
>                 URL: https://issues.apache.org/jira/browse/SPARK-17321
>             Project: Spark
>          Issue Type: Bug
>          Components: YARN
>    Affects Versions: 1.6.2, 2.0.0, 2.1.1
>            Reporter: yunjiong zhao
>
> We run spark on yarn, after enabled spark dynamic allocation, we notice some 
> spark application failed randomly due to YarnShuffleService.
> From log I found
> {quote}
> 2016-08-29 11:33:03,450 ERROR org.apache.spark.network.TransportContext: 
> Error while initializing Netty pipeline
> java.lang.NullPointerException
>         at 
> org.apache.spark.network.server.TransportRequestHandler.<init>(TransportRequestHandler.java:77)
>         at 
> org.apache.spark.network.TransportContext.createChannelHandler(TransportContext.java:159)
>         at 
> org.apache.spark.network.TransportContext.initializePipeline(TransportContext.java:135)
>         at 
> org.apache.spark.network.server.TransportServer$1.initChannel(TransportServer.java:123)
>         at 
> org.apache.spark.network.server.TransportServer$1.initChannel(TransportServer.java:116)
>         at 
> io.netty.channel.ChannelInitializer.channelRegistered(ChannelInitializer.java:69)
>         at 
> io.netty.channel.AbstractChannelHandlerContext.invokeChannelRegistered(AbstractChannelHandlerContext.java:133)
>         at 
> io.netty.channel.AbstractChannelHandlerContext.fireChannelRegistered(AbstractChannelHandlerContext.java:119)
>         at 
> io.netty.channel.DefaultChannelPipeline.fireChannelRegistered(DefaultChannelPipeline.java:733)
>         at 
> io.netty.channel.AbstractChannel$AbstractUnsafe.register0(AbstractChannel.java:450)
>         at 
> io.netty.channel.AbstractChannel$AbstractUnsafe.access$100(AbstractChannel.java:378)
>         at 
> io.netty.channel.AbstractChannel$AbstractUnsafe$1.run(AbstractChannel.java:424)
>         at 
> io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:357)
>         at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:357)
>         at 
> io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111)
>         at java.lang.Thread.run(Thread.java:745)
> {quote} 
> Which caused by the first disk in yarn.nodemanager.local-dirs was broken.
> If we enabled spark.yarn.shuffle.stopOnFailure(SPARK-16505) we might lost 
> hundred nodes which is unacceptable.
> We have 12 disks in yarn.nodemanager.local-dirs, so why not use other good 
> disks if the first one is broken?



--
This message was sent by Atlassian JIRA
(v6.4.14#64029)

---------------------------------------------------------------------
To unsubscribe, e-mail: issues-unsubscr...@spark.apache.org
For additional commands, e-mail: issues-h...@spark.apache.org

[jira] [Commented] (SPARK-17321) YARN shuffle service should use good disk from yarn.nodemanager.local-dirs

Reply via email to