Hi, there is a property you can set. Quoting the docs ( http://spark.apache.org/docs/latest/sql-programming-guide.html#other-configuration-options )
spark.sql.autoBroadcastJoinThreshold 10485760 (10 MB) Configures the maximum size in bytes for a table that will be broadcast to all worker nodes when performing a join. By setting this value to -1 broadcasting can be disabled. 2016-07-20 10:07 GMT+02:00 raaggarw <raagg...@adobe.com>: > Hi, > > How spark decides/optimizes internally as to when it needs to a > BroadcastHashJoin vs SortMergeJoin? Is there anyway we can guide from > outside or through options which Join to use? > Because in my case when i am trying to do a join, spark makes that join as > BroadCastHashJoin internally and when join is actually being executed it > waits for broadcast to be done (which is big data), resulting in timeout. > I do not want to increase value of timeout i.e. > "spark.sql.broadcastTimeout". Rather i want this to be done via > SortMergeJoin. How can i enforce that? > > Thanks > Ravi > > > > -- > View this message in context: > http://apache-spark-user-list.1001560.n3.nabble.com/How-spark-decides-whether-to-do-BroadcastHashJoin-or-SortMergeJoin-tp27369.html > Sent from the Apache Spark User List mailing list archive at Nabble.com. > > --------------------------------------------------------------------- > To unsubscribe e-mail: user-unsubscr...@spark.apache.org > > -- Matthias Niehoff | IT-Consultant | Agile Software Factory | Consulting codecentric AG | Zeppelinstr 2 | 76185 Karlsruhe | Deutschland tel: +49 (0) 721.9595-681 | fax: +49 (0) 721.9595-666 | mobil: +49 (0) 172.1702676 www.codecentric.de | blog.codecentric.de | www.meettheexperts.de | www.more4fi.de Sitz der Gesellschaft: Solingen | HRB 25917| Amtsgericht Wuppertal Vorstand: Michael Hochgürtel . Mirko Novakovic . Rainer Vehns Aufsichtsrat: Patric Fedlmeier (Vorsitzender) . Klaus Jäger . Jürgen Schütz Diese E-Mail einschließlich evtl. beigefügter Dateien enthält vertrauliche und/oder rechtlich geschützte Informationen. Wenn Sie nicht der richtige Adressat sind oder diese E-Mail irrtümlich erhalten haben, informieren Sie bitte sofort den Absender und löschen Sie diese E-Mail und evtl. beigefügter Dateien umgehend. Das unerlaubte Kopieren, Nutzen oder Öffnen evtl. beigefügter Dateien sowie die unbefugte Weitergabe dieser E-Mail ist nicht gestattet