Hi Ricardo, instead of filtering header just remove the header of your file.
In your code you create a filter for the header but you don't use it to compute parsedData. val parsedData = filter_data.map(s => Vectors.dense(s.split(','). map(_.toDouble))).cache() 2015-05-19 21:23 GMT+02:00 Stephen Boesch <java...@gmail.com>: > Hi Ricardo, > providing the error output would help . But in any case you need to do a > collect() on the rdd returned from computeCost. > > 2015-05-19 11:59 GMT-07:00 Ricardo Goncalves da Silva < > ricardog.si...@telefonica.com>: > > Hi, >> >> >> >> Can anybody see what’s wrong in this piece of code: >> >> >> >> >> >> ./bin/spark-shell --num-executors 2 --executor-memory 512m --master >> yarn-client >> >> import org.apache.spark.mllib.clustering.KMeans >> >> import org.apache.spark.mllib.linalg.Vectors >> >> >> >> >> >> val data = sc.textFile("/user/p_loadbd/fraude5.csv").map(x => >> x.toLowerCase.split(',')).map(x => x(0)+","+x(1)) >> >> val header = data.first() >> >> val filter_data = data.filter(x => x != header) >> >> val parsedData = data.map(s => >> Vectors.dense(s.split(',').map(_.toDouble))).cache() >> >> >> >> val numClusters = 2 >> >> val numIterations = 20 >> >> val clusters = KMeans.train(parsedData, numClusters, numIterations) >> >> >> >> val WSSSE = clusters.computeCost(parsedData) >> >> println("Within Set Sum of Squared Errors = " + WSSSE) >> >> >> >> Thanks. >> >> >> >> >> >> [image: Descrição: Descrição: Descrição: >> cid:image002.jpg@01CC89A8.2B628650] >> >> *Ricardo Goncalves da Silva* >> Lead Data Scientist *|* Seção de Desenvolvimento de Sistemas de >> >> Business Intelligence – Projetos de Inovação *| *IDPB02 >> >> Av. Eng. Luis Carlos Berrini, 1.376 – 7º – 04571-000 - SP >> >> ricardog.si...@telefonica.com *|* www.telefonica.com.br >> >> Tel +55 11 3430 4955 *| *Cel +55 11 94292 9526 >> >> >> >> >> >> ------------------------------ >> >> Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario, >> puede contener información privilegiada o confidencial y es para uso >> exclusivo de la persona o entidad de destino. Si no es usted. el >> destinatario indicado, queda notificado de que la lectura, utilización, >> divulgación y/o copia sin autorización puede estar prohibida en virtud de >> la legislación vigente. Si ha recibido este mensaje por error, le rogamos >> que nos lo comunique inmediatamente por esta misma vía y proceda a su >> destrucción. >> >> The information contained in this transmission is privileged and >> confidential information intended only for the use of the individual or >> entity named above. If the reader of this message is not the intended >> recipient, you are hereby notified that any dissemination, distribution or >> copying of this communication is strictly prohibited. If you have received >> this transmission in error, do not read it. Please immediately reply to the >> sender that you have received this communication in error and then delete >> it. >> >> Esta mensagem e seus anexos se dirigem exclusivamente ao seu >> destinatário, pode conter informação privilegiada ou confidencial e é para >> uso exclusivo da pessoa ou entidade de destino. Se não é vossa senhoria o >> destinatário indicado, fica notificado de que a leitura, utilização, >> divulgação e/ou cópia sem autorização pode estar proibida em virtude da >> legislação vigente. Se recebeu esta mensagem por erro, rogamos-lhe que nos >> o comunique imediatamente por esta mesma via e proceda a sua destruição >> > > -- Romain Sagean