Articles of apache spark

Dividir 1 coluna em 3 colunas em faísca scala

Eu tenho um dataframe no Spark usando scala que tem uma coluna que eu preciso dividir. scala> test.show +————-+ |columnToSplit| +————-+ | abc| | def| +————-+ Eu preciso dessa coluna dividida para ficar assim: +————–+ |col1|col2|col3| | a| b| c| | d| e| f| +————–+ Estou usando o Spark 2.0.0 obrigado

Spark: Número de desempenho inconsistente no número de escalonamento dos núcleos

Eu estou fazendo um teste de escala simples no Spark usando o benchmark de sorting – de 1 núcleo, até 8 núcleos. Percebo que 8 núcleos são mais lentos que 1 núcleo. //run spark using 1 core spark-submit –master local[1] –class john.sort sort.jar data_800MB.txt data_800MB_output //run spark using 8 colors spark-submit –master local[8] –class john.sort […]

Como passar o parâmetro -D ou a variável de ambiente para o trabalho do Spark?

Desejo alterar a configuração do Typesafe de um job do Spark no ambiente dev / prod. Parece-me que a maneira mais fácil de conseguir isso é passar -Dconfig.resource=ENVNAME para o trabalho. Então a biblioteca de configuração do Typesafe fará o trabalho por mim. Existe maneira de passar essa opção diretamente para o trabalho? Ou talvez […]

Scala spark, listbuffer está vazio

Neste trecho de código no comentário 1 comprimento dos itens do listbuffer é mostrado corretamente, mas no segundo código de comentário nunca é executado. Por que isso ocorre? val conf = new SparkConf().setAppName(“app”).setMaster(“local”) val sc = new SparkContext(conf) var wktReader: WKTReader = new WKTReader(); val dataSet = sc.textFile(“dataSet.txt”) val items = new ListBuffer[String]() dataSet.foreach { […]

Apache Spark: map vs mapPartitions?

Qual é a diferença entre o map um RDD e o método mapPartitions ? E o flatMap se comporta como map ou como mapPartitions ? Obrigado. (editar) ou seja, qual é a diferença (seja semanticamente ou em termos de execução) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] […]

Esquema de Particionamento Padrão no Spark

Quando executo o comando abaixo: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at :22 scala> rdd.partitions.size res9: Int = 10 scala> rdd.partitioner.isDefined res10: Boolean = true scala> rdd.partitioner.get res11: org.apache.spark.Partitioner = org.apache.spark.HashPartitioner@a Ele diz que existem 10 partições e o particionamento é feito usando o HashPartitioner . Mas quando […]

Chaves primárias com o Apache Spark

Eu estou tendo uma conexão JDBC com Apache Spark e PostgreSQL e quero inserir alguns dados em meu database. Quando eu uso o modo append , preciso especificar id para cada DataFrame.Row . Existe alguma maneira de o Spark criar chaves primárias?

Spark – repartition () vs coalesce ()

De acordo com o Learning Spark Tenha em mente que reparticionar seus dados é uma operação bastante cara. O Spark também tem uma versão otimizada de repartition () chamada coalesce () que permite evitar a movimentação de dados, mas somente se você estiver diminuindo o número de partições RDD. Uma diferença que eu vejo é […]

Por que esse código Spark faz o NullPointerException?

Eu tenho um problema ao executar um aplicativo Spark. Código fonte: // Read table From HDFS val productInformation = spark.table(“temp.temp_table1”) val dict = spark.table(“temp.temp_table2″) // Custom UDF val countPositiveSimilarity = udf[Long, Seq[String], Seq[String]]((a, b) => dict.filter( (($”first”.isin(a: _*) && $”second”.isin(b: _*)) || ($”first”.isin(b: _*) && $”second”.isin(a: _*))) && $”similarity” > 0.7 ).count ) val result […]

Como carregar o arquivo local em sc.textFile, em vez de HDFS

Estou seguindo o ótimo tutorial então eu estou tentando a 46m: 00s para carregar o README.md mas falhar no que estou fazendo é isto: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile(“README.md”) 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called […]