Articles of apache spark

Chaves primárias com o Apache Spark

Eu estou tendo uma conexão JDBC com Apache Spark e PostgreSQL e quero inserir alguns dados em meu database. Quando eu uso o modo append , preciso especificar id para cada DataFrame.Row . Existe alguma maneira de o Spark criar chaves primárias?

Spark – repartition () vs coalesce ()

De acordo com o Learning Spark Tenha em mente que reparticionar seus dados é uma operação bastante cara. O Spark também tem uma versão otimizada de repartition () chamada coalesce () que permite evitar a movimentação de dados, mas somente se você estiver diminuindo o número de partições RDD. Uma diferença que eu vejo é […]

Por que esse código Spark faz o NullPointerException?

Eu tenho um problema ao executar um aplicativo Spark. Código fonte: // Read table From HDFS val productInformation = spark.table(“temp.temp_table1”) val dict = spark.table(“temp.temp_table2″) // Custom UDF val countPositiveSimilarity = udf[Long, Seq[String], Seq[String]]((a, b) => dict.filter( (($”first”.isin(a: _*) && $”second”.isin(b: _*)) || ($”first”.isin(b: _*) && $”second”.isin(a: _*))) && $”similarity” > 0.7 ).count ) val result […]

Como carregar o arquivo local em sc.textFile, em vez de HDFS

Estou seguindo o ótimo tutorial então eu estou tentando a 46m: 00s para carregar o README.md mas falhar no que estou fazendo é isto: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile(“README.md”) 14/12/04 12:11:14 INFO storage.MemoryStore: ensureFreeSpace(164073) called […]

Como definir o particionamento do DataFrame?

Eu comecei a usar o Spark SQL e DataFrames no Spark 1.4.0. Eu estou querendo definir um particionador personalizado em DataFrames, no Scala, mas não vendo como fazer isso. Uma das tabelas de dados com as quais estou trabalhando contém uma lista de transactions, por conta, silimar para o exemplo a seguir. Account Date Type […]

Igualdade de class de caso no Apache Spark

Por que a correspondência de padrões no Spark não funciona da mesma maneira que no Scala? Veja o exemplo abaixo … A function f() tenta combinar com o padrão na class, o que funciona no Scala REPL, mas falha no Spark e resulta em todos os “???”. f2() é uma solução alternativa que obtém o […]

Como parar as mensagens INFO exibidas no console de ignição?

Eu gostaria de parar várias mensagens que estão chegando na ignição. Eu tentei editar o arquivo log4j.properties para parar essa mensagem. Aqui está o conteúdo de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too […]

Adicionar flasks a um trabalho de ignição – enviar com faísca

Verdade … foi bastante discutido. No entanto, há muita ambigüidade e algumas das respostas fornecidas … incluindo a duplicação de referências de jar na configuração ou opções do jars / executor / driver. Os detalhes ambíguos e / ou omitidos Após a ambiguidade, detalhes obscuros e / ou omitidos devem ser esclarecidos para cada opção: […]

Como faço para pular um header de arquivos CSV no Spark?

Suponha que eu dê três caminhos de arquivos para um contexto do Spark para ler e cada arquivo tenha um esquema na primeira linha. Como podemos ignorar linhas de esquema de headers? val rdd=sc.textFile(“file1,file2,file3”) Agora, como podemos pular as linhas de header deste rdd?

Substituição SPARK SQL para a function agregada mysql GROUP_CONCAT

Eu tenho uma tabela de duas colunas do tipo string (nome de usuário, amigo) e para cada nome de usuário, eu quero coletar todos os seus amigos em uma linha, concatenados como strings (‘username1’, ‘friends1, friends2, friends3’). Eu sei MySql faz isso por GROUP_CONCAT, existe alguma maneira de fazer isso com SPARK SQL? obrigado