Articles of apache faísca

Requisitos para converter o dataframe do Spark no dataframe do Pandas / R

Estou executando o Spark no YARN do Hadoop. Como esta conversão funciona? Uma coleta () ocorre antes da conversão? Também preciso instalar o Python e o R em cada nó escravo para que a conversão funcione? Eu estou lutando para encontrar documentação sobre isso.

Spark SQL – carrega dados com o JDBC usando a instrução SQL, não o nome da tabela

Acho que estou perdendo alguma coisa, mas não consigo imaginar o que. Eu quero carregar dados usando SQLContext e JDBC usando declaração sql particular como select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from table2 with (nolock) where flag=2 and date >= ‘1/1/2015’ and userid in (1, 2, […]

Como configurar o Spark no Windows?

Eu estou tentando configurar o Apache Spark no Windows. Depois de pesquisar um pouco, eu entendo que o modo autônomo é o que eu quero. Quais binários eu baixo para executar o Apache em janelas? Eu vejo distribuições com hadoop e cdh na página de download de faíscas. Eu não tenho referências na web para […]

Explodir (transpor?) Várias colunas na tabela SQL do Spark

Estou usando o Spark SQL (menciono que está no Spark, caso isso afete a syntax SQL – não estou familiarizado o suficiente para ter certeza ainda) e tenho uma tabela que estou tentando re-estruturar, mas estou ficar preso tentando transpor várias colunas ao mesmo tempo. Basicamente eu tenho dados que se parecem com: userId someString […]

Função de janela do Spark SQL com condição complexa

Isto é provavelmente mais fácil de explicar através do exemplo. Suponha que eu tenha um DataFrame de logins de usuário para um site, por exemplo: scala> df.show(5) +—————-+———-+ | user_name|login_date| +—————-+———-+ |SirChillingtonIV|2012-01-04| |Booooooo99900098|2012-01-04| |Booooooo99900098|2012-01-06| | OprahWinfreyJr|2012-01-10| |SirChillingtonIV|2012-01-11| +—————-+———-+ only showing top 5 rows Eu gostaria de acrescentar a isso uma coluna indicando quando eles se […]

Stackoverflow devido à longa linhagem RDD

Eu tenho milhares de pequenos arquivos no HDFS. Precisa processar um subconjunto de arquivos um pouco menor (que é novamente em milhares), fileList contém uma lista de caminhos de arquivos que precisam ser processados. // fileList == list of filepaths in HDFS var masterRDD: org.apache.spark.rdd.RDD[(String, String)] = sparkContext.emptyRDD for (i line.startsWith(“#####”)).map(line => (filePath, line)) masterRDD […]

Múltiplas operações agregadas na mesma coluna de um dataframe de centelha

Eu tenho três matrizes do tipo string contendo as seguintes informações: array groupBy: contendo nomes das colunas pelas quais quero agrupar meus dados. matriz agregada: contendo nomes de colunas que quero agregar. matriz de operações: contendo as operações agregadas que quero executar Eu estou tentando usar frameworks de dados de faísca para conseguir isso. Os […]

Converter string pyspark em formato de data

Eu tenho uma data pyspark dataframe com uma coluna de cadeia no formato de MM-dd-yyyy e estou tentando converter isso em uma coluna de data. Eu tentei: df.select(to_date(df.STRING_COLUMN).alias(‘new_date’)).show() e eu recebo uma string de nulos. Alguém pode ajudar?

Melhor prática para lançar aplicativos Spark via Web Application?

Desejo expor meus aplicativos Spark aos usuários com um aplicativo da web. Basicamente, o usuário pode decidir qual ação ele deseja executar e inserir algumas variables, que precisam ser passadas para o aplicativo de ignição. Por exemplo: o usuário insere alguns campos e, em seguida, clica em um botão que faz o seguinte “executar sparkApp1 […]

Como carregar dependenices jar no IPython Notebook

Esta página estava me inspirando a experimentar o spark-csv para ler o arquivo .csv no PySpark. Encontrei alguns posts como este descrevendo como usar o spark-csv Mas não consigo inicializar a instância do ipython incluindo o arquivo .jar ou a extensão do pacote na boot que poderia ser feito por meio do spark-shell. Isto é, […]