Articles of apache faísca

Qual é a diferença entre mapa e flatMap e um bom caso de uso para cada um?

Alguém pode me explicar a diferença entre mapa e flatMap e o que é um bom caso de uso para cada um? O que significa “achatar os resultados” significa? O que é bom para isso?

Como os estágios são divididos em tarefas no Spark?

Vamos supor, para o seguinte, que apenas um trabalho do Spark esteja em execução em cada ponto no tempo. O que eu tenho até agora Aqui está o que eu entendo o que acontece no Spark: Quando um SparkContext é criado, cada nó do trabalhador inicia um executor. Executores são processos separados (JVM), que se […]

Como usar o COGROUP para grandes conjuntos de dados

Eu tenho dois rdd’s val tab_a: RDD[(String, String)] e val tab_b: RDD[(String, String)] Eu estou usando cogroup para esses conjuntos de dados como: val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { //somecode } } Eu estou usando valores tab_c cogrouped para map function e funciona bem para conjuntos de dados pequenos, […]

Como obter o ID de uma tarefa de mapa no Spark?

Existe uma maneira de obter o ID de uma tarefa de mapa no Spark? Por exemplo, se cada tarefa de mapa chamar uma function definida pelo usuário, posso obter o ID dessa tarefa de mapa dentro dessa function definida pelo usuário?

Despertar consultas SQL vs funções de dataframe

Para executar um bom desempenho com o Spark. Eu estou querendo saber se isso é bom para usar consultas SQL via SQLContext ou se isso é melhor fazer consultas via funções DataFrame como df.select (). Qualquer ideia? 🙂

Spark sql como explodir sem perder valores nulos

Eu tenho um Dataframe que estou tentando nivelar. Como parte do processo, quero explodi-lo, portanto, se eu tiver uma coluna de matrizes, cada valor da matriz será usado para criar uma linha separada. Por exemplo, id | name | likes _______________________________ 1 | Luke | [baseball, soccer] Deve se tornar id | name | likes […]

Leia o JSON de múltiplas linhas no Apache Spark

Eu estava tentando usar um arquivo JSON como um pequeno database. Depois de criar uma tabela de modelos no DataFrame, consultei-a com o SQL e obtive uma exceção. Aqui está o meu código: val df = sqlCtx.read.json(“/path/to/user.json”) df.registerTempTable(“user_tt”) val info = sqlCtx.sql(“SELECT name FROM user_tt”) info.show() df.printSchema() : root |– _corrupt_record: string (nullable = true) […]

SparkSQL: Como lidar com valores nulos na function definida pelo usuário?

Dada Tabela 1 com uma coluna “x” do tipo String. Eu quero criar tabela 2 com uma coluna “y” que é uma representação de número inteiro das seqüências de data fornecidas em “x”. Essencial é manter null valores null na coluna “y”. Tabela 1 (Dataframe df1): +———-+ | x| +———-+ |2015-09-12| |2015-09-13| | null| | […]

Processamento XML no Spark

Cenário: Meus Inputs serão múltiplos XMLs pequenos e am Suponhamos que leia esses XMLs como RDDs. Executar junit com outro dataset e formar um RDD e enviar a saída como um XML. É possível ler XML usando faísca, carregar os dados como RDD? Se for possível, como o XML será lido? Exemplo de XML: 1234 […]

Spark: Lendo arquivos usando um delimitador diferente da nova linha

Estou usando o Apache Spark 1.0.1. Eu tenho muitos arquivos delimitados com UTF8 \u0001 e não com a nova linha usual \n . Como posso ler esses arquivos no Spark? Ou seja, o delimitador padrão de sc.textfile(“hdfs:///myproject/*”) é \n , e eu quero alterá-lo para \u0001 .