Articles of apache faísca

Como funciona a function Distinct () no Spark?

Sou novato no Apache Spark e aprendi funcionalidades básicas. Tive uma pequena dúvida. Suponha que eu tenha um RDD de tuplas (chave, valor) e queria obter algumas delas únicas. Eu uso a function distinct (). Eu estou querendo saber em que base a function considera que as tuplas são díspares? É baseado nas chaves, valores […]

Mente explodida: método RDD.zip ()

Acabei de descobrir o método RDD.zip() e não posso imaginar qual seria o seu contrato . Eu entendo o que isso faz , claro. No entanto, sempre foi meu entendimento que a ordem dos elementos em um RDD é um conceito sem sentido o número de partições e seus tamanhos é um detalhe de implementação […]

Como ajustar o número do executor de faísca, núcleos e memory do executor?

Onde você começa a sintonizar os parâmetros acima mencionados? Começamos com memory do executor e obtemos o número de executores, ou começamos com núcleos e obtemos o número do executor. Eu segui o link . No entanto, tenho uma idéia de alto nível, mas ainda não tenho certeza de como ou onde começar e chegar […]

Qual é a diferença entre o Apache Spark e o Apache Flink?

Quais são as diferenças entre o Apache Spark e o Apache Flink ? O Apache Flink replaceá o Hadoop ?

Por que meu BroadcastHashJoin é mais lento que o ShuffledHashJoin no Spark

Eu executo uma junit usando um javaHiveContext no Spark. A grande mesa tem 1,76 GB e tem 100 milhões de registros. A segunda tabela é 273Mb e tem 10 milhões de registros. Eu recebo um JavaSchemaRDD e chamo count() nele: String query=”select attribute7,count(*) from ft,dt where ft.chiavedt=dt.chiavedt group by attribute7″; JavaSchemaRDD rdd=sqlContext.sql(query); System.out.println(“count=”+rdd.count()); Se eu […]

Atributos de referência do SparkSQL da UDT

Estou tentando implementar um UDT personalizado e poder referenciá-lo a partir do Spark SQL (conforme explicado no white paper do Spark SQL, seção 4.4.2). O exemplo real é ter um UDT customizado apoiado por uma estrutura de dados fora do heap usando Cap’n Proto ou similar. Para esta postagem, eu inventei um exemplo artificial. Eu […]

“Error: type mismatch” no Spark com os mesmos tipos de dados encontrados e requeridos

Eu estou usando spark-shell para executar o meu código. No meu código, defini uma function e chamo essa function com seus parâmetros. O problema é que eu recebo o erro abaixo quando eu chamo a function. error: type mismatch; found : org.apache.spark.graphx.Graph[VertexProperty(in class $iwC)(in class $iwC)(in class $iwC)(in class $iwC),String] required: org.apache.spark.graphx.Graph[VertexProperty(in class $iwC)(in class […]

Spark: como obter o número de linhas escritas?

Eu estou querendo saber se existe uma maneira de saber o número de linhas escritas por uma operação de salvamento do Spark. Eu sei que é o suficiente para fazer uma contagem no RDD antes de escrevê-lo, mas gostaria de saber se existe uma maneira de ter a mesma informação sem fazê-lo. Obrigado Marco

Spark Sql UDF com parâmetro de input complexo

Estou tentando usar o UDF com o tipo de input Array of struct. Eu tenho a seguinte estrutura de dados esta é apenas parte relevante de uma estrutura maior |–investments: array (nullable = true) | |– element: struct (containsNull = true) | | |– funding_round: struct (nullable = true) | | | |– company: struct […]

Analisando registros de múltiplas linhas no Scala

Aqui está o meu RDD [String] M1 module1 PIP a ZA PIP b ZB PIP c Y n4 M2 module2 PIP a I n4 PIP b OD PIP c O n5 e assim por diante. Basicamente, eu preciso de um RDD de chave (contendo a segunda palavra na linha 1) e valores das linhas PIP […]