Articles of apache spark sql

Erro de ignição: zero argumentos esperados para a construção de ClassDict (para numpy.core.multiarray._reconstruct)

Eu tenho um dataframe no Spark em que uma das colunas contém uma matriz.Agora, eu escrevi uma UDF separada que converte a matriz para outra matriz com valores distintos apenas. Veja o exemplo abaixo: Ex: [24,23,27,23] deve ser convertido em [24, 23, 27] Código: def uniq_array(col_array): x = np.unique(col_array) return x uniq_array_udf = udf(uniq_array,ArrayType(IntegerType())) Df3 […]

Substituir valores ausentes por média – Spark Dataframe

Eu tenho um Dataframe do Spark com alguns valores ausentes. Eu gostaria de realizar uma simples imputação, substituindo os valores ausentes pela média dessa coluna. Eu sou muito novo no Spark, então tenho lutado para implementar essa lógica. Isto é o que consegui fazer até agora: a) Para fazer isso em uma única coluna (digamos, […]

Como posso passar parâmetros extras para UDFs no SparkSql?

Eu quero analisar as colunas de data em um DataFrame e para cada coluna de data, a resolução para a data pode alterar (ou seja, 2011/01/10 => DataFrame , se a resolução estiver definida como “mês”). Eu escrevi o seguinte código: def convertDataFrame(dataframe: DataFrame, schema : Array[FieldDataType], resolution: Array[DateResolutionType]) : DataFrame = { import org.apache.spark.sql.functions._ […]

Incluindo Valores Nulos em um Apache Spark Join

Eu gostaria de include valores nulos em uma associação do Apache Spark. O Spark não inclui linhas com nulo por padrão. Aqui está o comportamento padrão do Spark. val numbersDf = Seq( (“123”), (“456”), (null), (“”) ).toDF(“numbers”) val lettersDf = Seq( (“123”, “abc”), (“456”, “def”), (null, “zzz”), (“”, “hhh”) ).toDF(“numbers”, “letters”) val joinedDf = numbersDf.join(lettersDf, […]

Como criar um DataFrame vazio com um esquema especificado?

Eu quero criar no DataFrame com um esquema especificado no Scala. Eu tentei usar JSON read (quero dizer, ler arquivo vazio), mas não acho que seja a melhor prática.

Renomeando os nomes das colunas de um DataFrame no Spark Scala

Eu estou tentando converter todos os headers / nomes de coluna de um DataFrame no Spark-Scala. a partir de agora, procuro o seguinte código, que substitui apenas um único nome de coluna. for( i <- 0 to origCols.length – 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

Como usar o COGROUP para grandes conjuntos de dados

Eu tenho dois rdd’s val tab_a: RDD[(String, String)] e val tab_b: RDD[(String, String)] Eu estou usando cogroup para esses conjuntos de dados como: val tab_c = tab_a.cogroup(tab_b).collect.toArray val updated = tab_c.map { x => { //somecode } } Eu estou usando valores tab_c cogrouped para map function e funciona bem para conjuntos de dados pequenos, […]

Como dividir um dataframe em frameworks de dados com os mesmos valores de coluna?

Usando Scala, como posso dividir dataFrame em vários dataFrame (seja matriz ou coleção) com o mesmo valor de coluna. Por exemplo, eu quero dividir o seguinte DataFrame: ID Rate State 1 24 AL 2 35 MN 3 46 FL 4 34 AL 5 78 MN 6 99 FL para: dataset 1 ID Rate State 1 […]

Despertar consultas SQL vs funções de dataframe

Para executar um bom desempenho com o Spark. Eu estou querendo saber se isso é bom para usar consultas SQL via SQLContext ou se isso é melhor fazer consultas via funções DataFrame como df.select (). Qualquer ideia? 🙂

Spark sql como explodir sem perder valores nulos

Eu tenho um Dataframe que estou tentando nivelar. Como parte do processo, quero explodi-lo, portanto, se eu tiver uma coluna de matrizes, cada valor da matriz será usado para criar uma linha separada. Por exemplo, id | name | likes _______________________________ 1 | Luke | [baseball, soccer] Deve se tornar id | name | likes […]