Articles of apache faísca

Spark – carrega o arquivo CSV como DataFrame?

Eu gostaria de ler um CSV em faísca e convertê-lo como DataFrame e armazená-lo em HDFS com df.registerTempTable(“table_name”) Eu tentei: scala> val df = sqlContext.load(“hdfs:///csv/file/dir/file.csv”) Erro que recebi: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.spark.sql.parquet.ParquetRelation2$MetadataCache$$anonfun$refresh$6.apply(newParquet.scala:277) at […]

Como ler vários arquivos de texto em um único RDD?

Eu quero ler um monte de arquivos de texto de um local hdfs e realizar o mapeamento em uma iteração usando faísca. JavaRDD records = ctx.textFile(args[1], 1); é capaz de ler apenas um arquivo por vez. Eu quero ler mais de um arquivo e processá-los como um único RDD. Como?

O SparkSQL oferece suporte à subconsulta?

Eu estou executando esta consulta no shell Spark, mas me dá erro, sqlContext.sql( “select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println) erro: java.lang.RuntimeException: [1.47] falha: “) ” esperado mas identificador MAX encontrado select sal from samplecsv onde sal <(selecione MAX (sal) de samplecsv) ^ em scala.sys.package $ .error (package.scala: 27) Alguém […]

(Por que) precisamos chamar o cache ou persistir em um RDD

Quando um dataset distribuído resiliente (RDD) é criado a partir de um arquivo de texto ou coleção (ou de outro RDD), precisamos chamar “cache” ou “persistir” explicitamente para armazenar os dados RDD na memory? Ou os dados RDD são armazenados de maneira distribuída na memory por padrão? val textFile = sc.textFile(“/user/emp.txt”) De acordo com o […]

Conjunto de dados do Spark 2.0 vs DataFrame

começando com faísca 2.0.1 Eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entre df.select(“foo”) df.select($”foo”) eu entendi corretamente que myDataSet.map(foo.someVal) é typesafe e não será convertido em RDD mas permanece na representação DataSet / sem sobrecarga adicional (desempenho sábio para 2.0.0) todos os […]

Como servir um modelo Spark MLlib?

Estou avaliando ferramentas para aplicações baseadas em ML de produção e uma de nossas opções é o Spark MLlib, mas eu tenho algumas perguntas sobre como servir um modelo uma vez que ele é treinado? Por exemplo, no Azure ML, uma vez treinado, o modelo é exposto como um serviço da Web que pode ser […]

Spark extrair valores de uma linha

Eu tenho o seguinte dataframe val transactions_with_counts = sqlContext.sql( “””SELECT user_id AS user_id, category_id AS category_id, COUNT(category_id) FROM transactions GROUP BY user_id, category_id”””) Eu estou tentando converter as linhas para objects de sorting, mas desde que x (0) retorna uma matriz isso falha val ratings = transactions_with_counts .map(x => Rating(x(0).toInt, x(1).toInt, x(2).toInt)) erro: valor toInt […]

Erro de codificador ao tentar mapear a linha do dataframe para a linha atualizada

Quando estou tentando fazer a mesma coisa no meu código como mencionado abaixo dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == “tesla”) “S” else row1 Row(row(0),make,row(2)) }) Tomei a referência acima a partir daqui: Scala: Como posso replace o valor em Dataframs usando scala Mas estou recebendo erro de codificador […]

Diferença entre o DataFrame (no Spark 2.0, ou seja, DataSet ) e o RDD no Spark

Eu só estou querendo saber qual é a diferença entre um RDD e DataFrame (Spark 2.0.0 DataFrame é um mero tipo alias para Dataset[Row] ) no Apache Spark? Você pode converter um para o outro?

Como definir e usar uma function agregada definida pelo usuário no Spark SQL?

Eu sei como escrever uma UDF no Spark SQL: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _) Posso fazer algo semelhante para definir uma function agregada? Como isso é feito? Para contexto, quero executar a seguinte consulta SQL: val aggDF = sqlContext.sql(“””SELECT span, belowThreshold(opticalReceivePower), timestamp FROM ifDF WHERE opticalReceivePower […]