Articles of scala

Como salvar uma faísca DataFrame como csv no disco?

Por exemplo, o resultado disso: df.filter(“project = ‘en'”).select(“title”,”count”).groupBy(“title”).sum() retornaria um Array. Como salvar uma faísca DataFrame como um arquivo csv no disco?

Finalidade da declaração de “retorno” no Scala?

Existe algum motivo real para fornecer a declaração de return no Scala? (além de ser mais “amigo de Java”)

Como calcular a sum cumulativa usando o Spark

Eu tenho um rdd de (String, Int), que é classificado por chave val data = Array((“c1”,6), (“c2”,3),(“c3”,4)) val rdd = sc.parallelize(data).sortByKey Agora quero iniciar o valor para a primeira chave com zero e as chaves subsequentes como sum das chaves anteriores. Por exemplo: c1 = 0, c2 = valor de c1, c3 = (valor c1 […]

Comportamento estranho tentando converter classs de casos para listas heterogêneas de forma recursiva com o Shapeless

Eu fiquei acordada até tarde da noite tentando entender essa questão sem forma e estou com medo de comer minha noite se eu não tirá-la do meu peito, então aqui vai. Nesta versão minimizada, estou apenas definindo uma class de tipo que converterá recursivamente classs de casos em listas heterogêneas : import shapeless._ trait DeepHLister[R […]

Nenhuma configuração definida para a chave ‘akka.version’

Eu estou aprendendo akka-remoting e é assim que meu projeto parece A estrutura do projeto parece project/pom.xml project/mymodule/pom.xml project/mymodule/src/main/resources/application.conf project/mymodule/src/main/scala/com.harit.akkaio.remote.RemoteApp.scala project/mymodule/src/main/scala/com.harit.akkaio.remote.ProcessingActor.scala Quando executo meu projeto na command-line , vejo $ java -jar akkaio-remote/target/akka-remote-jar-with-dependencies.jar com.harit.akkaio.remote.RemoteApp Hello:com.harit.akkaio.remote.RemoteApp Exception in thread “main” com.typesafe.config.ConfigException$Missing: No configuration setting found for key ‘akka.version’ at com.typesafe.config.impl.SimpleConfig.findKey(SimpleConfig.java:124) at com.typesafe.config.impl.SimpleConfig.find(SimpleConfig.java:145) at com.typesafe.config.impl.SimpleConfig.find(SimpleConfig.java:151) at com.typesafe.config.impl.SimpleConfig.find(SimpleConfig.java:159) […]

Executar tarefa personalizada automaticamente antes / depois da tarefa padrão

Muitas vezes, quero fazer alguma customização antes que uma das tarefas padrão seja executada. Eu percebo que posso fazer novas tarefas que executam tarefas existentes na ordem que eu quero, mas acho que é complicado e a chance de que um desenvolvedor perca a tarefa de executar my-compile em vez de compilar é grande e […]

Obtendo o índice do loop atual no Play! 2 modelo Scala

Jogando! 1, foi possível obter o índice atual dentro de um loop, com o seguinte código: #{list items:myItems, as: ‘item’} Item ${item_index} is ${item} #{/list} Existe um equivalente no Play2 para fazer algo assim? @for(item <- myItems) { Item ??? is @item } Mesma pergunta para o _isLast e _isFirst . ps: esta questão é […]

Filter spark DataFrame na string contém

Eu estou usando o Spark 1.3.0 e Spark Avro 1.0.0 . Eu estou trabalhando a partir do exemplo na página do repository . Este código a seguir funciona bem val df = sqlContext.read.avro(“src/test/resources/episodes.avro”) df.filter(“doctor > 5”).write.avro(“/tmp/output”) Mas e se eu precisasse ver se a string do doctor contém uma substring? Já que estamos escrevendo nossa […]

Como calcular os melhores numberOfParts para coalesce?

Então, eu entendo que, em geral, deve-se usar coalesce() quando: o número de partições diminui devido a um filter ou outra operação que pode resultar na redução do dataset original (RDD, DF). coalesce() é útil para executar operações com mais eficiência após filtrar um grande dataset. Eu também entendo que é menos dispendioso do que […]

scala paralela grau de collections de paralelismo

Existe algum equivalente em collections paralelas de scala para o withDegreeOfParallelism do LINQ que define o número de encadeamentos que executarão uma consulta? Eu quero executar uma operação em paralelo, que precisa ter um número definido de segmentos em execução.