Articles of dataframe

Última observação realizada em um quadro de dados?

Desejo implementar uma “Última observação realizada” para um dataset no qual estou trabalhando, o qual possui valores ausentes no final. Aqui está um código simples para fazer isso (pergunta depois): LOCF <- function(x) { # Last Observation Carried Forward (for a left to right series) LOCF <- max(which(!is.na(x))) # the location of the Last Observation […]

Conte o número de zeros por linha e remova as linhas com mais de n zeros

Eu tenho uma pergunta sobre a contagem de zeros por linha. Eu tenho um dataframe como este: a = c(1,2,3,4,5,6,0,2,5) b = c(0,0,0,2,6,7,0,0,0) c = c(0,5,2,7,3,1,0,3,0) d = c(1,2,6,3,8,4,0,4,0) e = c(0,4,6,3,8,4,0,6,0) f = c(0,2,5,5,8,4,2,7,4) g = c(0,8,5,4,7,4,0,0,0) h = c(1,3,6,7,4,2,0,4,2) i = c(1,5,3,6,3,7,0,5,3) j = c(1,5,2,6,4,6,8,4,2) DF<- data.frame(a=a,b=b,c=c,d=d,e=e,f=f,g=g,h=h,i=i,j=j) abcdefghij 1 1 0 0 1 […]

Erro – a substituição tem linhas, os dados têm

Eu tenho uma coluna numérica (“valor”) em um dataframe (“df”), e gostaria de gerar uma nova coluna (“valueBin”) com base em “valor”. Eu tenho o seguinte código condicional para definir df $ valueBin: df$valueBin[which(df$value<=250)] <- "250 & df$value<=500)] 500 & df$value<=1000)] 1000 & df$value<=2000)] 2000)] 2,000″ Estou recebendo o seguinte erro: “Erro em $<-.data.frame ( […]

Spark: subtraia dois DataFrames

No Spark versão 1.2.0, pode-se usar subtract com 2 SchemRDD s para acabar com apenas o conteúdo diferente do primeiro. val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData contém as linhas em todaySchemRDD que não existem em yesterdaySchemaRDD . Como isso pode ser alcançado com DataFrames no Spark versão 1.3.0 ?

Removendo a exibição de nomes de linha do quadro de dados

Estou criando um dataframe usando este código: df <- data.frame(dbGetQuery(con, paste('select * from test'))) O que resulta disso: UID BuildingCode AccessTime 1 123456 BUILD-1 2014-06-16 07:00:00 2 364952 BUILD-2 2014-06-15 08:00:00 3 95865 BUILD-1 2014-06-06 09:50:00 Eu estou então tentando remover os nomes das linhas (1, 2, 3, etc) como sugerido aqui usando este código: […]

Recodificar fator categórico com N categorias em N colunas binárias

Quadro de dados original: v1 = sample(letters[1:3], 10, replace=TRUE) v2 = sample(letters[1:3], 10, replace=TRUE) df = data.frame(v1,v2) df v1 v2 1 bc 2 aa 3 cc 4 ba 5 cc 6 cb 7 aa 8 ab 9 ac 10 ab Novo frame de dados: new_df = data.frame(row.names=rownames(df)) for (i in colnames(df)) { for (x in […]

Filter spark DataFrame na string contém

Eu estou usando o Spark 1.3.0 e Spark Avro 1.0.0 . Eu estou trabalhando a partir do exemplo na página do repository . Este código a seguir funciona bem val df = sqlContext.read.avro(“src/test/resources/episodes.avro”) df.filter(“doctor > 5”).write.avro(“/tmp/output”) Mas e se eu precisasse ver se a string do doctor contém uma substring? Já que estamos escrevendo nossa […]

Como adiciono uma linha a um quadro de dados com totais?

Eu tenho um quadro de dados em que gostaria de adicionar uma linha adicional que totaliza os valores das colunas. Por exemplo, digamos que eu tenha esses dados: x <- data.frame(Language=c("C++", "Java", "Python"), Files=c(4009, 210, 35), LOC=c(15328,876, 200), stringsAsFactors=FALSE) Os dados são assim: Language Files LOC 1 C++ 4009 15328 2 Java 210 876 3 […]

Criar um quadro de dados de comprimentos desiguais

Embora as colunas de frameworks de dados devam ter as mesmas linhas numéricas, existe alguma maneira de criar um quadro de dados de comprimentos desiguais. Eu não estou interessado em salvá-los como elementos separados de uma lista, porque muitas vezes tenho que enviar e-mail para as pessoas essa informação como um arquivo csv, e isso […]

Removendo linhas específicas de um dataframe

Eu tenho um quadro de dados, por exemplo: sub day 1 1 1 2 1 3 1 4 2 1 2 2 2 3 2 4 3 1 3 2 3 3 3 4 e gostaria de remover linhas específicas que podem ser identificadas pela combinação de sub e dia. Por exemplo, digamos que eu […]