Articles of dataframe

Excluir linhas que existem em outro quadro de dados?

Eu tenho os dois seguintes frameworks de dados (exemplo): df1: name profile type strand A 4.5 1 + B 3.2 1 + C 5.5 1 + D 14.0 1 – E 45.1 1 – F 32.8 1 – G 19.9 1 + df2: name A B C G Eu gostaria de excluir as linhas em […]

Como selecionar a primeira e a última linha dentro de uma variável de agrupamento em um quadro de dados?

Como posso selecionar a primeira e a última linha de cada id exclusiva no seguinte dataframe? tmp id d gr mm area #> 1 15 1 2 3.4 1 #> 2 15 1 1 4.9 2 #> 3 15 1 1 4.4 1 #> 4 15 1 1 5.5 2 #> 5 21 1 1 […]

Repetir linhas de um data.frame

Eu quero repetir as linhas de um data.frame, cada N vezes. O resultado deve ser um novo data.frame (com nrow(new.df) == nrow(old.df) * N ) mantendo os tipos de dados das colunas. Exemplo para N = 2: ABC ABC 1 ji 100 1 ji 100 –> 2 ji 100 2 KP 101 3 KP 101 […]

Como você remove colunas de um data.frame?

Não tanto “Como você …?” mas mais “como você …?” Se você tem um arquivo, alguém lhe dá 200 colunas e você quer reduzi-lo às poucas que precisa para análise, como você o faz? Uma solução oferece benefícios em detrimento de outra? Assumindo que temos um quadro de dados com colunas col1, col2 a col200. […]

Auto referência

No RI me vejo fazendo muito assim: adataframe[adataframe$col==something]<-adataframe[adataframe$col==something)]+1 Este caminho é meio longo e tedioso. Existe alguma maneira para mim para fazer referência ao object que estou tentando alterar, como adataframe[adataframe$col==something]<-$self+1 ?

Como criar um DataFrame vazio com um esquema especificado?

Eu quero criar no DataFrame com um esquema especificado no Scala. Eu tentei usar JSON read (quero dizer, ler arquivo vazio), mas não acho que seja a melhor prática.

Por que o plyr é tão lento?

Eu acho que estou usando plyr incorretamente. Alguém poderia me dizer se é um código plyr “eficiente”? require(plyr) plyr <- function(dd) ddply(dd, .(price), summarise, ss=sum(volume)) Um pequeno contexto: tenho alguns problemas de agregação grandes e notei que cada um demorava algum tempo. Na tentativa de resolver os problemas, fiquei interessado no desempenho de vários procedimentos […]

Renomeando os nomes das colunas de um DataFrame no Spark Scala

Eu estou tentando converter todos os headers / nomes de coluna de um DataFrame no Spark-Scala. a partir de agora, procuro o seguinte código, que substitui apenas um único nome de coluna. for( i <- 0 to origCols.length – 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

Calcular proporções em linha

Eu tenho um quadro de dados: x <- data.frame(id = letters[1:3], val0 = 1:3, val1 = 4:6, val2 = 7:9) # id val0 val1 val2 # 1 a 1 4 7 # 2 b 2 5 8 # 3 c 3 6 9 Dentro de cada linha, quero calcular as proporções correspondentes (proporção) para cada […]

Aleatoriamente insira NAs no dataframe proporcionalmente

Eu tenho um dataframe completo. Eu quero que 20% dos valores no dataframe sejam substituídos por NAs para simular dados perdidos randoms. A <- c(1:10) B <- c(11:20) C <- c(21:30) df<- data.frame(A,B,C) Alguém pode sugerir uma maneira rápida de fazer isso?