Articles of dataframe

Remover colunas do dataframe em que TODOS os valores são NA

Estou tendo problemas com um frame de dados e não consegui resolver o problema sozinho: O dataframe tem propriedades arbitrárias como colunas e cada linha representa um dataset . A questão é: Como se livrar de colunas onde para todas as linhas o valor é NA ?

Mesclar frameworks de dados de tamanhos diferentes

Eu tenho dois frameworks de dados d1 e d2 respectivamente, como: xyz 10 10 7 10 12 6 11 10 8 11 12 2 12 10 1 12 12 5 xyz 10 10 100 11 10 200 12 12 400 Eu quero algo como: xyz 10 10 100 10 12 6 11 10 200 11 […]

Substituir valores ausentes por média – Spark Dataframe

Eu tenho um Dataframe do Spark com alguns valores ausentes. Eu gostaria de realizar uma simples imputação, substituindo os valores ausentes pela média dessa coluna. Eu sou muito novo no Spark, então tenho lutado para implementar essa lógica. Isto é o que consegui fazer até agora: a) Para fazer isso em uma única coluna (digamos, […]

Retornar um quadro de dados da function

Eu tenho o seguinte código dentro de uma function Myfunc<- function(directory, MyFiles, id = 1:332) { # uncomment the 3 lines below for testing #directory<-"local" #id=c(2, 4) #MyFiles<-c(f2.csv,f4.csv) idd<-id df2 <- data.frame() for(i in 1:length(idd)) { EmptyVector <- read.csv(MyFiles[i]) comp_cases[i]<-sum(complete.cases(EmptyVector)) print(comp_cases[[i]]) id=idd[i] ret2=comp_cases[[i]] df2<-rbind(df2,data.frame(id,ret2)) } print(df2) return(df2) } Isso funciona quando tento executá-lo em R, […]

Como usar uma variável de string para selecionar uma coluna de frame de dados usando $ notation

A partir da leitura que tenho feito com R, posso selecionar uma coluna em um quadro de dados por um desses dois methods: frame [, column] ou frame $ column. No entanto, quando eu tenho uma string como uma variável, ela funciona apenas na primeira. Em outras palavras, considere o seguinte: Eu tenho um quadro […]

Remover colunas com valores zero de um dataframe

Eu tenho um data.frame: SelectVar abcdefghijkl ll mnopqr 1 Dxa8 Dxa8 0 Dxa8 Dxa8 0 Dxa8 Dxa8 0 0 0 0 0 0 0 0 0 Dxc8 0 2 Dxb8 Dxc8 0 Dxe8 Dxi8 0 tneg tpos 0 0 0 0 0 0 0 0 0 Dxi8 0 Eu gostaria de remover as colunas com […]

DataFrame do Spark: conta valores distintos de cada coluna

A questão é basicamente no título: Existe uma maneira eficiente de contar os valores distintos em cada coluna em um DataFrame? O método describe fornece apenas a contagem, mas não a contagem distinta, e gostaria de saber se existe uma maneira de obter a contagem distinta para todas as colunas (ou algumas selecionadas).

Identificando colunas duplicadas em um dataframe

Eu sou um novato R e estou tentando remover colunas duplicadas de um dataframe largish (50 mil linhas, 215 colunas). O quadro tem um mix de variables ​​contínuas e categóricas discretas. Minha abordagem foi gerar uma tabela para cada coluna no quadro em uma lista e, em seguida, usar a function duplicated() para localizar linhas […]

Excluir linhas que existem em outro quadro de dados?

Eu tenho os dois seguintes frameworks de dados (exemplo): df1: name profile type strand A 4.5 1 + B 3.2 1 + C 5.5 1 + D 14.0 1 – E 45.1 1 – F 32.8 1 – G 19.9 1 + df2: name A B C G Eu gostaria de excluir as linhas em […]

Como selecionar a primeira e a última linha dentro de uma variável de agrupamento em um quadro de dados?

Como posso selecionar a primeira e a última linha de cada id exclusiva no seguinte dataframe? tmp id d gr mm area #> 1 15 1 2 3.4 1 #> 2 15 1 1 4.9 2 #> 3 15 1 1 4.4 1 #> 4 15 1 1 5.5 2 #> 5 21 1 1 […]