Articles of dplyr

Remover linhas duplicadas usando dplyr

Eu tenho um data.frame como este – set.seed(123) df = data.frame(x=sample(0:1,10,replace=T),y=sample(0:1,10,replace=T),z=1:10) > df xyz 1 0 1 1 2 1 0 2 3 0 1 3 4 1 1 4 5 1 0 5 6 0 1 6 7 1 0 7 8 1 0 8 9 1 0 9 10 0 1 10 Gostaria […]

Linha de filtragem que contém uma determinada string usando dplyr

Eu tenho que filtrar um quadro de dados usando como critério a linha em que está contida a string RTB . Estou usando o dplyr . d.del <- df %.% group_by(TrackingPixel) %.% summarise(MonthDelivery = as.integer(sum(Revenue))) %.% arrange(desc(MonthDelivery)) Eu sei que posso usar o filter function no dplyr mas não sei exatamente como dizê-lo para verificar […]

dplyr: “Erro na function n (): não deve ser chamado diretamente”

Eu estou tentando reproduzir um dos exemplos no pacote dplyr mas esta mensagem de erro. Espero ver uma nova coluna n produzida com a frequência de cada combinação. Alguém pode me dizer o que estou perdendo? Eu triplo verifiquei que o pacote está carregado. Obrigado pela ajuda, como sempre. library(dplyr) # summarise peels off a […]

dplyr resume: Equivalente de “.drop = FALSE” para manter grupos com comprimento zero na saída

Ao usar o summarise com a function ddply do ddply , as categorias vazias são descartadas por padrão. Você pode alterar esse comportamento adicionando .drop = FALSE . No entanto, isso não funciona ao usar summarise com dplyr . Existe outra maneira de manter categorias vazias no resultado? Aqui está um exemplo com dados falsos. […]

Extraia uma coluna dplyr tbl como um vetor

Existe uma maneira mais sucinta de obter uma coluna de um dinderr tbl como vetor, a partir de um tbl com back-end de database (ou seja, o quadro / tabela de dados não pode ser subconjunto diretamente)? require(dplyr) db <- src_sqlite(tempfile(), create = TRUE) iris2 <- copy_to(db, iris) iris2$Species # NULL Isso teria sido muito […]

Como numerar / rotular tabela de dados por número de grupo de group_by?

Eu tenho um tbl_df onde eu quero group_by(u, v) para cada combinação de números distintos observada com (u, v) . EDIT: isso foi resolvido adicionando group_indices() volta em dplyr 0.4.0 a) Então eu quero atribuir a cada grupo distinto algum número arbitrário de label distinto = 1,2,3 … por exemplo, a combinação (u, v) == […]

avaliação padrão em dplyr: resume na variável dada como uma cadeia de caracteres

Quero me referir a um nome de coluna desconhecido dentro de um summarise . As funções de avaliação padrão introduzidas no dplyr 0.3 permitem que os nomes das colunas sejam referenciados usando variables, mas isso não parece funcionar quando você chama uma function R base dentro de, por exemplo, um summarise . library(dplyr) key <- […]

filtro dplyr: obter linhas com o mínimo de variável, mas apenas o primeiro se vários mínimos

Eu quero fazer um filtro agrupado usando dplyr , de uma forma que dentro de cada grupo apenas essa linha é retornada que tem o valor mínimo da variável x . Meu problema é: Como esperado, no caso de vários mínimos, todas as linhas com o valor mínimo são retornadas. Mas no meu caso, eu […]

Freqüências / proporções relativas com dplyr

Suponha que eu queira calcular a proporção de diferentes valores dentro de cada grupo. Por exemplo, usando os dados mtcars , como calcular a frequência relativa do número de engrenagens por am (automático / manual) de uma só vez com dplyr ? library(dplyr) data(mtcars) mtcars % group_by(am, gear) %>% summarise(n = n()) # am gear […]

Linhas únicas, considerando duas colunas, em R, sem ordem

Ao contrário das perguntas que encontrei, quero obter o exclusivo de duas colunas sem ordem. Eu tenho um df: df df [,1] [,2] [1,] “a” “b” [2,] “b” “d” [3,] “c” “e” [4,] “b” “a” Nesse caso, linha 1 e linha 4 são “duplicatas” no sentido de que ba é o mesmo que ba. Eu […]