Articles of dplyr

Encontre o número de linhas usando dplyr / group_by

Eu estou usando o dataset mtcars . Eu quero encontrar o número de registros para uma combinação específica de dados. Algo muito semelhante ao count(*) group por cláusula em SQL. ddply() de plyr está trabalhando para mim library(plyr) ddply(mtcars, .(cyl,gear),nrow) tem saída cyl gear V1 1 4 3 1 2 4 4 8 3 4 […]

R Avaliação condicional ao usar o operador de tubulação%>%

Ao usar o operador de pipe %>% com pacotes como dplyr , ggvis , dycharts , etc, como faço uma etapa condicionalmente? Por exemplo; step_1 %>% step_2 %>% if(condition) step_3 Essas abordagens não parecem funcionar: step_1 %>% step_2 if(condition) %>% step_3 step_1 %>% step_2 %>% if(condition) step_3 Existe um longo caminho: if(condition) { step_1 %>% […]

dplyr mutate / replace em um subconjunto de linhas

Eu estou no processo de experimentar um stream de trabalho baseado em dplyr (ao invés de usar principalmente dados.table, que eu estou acostumado), e eu me deparei com um problema que eu não consigo encontrar uma solução dplyr equivalente para . Eu geralmente corro para o cenário onde eu preciso atualizar / replace condicionalmente várias […]

R dplyr: renomeia variables ​​usando funções de string

(Alguma pergunta relacionada: Insira novos nomes de coluna como string na function rename do dplyr ) No meio de uma cadeia dplyr ( %>% ), gostaria de replace vários nomes de coluna por funções de seus nomes antigos (usando tolower ou gsub , etc.) library(tidyr); library(dplyr) data(iris) # This is what I want to do, […]

Ajustando vários modelos de regressão com dplyr

Eu gostaria de ajustar um modelo para cada hora (a variável de fator) usando dplyr, estou recebendo um erro e não tenho certeza do que está errado. df.h <- data.frame( hour = factor(rep(1:24, each = 21)), price = runif(504, min = -10, max = 125), wind = runif(504, min = 0, max = 2500), temp […]

Criar coluna com valores agrupados com base em outra coluna

Tenho certeza de que isso já foi perguntado, mas não sei o que procurar, então peço desculpas antecipadamente. Digamos que eu tenha o seguinte quadro de dados: grades <- data.frame(a = 1:40, b = sample(45:100, 40)) Usando deplyr, eu quero criar uma nova variável que indique a nota recebida pelo aluno, com base nos seguintes […]

Executando dplyr mutate no subconjunto de colunas

Eu tenho um data.frame como este (o dataset real tem muito mais linhas e colunas) set.seed(15) dd <- data.frame(id=letters[1:4], matrix(runif(5*4), nrow=4)) # id X1 X2 X3 X4 X5 # 1 a 0.6021140 0.3670719 0.6872308 0.5090904 0.4474437 # 2 b 0.1950439 0.9888592 0.8314290 0.7066286 0.9646670 # 3 c 0.9664587 0.8151934 0.1046694 0.8623137 0.1411871 # 4 d […]

Filtrar quadro de dados por nome de coluna de caractere (em dplyr)

Eu tenho um quadro de dados e quero filtrá-lo de uma das duas maneiras, pela coluna “this” ou coluna “that”. Eu gostaria de poder me referir ao nome da coluna como uma variável. Como (no dplyr , se isso faz diferença), eu me refiro a um nome de coluna por uma variável? library(dplyr) df % […]

dplyr :: group_by_ com input de cadeia de caracteres de vários nomes de variables

Estou escrevendo uma function onde o usuário é solicitado a definir uma ou mais variables ​​de agrupamento na chamada de function. Os dados são então agrupados usando dplyr e funciona como esperado se houver apenas uma variável de agrupamento, mas eu não descobri como fazer isso com várias variables ​​de agrupamento. Exemplo: x <- c("cyl") […]

Passar argumentos para funções dplyr

Eu quero parametrizar o seguinte cálculo usando dplyr que localiza quais valores de Sepal.Length estão associados com mais de um valor de Sepal.Width : library(dplyr) iris %>% group_by(Sepal.Length) %>% summarise(n.uniq=n_distinct(Sepal.Width)) %>% filter(n.uniq > 1) Normalmente eu escreveria algo assim: not.uniq.per.group % group_by(group.var) %>% summarise(n.uniq=n_distinct(uniq.var)) %>% filter(n.uniq > 1) } No entanto, essa abordagem gera erros […]