Articles of r

remoção duplicada emparelhada do dataframe

Isso parece um problema simples, mas não consigo entender. Gostaria de remover duplicatas de um dataframe (df) se duas colunas tiverem os mesmos valores, mesmo que esses valores estejam na ordem inversa . O que quero dizer é, digamos que você tenha o seguinte quadro de dados: a <- c(rep("A", 3), rep("B", 3), rep("C",2)) b […]

Usando R para baixar arquivos de dados zipados, extrair e importar dados

@EZGraphs no Twitter escreve: “Muitos csvs on-line são compactados. Existe uma maneira de fazer o download, descompactar o arquivo e carregar os dados em um data.frame usando R? #Rstats” Eu também estava tentando fazer isso hoje, mas acabei baixando o arquivo zip manualmente. Eu tentei algo como: fileName <- "http://www.newcl.org/data/zipfiles/a1.zip" con1 <- unz(fileName, filename="a1.dat", open […]

Acessar nomes de índice de lapply dentro de FUN

Existe uma maneira de obter o nome do índice de lista na minha function lapply ()? n = names(mylist) lapply(mylist, function(list.elem) { cat(“What is the name of this list element?\n” }) Eu perguntei antes se é possível preservar os nomes de índice na lista retornada lapply (), mas ainda não sei se existe uma maneira […]

data.table vs dplyr: alguém pode fazer algo bem, o outro não pode ou faz mal?

Visão geral Estou relativamente familiarizado com data.table , não tanto com dplyr . Eu li algumas vinhetas e exemplos do dplyr que surgiram no SO, e até agora minhas conclusões são: data.table e dplyr são comparáveis ​​em velocidade, exceto quando há muitos (isto é,> 10-100K) grupos, e em algumas outras circunstâncias (ver benchmarks abaixo) dplyr […]

Como escrever sucintamente uma fórmula com muitas variables ​​de um quadro de dados?

Suponha que eu tenha uma variável de resposta e um dado contendo três covariables ​​(como um exemplo de brinquedo): y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) Eu quero ajustar uma regressão linear para os dados: fit = lm(y ~ d$x1 + d$x2 + d$y2) Existe uma maneira de […]

Faça um loop em R para ler muitos arquivos

Eu tenho me perguntado se alguém sabe uma maneira de criar um loop que carrega arquivos / bancos de dados em R. Digamos que eu tenha alguns arquivos como esse: data1.csv, data2.csv, …, data100.csv. Em algumas linguagens de programação você pode fazer algo parecido com esses dados + {x} + .csv o sistema reconhece como […]

Plotar múltiplas colunas no mesmo gráfico em R

Eu tenho o seguinte quadro de dados: ABCD Xax 0.451 0.333 0.034 0.173 0.22 0.491 0.270 0.033 0.207 0.34 0.389 0.249 0.084 0.271 0.54 0.425 0.819 0.077 0.281 0.34 0.457 0.429 0.053 0.386 0.53 0.436 0.524 0.049 0.249 0.12 0.423 0.270 0.093 0.279 0.61 0.463 0.315 0.019 0.204 0.23 Eu preciso plotar todas essas colunas […]

Ajustando uma curva de densidade a um histograma em R

Existe uma function em R que se ajusta a uma curva em um histograma? Digamos que você tenha o seguinte histograma hist(c(rep(65, times=5), rep(25, times=5), rep(35, times=10), rep(45, times=4))) Parece normal, mas está distorcido. Eu quero ajustar uma curva normal que é inclinada para envolver este histograma. Esta questão é bastante básica, mas não consigo […]

Por que o data.table atualiza nomes (DT) por referência, mesmo se eu atribuir a outra variável?

Eu armazenei os nomes de um data.table como um vector : library(data.table) set.seed(42) DT <- data.table(x = runif(100), y = runif(100)) names1 <- names(DT) Tanto quanto eu posso dizer, é um vetor simples personagem de baunilha: str(names1) # chr [1:2] “x” “y” class(names1) # [1] “character” dput(names1) # c(“x”, “y”) No entanto, este não é […]

Como chamar um object com a variável de caractere de mesmo nome

Estou tentando escrever uma function em R para analisar em lote um número de arquivos de maneira semelhante. Os arquivos são da class ExpressionSetIllumina . Eu posso fazer um vetor de caracteres (string) com nomes de todos os arquivos no diretório e carregar cada um deles: list = list.files() for (i in list[1]) { load(i) […]