Especifique o formato de data personalizado para o argumento colClasses em read.table / read.csv

Questão:

Existe uma maneira de especificar o formato de data ao usar o argumento colClasses em read.table / read.csv?

(Eu percebo que posso converter após a importação, mas com muitas colunas de data como esta, seria mais fácil fazê-lo na etapa de importação)


Exemplo:

Eu tenho um .csv com colunas de data no formato %d/%m/%Y

 dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date")) 

Isso faz com que a conversão esteja errada. Por exemplo, 15/07/2008 torna-se 0015-07-20 .


Código reproduzível:

 data <- structure(list(func_loc = structure(c(1L, 2L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 5L), .Label = c("3076WAG0003", "3076WAG0004", "3076WAG0007", "3076WAG0009", "3076WAG0010"), class = "factor"), order_type = structure(c(3L, 3L, 1L, 1L, 1L, 1L, 2L, 2L, 3L, 1L), .Label = c("PM01", "PM02", "PM03"), class = "factor"), actual_finish = structure(c(4L, 6L, 1L, 2L, 3L, 7L, 1L, 8L, 1L, 5L), .Label = c("", "11/03/2008", "14/08/2008", "15/07/2008", "17/03/2008", "19/01/2009", "22/09/2008", "6/09/2007"), class = "factor")), .Names = c("func_loc", "order_type", "actual_finish"), row.names = c(NA, 10L), class = "data.frame") write.csv(data,"data.csv", row.names = F) dataImport <- read.csv("data.csv") str(dataImport) dataImport dataImport <- read.csv("data.csv", colClasses = c("factor","factor","Date")) str(dataImport) dataImport 

E aqui está o que a saída parece:

saída de código

Você pode escrever sua própria function que aceite uma string e a converta em uma Data usando o formato desejado, depois use setAs para defini-la como um método. Então você pode usar sua function como parte das colClasses.

Experimentar:

 setAs("character","myDate", function(from) as.Date(from, format="%d/%m/%Y") ) tmp < - c("1, 15/08/2008", "2, 23/05/2010") con <- textConnection(tmp) tmp2 <- read.csv(con, colClasses=c('numeric','myDate'), header=FALSE) str(tmp2) 

Em seguida, modifique se necessário para trabalhar pelos seus dados.

Editar ---

Você pode querer rodar o setClass('myDate') primeiro para evitar o aviso (você pode ignorar o aviso, mas ele pode ficar chato se você fizer isso muito e esta é uma simples chamada que se livra dele).

Se houver apenas 1 formato de data que você deseja alterar, você poderá usar o pacote Defaults para alterar o formato padrão em as.Date.character

 library(Defaults) setDefaults('as.Date.character', format = '%d/%M/%Y') dataImport < - read.csv("data.csv", colClasses = c("factor","factor","Date")) str(dataImport) ## 'data.frame': 10 obs. of 3 variables: ## $ func_loc : Factor w/ 5 levels "3076WAG0003",..: 1 2 3 3 3 3 3 4 4 5 ## $ order_type : Factor w/ 3 levels "PM01","PM02",..: 3 3 1 1 1 1 2 2 3 1 ## $ actual_finish: Date, format: "2008-10-15" "2009-10-19" NA "2008-10-11" ... 

Eu acho que a resposta de @Greg Snow é muito melhor, já que isso não muda o comportamento padrão de uma function frequentemente usada.

Caso você precise de tempo também:

 setClass('yyyymmdd-hhmmss') setAs("character","yyyymmdd-hhmmss", function(from) as.POSIXct(from, format="%Y%m%d-%H%M%S")) d < - read.table(colClasses="yyyymmdd-hhmmss", text="20150711-130153") str(d) ## 'data.frame': 1 obs. of 1 variable: ## $ V1: POSIXct, format: "2015-07-11 13:01:53"