Jaki jest najlepszy format do utrzymywania prostych ramek danych na dysku w R do przechowywania przy jednoczesnym ograniczeniu straty semantycznej?Jaki jest najlepszy format zapisywania ramek danych na dysku w R do przechowywania?
Pytam, ponieważ archiwizuję zestaw danych. W idealnym świecie, mój format danych miałby cechy następujące:
- stabilności - format przechowywania będzie kompatybilny z przyszłej wersji R
- semantyczna zgodność - format przechowywania zrozumie semantykę primative danych R za typy. Na przykład będzie w stanie przechowywać uporządkowane czynniki z etykietami w rozsądny sposób.
- Open Standard - idealnie, format będzie otwarty standard więc inne statystyki pakiety (teraz lub w przyszłości) będą mogli go
Moją pierwszą myślą było używać CSV, który jest bardzo stabilny zrozumieć, ale brakuje wymaganego semantycznego bogactwa. Z drugiej strony, wbudowany w R format RData całkowicie uchwycił semantykę R, ale wydaje się, że zmienia się pomiędzy wydaniami (popraw mnie jeśli się mylę).
Czy istnieje inny format, który wyważa te trzy imperatywy?
Czy Twoje dane będą otwarte lub zmanipulowane przez inny program niż R? i '? save' wspominają, że' Każda ostatnia wersja R może odczytywać skompresowany plik zapisu', więc wątpię, aby format .Rdata mógł się zmieniać pomiędzy wydaniami. – agstudy
Być może używaj [XML] (http://stackoverflow.com/q/6256064/602276) lub [JSON] (http://stackoverflow.com/q/3600431/602276) – Andrie
Myślę, że [YAML] (http://en.wikipedia.org/wiki/YAML) to dobra alternatywa, zobacz pakiet 'yaml'. Może obsługiwać podstawowe typy danych "R" (* np. * Nazwane listy, wektory, ...) i jest czytelny dla człowieka (w lepszym sensie niż XML w mojej opinii). – QkuCeHBH