Eksplorowanie nowego zestawu danych: Jaki jest najprostszy i najszybszy sposób wizualizacji wielu (wszystkich) zmiennych?Jak mogę utworzyć histogram dla wszystkich zmiennych w zbiorze danych przy minimalnym wysiłku w R?
Najlepiej, gdy dane wyjściowe pokazują histogramy obok siebie, przy minimalnym zbędności i maksymalnej ilości informacji. Kluczem do tego jest elastyczność i stabilność w radzeniu sobie z dużymi i różnymi zestawami danych. Używam RStudio i zazwyczaj zajmuję się dużymi i niechlujnymi danymi z ankiety.
Jednym z przykładów, który wychodzi z pudełka Hmisc
i działa całkiem dobrze tutaj jest:
library(ggplot2)
str(mpg)
library(Hmisc)
hist.data.frame(mpg)
Niestety, gdzieś indziej ja napotkasz problemy z lables danych (błąd w plot.new(): marginesy postać za duży). Wystąpił także błąd w przypadku większego zestawu danych niż mpg
i nie wiedziałem, jak kontrolować binowanie. Co więcej, wolałbym elastyczne rozwiązanie w ggplot2
. Zauważ, że właśnie zacząłem uczyć się R i jestem przyzwyczajony do wygodnych rozwiązań dostarczanych przez komercyjne oprogramowanie.
więcej pytań na ten temat:
R histogram - too many variables
...?
Tworzenie wykresu dla każdej zmiennej w zbiorze danych jest w porządku dla małego zestawu danych, ale jest po prostu strasznym pomysłem, jeśli masz 3000 zmiennych. Poprawną odpowiedzią w tym przypadku jest "Nie rób tego". – joran
Oczywiście, że nie; to był tylko przykład "bałaganu". – Rico
Doceniam wysiłek, który tu panu przyszedł, ale w pańskim pytaniu nie ma konkretnego konkretnego problemu programistycznego. Zamiast tego czuje się bardzo jak coś, co doprowadzi do rozlicznych odpowiedzi z różnymi zaleceniami, zamiast jasnej odpowiedzi. Rzeczywiście, kiedy czytam twoją odpowiedź, jestem bardziej zdezorientowany tym, jakie są twoje kryteria, niż przedtem. – joran