Załóżmy, że próbuję podsumować jedną zmienną (nazywam ją var_1
) w bardzo dużym zbiorze danych (prawie terabajt). Zbiór danych jest długi i szeroki. Mój kod wyglądałby następująco:Czy użycie opcji KEEP w zestawach danych SAS poprawia wydajność odczytu?
PROC MEANS DATA=my_big_dataset SUM;
VAR var_1;
RUN;
Chciałbym uzyskać jakikolwiek zysk wydajności w ogóle za pomocą opcji KEEP
na zbiorze odczytania? To znaczy:
PROC MEANS DATA=my_big_dataset (KEEP=var_1) SUM;
VAR var_1;
RUN;
Jeśli chodzi o dysk I/O, to wyobrażam sobie, że każdy zapis musi być przeczytany w całości bez względu na wszystko. Być może jednak potrzeba mniej pamięci, aby odczytać zapisy. Każda rada jest doceniana.
Dobra sugestia - postaram się przeprowadzić analizę porównawczą w trakcie kilku kolejnych wielkich odczytów z tego zestawu. –