Jak mogę pobrać określone kolumny z pandy HDFStore? Regularnie pracuję z bardzo dużymi zbiorami danych, które są zbyt duże, aby manipulować nimi w pamięci. Chciałbym czytać w pliku csv iteracyjnie, dołączyć każdą porcję do obiektu HDFStore, a następnie pracować z podzbiorami danych. Czytałem w prostym pliku csv i załadowaniu go do HDFStore z następującego kodu:Wybieranie kolumn z pandas.HDFStore table
tmp = pd.HDFStore('test.h5')
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop'])
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))
a wyjście:
In [97]: tmp
Out[97]:
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df frame_table (typ->appendable,nrows->1930,indexers->[index])
Moje pytanie brzmi: w jaki sposób mogę uzyskać dostęp do wybranych wierszy z tmp['df']
? W dokumentacji podano wzmiankę o metodzie select()
i niektórych obiektach . Podane przykłady są stosowane do danych panelu; jednakże jestem zbyt początkującym, aby rozszerzyć go na prostszy przypadek ramki danych. Domyślam się, że muszę jakoś utworzyć indeks kolumn. Dzięki!
Czy istnieje ta funkcja w wersji 0.10.1? Nie mogłem go użyć. Jaki jest otwarty problem na Github? – alexbw
0.10.1 obsługuje kolumny danych; jakie problemy masz? – Jeff
Myślę, że powinniśmy to zaktualizować, aby uniknąć nieporozumień, Jeff? –