Używam pand jako substytutu db, ponieważ mam wiele baz danych (oracle, mssql, itp.) I nie mogę wykonać sekwencji poleceń do odpowiednika SQL.Liczba pand (odpowiednik)
Mam tabeli załadowany w DataFrame z niektórych kolumnach:
YEARMONTH, CLIENTCODE, SIZE, .... etc etc
W SQL, aby policzyć ilość różnych klientów rocznie byłoby:
SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;
A wynik byłby
201301 5000
201302 13245
Jak mogę to zrobić w pandach?
Zrobiłem table.groupby ([ „rokMiesiąc”]) [ „CLIENTCODE”] unikatowe() i przyszedł z dwóch serii indeksowanej przez rokMiesiąc i ze wszystkimi unikalnymi wartościami.. Jak policzyć ilość wartości w każdej serii? –
Dla niektórych wartości 'value_counts' mogą być odpowiedziami, których szukasz: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html –