Liczba pand (odpowiednik)

106

Używam pand jako substytutu db, ponieważ mam wiele baz danych (oracle, mssql, itp.) I nie mogę wykonać sekwencji poleceń do odpowiednika SQL.Liczba pand (odpowiednik)

Mam tabeli załadowany w DataFrame z niektórych kolumnach:

YEARMONTH, CLIENTCODE, SIZE, .... etc etc

W SQL, aby policzyć ilość różnych klientów rocznie byłoby:

SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;

A wynik byłby

201301 5000 
201302 13245

Jak mogę to zrobić w pandach?

Źródło

2013-03-14 Adriano Almeida

Zrobiłem table.groupby ([ „rokMiesiąc”]) [ „CLIENTCODE”] unikatowe() i przyszedł z dwóch serii indeksowanej przez rokMiesiąc i ze wszystkimi unikalnymi wartościami.. Jak policzyć ilość wartości w każdej serii? –

Dla niektórych wartości 'value_counts' mogą być odpowiedziami, których szukasz: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html –

183

Wierzę, że to, co chcesz:

table.groupby('YEARMONTH').CLIENTCODE.nunique()

Przykład:

In [2]: table 
Out[2]: 
    CLIENTCODE YEARMONTH 
0   1  201301 
1   1  201301 
2   2  201301 
3   1  201302 
4   2  201302 
5   2  201302 
6   3  201302 

In [3]: table.groupby('YEARMONTH').CLIENTCODE.nunique() 
Out[3]: 
YEARMONTH 
201301  2 
201302  3

Źródło

2013-03-14 14:09:06

Nie ma potrzeby stosowania' .apply' , Myślę; '.CLIENTCODE.nunique()' powinno również działać. – DSM

Ha. Cóż, i tak brzmi to bardziej satysfakcjonująco. Twoje zdrowie! –

.column.unique() jest również opcją ... – reabow

Co ciekawe, bardzo często len(unique()) jest kilka razy (3x-15x) szybciej niż nunique().

Źródło

2014-05-05 02:59:28

Masz na myśli to? '.CLIENTCODE.apply (lambda x: len (x.unique()))', od [tutaj] (http://stackoverflow.com/a/17926436/4015990) – Chen

Lubię używać 'unique(). Shape [ 0] '. – 3novak

Oto kolejna metoda, znacznie proste, powiedzmy, że imię i nazwisko dataframe jest daat i nazwa kolumny jest YEARMONTH

daat.YEARMONTH.value_counts()

Źródło

2017-07-02 11:16:54 Enthusiast

Podoba mi się ta odpowiedź. Jak korzystać z tej metody, jeśli moja nazwa kolumny zawiera znak "." w nim (np. "ck.Class")? Dzięki –

daat ['ck.Class']. Value_counts() – Enthusiast

To nie rozwiązuje zadanego pytania. –

-1

Dodawanie do bogatych odpowiedzi powyżej, istnieje możliwość pisać zapytań SQL na pandy dataframe z pytona moduł o nazwie pandasql. Według Yhat:

pandasql allows you to query pandas DataFrames using SQL syntax.[...] pandasql seeks to provide a more familiar way of manipulating and cleaning data for people new to Python or pandas.

Źródło

2017-08-21 11:33:19

Odpowiedz

Powiązane problemy