Python pandy GroupBy kruszywo na wielu kolumnach, a następnie pivot

W Pythonie mam DataFrame pandy podobny do następującego:Python pandy GroupBy kruszywo na wielu kolumnach, a następnie pivot

Item | shop1 | shop2 | shop3 | Category 
------------------------------------ 
Shoes| 45 | 50 | 53 | Clothes 
TV | 200 | 300 | 250 | Technology 
Book | 20 | 17 | 21 | Books 
phone| 300 | 350 | 400 | Technology

Gdzie Shop1, shop2 i shop3 są koszty każdej pozycji w różnych sklepach. Teraz muszę wrócić do DataFrame po pewnym czyszczenia danych, jak ten:

Category (index)| size| sum| mean | std 
----------------------------------------

gdzie rozmiar jest liczba elementów w każdej kategorii i sumy, średnie i std związane są z tych samych funkcji stosowanych do 3 sklepy. Jak mogę wykonywać te operacje za pomocą schematu split-apply-combine (groupby, aggregate, apply, ...)?

Czy ktoś może mi pomóc? Zwariowałem z tym ... dziękuję!

Źródło

2017-04-02 Davide Tamburrino

opcji 1
użytku agg ← linkujące do Dokumentów

agg_funcs = dict(Size='size', Sum='sum', Mean='mean', Std='std') 
df.set_index(['Category', 'Item']).stack().groupby(level=0).agg(agg_funcs) 

        Std Sum  Mean Size 
Category          
Books  2.081666 58 19.333333  3 
Clothes  4.041452 148 49.333333  3 
Technology 70.710678 1800 300.000000  6

opcja 2
więcej za mniej
użytku describe ← link Docs

df.set_index(['Category', 'Item']).stack().groupby(level=0).describe().unstack() 

      count  mean  std min 25% 50% 75% max 
Category                 
Books   3.0 19.333333 2.081666 17.0 18.5 20.0 20.5 21.0 
Clothes  3.0 49.333333 4.041452 45.0 47.5 50.0 51.5 53.0 
Technology 6.0 300.000000 70.710678 200.0 262.5 300.0 337.5 400.0

Źródło

2017-04-02 23:27:18 piRSquared

df.groupby('Category').agg({'Item':'size','shop1':['sum','mean','std'],'shop2':['sum','mean','std'],'shop3':['sum','mean','std']})

Albo jeśli chcesz go we wszystkich sklepach wówczas:

df1 = df.set_index(['Item','Category']).stack().reset_index().rename(columns={'level_2':'Shops',0:'costs'}) 
df1.groupby('Category').agg({'Item':'size','costs':['sum','mean','std']})

Źródło

2017-04-02 20:30:13

Jeśli dobrze rozumiem, chcesz obliczyć łączne dane dla wszystkich sklepów, a nie dla każdego indywidualnie. Aby to zrobić, można najpierw stack Twój dataframe a następnie grupa przez Category:

stacked = df.set_index(['Item', 'Category']).stack().reset_index() 
stacked.columns = ['Item', 'Category', 'Shop', 'Price'] 
stacked.groupby('Category').agg({'Price':['count','sum','mean','std']})

co skutkuje

  Price        
      count sum  mean  std 
Category          
Books   3 58 19.333333 2.081666 
Clothes  3 148 49.333333 4.041452 
Technology  6 1800 300.000000 70.710678

Źródło

2017-04-02 20:40:58 foglerit

Python pandy GroupBy kruszywo na wielu kolumnach, a następnie pivot

Odpowiedz

Powiązane problemy