Rozważmy następujący dataframeJak warunkowo usunąć duplikaty z dataframe pandy
import pandas as pd
df = pd.DataFrame({'A' : [1, 2, 3, 3, 4, 4, 5, 6, 7],
'B' : ['a','b','c','c','d','d','e','f','g'],
'Col_1' :[np.NaN, 'A','A', np.NaN, 'B', np.NaN, 'B', np.NaN, np.NaN],
'Col_2' :[2,2,3,3,3,3,4,4,5]})
df
Out[92]:
A B Col_1 Col_2
0 1 a NaN 2
1 2 b A 2
2 3 c A 3
3 3 c NaN 3
4 4 d B 3
5 4 d NaN 3
6 5 e B 4
7 6 f NaN 4
8 7 g NaN 5
Chcę usunąć wszystkie wiersze, które są duplikatami w odniesieniu do kolumny 'A' 'B'
. Chcę usunąć wpis, który ma wpis NaN
(wiem, że dla wszystkich dulicates będzie wpis NaN
i not-NaN
). Końcowe wyniki powinny wyglądać następująco
A B Col_1 Col_2
0 1 a NaN 2
1 2 b A 2
2 3 c A 3
4 4 d B 3
6 5 e B 4
7 6 f NaN 4
8 7 g NaN 5
Wszystkie wydajne, jedna wkładki są jak najbardziej mile widziane
W obronie przeciwnej wyborcy mogłeś wybrać przykład, w którym po prostu 'df.drop_duplicates' dał ci odpowiedź, której nie chcesz. –
tak, tak. Akceptuję downvote :) – mortysporty