Jak uzyskać różne wiersze w ramce danych za pomocą pyspark?

Rozumiem, że jest to bardzo proste pytanie i najprawdopodobniej gdzieś zostało udzielone, ale jako początkujący nadal nie rozumiem tego i szukam twojego oświecenia, z góry dziękuję:Jak uzyskać różne wiersze w ramce danych za pomocą pyspark?

Mam tymczasowe dataframe:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 |

Co potrzebne jest, aby usunąć wszystkie zbędne przedmioty w kolumnie gospodarza, w innym słowem, trzeba uzyskać ostateczny wynik odrębną jak:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 |

Źródło

2016-07-29 mdivk

Jeśli df jest nazwa DataFrame, istnieją dwa sposoby, aby uzyskać unikalne wiersze:

df2 = df.distinct()

lub

df2 = df.drop_duplicates()

Źródło

2016-07-29 07:30:13

Dzięki. To całkiem proste – mdivk

Jak uzyskać różne wiersze w ramce danych za pomocą pyspark?

Odpowiedz

Powiązane problemy