2016-07-29 32 views
5

Rozumiem, że jest to bardzo proste pytanie i najprawdopodobniej gdzieś zostało udzielone, ale jako początkujący nadal nie rozumiem tego i szukam twojego oświecenia, z góry dziękuję:Jak uzyskać różne wiersze w ramce danych za pomocą pyspark?

Mam tymczasowe dataframe:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 | 

Co potrzebne jest, aby usunąć wszystkie zbędne przedmioty w kolumnie gospodarza, w innym słowem, trzeba uzyskać ostateczny wynik odrębną jak:

+----------------------------+---+ 
|host      |day| 
+----------------------------+---+ 
|in24.inetnebr.com   |1 | 
|uplherc.upl.com    |1 | 
|ix-esc-ca2-07.ix.netcom.com |1 | 
|uplherc.upl.com    |1 | 

Odpowiedz

7

Jeśli df jest nazwa DataFrame, istnieją dwa sposoby, aby uzyskać unikalne wiersze:

df2 = df.distinct() 

lub

df2 = df.drop_duplicates() 
+0

Dzięki. To całkiem proste – mdivk