Używam Spark 1.3.0 i Python. Mam ramkę danych i chcę dodać dodatkową kolumnę, która pochodzi z innych kolumn. Tak,Dodanie nowej kolumny w ramce danych pochodzących z innych kolumn (Spark)
>>old_df.columns
[col_1, col_2, ..., col_m]
>>new_df.columns
[col_1, col_2, ..., col_m, col_n]
gdzie
col_n = col_3 - col_4
Jak mogę to zrobić w PySpark?
Hej @ zero323, co jeśli chcę utworzyć kolumnę, np. Col_1 jest łańcuchem, a col_2 jest łańcuchem znaków i chcę column_n jako dołącz do col_1 i Col_2. tj. Col_1 ma wartość zero, a column_2 ma wartość 323. Column_n powinno wynosić zero323? – Jason
@Jason http://stackoverflow.com/a/31452109/1560062 – zero323
Dzięki @ zero323. Chociaż mam to pytanie: df.select (concat (col ("k"), świeci (""), col ("v"))) Jak mogę utworzyć tutaj trzecią kolumnę? – Jason