Dodanie nowej kolumny w ramce danych pochodzących z innych kolumn (Spark)

Używam Spark 1.3.0 i Python. Mam ramkę danych i chcę dodać dodatkową kolumnę, która pochodzi z innych kolumn. Tak,Dodanie nowej kolumny w ramce danych pochodzących z innych kolumn (Spark)

>>old_df.columns 
[col_1, col_2, ..., col_m] 

>>new_df.columns 
[col_1, col_2, ..., col_m, col_n]

gdzie

col_n = col_3 - col_4

Jak mogę to zrobić w PySpark?

Źródło

2015-07-10 menorah84

Jednym ze sposobów osiągnięcia tego jest użycie withColumn metody:

old_df = sqlContext.createDataFrame(sc.parallelize(
    [(0, 1), (1, 3), (2, 5)]), ('col_1', 'col_2')) 

new_df = old_df.withColumn('col_n', old_df.col_1 - old_df.col_2)

Alternatywnie można użyć SQL na zarejestrowanej tabeli:

old_df.registerTempTable('old_df') 
new_df = sqlContext.sql('SELECT *, col_1 - col_2 AS col_n FROM old_df')

Źródło

2015-07-10 10:05:11 zero323

Hej @ zero323, co jeśli chcę utworzyć kolumnę, np. Col_1 jest łańcuchem, a col_2 jest łańcuchem znaków i chcę column_n jako dołącz do col_1 i Col_2. tj. Col_1 ma wartość zero, a column_2 ma wartość 323. Column_n powinno wynosić zero323? – Jason

@Jason http://stackoverflow.com/a/31452109/1560062 – zero323

Dzięki @ zero323. Chociaż mam to pytanie: df.select (concat (col ("k"), świeci (""), col ("v"))) Jak mogę utworzyć tutaj trzecią kolumnę? – Jason

Dodatkowo, możemy użyć UDF

from pyspark.sql.functions import udf,col 
from pyspark.sql.types import IntegerType 
from pyspark import SparkContext 
from pyspark.sql import SQLContext 

sc = SparkContext() 
sqlContext = SQLContext(sc) 
old_df = sqlContext.createDataFrame(sc.parallelize(
    [(0, 1), (1, 3), (2, 5)]), ('col_1', 'col_2')) 
function = udf(lambda col1, col2 : col1-col2, IntegerType()) 
new_df = old_df.withColumn('col_n',function(col('col_1'), col('col_2'))) 
new_df.show()

Źródło

2017-06-22 12:02:44 arker296

Dodanie nowej kolumny w ramce danych pochodzących z innych kolumn (Spark)

Odpowiedz

Powiązane problemy