Załóżmy, że mamy DataFrame SparkJak zastosować funkcję do kolumny w Spark DataFrame?
df.getClass
Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFrame
z następującym schematem
df.printSchema
root
|-- rawFV: string (nullable = true)
|-- tk: array (nullable = true)
| |-- element: string (containsNull = true)
Zważywszy, że każdy wiersz kolumny tk
jest tablicą ciągów, jak napisać funkcję Scala, który będzie zwrócić liczbę elementów w każdym rzędzie?
Idealny! Ogólnie rzecz biorąc, chciałbym wiedzieć, jak zastosować UDF do ramek danych. Czy możesz wskazać mi prosty przykład? – ranlot
Istnieją dziesiątki przykładów na SO ([kilka przykładów] (https://stackoverflow.com/search?q=user%3A1560062+import+org.apache.spark.sql.functions.udf+ [apache-spark])) i jak zawsze źródło (szczególnie testy) są dobrym miejscem do rozpoczęcia. – zero323
Jak skorzystasz z tej funkcji size_? – ranlot