Szukałem od jakiegoś czasu, jeśli jest jakiś sposób, aby użyć klasy Scala
w Pyspark
i nie znalazłem żadnej dokumentacji ani przewodnika na ten temat.Jak korzystać z klasy Scala w Pyspark
Powiedzmy utworzyć prostą klasę w Scala
który używa niektórych bibliotek apache-spark
, coś takiego:
class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) {
def exe(): DataFrame = {
import sqlContext.implicits._
df.select(col(column))
}
}
- Czy istnieje jakikolwiek sposób, aby użyć tej klasy w
Pyspark
? - Czy to zbyt trudne?
- Czy muszę utworzyć plik
.py
? - Czy jest jakiś przewodnik, który pokazuje, jak to zrobić?
Przy okazji również sprawdziłem kod spark
i czułem się trochę zagubiony, a ja nie mogłem odtworzyć ich funkcjonalności w moim własnym celu.