Mam wiadro na S3, które zawiera 1000 plików. Każda ma około 1 GB. Chciałbym przeczytać losową próbkę tych plików. Powiedzmy, że 5% wszystkich plików. To jak to zrobićOdczytywanie losowej próbki plików na S3 z Pyspark
fileDF = sqlContext.jsonRDD(self.sc.textFile(self.path).sample(withReplacement=False, fraction=0.05, seed=42).repartition(160))
Ale wydaje powyższy kod będzie czytać wszystkie pliki i następnie pobrać próbki. Chociaż chcę pobrać próbki plików i je przeczytać. Czy ktoś mógłby pomóc?
Co to jest self.path? Czy używa on globowania? – nkadwa
_self.path_ jest zmienną samoistną w Pythonie. – neikusc