Próbuję odczytać plik csv do ramki danych. Wiem, jaki powinien być schemat mojej ramki danych, ponieważ znam mój plik CSV. Używam również pakietu csv do odczytywania pliku. Próbuję określić schemat jak poniżej.Podaj schemat podczas odczytu pliku csv jako ramka danych
val pagecount = sqlContext.read.format("csv")
.option("delimiter"," ").option("quote","")
.option("schema","project: string ,article: string ,requests: integer ,bytes_served: long")
.load("dbfs:/databricks-datasets/wikipedia-datasets/data-001/pagecounts/sample/pagecounts-20151124-170000")
Ale kiedy sprawdzam schemat utworzonej ramki danych, wygląda na to, że przyjęła ona własny schemat. Czy robię coś złego? jak zrobić iskrę, aby podnieść schemat, o którym wspomniałem?
> pagecount.printSchema
root
|-- _c0: string (nullable = true)
|-- _c1: string (nullable = true)
|-- _c2: string (nullable = true)
|-- _c3: string (nullable = true)
która wersja iskry używasz? –