2017-07-03 55 views
5

Czy można odczytać pliki PDF/audio/wideo (dane niestrukturalne) za pomocą Apache Spark? Na przykład mam tysiące faktur pdf i chcę odczytywać dane od nich i wykonywać na nich analizy. Jakie kroki należy podjąć, aby przetworzyć niestrukturalne dane?Czy można odczytać pliki PDF/audio/wideo (dane niestrukturalne) za pomocą Apache Spark?

+1

Wyszukiwanie "czytania iskry" pdf http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- mniej niż 50 linii kodu/ –

+1

Zalecenia dotyczące zasobów zewnętrznych poza tematem dla StackOverflow. Odpowiedziałem przy pomocy przepływu pracy, szczegółów, które musisz sam wdrożyć –

Odpowiedz

6

Tak, jest. Użyj pliku sparkContext.binaryFiles, aby załadować pliki w formacie binarnym, a następnie użyj wartości map, aby odwzorować wartość na inny format - na przykład przeanalizuj plik binarny za pomocą Apache Tika lub Apache POI.

Pseudokod:

val rawFile = sparkContext.binaryFiles(... 
val ready = rawFile.map (here parsing with other framework 

Co ważne, parsowanie muszą być wykonane z innych ram jak wspomniano wcześniej w mojej odpowiedzi. Mapa otrzyma jako argument InputStream