Czy można odczytać pliki PDF/audio/wideo (dane niestrukturalne) za pomocą Apache Spark? Na przykład mam tysiące faktur pdf i chcę odczytywać dane od nich i wykonywać na nich analizy. Jakie kroki należy podjąć, aby przetworzyć niestrukturalne dane?Czy można odczytać pliki PDF/audio/wideo (dane niestrukturalne) za pomocą Apache Spark?
5
A
Odpowiedz
6
Tak, jest. Użyj pliku sparkContext.binaryFiles
, aby załadować pliki w formacie binarnym, a następnie użyj wartości map
, aby odwzorować wartość na inny format - na przykład przeanalizuj plik binarny za pomocą Apache Tika lub Apache POI.
Pseudokod:
val rawFile = sparkContext.binaryFiles(...
val ready = rawFile.map (here parsing with other framework
Co ważne, parsowanie muszą być wykonane z innych ram jak wspomniano wcześniej w mojej odpowiedzi. Mapa otrzyma jako argument InputStream
Wyszukiwanie "czytania iskry" pdf http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- mniej niż 50 linii kodu/ –
Zalecenia dotyczące zasobów zewnętrznych poza tematem dla StackOverflow. Odpowiedziałem przy pomocy przepływu pracy, szczegółów, które musisz sam wdrożyć –