20
Jak mogę przekonwertować pliki PDF na HTML za pomocą Pythona?Konwersja plików PDF na HTML za pomocą Pythona
Zastanawiałem się nad tym, co Google robi (lub wydaje się robić) w celu indeksowania plików PDF.
Moim ostatecznym celem jest ustawienie Apache, aby wyświetlał HTML plików PDF, więc wszystko, co prowadzi mnie w tym kierunku, również zostałoby docenione.
Powiązanie Pythona służy głównie do renderowania pliku PDF w widgecie/ui GTK, więc nie jestem pewien, czy mogłoby to pomóc. –
Tak naprawdę go nie użyłem, ale ujawnia on poppler_page_get_text, co może być przydatne dla OP. –
Zgadza się, ale wydaje się, że całe marnowanie powiązań GTK/Glib, jeśli to wszystko, czego wymaga O.P., zwłaszcza, że istnieją inne prostsze sposoby, które nie zależą od zestawu narzędzi interfejsu użytkownika (np. Pdf2html, o którym wspomniałeś). Powinienem powiedzieć, że ogólnie lubię wiązania i byłam oryginalnym autorem. Może jednak nie w tym przypadku. –