Python w wersji 2.7Wyodrębnianie tekstu z pliku PDF za pomocą PDFMiner w python?
szukam dokumentacji lub przykładów, w jaki sposób wyodrębnić tekst z pliku PDF za pomocą PDFMiner z Pythona.
Wygląda na to, że PDFMiner zaktualizował swoje API, a wszystkie znalezione przykłady zawierają przestarzały kod (zmieniono klasy i metody). Biblioteki, które znalazłem, które ułatwiają wydobywanie tekstu z pliku PDF, używają starej składni PDFMiner, więc nie jestem pewien, jak to zrobić.
Po prostu patrzę na kod źródłowy, żeby sprawdzić, czy mogę to zrozumieć.
proszę sprawdzić http://stackoverflow.com/help/how-to-ask i http://stackoverflow.com/help/mcve i zaktualizuj odpowiedź, aby była w lepszym formacie i dostosowała się do wytycznych. – Parker
Jakiej dystrybucji Python używasz, 2.7.x lub 3.x.x? Należy zauważyć, że autor * wyraźnie * wyszczególnił, że 'PDFminer' nie działa z Pythonem 3.x.x. To może być powód, dla którego otrzymujesz błędy "importu". Powinieneś użyć 'pdfminer3k' jeśli tak, ponieważ jest to stały import Pythona 3 wspomnianej biblioteki. – Manhattan
@Nanashi, przepraszam, zapomniałem dodać mojej wersji Pythona. To 2.7, więc to nie jest problem. Przeglądałem kod źródłowy i wygląda na to, że restrukturyzowali pewne rzeczy, dlatego import się psuje. Nie mogę znaleźć żadnej dokumentacji dla PDFMinera albo bym po prostu pracował nad tym :( – DuckPuncher