Kiedy próbuję wyodrębnić tekst z moich plików PDF, wydaje się wstawiać spacje między losowo wybranymi słowami.PDFBox dodaje białe spacje w słowach
Używam PDFBox-app-1.6.0.jar (najnowsza wersja) na następujący przykładowy plik w sekcji Download tej strony: http://www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian-training
próbowałem z kilkoma innymi plikami PDF i wydaje robić to samo na kilku stronach.
I wykonaj następujące czynności:
java -jar PDFBox-app-1.6.0.jar ExtractText -force -console ~/Pulpit/ped szkolenie pdf.pdf
na pobrany plik i będziesz zobacz obowiązuje w następujących włożona nieprawidłowo w wyniku na konsoli: „• Jeśli ch ildren są w stanie chodzić do SCHOO l bezpiecznie może to zmniejszyć zatory ”
„• Rozwija dobrą hab ITS w późniejszym życiu.”
"www.sheff ield.gov.uk"
"Think Ahead !, wh Ich opiera się na"
itp itd
Jak widać kilka słów powyżej mają spacje między nimi bez powodu, który mogę zgłębić.
Jestem na ubuntu i korzystam z JDK 1.6 Sun'a.
Próbowałem tego na kilku różnych plikach PDF i próbowałem szukać rozwiązania na forach, były podobne bugi, ale wszystko wydawało się zostać rozwiązane.
Każda pomoc lub jeśli ktoś inny ma taki sam problem, prosimy o komentarz. Powoduje to duży problem z odpowiednim indeksowaniem treści do wyszukiwania.
Dzięki Jukka, czasami jest to ulga po prostu zrozumieć, dlaczego coś nie działa zgodnie z oczekiwaniami, a także, że nie robię nic, co jest przyczyną problemu. –
Oto przykład, jak zbudować taki słownik terminów, jeśli używasz Lucene. [Jak wyodrębnić wektor terminów dokumentu w Lucene] (http://stackoverflow.com/a/8901758/165085) –