Mam zestaw obrazów, na których uruchamiam aplikację OCR. W wyniku tego procesu powstaje plik XML z przesunięciami znaków. Następnie konwertuję obrazy do formatu PDF za pomocą programu Acrobat 9. Teraz chciałbym dodać informacje o pliku XML jako niewidoczną warstwę tekstową do pliku PDF, aby uzyskać możliwy do wyszukania plik PDF. Czy istnieje łatwy i darmowy sposób?Jak osadzić zewnętrzny OCR w istniejącym pliku PDF?
Niektóre szczegóły:
Nie chcę korzystać z funkcjonalności OCR Acrobat jest;
OCR wyniki procesu w pliku XML, który zawiera elementy, takie jak:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
Aktualizacja: możliwe jest robienie tego, co chcę w inny sposób. Przypuśćmy, że istnieje już plik PDF wygenerowany z zestawu obrazów, który zawiera już tekst OCRed. Czy byłoby możliwe (być może programowe) uzyskanie dostępu do obrazu każdej strony, przetworzenie go (np. Konwersja do postaci monochromatycznej) i zapisanie z powrotem do pliku PDF? Jeśli tak, to tekst OCRed nie zostanie utracony.
[Należy umieścić tę aktualizację w osobnym pytaniu?]
można znaleźć [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) użyteczna –