2013-05-12 11 views
6

Szukam oprogramowania OCR, które renderuje nakładkę HTML do obrazu. Obecnie używam jakiegoś nienazwanego produktu. Posiada funkcję OCR, która wykonuje wbudowany OCR dokumentu PDF z obrazami.OCR zapewniający nakładkę HTML na obraz?

Inline OCR jest bardzo przydatny, pozwala przeszukiwać dokument PDF z obrazami dla tekstu. Również tekst może być bezpośrednio zaznaczony w dokumencie, tekst OCR jest wyrównany z obrazem podstawowym. Niestety mogę szybciej eksportować i przechowywać wbudowany OCR z nienazwanego produktu.

Czy jest jakieś inne oprogramowanie, które może wykonać i wyeksportować wbudowany OCR? Byłbym szczególnie zainteresowany eksportowaniem do kodu HTML składającego się z pozycjonowanych akapitów, które są wyrównane z obrazem podstawowym.

Zobacz także:
https://stackoverflow.com/questions/11404805/ocr-and-the-location-of-the-image-where-the-scanned-document-came-from

+0

Jestem również zainteresowany tym problemem. (Zakładam, że "bezimienny" oznacza, że ​​jest zastrzeżony, a nie, że nie wiesz, co to jest). Czy trenujesz OCR lub zakładasz, że będzie on interpretował dany zestaw znaków? Czy shapecatcher.com pomógłby ci - uruchamia bitmapy w stosunku do standardowego zestawu glifów Unicode? –

+0

Dzięki. Produkuję kompletne rozwiązanie OpenSource do wyodrębniania informacji (bitbucket.org/petermr/pdf2svg-dev i bitbucket.org/petermr/svg2xml-devfrom PDF, ale jeszcze nie zrobiłem zbyt wiele na części obrazu/OCR. najpierw adres ANSI, ale nie wstrzymuj oddechu. –

Odpowiedz

1

Mam możliwych rozwiązanie dla Ciebie. Ale to konkretne rozwiązanie ma pewne wady, które mogą utrudnić osiągnięcie celu końcowego.

najpierw przekonwertować plik obrazu w formacie PDF: http://finereader.abbyyonline.com następnie przekonwertować PDF do HTML na http://document.online-convert.com/convert-to-html

to rozwiązanie działa na rzeczy o rozmiar papieru, a wynik końcowy ma html z nakładką obrazu Jeśli wszystko czego potrzebujesz to html z formatowaniem obrazu, dzięki któremu obrazy są w pełni przezroczyste.