Próbuję dodać nowe czcionki do tesseract ocr. Śledzę this tutorial, ale mam pewne problemy.Dodawanie nowych czcionek do Tesseract 3
Oto co zrobiłem do tej pory:
Utwórz dokument szkolenie
convert eng.myfont.exp0.pdf eng.myfont.exp0.tif
Pociąg Tesseract
tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox
Stworzyło mój eng.myfont .exp0.box plik.
Otwieram plik za pomocą moshpytt i upewniam się, że został on poprawnie wykryty.
RSS plik skrzynki z powrotem do tesserakt
tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr
mam ten wynik:
Tesseract Open Source OCR v3.03 Silnik z Leptonica
APPLY_BOXES:
Skrzynki czytać from boxfile: 146
Znaleziono 146 dobrych plam.
SZKOLENIA ... nazwa czcionki = myfont.exp0
Wygenerowane dane treningowe do 6 słów- plików eng.myfont.exp0.box.tr i eng.myfont.exp0.box.txt generowane
spróbować wykryć zestaw znaków używanych w pliku skrzynki (to gdzie ja utknąć)
unicharset_extractor *.box
Wynik:
unicharset_extractor: nie znaleziono polecenia
ja też tred unicharset_extractor eng.myfont.exp0.box
z takim samym skutkiem.
Używam:
- tesseract 3,03
- leptonica-1,70
- libgif 4.1.6 (?): Libjpeg 8d: libpng 2.1.50: libtiff 4.0.3: zlib 1.2. 8: webp 0.4.0
- Ubuntu 14.04.1 LTS
To dość osobliwe. Oznacza to po prostu, że polecenia nie można znaleźć. W moim systemie mogę znaleźć to polecenie bez żadnego problemu w '/ usr/local/bin/unicharset_extractor'. – mlissner