2014-10-05 8 views
6

Próbuję dodać nowe czcionki do tesseract ocr. Śledzę this tutorial, ale mam pewne problemy.Dodawanie nowych czcionek do Tesseract 3

Oto co zrobiłem do tej pory:

  1. Utwórz dokument szkolenie

    convert eng.myfont.exp0.pdf eng.myfont.exp0.tif

  2. Pociąg Tesseract

    tesseract eng.myfont.exp0.tif eng.myfont.exp0 batch.nochop makebox

    Stworzyło mój eng.myfont .exp0.box plik.

    Otwieram plik za pomocą moshpytt i upewniam się, że został on poprawnie wykryty.

  3. RSS plik skrzynki z powrotem do tesserakt

    tesseract eng.myfont.exp0.tif eng.myfont.exp0.box nobatch box.train.stderr

    mam ten wynik:

    Tesseract Open Source OCR v3.03 Silnik z Leptonica
    APPLY_BOXES:
    Skrzynki czytać from boxfile: 146
    Znaleziono 146 dobrych plam.
    SZKOLENIA ... nazwa czcionki = myfont.exp0
    Wygenerowane dane treningowe do 6 słów

    • plików eng.myfont.exp0.box.tr i eng.myfont.exp0.box.txt generowane
  4. spróbować wykryć zestaw znaków używanych w pliku skrzynki (to gdzie ja utknąć)

    unicharset_extractor *.box

Wynik:

unicharset_extractor: nie znaleziono polecenia

ja też tred unicharset_extractor eng.myfont.exp0.box z takim samym skutkiem.

Używam:

  • tesseract 3,03
  • leptonica-1,70
  • libgif 4.1.6 (?): Libjpeg 8d: libpng 2.1.50: libtiff 4.0.3: zlib 1.2. 8: webp 0.4.0
  • Ubuntu 14.04.1 LTS
+0

To dość osobliwe. Oznacza to po prostu, że polecenia nie można znaleźć. W moim systemie mogę znaleźć to polecenie bez żadnego problemu w '/ usr/local/bin/unicharset_extractor'. – mlissner

Odpowiedz

6

narzędzi szkoleniowych dla Tesseract 3.03 RC zostały pominięte w Ubuntu 14.04. Więc albo cofnij się do Tesseract 3.02, albo przejdź na Ubuntu 14.10, który powinien go mieć.

+0

Mam również ten sam problem w terminalu OS X EI Captain 10.11.1. Używam poniżej wersji tesseract 3.04.01 leptonica-1.72 libjpeg 8d: libpng 1.6.21: libtiff 4.0.6: zlib 1.2.5 –