2013-05-16 7 views
11

Używam Tesseract 3.0.2 OCR SDK do ekstrakcji tekstu obrazowego. Ale jeśli używam chińskich obrazów tekstowych i przechodzę przez OCR, to Tesseract nie zapewnia mi chińskich znaków zamiast tego, że otrzymuję znaki numeryczne i angielskie. Ale potrzebuję chińskich znaków wyświetlanych na obrazie, którego używam.rozpoznawanie chińskiego znaku za pomocą Tesseract OCR

Jak mogę to osiągnąć? Czy jest jakiś sposób, aby uzyskać chińskie znaki, a nie inne postacie?

Odpowiedz

11

Musisz pobrać chiński wyszkolonych danych (będzie to plik jak chi_sim.traineddata) i dodać go do tessdata folderu.

Aby pobrać plik https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

i używać jak to

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"]; 

jeśli masz problem można pobrać mój eksperyment z tessaract (z obsługą języka chińskiego) z https://github.com/aryansbtloe/ExperimentWithTesseract.git

Przetestowałem ten ... Mam nadzieję, że okaże się to przydatne.

+1

Dzięki to działa :-) –

+0

Alok, próbowałem twojej próbki i działa dobrze na około połowie uproszczonych chińskich znaków, które wypróbowałem. Dla reszty może rozpoznać złożony znak jako kilka różnych znaków, z których każdy reprezentuje składnik w złożonym znaku, lub całkowicie błędny. Czy znasz jakąś metodę poprawy dokładności rozpoznawania? – CodePlumber

+1

Nowe wyszkolone łącze danych to https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –