Używam Tesseract 3.0.2 OCR SDK do ekstrakcji tekstu obrazowego. Ale jeśli używam chińskich obrazów tekstowych i przechodzę przez OCR, to Tesseract nie zapewnia mi chińskich znaków zamiast tego, że otrzymuję znaki numeryczne i angielskie. Ale potrzebuję chińskich znaków wyświetlanych na obrazie, którego używam.rozpoznawanie chińskiego znaku za pomocą Tesseract OCR
Jak mogę to osiągnąć? Czy jest jakiś sposób, aby uzyskać chińskie znaki, a nie inne postacie?
Dzięki to działa :-) –
Alok, próbowałem twojej próbki i działa dobrze na około połowie uproszczonych chińskich znaków, które wypróbowałem. Dla reszty może rozpoznać złożony znak jako kilka różnych znaków, z których każdy reprezentuje składnik w złożonym znaku, lub całkowicie błędny. Czy znasz jakąś metodę poprawy dokładności rozpoznawania? – CodePlumber
Nowe wyszkolone łącze danych to https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –