Mam czarne białe dokumenty (&) (chcę je skanować) i chcę je zgrupować zgodnie z ich układem . Aby uczynić rzecz bardziej konkretną, powiedzmy, że mam następujące trzy obrazy, a pierwsze dwa najprawdopodobniej wpadną do tego samego klastra, a nie do trzeciego obrazu, ponieważ pierwsze dwa mają stosunkowo podobny układ.Klastrowanie czarno-białych dokumentów obrazkowych
Moje pytanie brzmi: jakie byłoby najlepsze podejście do grupowania dokumentów? Teraz mam kilka pierwszych podejściach:
- Get image hash i porównać hash
- użyciem PCA i niektóre techniki klastrowania (k-means) porównać dolny wymiar reprezentacja
- ekstrakt ciąg przy użyciu OCR, wyodrębnić funkcje tekstowe i porównać je
- ekstrakt ciąg za pomocą OCR i zrobić kilka wyszukiwania słów kluczowych
Byłoby lepiej podejść? Ponownie, tylko układ ma znaczenie.
Często opisywanie w czysto angielskich kategoriach tego, co uważasz za kluczową cechę odróżniającą, to dobry początek ... –
OCR nie pomoże w analizie układu. I powinieneś zdefiniować "funkcję układu" jako klaster, tak jak powiedział przeglądarka. – Silencer