Klastrowanie czarno-białych dokumentów obrazkowych

Mam czarne białe dokumenty (&) (chcę je skanować) i chcę je zgrupować zgodnie z ich układem . Aby uczynić rzecz bardziej konkretną, powiedzmy, że mam następujące trzy obrazy, a pierwsze dwa najprawdopodobniej wpadną do tego samego klastra, a nie do trzeciego obrazu, ponieważ pierwsze dwa mają stosunkowo podobny układ.Klastrowanie czarno-białych dokumentów obrazkowych

Moje pytanie brzmi: jakie byłoby najlepsze podejście do grupowania dokumentów? Teraz mam kilka pierwszych podejściach:

Get image hash i porównać hash
użyciem PCA i niektóre techniki klastrowania (k-means) porównać dolny wymiar reprezentacja
ekstrakt ciąg przy użyciu OCR, wyodrębnić funkcje tekstowe i porównać je
ekstrakt ciąg za pomocą OCR i zrobić kilka wyszukiwania słów kluczowych

Byłoby lepiej podejść? Ponownie, tylko układ ma znaczenie.

Źródło

2017-11-23 PSNR

Często opisywanie w czysto angielskich kategoriach tego, co uważasz za kluczową cechę odróżniającą, to dobry początek ... –

OCR nie pomoże w analizie układu. I powinieneś zdefiniować "funkcję układu" jako klaster, tak jak powiedział przeglądarka. – Silencer

Nie próbuj klastra surowych danych.

Tworzenie klastrów nie jest nadzorowane, nie może dowiedzieć się, jakie właściwości są ważne, a jakie nie. Do algorytmu grupowania wszystko jest ważne.

Zamiast tego należy najpierw zdefiniować odpowiednie funkcje układu. Takich jak długie krawędzie.

Źródło

2017-11-24 00:55:33

Klastrowanie czarno-białych dokumentów obrazkowych

Odpowiedz

Powiązane problemy