5

Mam czarne białe dokumenty (&) (chcę je skanować) i chcę je zgrupować zgodnie z ich układem . Aby uczynić rzecz bardziej konkretną, powiedzmy, że mam następujące trzy obrazy, a pierwsze dwa najprawdopodobniej wpadną do tego samego klastra, a nie do trzeciego obrazu, ponieważ pierwsze dwa mają stosunkowo podobny układ.Klastrowanie czarno-białych dokumentów obrazkowych

Moje pytanie brzmi: jakie byłoby najlepsze podejście do grupowania dokumentów? Teraz mam kilka pierwszych podejściach:

  • Get image hash i porównać hash
  • użyciem PCA i niektóre techniki klastrowania (k-means) porównać dolny wymiar reprezentacja
  • ekstrakt ciąg przy użyciu OCR, wyodrębnić funkcje tekstowe i porównać je
  • ekstrakt ciąg za pomocą OCR i zrobić kilka wyszukiwania słów kluczowych

Byłoby lepiej podejść? Ponownie, tylko układ ma znaczenie.

1st image

2nd image

3rd image

+1

Często opisywanie w czysto angielskich kategoriach tego, co uważasz za kluczową cechę odróżniającą, to dobry początek ... –

+1

OCR nie pomoże w analizie układu. I powinieneś zdefiniować "funkcję układu" jako klaster, tak jak powiedział przeglądarka. – Silencer

Odpowiedz

1

Nie próbuj klastra surowych danych.

Tworzenie klastrów nie jest nadzorowane, nie może dowiedzieć się, jakie właściwości są ważne, a jakie nie. Do algorytmu grupowania wszystko jest ważne.

Zamiast tego należy najpierw zdefiniować odpowiednie funkcje układu. Takich jak długie krawędzie.