Modelowanie tematyczne identyfikuje dystrybucję tematów w zbiorze dokumentów, co skutecznie identyfikuje klastry w kolekcji. Czy można słusznie powiedzieć, że modelowanie tematu jest techniką tworzenia klastrów dokumentów?Jaki jest związek między modelowaniem tematów a grupowaniem dokumentów?
Odpowiedz
Temat jest zupełnie inny niż klaster dokumentów, w końcu temat nie składa się z dokumentów.
Jednak te dwie techniki są rzeczywiście powiązane. Uważam, że modelowanie tematyczne jest realistycznym sposobem decydowania o tym, jakie są podobne dokumenty, a zatem jest realnym sposobem grupowania dokumentów.
W przedstawianiu każdego dokumentu jako rozkładu tematycznego (w rzeczywistości wektor), techniki modelowania tematu zmniejszają wymiarowość obiektu od liczby różnych wyrazów (w korpusie) do liczby tematów. Podobieństwo między dystrybucjami tematów dokumentów można obliczyć za pomocą danych Cosine i wielu innych wskaźników, które odzwierciedlają podobieństwo samych dokumentów pod względem tematów/tematów, które obejmują. Na podstawie tej ilościowej miary podobieństwa można zastosować wiele algorytmów grupowania w celu grupowania dokumentów.
W tym sensie uważam, że słuszne jest stwierdzenie, że modelowanie tematu jest techniką tworzenia klastrów dokumentów.
Relacja między grupowaniem a klasyfikacją jest bardzo podobna do relacji między modelowaniem tematu a klasyfikacją wielu etykiet.
W klasyfikacji wielopoziomowej z jedną etykietą przypisujemy tylko jedną etykietę na każdy dokument. A w klastrach umieściliśmy każdy dokument w jednej grupie. Faktem jest, że nie możemy zdefiniować klastrów z góry, ponieważ definiujemy etykiety. Jeśli zignorujemy ten fakt, grupowanie i etykietowanie to zasadniczo to samo.
Jednak w rzeczywistych problemach płaska klasyfikacja nie jest wystarczająca. Często dokumenty są powiązane z wieloma kategoriami/klasami. W ten sposób wykorzystujemy klasyfikację wielu etykiet. Teraz możemy zobaczyć modelowanie tematu jako nienadzorowaną wersję klasyfikacji wielu etykiet, ponieważ możemy umieścić każdy dokument w wielu grupach/tematach. Znowu ignoruję fakt, że nie możemy zdecydować, które tematy z wyprzedzeniem będą używane jako etykiety.