Próbuję zgrupować strumień na Twitterze. Chcę umieścić każdy tweet w klastrze, który mówi o tym samym temacie. Próbowałem połączyć strumień za pomocą algorytmu klastrowania online z podobieństwem tf/idf i cosinus, ale odkryłem, że wyniki są dość złe.Lepsze klastrowanie dokumentów tekstowych niż podobieństwo tf/idf i cosinus?
Główne wady stosowania tf/idf polega na tym, że klastry dokumentów są podobne do słów kluczowych, dlatego dobrze jest zidentyfikować prawie identyczne dokumenty. Na przykład rozważ następujące zdania:
1- Strona Stackoverflow to miłe miejsce. 2- Stackoverflow to strona internetowa.
Przedostatnie dwa zdania będą prawdopodobnie grupowane razem z rozsądną wartością progową, ponieważ mają wiele słów kluczowych. Ale teraz rozważ następujące dwa zdania:
1- Strona Stackoverflow to miłe miejsce. 2- Regularnie odwiedzam witrynę Stackoverflow.
Teraz za pomocą tf/idf algorytm grupowania zakończy się niepowodzeniem, ponieważ udostępnia tylko jedno słowo kluczowe, nawet jeśli oboje mówią o tym samym temacie.
Moje pytanie: czy istnieją lepsze techniki łączenia dokumentów?
@ThomasJungblut również, TF-IDF ma być systemem ważącym, który już zwiększa wagę właściwych słów kluczowych. Jeśli chodzi o rysunek, problem polega na tym, że tweety są tak małymi fragmentami tekstu, że nie można oczekiwać, że podobieństwo działa na nich bardzo dobrze poza "bliską tożsamością". Większość tweetów nie jest nawet pełnymi zdaniami, więc NLP prawdopodobnie również się nie powiedzie. –
Jedna rzecz do oglądania z LSI/LDA/NMF itp. To temat dryfu. Szkolenie modelu na znanym zbiorze danych przyniesie dobre wyniki, jeśli twój rurociąg nie zostanie poprawnie wykonany. Jeśli zastosujesz model do zupełnie niewidocznego zestawu danych, możesz zauważyć znaczny spadek wydajności dzięki dopasowaniu oryginalnych danych treningowych. Ponieważ tekst Twittera jest tak krótki, reprezentacja będzie wymagać trochę manipulowania, ponieważ może nie być wystarczająco dużo tekstu, aby właściwie trenować model. – Steve
@steve są jakieś rozwiązania tego? –