2016-01-11 31 views
7

Od pewnego czasu próbuję word2vec używając biblioteki word2vec gensim. Moje pytanie brzmi: Czy muszę usunąć stopwords z mojego tekstu wejściowego? Ponieważ, na podstawie moich początkowych wyników eksperymentalnych, mogłem zobaczyć słowa takie jak "z", "kiedy" ... (stopwords) pojawiały się kiedy robię model.most_similar('someword') ..?usuwanie stoperw podczas używania słowa2vec

Ale nigdzie nie widziałem, że usunięcie słowa "stop" jest konieczne z word2vec? Czy word2vec ma obsługiwać słowa kończące, nawet jeśli ich nie usuniesz?

Jakie są rzeczy do wstępnej obróbki (jak w przypadku modelowania tematów, to prawie konieczne, że należy usunąć stoper)?

+0

Wszystko zależy od końcowej aplikacji. Jaki jest ostateczny cel użycia wektorów słownych? – alvas

+0

chcesz uzyskać podobne słowa dla danego słowa za pomocą "model.most_similar (" someword ")" – KillBill

+2

Czy niektóre oceny modeli z i bez stopwords. Aby zweryfikować swój model, sprawdź go pod kątem synonimów w WordNet. I zobacz, który model działa lepiej. Osobiście uważam, że ten ze stoperami będzie działał lepiej, ale pokazanie go empirycznie poprzez eksperyment jest ważniejsze niż przypadkowe zgadywanie. – alvas

Odpowiedz

7

osobiście myślę, usuwanie Zatrzymaj wyraz daje lepsze rezultaty, należy sprawdzić link

także do modelowania tematu, shlould wykonać wstępne przetwarzanie na tekście, po co trzeba zrobić,

  1. Zdjąć z zatrzymaj słowa.
  2. Tokenization.
  3. Stemming and Lemmatization.
+0

Jeśli jesteś zainteresowany lematyzatorem gra się dobrze z wordnetem: spróbuj https://gist.github.com/alvations/07758d02412d928414bb – alvas

8

Implementacja Gensima oparta na oryginalnym modelu word2vec Tomasa Mikolova, zastępuje wszystkie częste słowa automatycznie w oparciu o częstotliwość. Oznacza to, że słowa te nie są uwzględniane w oknie słowa, które należy przewidzieć. Parametr przykładowy o wartości domyślnej 0.001 jest używany jako parametr do przycinania tych słów. Jeśli chcesz usunąć niektóre określone hasła, które nie zostałyby usunięte na podstawie ich częstotliwości, możesz to zrobić. Podsumowanie: Wynik nie spowoduje żadnych znaczących zmian, jeśli zatrzymasz usuwanie słów.