Od pewnego czasu próbuję word2vec używając biblioteki word2vec gensim. Moje pytanie brzmi: Czy muszę usunąć stopwords z mojego tekstu wejściowego? Ponieważ, na podstawie moich początkowych wyników eksperymentalnych, mogłem zobaczyć słowa takie jak "z", "kiedy" ... (stopwords) pojawiały się kiedy robię model.most_similar('someword')
..?usuwanie stoperw podczas używania słowa2vec
Ale nigdzie nie widziałem, że usunięcie słowa "stop" jest konieczne z word2vec? Czy word2vec ma obsługiwać słowa kończące, nawet jeśli ich nie usuniesz?
Jakie są rzeczy do wstępnej obróbki (jak w przypadku modelowania tematów, to prawie konieczne, że należy usunąć stoper)?
Wszystko zależy od końcowej aplikacji. Jaki jest ostateczny cel użycia wektorów słownych? – alvas
chcesz uzyskać podobne słowa dla danego słowa za pomocą "model.most_similar (" someword ")" – KillBill
Czy niektóre oceny modeli z i bez stopwords. Aby zweryfikować swój model, sprawdź go pod kątem synonimów w WordNet. I zobacz, który model działa lepiej. Osobiście uważam, że ten ze stoperami będzie działał lepiej, ale pokazanie go empirycznie poprzez eksperyment jest ważniejsze niż przypadkowe zgadywanie. – alvas