Jestem zaznajomiony z używaniem funkcji BOW dla klasyfikacji tekstu, w której najpierw znajdujemy rozmiar słownika dla korpusu, który staje się wielkością naszego wektora cech. Dla każdego zdania/dokumentu, i dla wszystkich jego słów składowych, wstawiamy 0/1 w zależności od nieobecności/obecności tego słowa w tym zdaniu/dokumencie.Jak korzystać z reprezentacji wektorowej słów (uzyskanych z Word2Vec itp.) Jako funkcji dla klasyfikatora?
Jednak teraz, gdy próbuję użyć reprezentacji wektorowej każdego słowa, czy tworzenie globalnego słownika jest niezbędne?
co to jest "globalne słownictwo"? – Daniel
Potrzebuję wektora funkcji o stałej długości dla każdego zdania, chociaż liczba słów w każdym zdaniu jest różna. Więc muszę policzyć rozmiar słownictwa całego mojego korpusu i zachować długość wektora cech równą rozmiarowi słownika. To właśnie mam na myśli przez globalne słownictwo. Przepraszam za zamieszanie. Nie byłam wystarczająco jasna słowami. –