Zainstalowałem CountVectorizer
do niektórych dokumentów w scikit-learn
. Chciałbym zobaczyć wszystkie terminy i ich odpowiednią częstotliwość w korpusie tekstowym, aby wybrać stop-słowa. Na przykład:Lista słów w słowniku według występowania w korpusie tekstowym, Scikit-Learn
'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on
Czy jest w tym funkcja wbudowana?
Dzięki! Ale nie są one zamówione, ale udało mi się to zrobić: dla sortowania krotki (occ_list, key = lambda idx: idx [1]): print tuple [0] + '' + str (tuple [1]). Problem polega na tym, że postacie åäö nie są drukowane. Ustawiłem kodowanie na utf8. – user1506145
Jesteś również pewien, że get_feature_names() będzie miał terminy uporządkowane według ich indeksu w macierzy częstotliwość-częstotliwość? Dowiedziałem się, że cv.get_feature_names() i cv.vocabulary_.keys() nie ma tej samej kolejności. – user1506145
@ user1506145: 'dict.keys' nie gwarantuje żadnego zamówienia; właśnie dlatego istnieje "get_feature_names". –