Próbuję uzyskać optymalną liczbę tematów dla modelu LDA w Gensim. Jedną z metod, którą znalazłem, jest obliczenie prawdopodobieństwa dziennego dla każdego modelu i porównanie każdego z nich, np. w The input parameters for using latent Dirichlet allocationJaki jest najlepszy sposób na uzyskanie optymalnej liczby tematów dla modelu LDA za pomocą Gensim?
Stąd zajrzałem do obliczania prawdopodobieństwa dziennika o LDA modelu z Gensim i natknąłem się na następujące stanowisko: How do you estimate α parameter of a latent dirichlet allocation model?
który zasadniczo stwierdza, że metoda update_alpha() implementuje metodę opisano w Huang, Jonathan . Maksymalne oszacowanie prawdopodobieństwa parametrów rozkładu Dirichleta:. Nadal nie wiem, jak uzyskać ten parametr za pomocą biblioteki bez zmiany kodu.
Jak mogę uzyskać logarytm prawdopodobieństwa z modelu LDA z Gensim?
Czy istnieje lepszy sposób na uzyskanie optymalnej liczby tematów w Gensim?
Możesz znaleźć odpowiedź na temat "najlepszej" liczby tematów tutaj: http://stackoverflow.com/questions/31729227/how-to-evaluate-the-best-k-for-using-all-. Zasadniczo to, co nazywasz najlepszą liczbą tematów, zależy od tego, co chcesz zobaczyć w danych. – jknappen
Czy udało Ci się znaleźć prawdopodobieństwo? – Peanut