2015-08-31 39 views
5

Próbuję uzyskać optymalną liczbę tematów dla modelu LDA w Gensim. Jedną z metod, którą znalazłem, jest obliczenie prawdopodobieństwa dziennego dla każdego modelu i porównanie każdego z nich, np. w The input parameters for using latent Dirichlet allocationJaki jest najlepszy sposób na uzyskanie optymalnej liczby tematów dla modelu LDA za pomocą Gensim?

Stąd zajrzałem do obliczania prawdopodobieństwa dziennika o LDA modelu z Gensim i natknąłem się na następujące stanowisko: How do you estimate α parameter of a latent dirichlet allocation model?

który zasadniczo stwierdza, że ​​metoda update_alpha() implementuje metodę opisano w Huang, Jonathan . Maksymalne oszacowanie prawdopodobieństwa parametrów rozkładu Dirichleta:. Nadal nie wiem, jak uzyskać ten parametr za pomocą biblioteki bez zmiany kodu.

Jak mogę uzyskać logarytm prawdopodobieństwa z modelu LDA z Gensim?

Czy istnieje lepszy sposób na uzyskanie optymalnej liczby tematów w Gensim?

+0

Możesz znaleźć odpowiedź na temat "najlepszej" liczby tematów tutaj: http://stackoverflow.com/questions/31729227/how-to-evaluate-the-best-k-for-using-all-. Zasadniczo to, co nazywasz najlepszą liczbą tematów, zależy od tego, co chcesz zobaczyć w danych. – jknappen

+0

Czy udało Ci się znaleźć prawdopodobieństwo? – Peanut

Odpowiedz

1

Chociaż nie mogę wypowiedzieć się na temat Gensim w szczególności, mogę zważyć z ogólną radą na temat optymalizacji tematów.

Tak jak powiedziałeś, używanie log logeli jest jedną z metod. Inną opcją jest przechowywanie zestawu dokumentów wychodzących z procesu generowania modelu i wyciąganie z nich tematów po zakończeniu modelu i sprawdzanie, czy ma to sens.

Zupełnie inną metodą, którą można wypróbować, jest hierarchiczny proces Dirichleta, metoda ta może dynamicznie znajdować liczbę tematów w korpusie, ale nie jest określona.

Istnieje wiele dokumentów, w jaki sposób najlepiej określić parametry i oceny modelu temat, w zależności od poziomu doświadczenia te mogą lub nie mogą być dobre dla Ciebie:

Rethinking LDA: Why Priors Matter, Wallach, HM, Mimno, D. i McCallum, A.

Evaluation Methods for Topic Models, Wallach HM Murray I., Salakhutdinov R. i Mimno D.

również tutaj jest papier o hierarchicznej Dirichlet procesu:

Hierarchical Dirichlet Processes, Teh, Y.W., Jordan, M.I., Beal, M.J. i Blei, D.M.