Mam około 3000 dokumentów tekstowych związanych z czasem, w którym dokument był "interesujący". Więc powiedzmy, że dokument 1 zawiera 300 wierszy tekstu z treścią, co doprowadziło do zainteresowania 5,5 dnia, podczas gdy inny dokument z 40 liniami tekstu sprawił, że 6,7 dni były "interesujące" i tak dalej.Jak przewidzieć wartość ciągłą (czas) z dokumentów tekstowych?
Teraz zadaniem jest przewidywanie czasu trwania zainteresowania (który jest wartością ciągłą) w oparciu o treść tekstu.
Mam dwa pomysły, aby zbliżyć się do problemu:
- zbudować model podobnych dokumentów z technologią jak http://radimrehurek.com/gensim/simserver.html. Kiedy nadejdzie nowy dokument, można spróbować znaleźć 10 najbardziej podobnych dokumentów w przeszłości i po prostu obliczyć średnią ich trwania i przyjąć tę wartość jako prognozę na czas trwania zainteresowania dla nowego dokumentu.
- Umieścić dokumenty w kategoriach czasu trwania (np. 1 dzień, 2 dni, 3-5 dni, 6-10 dni, ...). Następnie wytrenuj klasyfikator, aby przewidzieć kategorię czasu trwania na podstawie treści tekstowej.
Zaletą idei nr 1 jest to, że mogłem również obliczyć odchylenie standardowe mojej prognozy, natomiast w przypadku pomysłu nr 2 nie jest dla mnie jasne, w jaki sposób mogłem obliczyć podobną miarę niepewności moich przewidywań. Również nie jest dla mnie jasne, które kategorie wybrać, aby uzyskać najlepsze wyniki z klasyfikatora.
Więc czy istnieje pewna reguła, jak zbudować systemy, aby jak najlepiej przewidzieć ciągłą wartość, np. Czas od dokumentów tekstowych? Czy należy używać klasyfikatora, czy też należy zastosować podejście wykorzystujące średnie wartości na podobnych dokumentach? Nie mam prawdziwego doświadczenia w tej dziedzinie i chciałbym się dowiedzieć, które z podejść prawdopodobnie przyniosłoby najlepsze rezultaty. Punkt bonusowy jest podany, jeśli znasz prostą istniejącą technologię (opartą na Javie lub Pythonie), która może być użyta do rozwiązania tego problemu.
@larsmans: Dlaczego z jednej strony dajesz odpowiedź na to pytanie, ale z drugiej strony głosujesz na to pytanie jako zamknięte? – asmaier