Total Number documents in Corpus
to po prostu ilość dokumentów, które posiadasz w swoim korpusie. Więc jeśli masz 20 dokumentów, ta wartość to 20
.
Number of Document matching term
to liczba dokumentów określających termin t
. Więc jeśli masz w sumie 20 dokumentów i termin t
występuje w 15 dokumentach następnie wartość Number of Documents matching term
wynosi 15.
Wartość tego przykładu byłoby zatem IDF(t,D)=log(20/15) = 0.1249
Teraz, jeśli się nie mylę, masz wiele kategorii na dokument i chcesz móc kategoryzować nowe dokumenty z jedną lub więcej z tych kategorii. Jedną z metod jest utworzenie jednego dokumentu dla każdej kategorii. Każdy dokument kategorii powinien zawierać wszystkie teksty oznaczone tą kategorią. Następnie możesz wykonać tf*idf
na tych dokumentach.
Prosty sposób na kategoryzację nowego dokumentu można wówczas osiągnąć, sumując wartości zapytania z użyciem różnych wartości terminów obliczanych dla każdej kategorii. Kategoria, której wartości terminowe użyte do obliczenia produktu, powodują, że najwyższy wynik zostanie oceniony jako pierwszy.
Inną możliwością jest utworzenie wektora dla zapytania za pomocą idf
każdego terminu w zapytaniu. Wszystkie terminy, które nie występują w zapytaniu, mają wartość 0
. Wektor zapytań można następnie porównać pod względem podobieństwa do każdego wektora kategorii za pomocą, na przykład, cosine similarity.
Smoothing to również przydatna technika radzenia sobie ze słowami w zapytaniu, które nie występują w korpusie.
Proponuję przeczytać sections 6.2 and 6.3 "Wstęp do wyszukiwania informacji" Christophera D. Manninga, Prabhakara Raghavan i Hinricha Schütze.
Dzięki .. Mam odpowiedź. Ale czy możesz wyjaśnić, jak kategoryzować nowy dokument, który jest mało opracowany ?. W ten sposób uzyskać kategorię dopasowania dla nowego dokumentu ?. Następnie, jak utworzyć wektor częstotliwości dla nowego dokumentu do dopasowania? .. –
Dodałem informacje do mojej odpowiedzi. – Sicco
Dzięki za pomoc .. –