2008-10-07 22 views
19

Tworząc bazę artykułów w Bazie wiedzy (na przykład) - jakie są najlepsze sposoby sortowania i wyświetlania najtrafniejsze odpowiedzi na pytanie dla użytkowników?algorytmy wyszukiwania ranking/trafność

należałoby użyć dodatkowych danych, takich jak pomiar na podstawie słów kluczowych czy znaleziono poprzedni użytkownicy tego artykułu pomocy, czy też znaleźć prosty algorytm dopasowania słów kluczowych będzie wystarczające?

Odpowiedz

2

To trudne pytanie, a firmy takie jak Google pchają wiele wysiłków w celu rozwiązania tej kwestii. Spójrz na Google Enterprise Search Appliance lub Exalead Enterprise Search.

W związku z tym nie sądzę, że jakiekolwiek "naiwne" podejście poprawi znacznie wynik w porównaniu do naiwnego wyszukiwania słów kluczowych i zamawiania przez liczbę wyświetleń dokumentów.

Jeśli masz możliwość, aby odsłonić swoją bazę wiedzy do sieci, a następnie, po prostu zrób to i niech twoja ulubiona wyszukiwarka obsługuje wyszukiwanie dla ciebie.

0

kluczowe dopasowanie nie wystarczy gdy ma do czynienia z pytaniami, trzeba zrozumieć intencję, jak Joannes powiedzieć to bardzo gorący temat w poszukiwaniu

2

Nieco bardziej swoistość dokładną problemu byłoby dobre. Istnieje wiele różnych technik, z których możesz korzystać. Wiele z nich jest napędzanych przez inne dane. Możesz oczywiście użyć Lucene i zbudować własne indeksy. Dla lucenu istnieją wiązania dla wielu języków. Przeniesienie tam jest również projektem Solr, który jest Lucene z wieloma narzędziami i dodatkową funkcjonalnością wokół niego. To może być bardziej zgodne z tym, czego szukasz.

zamiarem jest trudne i większość współczesnych wyszukiwarek opierają się na statystycznej zamiarem, aby pomóc w uporządkowaniu wyników. Zawsze możesz mieć przycisk przydatny w tym artykule i przechowywać tekst zapytania, który prowadzi do przydatnych dokumentów. Następnie można dodać warstwę informacji do indeksu, aby zwiększyć konkretne słowa lub wyrażenia i pomóc im wskazać określone dokumenty.

Kilka rzeczy do przemyślenia ... Ile dokumentów? Jaka jest średnia długość? Czy są one często aktualizowane? Co użytkownicy robią z dokumentami? Jak wygląda upowszechnianie się unikalnych słów w dokumentach? (Mówiąc prościej jest to łatwo dopasować zapytanie z konkretnego dokumentu (ów) w oparciu o wspólne unikalnych cech.)

Jeśli jest w internecie można zawsze wykonać własną wyszukiwarkę Google, która właśnie przeszukuje witryny chociaż może z tego powodu być nieoptymalnym z wielu powodów.

Zawsze można zacząć od prostego indeksu i stopniowo stał się bardziej wyrafinowany od rozmowy z użytkownikami i przechwytywania danych.

10

Być może najprostszym i najbardziej naiwne podejście, które pozwoli natychmiast użyteczne wyniki byłyby wdrożyć *tf-idf:

odmiany systemu ważącego tfidf są często wykorzystywane przez wyszukiwarki jako głównego narzędzia w punktacji i klasyfikowanie trafności dokumentu pod kątem zapytania użytkownika. tf-idf może być z powodzeniem używany do filtrowania słów kończących w różnych polach tematycznych, w tym do podsumowania tekstu i klasyfikacji.

W niedawnym pokrewnej kwestii kopalni tutaj dowiedziałem się od doskonałej wolnej książki na ten temat, które można pobrać lub przeczytać online:

An Introduction to Information Retrieval

1

myślę kąt tutaj nie jest samym odzyskiwaniem ... chodzi o ocenę trafności uzyskanych informacji (bardziej reaktywne i pasywne podejście), które można później wykorzystać do ulepszenia wyszukiwarki.

Myślę, że można spróbować -

  1. KNN na tfidf do pobierania informacji

  2. Ręka tagging Te Źródło Info relevency zdobyć

  3. Następnie regres ten wynik do przewidzenia wynik dla unknwon wynik wyszukiwania i posortuj go.

Tylko myśl ...

Trzeci punkt jest w rzeczywistości opiera się na algorytmie Rocchio. Możesz go zobaczyć here