Który analizator lucenu może być używany do prawidłowego obchodzenia się z tekstem japońskim? Powinien być w stanie obsłużyć Kanji, Hiragana, Katakana, Romaji i dowolną ich kombinację.Jakiego analizatora lucenu można użyć do obsługi japońskiego tekstu?
Odpowiedz
znalazłem lucene-gosen robiąc wyszukiwania dla własnych celów:
Ich przykładem wygląda dość przyzwoite, ale myślę, że to jedna z tych rzeczy, która wymaga szeroko zakrojonych testów. Martwię się również o ich zgodność z poprzednimi wersjami (a raczej całkowity brak jednego).
Prawdopodobnie powinieneś spojrzeć na pakiet CJK, który znajduje się w strefie dystrybucji Lucene. Istnieje analizator i tokenizer przeznaczony specjalnie do obsługi języka chińskiego, japońskiego i koreańskiego.
Analizator CJK wydaje się być naiwnym sposobem wyszukiwania rzeczy, a z wcześniejszych doświadczeń nie wydaje się być bardzo trafny wyniki wyszukiwania. Czy jest coś, co powinienem zrobić, aby program CJK Analyzer działał jak modyfikowanie niektórych wag? Dzięki –
Ja sam nigdy nie użyłem analizatora CJK, więc nie mogę tego powiedzieć. Możesz spróbować poprosić o listę dyskusyjną Lucene (http://lucene.apache.org/java/docs/mailinglists.html#Java Lista użytkowników), aby uzyskać bardziej szczegółową pomoc - są osoby, które mają bardzo duże doświadczenie z Lucene na tej liście. – adrianbanks
Nie używaliśmy lucene-gosen, ale użyliśmy gosen. Tak więc akceptuję tę odpowiedź (ponieważ jest wystarczająco blisko, a projekt wygląda interesująco). CJK robi bardzo naiwne wyszukiwanie, w którym po prostu dopasowuje znaki, a nie słowa w przeciwieństwie do gosen (który używa słownika do prawidłowego analizowania). –