Poszukuję biblioteki Java, aby przeprowadzić wstępne sprawdzanie pisowni/normalizację danych na podstawie zawartości tekstowej wygenerowanej przez użytkownika, wyobrazić sobie zainteresowania wpisane w profilu na Facebooku.Korekta pisowni dla normalizacji danych w Javie
Ten tekst zostanie w pewnym momencie uwięziony (przed lub po korekcie pisowni, cokolwiek działa lepiej), a część z nich zostanie wykorzystana jako klucz do wyszukania (dopasowanie ścisłe). Byłoby miło ograniczyć pisownię i tym podobne, aby stworzyć więcej dopasowań. Byłoby jeszcze lepiej, gdyby poprawka działała dobrze na żetonach dłuższych niż jedno słowo, np. "picie kawy" oznaczałoby "picie kawy", a nie "myślącą kawę".
znalazłem następujące biblioteki Java dla robić korektę pisowni:
- JAZZY nie wydaje się być pod aktywnego rozwoju. Ponadto podejście oparte na słowie-odległości wydaje się niewystarczające ze względu na używanie niestandardowego języka w profilach sieci społecznościowych i tokenach wielo-słownych.
- APACHE LUCENE wydaje się mieć statistical spell checker, który powinien być bardziej odpowiedni. Pytanie tutaj, jak stworzyć dobry słownik? (W innym przypadku nie używamy Lucene, więc nie ma istniejącego indeksu.)
Wszelkie sugestie są mile widziane!
Dziękuję za Twój wnikliwy komentarz i interesujący link do książki. Masz rację, tym, czego naprawdę chcę, jest wyszukiwanie rozmyte. Jednak zobaczę, jak/jeśli sprawdzanie pisowni działa dla mojej konkretnej aplikacji (być może jest to wystarczająco dobre teraz) i powracam do pomysłów, o których wspomniałeś później. Wielkie dzięki! – dareios