szukam klasy lub metody, która bierze długi ciąg wielu 100s słów i tokenizes, usuwa słowa Stop i wynika z zastosowania w systemie IR.Tokenizer, Stop Usunięcie Słowo, wynikające w Javie
Na przykład:
"The Big Fat cat, powiedział: 'Twój najzabawniejszy facet wiem' na kangura ..."
tokenizera by usunąć znaki interpunkcyjne i powrotu ArrayList
słów
słowo przystanek usuwania usunie słowa takie jak „ten”, „na”, itp
Stymulator zredukuje każde słowo w ich "katalogu głównym", na przykład "najśmieszniejszy" stanie się zabawny
Z góry dziękuję.
hej! @jitter going Lucene nie pomaga?potrzebujesz bardziej konkretnego linku. – jsroyal