Zastosowanie TermDocs
aby uzyskać częstotliwość określenie dla danego dokumentu. Podobnie jak w przypadku częstotliwości dokumentów, otrzymujesz termin dokumenty od IndexReader
, używając terminu zainteresowania.
Nie znajdziesz szybszej metody niż TermDocs
, nie tracąc ogólności. TermDocs
odczytuje bezpośrednio z pliku ".frq" w segmencie indeksu, gdzie każda częstotliwość jest wymieniona w porządku dokumentu.
Jeśli to jest „zbyt wolny”, upewnij się, że masz zoptymalizowana indeks połączyć kilka segmentów w jednym segmencie. Iteruj po dokumentach w kolejności (przeskoki są w porządku, ale nie można efektywnie przeskakiwać na liście dokumentów).
Następnym krokiem może być dodatkowa obróbka, aby stworzyć jeszcze bardziej wyspecjalizowaną strukturę plików, które pomija SkipData
. Osobiście poszukałbym lepszego algorytmu, który pozwoliłby osiągnąć mój cel, lub zapewniłby lepszą pamięć sprzętową, aby pomieścić RAMDirectory
lub dać systemowi operacyjnemu do użytku we własnym systemie buforowania plików.
czy to podejście może być użyte do określenia częstotliwości terminów to zestaw wyników zapytania Lucene? –
czy można użyć termDocs, aby uzyskać wartość PhraseFrequency? – Dany