Piszę mały system na Javie, w którym wyodrębniam n-gramową funkcję z plików tekstowych, a później muszę przeprowadzić proces wyboru cech, aby wybrać najbardziej dyskryminujące funkcje.Najlepsza praktyka do przechowywania ogromnych list danych w Javie
Proces wyodrębniania funkcji dla pojedynczego pliku zwraca mapę, która zawiera każdą unikalną funkcję, jej wystąpienia w pliku. Łączę wszystkie mapy plików (mapę) w jedną mapę zawierającą częstotliwość dokumentów (DF) wszystkich unikalnych funkcji wyodrębnionych ze wszystkich plików. Ujednolicona mapa może zawierać ponad 10 000 000 wpisów.
Obecnie proces wyodrębniania funkcji działa doskonale i chcę przeprowadzić selekcję elementów, w której potrzebuję zastosować wzmocnienie informacji lub współczynnik wzmocnienia. Najpierw muszę posortować mapę, wykonać obliczenia i zapisać wyniki, aby w końcu uzyskać listę (dla każdej cechy, jej Wynik wyboru funkcji).
Moje pytanie brzmi: Co to jest najlepsza praktyka i najlepsze struktura danych do przechowywania dużej ilości danych (~ 10M) i wykonywania obliczeń?
Spójrz na HashMap. – Hungry