Chcę skupić ~ 100 000 krótkich łańcuchów przez coś w rodzaju odległości q-gramowej lub prostej "odległości między torebkami" lub może odległości Levenshteina w Pythonie. Planowałem wypełnić matrycę odległości (100 000 wybiera 2 porównania), a następnie hierarchicznie grupować z pyCluster. Ale napotykam na problemy z pamięcią, zanim jeszcze zejdę z ziemi. Na przykład matryca odległości jest za duża dla numpy.Clustering ~ 100 000 krótkich łańcuchów w języku Python
aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
Czy wydaje się to rozsądną rzeczą do zrobienia? Czy jestem skazany na problemy z pamięcią w tym zadaniu? Dzięki za pomoc.
10 miliardów to duża liczba. – nmichaels
Mam na myśli podejście do tego zabawnego problemu, ale tęsknię za niektórymi informacjami. Proszę szczegółowo opisać, co dokładnie próbujesz osiągnąć, a także dlaczego i możliwe założenia/ograniczenia. Oto 2 szczegółowe pytania. 1) Czy możesz replikować ciągi w swojej analizie? 2) Czy naprawdę potrzebujesz wszystkich dystansów 2 na 2 lub powiedzieć, że wystarczyłaby tylko część mniejszych odległości dla danego ciągu? Twoje zdrowie. – Morlock