Próbuję rozwiązać prosty problem z klasyfikacją.Klasyfikuj dane za pomocą Apache Mahout
Problem:
Mam zestaw tekstu i muszę je zaklasyfikować na podstawie treści.
Rozwiązanie wykorzystujące Mahout:
Zrozumiałem, że muszę przekonwertować dane wejściowe na plik sekwencji, aby wygenerować model. Tak, udało mi się to zrobić. Teraz, w jaki sposób mogę skategoryzować moje dane testowe? Przykład 20News sprawdza tylko poprawność. Ale chcę zrobić faktyczną klasyfikację.
Nie jestem pewien, czy muszę napisać kod lub użyć dostępnych klas do sklasyfikowania zestawu testowego.?
IMO, można poprawić sekcje dotyczące klasyfikacji w książce. Sekcje dotyczące klasyfikacji są obszerne, niejasne i często niesekwencyjne. Może być więcej przykładów kodowania java i mniej przykładów powłoki bash. Sekcja klasyfikacji mogłaby być lepsza, gdyby była napisana bardziej jak rozdziały wprowadzające: Pokaż format plików klasyfikacji, jak je odczytać, jak załadować je do swojego klasyfikatora, po szkoleniu, jak używać klasyfikatora do klasyfikacji nowej próbki. –
Chciałbym, żeby Mahout miał więcej lepszej dokumentacji. Ludzie, którzy są ekspertami w uczeniu maszynowym, mają trudności ze zrozumieniem struktury rurociągu przetwarzania i architektury kodu. Nawet javadocs używają niewłaściwej terminologii (setGramSize powinno być ustawioneNGramSize) mała semantyka czyni OGROMNĄ różnicę w rozumieniu pojęć i kodu. –