Opracowałem klasyfikator spamu przy użyciu pand i scikit, ucząc się do momentu, w którym jest on gotowy do integracji z naszym systemem opartym na hadoopie. W tym celu muszę wyeksportować klasyfikator do bardziej powszechnego formatu niż marynowanie.Eksportowanie Scikit Learn Losowo Forest do użytku na platformie Hadoop
Predykcyjny model języka znaczników (PMML) jest moim preferowanym formatem eksportu. Gra bardzo dobrze z Kaskadą, z której już korzystamy. Jednak, co zaskakujące, nie mogę znaleźć żadnych bibliotek Pythona, które eksportują modele uczenia się scikita do PMML.
Czy ktoś miał doświadczenie w tym przypadku użycia? Czy istnieje jakaś alternatywa dla PMML, która zapewniałaby interoperacyjność pomiędzy nauką sci-kita a maczkiem? A co z solidną biblioteką eksportową PMML?
Podobne pytanie pojawiło się w Quora http://www.quora.com/How-do-I-use-scikit-learn-w-Hadoop-and-Mapreduce – miraculixx
Dzięki za dane wejściowe. Korzystanie z funkcji przesyłania strumieniowego API nie jest idealne, ale jeśli wszystko inne zawiedzie, być może będę musiała się do niego odwołać. –
Klasyfikacja spamu jak w spamie e-mailowym? Jak do tego doszło przy losowym lesie? –