Moje pytanie jest dość związane z this one, ale postanowiłem otworzyć wątek z kolejnym pytaniem. Mam nadzieję, że jest w porządku.Który korpus spamu mogę wykorzystać w NLTK?
Buduję filtr antyspamowy przy użyciu NLTK również w Pythonie, ale właśnie zacząłem.
Zastanawiam się, który korpus spamu mogę wykorzystać i jak go zaimportować? Nie znalazłem żadnego "wbudowanego w NLTK" cache spamu (here).
Z góry dziękuję.
Dziękuję, to świetny link! :) – Lain
Uważam, że są one zawarte w zbiorze danych TREC. Odbyła się także debata nad klasyfikacjami. John Graham-Cumming przeprowadził badanie uzupełniające; być może też uzyskasz jego dane. Nie mogę szybko znaleźć jego końcowego raportu, ale tutaj znajduje się tymczasowy wskaźnik: http://blog.jgc.org/2006/05/theres-one-born-every-minute-spam-and.html Może jego ostatnia publikacja dotyczyła CEAS 2006 lub konferencji MIT 2007 Spam? – tripleee
Jeszcze raz dziękuję :) Zestaw danych TREC również wygląda świetnie, ale ich "Wniebowzięcie Ryzyka" jest trochę za dużo. Prawdopodobnie nie zawiera zbyt wyrafinowanych wirusów komputerowych, ale zdecydowałem się przejść na wstępnie przetworzony zbiór danych Enron. Mogę go zastąpić później, jeśli nie będzie wystarczająco duży. Link jest naprawdę interesujący, zdecydowanie sprawdzę, czy klasyfikacja spam/szynka jest wiarygodna w Enron. – Lain