2012-03-26 33 views
7

Moje pytanie jest dość związane z this one, ale postanowiłem otworzyć wątek z kolejnym pytaniem. Mam nadzieję, że jest w porządku.Który korpus spamu mogę wykorzystać w NLTK?

Buduję filtr antyspamowy przy użyciu NLTK również w Pythonie, ale właśnie zacząłem.

Zastanawiam się, który korpus spamu mogę wykorzystać i jak go zaimportować? Nie znalazłem żadnego "wbudowanego w NLTK" cache spamu (here).

Z góry dziękuję.

Odpowiedz

9

Ten presentation używa enron-spam dataset (200 000+ wiadomości e-mail).

Szkolenie i zestawy testowe pochodzą z zestawu danych 200,000+ Enron e-maili, które zawierają zarówno „spam” i „ham” maile

+1

Dziękuję, to świetny link! :) – Lain

+0

Uważam, że są one zawarte w zbiorze danych TREC. Odbyła się także debata nad klasyfikacjami. John Graham-Cumming przeprowadził badanie uzupełniające; być może też uzyskasz jego dane. Nie mogę szybko znaleźć jego końcowego raportu, ale tutaj znajduje się tymczasowy wskaźnik: http://blog.jgc.org/2006/05/theres-one-born-every-minute-spam-and.html Może jego ostatnia publikacja dotyczyła CEAS 2006 lub konferencji MIT 2007 Spam? – tripleee

+0

Jeszcze raz dziękuję :) Zestaw danych TREC również wygląda świetnie, ale ich "Wniebowzięcie Ryzyka" jest trochę za dużo. Prawdopodobnie nie zawiera zbyt wyrafinowanych wirusów komputerowych, ale zdecydowałem się przejść na wstępnie przetworzony zbiór danych Enron. Mogę go zastąpić później, jeśli nie będzie wystarczająco duży. Link jest naprawdę interesujący, zdecydowanie sprawdzę, czy klasyfikacja spam/szynka jest wiarygodna w Enron. – Lain

1

Spam nie jest trudno uzyskać. Rozsądnie świeży spam w dużych ilościach niekoniecznie jest dużym wyzwaniem; wielką zagadką jest jak zdobyć szynkę. Jeśli budujesz tylko własny filtr antyspamowy, możesz oczywiście użyć własnej szynki.

Korpus publiczny SpamAssassin robi się bardzo stary, ale już go masz; http://spamassassin.apache.org/publiccorpus/

Istnieją również korpusy ze ścieżki spamu TREC, które są nieco większe, ale niewiele nowsze lub mniej stronnicze; http://plg.uwaterloo.ca/~gvcormac/treccorpus/

Różni entuzjaści nadal publikują swój spam w Internecie, ale większość z nich nie obejmuje pełnych nagłówków itp. Jeśli interesuje Cię tylko filtrowanie "worka słów", może to wystarczy.

+0

bardzo dziękuję za odpowiedź i linki. Wdrażam dwa filtry antyspamowe, aby sprawdzić, czy klasyfikacja generatywna lub dyskryminacyjna działa lepiej w przypadku zadania filtrowania spamu. – Lain