Dobry zestaw danych do analizy sentymentów?

Pracuję nad analizą nastrojów i używam zestawu danych podanego w tym linku: http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html i podzieliłem mój zbiór danych na proporcje 50:50. 50% stosuje się jako próbki testowe, a 50% stosuje się jako próbki pociągu, a cechy ekstrahuje się z próbek pociągów i wykonuje klasyfikację z zastosowaniem klasyfikatora Weka, ale moja dokładność predykcyjna wynosi około 70-75%.Dobry zestaw danych do analizy sentymentów?

Czy ktoś może zasugerować kilka innych zestawów danych, które mogą mi pomóc, aby zwiększyć wynik - użyłem unigram, bigram i POStags jako moje funkcje.

Źródło

2014-07-07 user3512562

Możesz spróbować tego https://www.kaggle.com/data/36745#latest-205286 – Seremonia

Istnieje wiele źródeł, aby uzyskać analiza uczuć zestawu danych:

ogromny ngrams zestawu danych z google storage.googleapis.com/books/ngrams/books/datasetsv2.html
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
lub można zajrzeć do tej globalnej ML zbiorze Repozytorium: https://archive.ics.uci.edu/ml

W każdym razie nie oznacza to, że pomoże to w uzyskaniu lepszej dokładności dla bieżącego zestawu danych, ponieważ korpus może znacznie różnić się od zestawu danych. Oprócz zmniejszenia odsetka testowania w porównaniu ze szkoleniem, możesz: przetestować inne klasyfikatory lub dostosować wszystkie hiperparametry za pomocą półautomatycznego opakowania, takiego jak CVParameterSelection lub GridSearch, lub nawet automatycznego weka, jeśli pasuje.

Dość rzadko używa się 50/50, 80/20 jest dość powszechnym stosunkiem. Lepszą praktyką jest wykorzystanie: 60% na szkolenia, 20% na krzyżową walidację, 20% na testowanie.

Źródło

2014-07-07 21:55:10 doxav

, jak powiedziałeś, jeśli zmniejszę% pociągu. To wpłynie na proces uczenia się. Oznacza to, że uczenie się z mniejszych próbek będzie hard.also jeśli zwiększę pociąg% spowoduje to przeuczenie ... to dlatego wziąłem 50: 5) stosunek .. – user3512562

Jest dość rzadko używać 50/50, 80/20 jest dość powszechnym stosunkiem. Lepszą praktyką jest wykorzystanie: 60% na szkolenia, 20% na krzyżową walidację, 20% na testowanie. PS: Właśnie pamiętam o tym ogromnym zestawie danych z Ngram z google http://storage.googleapis.com/books/ngrams/books/datasetsv2.html – doxav

Poniżej znajduje się ponad 1 578 627 sklasyfikowanych zestawów danych http://thinknook.com/wp -content/uploads/2012/09/Sentiment-Analysis-Dataset.zip lub http://ai.stanford.edu/~amaas/data/sentiment/ –

Dobry zestaw danych do analizy sentymentów?

Odpowiedz

Powiązane problemy