Tytuł mówi wszystko; Mam pęknięcie bazy danych SQL w szwach z tekstem rozmowy online. Zrobiłem już większość tego projektu w Pythonie, więc chciałbym to zrobić za pomocą biblioteki NLTK Pythona (chyba, że jest powód, aby nie było powodu).Analiza nastrojów w kolekcji LARGE z tekstem konwersacji online
Dane są organizowane przez wątek, Login i Napisz. Każdy wątek mniej więcej koncentruje się na omówieniu jednego "produktu" kategorii, którą chcę przeanalizować. Ostatecznie, kiedy to się skończy, chciałbym mieć szacunkową opinię (jak/nie lubię rodzaju transakcji) od każdego użytkownika za któryś z produktów, o których dyskutowali w pewnym momencie.
Więc, co chciałbym wiedzieć:
1) Jak mogę iść o określenie, co produkt każdy wątek jest o? Czytałem o ekstrakcji słów kluczowych ... czy to właściwa metoda?
2) Jak określić określony sentyment użytkowników na podstawie ich postów? Z mojego ograniczonego zrozumienia muszę najpierw "przeszkolić" NLTK, aby rozpoznać pewne wskaźniki opinii, a następnie czy po prostu określam kontekst tych słów, gdy pojawiają się one w tekście?
Jak można się domyślić, nie mam wcześniejszego doświadczenia z NLP. Z mojego dotychczasowego czytania, myślę, że poradzę sobie z jego nauką. Nawet zwykły i prosty model pracy byłby świetny, gdyby ktoś wskazał mi właściwy kierunek. Google nie był dla mnie bardzo pomocny.
P.S. Mam pozwolenie na analizę tych danych (w przypadku, gdy jest to ważne)
Czy masz jakieś dane z etykietą? – placeybordeaux
Nie, to jest to. Próbowałem zrobić to tak automatycznie, jak potrafię ... Oznakowanie danych brzmi jak niezwykle czasochłonne/zdrętwiałe zadanie. Czy bezwzględnie wymagane jest mierzenie nastrojów? Jeśli tak, to rozważałbym możliwość wprowadzenia go na Mechanical Turk lub coś w tym rodzaju ... – araisbec
Wszystkie znane mi algorytmy uczenia się wymagają zestawu danych treningowych, których używasz do budowy modelu. Następnie możesz go uwolnić na nieoznakowanych danych. – BenDundee