Nie próbowałem robić niewytrenowanej analizy sentymentów, tak jak opisujesz, ale z góry mojej głowy powiedziałbym, że upraszczasz ten problem. Po prostu analiza przymiotników nie wystarczy, aby dobrze zrozumieć sentyment tekstu; na przykład, rozważ słowo "głupi". Sam możesz to sklasyfikować jako negatywny, ale jeśli przegląd produktu miałby mieć "... [x] produkt sprawia, że ich konkurenci wyglądają głupio, nie myśląc o tej funkcji w pierwszej kolejności ...", wtedy nastroje na pewno byłyby pozytywne . Większy kontekst, w którym pojawiają się słowa, zdecydowanie ma znaczenie w czymś takim. Dlatego sam niewytrenowany worek słów (nie wspominając o jeszcze bardziej ograniczonej torebce przymiotników) nie wystarcza, aby odpowiednio rozwiązać ten problem.
Wstępnie sklasyfikowane dane ("dane treningowe") pomagają w tym, że problem przechodzi od próby określenia, czy tekst ma pozytywny lub negatywny sentyment od zera, do próby ustalenia, czy tekst jest bardziej podobny do pozytywnych tekstów lub negatywne teksty i klasyfikuj je w ten sposób. Innym ważnym punktem jest to, że analizy tekstowe, takie jak analiza sentymentów, często mają duży wpływ na różnice w charakterystyce tekstów w zależności od domeny. Właśnie dlatego posiadanie dobrego zestawu danych do treningu (to jest dokładnych danych z domeny, w której pracujesz, i jest nadzieja reprezentatywna dla tekstów, które będziesz musiał sklasyfikować) jest tak samo ważne jak budowanie dobrego system do klasyfikacji przy pomocy.
Niezupełnie artykuł, ale mam nadzieję, że pomaga.
Ten otrzyma znacznik odpowiedzi. To bardzo interesujący artykuł. – Trindaz