2012-01-20 6 views
5

Czy istnieje kilka typowych lub zalecanych technik korzystania z kontekstu słowa w celu poprawy dokładności oznaczania części mowy?Korzystanie z kontekstu w celu poprawy tagowania części mowy

Na przykład, gdybym miał zdanie:

grałem w golfa na linki.

Słowo "linki" może być pojedyncze (pole golfowe) lub liczba mnoga. Próbowałem tego zdania w kilku modułach sprawdzających gramatykę i wszystkie poprawnie rozpoznały zdanie jako poprawne.

Problemem jest to, że również myślał, że to zdanie było poprawne:

I kliknął linki.

Czy istnieje dobry sposób na wykorzystanie kontekstu (kliknięcie w porównaniu z golfem) w celu określenia prawidłowej części mowy?

Dzięki!

Odpowiedz

2

Ustalenie, czy "linki" jest "polem golfowym" lub "referencjami", jest zadaniem o nazwie ujednoznacznienie ujednoznacznienie słowa:. Oto co artykuł Wikipedii na Word-sense disambiguation mówi o stosunku do Part-of-speech tagging:

W każdym prawdziwym testem, part-of-speech tagging i poczucie tagowanie są bardzo ściśle związane ze sobą potencjalnie tworzących ograniczeń do inny. A pytanie, czy te zadania powinny być trzymane razem, czy rozdzielone, wciąż nie jest jednomyślnie rozwiązane, ale ostatnio naukowcy skłaniają się do testowania tych rzeczy osobno (np. W konkursach Senseval/SemEval części mowy są dostarczane jako dane wejściowe dla tekstu do ujednoznacznienia). Pouczające jest porównanie problemu ujednoznacznienia słowa z problemem oznaczania części mowy. Oba obejmują ujednoznacznianie lub tagowanie słowami, czy to za pomocą zmysłów, czy części mowy. Jednak algorytmy używane dla jednego nie działają dobrze dla drugiego, głównie dlatego, że część mowy słowa jest określana przede wszystkim przez bezpośrednio sąsiadujące od jednego do trzech słów, podczas gdy sens słowa może być określony słowami dalej . Współczynnik powodzenia algorytmów oznaczania części mowy jest obecnie znacznie wyższy niż w przypadku WSD, a stan wiedzy jest około 95% dokładności lub lepszy, w porównaniu z mniej niż 75% dokładności w ujednoznacznieniu z wyrazistością z nadzorowanym uczeniem się . Liczby te są typowe dla języka angielskiego i mogą się bardzo różnić od tych dla innych języków.

Nie znam prac wykorzystujących WSD poinformować POS-tagging (jednak przy użyciu tagów POS poinformować WSD jest standardem). To brzmi jak dobry pomysł, aby mnie, nawet jeśli korzyść dla dokładności będzie być małe, ponieważ dokładność jest już wysoka. Może zostać zaimplementowany jako funkcja w tagger CRT Toutanova.