Próbuję zaimplementować ekstrakcję relacji między parami czasowników. Chcę używać ścieżki zależności od jednego czasownika do drugiego jako funkcji dla mojego klasyfikatora (przewiduje, czy istnieje związek X). Ale nie jestem pewien, jak zakodować ścieżkę zależności jako cechę. Poniżej przedstawiono niektóre ścieżki przykład z zależnościami, jak przestrzeń oddzielona adnotacje Relacja z StanfordCoreNLP zwiniętymi zależności:Jak kodować ścieżkę zależności jako cechę dla klasyfikacji?
nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of
Ważne jest, aby pamiętać, że te ścieżki są zmiennej długości a relacja mogłaby ponownie bez ograniczeń .
Dwa narażania sposoby kodowania tej funkcji, które przychodzą mi do głowy to:
1) Ignoruj sekwencję, a tylko mają jedną cechę dla każdej relacji z jego wartość oznacza liczbę razy pojawia się w ścieżce
2) Mają przesuwne okno o długości n, i mają jedną cechę dla każdej możliwej pary relacji z wartością określającą, ile razy te dwie relacje pojawiały się kolejno. Przypuszczam, że tak właśnie jeden koduje n-gramy. Jednak liczba możliwych relacji wynosi 50, co oznacza, że nie mogę tak naprawdę podążać za tym podejściem.
Wszelkie sugestie są mile widziane.