2017-06-29 14 views
5

muszę generować parafrazę zdaniu angielskim przy użyciu bazy danych sparafrazować PPDBgenerowania parafrazy tekstu angielskiego z wykorzystaniem PPDB

Pobrałem zestawów danych z website.

+5

Naprawdę musisz opisać, co próbujesz. – boxed

+2

PPDB wygląda jak korpus, którego użyjesz do opracowania algorytmu parafrazy, a nie narzędzia, którego używałbyś bezpośrednio. Parafrazowanie jest dość trudnym problemem NLP. Wygląda na to, że nie ujawnili swojego algorytmu, poza opisem w ich pracy. – keredson

Odpowiedz

1

Powiedziałbym, że pierwszym krokiem powinno być zredukowanie problemu do łatwiejszych w obsłudze komponentów. Po drugie, ustal, czy chcesz parafrazować w oparciu o jeden do jednego, leksykalny, składniowy, frazowy czy kombinacyjny. Aby poinformować o tej decyzji, wziąłbym jedno zdanie i parafrazuję je, aby uzyskać wyobrażenie o tym, czego szukam. Następnie chciałbym zacząć pisać parser dla pobranych danych. Następnie usunęłabym stopwords i włączyłam tagger z części mowy, taki jak te zawarte w spaCy lub nltk dla twojej przykładowej frazy.

Ponieważ wydają się dawać wszystkie informacje potrzebne do zrobienia kolejnego filtra słownika, od którego zacznę. Napisałbym filtr, który znalazł części mowy dla każdego słowa w moim zdaniu w kolumnie [LHS] zbioru danych i wybrał źródło, które pasuje do słowa, minimalizując/maksymalizując wartość 1 cechy (jak minimalizacja WordLenDiff), która w przypadek "businessnow" < - "biznes teraz" = -1,5. Śledząc funkcję celu, będziesz miał podstawowe parafrazowane zdanie.

stosując tę ​​strategię swoją moc może okazać:

"the business uses 4 gb standard." 
sent_score = 0 

do:

"businessnow uses 4gb standard" 
sent_score = -3 

Po masz podstawową przykładów można rozpocząć odkrywanie algorytmy selekcji cechą jak te w scikit-learn, itp. i włączyć wyrównanie słów. Ale poważnie ograniczyłbym zakres problemu i stopniowo go zwiększał. Ostatecznie, w jaki sposób podejmiesz problem, zależy to od tego, jakie jest wyznaczone zastosowanie i jak funkcjonalne musi być.

Mam nadzieję, że to pomoże.

+0

Czy istnieje jakaś implementacja, którą mogę przetestować. Podoba mi się podejście i będę też próbować tego na sobie. Ale potrzebujemy jakiegoś podstawowego zrozumienia przy użyciu implementacji. Czekam na wiadomość od Ciebie. –

+0

Najprawdopodobniej nie ma jednego przykładu obejmującego. Gdzie utkniesz? –

+0

trochę mylić z częścią tagowania i ppdb. W jaki sposób są skorelowane? Dlatego poprosiłem o odniesienie w odniesieniu do twojej odpowiedzi. Mam nadzieję, że moje pytanie prejudycjalne cię nie obraża. –