Czy w dowolnym miejscu mogę pobrać Treebank z angielskich wyrażeń za darmo lub mniej niż 100 USD? Potrzebuję danych treningowych zawierających pęczek zdań syntaktycznych (> 1000) w języku angielskim w dowolnym formacie. Zasadniczo potrzebuję tylko słów w tym zdaniu rozpoznawanych przez część mowy.Czy istnieje Treebank za darmo?
Odpowiedz
NLTK (dla Python) oferuje kilka treebanks for free.
Dzięki, +1. Nie znam Pythona, więc radzę, proszę, jak mogę przeanalizować pliki * .pickle? Czy każdy konwerter jest bardziej przyjazny dla użytkownika, taki jak XML lub zwykły tekst? – YMC
Jaki plik pikla? The Treebanks są w formacie tekstowym. Np. Http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip. – cyborg
19 języków za darmo tutaj: http://universaldependencies.github.io/docs/ – CpILL
Co powiesz na Penn Treebank? Mam nadzieję, że będzie to bezpłatne lub przynajmniej możliwe. http://www.cis.upenn.edu/~treebank/cdrom2.html
Kosztuje 3150 USD w LDC: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 – YMC
Jest wliczony wraz z wieloma innymi drzewami w OntoNotes 4.0 http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03, który jest darmowy (choć trzeba zapłacić koszt dystrybucji). –
jak koszt dystrybucji? – CpILL
Oto kilka (angielski) treebanks dostępne za darmo:
American National Corpus: MASC
Pytania: QuestionBank i Stanford's corrections
brytyjski news: BNC
TED Talks: NAIST-NTT TED Treebank
Georgetown University Wielowarstwowe Corpus: GUM
Biomedical:
Zobacz także Wikipedia dla ogromnej listy.
Czy w NLTK nie ma dużego podzbioru banku drzew Penn? –
@ on-hold: w rzeczywistości jest to bardzo przydatne pytanie, a odpowiedzi są również bardzo przydatne, ponieważ są to stosunkowo rzadkie zasoby. Pamiętaj, to nie jest pytanie "jest lepsze od B", ale "lista wszystkich zasobów typu X pod warunkiem Y". – rec
To niedorzeczne, że LDC pobiera opłaty za zestawy danych ... W każdym razie zobacz https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks –