Poszukuję wolnego oznaczonego korpusu do systemu, w którym można szkolić się do rozpoznawania nazwanego obiektu. Większość znalezisk (takich jak New York Times) jest droga i nie jest otwarta. Czy ktoś może pomóc?Bezpłatne oznaczenie korpusu do rozpoznawania nazwanego obiektu
Odpowiedz
dbPedia jest otwarte i wolne
dbpedia jest zbudowany z Wikipedii i jest to bardzo duży korpus. Zbuduj indeks Lucene na temat trójek obejmujący rdfs:label
na wszystkich dbPedia titles dump.
Jak podaje jedna z pozostałych odpowiedzi, DBpedia nie jest oznakowanym korpusem. –
W 2012 (i dziś) mój komentarz był prawdziwy, ale może się to zmienić w przyszłości. Jeśli interesują Cię zwłoki bazujące na DBpedzie, możesz chcieć wykonać Open Extraction Challenge (http://wiki.dbpedia.org/textext), aby wygenerować wyjście NIF dla DBpedia z tekstu Wikipedii. –
Urządzenie Python NLTK ma dostęp do korpusu nltk.corpus.conll2000
. Wywołanie conll2000.iob_words()
zwraca listę trzyosobowych (słowo, część mowy, IOB), gdzie IOB jest znacznikiem w formacie Inside-encja/Outside-entity/Beginning-of-entity.
Istnieje około 250 000 słów łącznie w kontekście stylu wiadomości.
Czy możemy także zrzucić zestaw danych, aby użyć go w innym narzędziu? takie jak [** Tagger **] (https://github.com/glample/tagger) autorstwa GLample. – user1412066
CONLL2000 nie oznacza nazwanych encji. – alexis
Istnieje lista korpusów w http://www.cs.technion.ac.il/~gabr/resources/data/ne_datasets.html
Corpus CoNLL 2003, który znajduje się na tej liście, jest wolny i jest dostępny od http://www.cnts.ua.ac.be/conll2003/ner/ (adnotacji) i NIST (tekst).
Czy musimy postępować zgodnie z procedurą wypełniania formularzy, wysyłając wniosek do NIST o otrzymanie zestawu danych zgodnie z tym [** link **] (http://trec.nist.gov/data/reuters/reuters.html) ? czy jest jakaś alternatywa? – user1412066
To samo pytanie zadano na http://opendata.stackexchange.com/q/7250/1652 (gdzie nie jest zamknięte) –