Wykrywanie języka za pomocą Stanford NLP

Zastanawiam się, czy można użyć Stanford CoreNLP do wykrywania języka, w którym napisane jest zdanie? Jeśli tak, jak precyzyjne mogą być te algorytmy?Wykrywanie języka za pomocą Stanford NLP

Źródło

2015-03-26 Kelvin Lee

Użytkownik może być zainteresowany [zestawem danych testu porównawczego WiLI do identyfikacji w języku pisanym] (https://arxiv.org/abs/1801.07779). –

Niemal na pewno nie ma identyfikacji języka w Stanford CORENLP w tej chwili. "prawie" - ponieważ nieistnienie jest o wiele trudniejsze do udowodnienia.

EDIT: Niemniej jednak, poniżej są okolicznościowe dowody:

nie ma wzmianki o identyfikacji języka ani na main page, ani CoreNLP page, ani w FAQ (choć jest pytanie „W jaki sposób uruchomić CoreNLP na inne języki? '), ani w 2014 paper autorów CoreNLP;
narzędzia, które łączą kilka bibliotek NLP , w tym Stanford CoreNLP, używają innej biblioteki dla języka identyfikacji, na przykład DKPro Core ASL; również other users mówić o tożsamości językowej i CoreNLP nie wspomnieć o tej możliwości
plik źródłowy CoreNLP zawiera Language klas, ale nic związane z identyfikacją języka - można sprawdzić ręcznie dla wszystkich 84 występowania „język” słowem here

Wypróbuj TIKA lub TextCat lub Language Detection Library for Java (zgłaszają "99% ponad precyzją w 53 językach").

Ogólnie rzecz biorąc, jakość zależy od rozmiaru wprowadzanego tekstu: jeśli jest wystarczająco długi (powiedzmy, co najmniej kilka słów i nie został specjalnie wybrany), wówczas dokładność może być całkiem dobra - około 95%.

Źródło

2015-03-26 22:53:36

brzmi dobrze, dzięki! –

Standford CoreNLP nie posiada identyfikator języka (przynajmniej jeszcze nie), patrz http://nlp.stanford.edu/software/corenlp.shtml

Jest wiele więcej na temat językowych narzędzi wykrywania/identyfikacji. Ale weź raportowaną dokładność za pomocą szczypty soli. Jest to najczęściej oceniana wąsko, ograniczoną przez:

listy fix języków,
znacznej długości zdań testowych i
tego samego języka i
skrzywienie proporcji kształcenia do testowania instancje.

język godny narzędzia ID obejmuje:

TextCat (http://cran.r-project.org/web/packages/textcat/index.html)
CLD (https://code.google.com/p/cld2/)
LingPipe (http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html)

Wyczerpująca lista z meta-przewodnika.com, zobacz http://meta-guide.com/software-meta-guide/100-best-github-language-identification/

uwagę zasługuje Język Identyfikacja podobne wspólne zadanie (z danymi szkolenia/testowania) obejmuje:

wziąć również zapoznać w:

Źródło

2015-03-27 07:44:54 alvas

ta lista jest imponująca! Dzięki! –

Wykrywanie języka za pomocą Stanford NLP

Odpowiedz

Powiązane problemy