Zastanawiam się, czy można użyć Stanford CoreNLP do wykrywania języka, w którym napisane jest zdanie? Jeśli tak, jak precyzyjne mogą być te algorytmy?Wykrywanie języka za pomocą Stanford NLP
Odpowiedz
Niemal na pewno nie ma identyfikacji języka w Stanford CORENLP w tej chwili. "prawie" - ponieważ nieistnienie jest o wiele trudniejsze do udowodnienia.
EDIT: Niemniej jednak, poniżej są okolicznościowe dowody:
- nie ma wzmianki o identyfikacji języka ani na main page, ani CoreNLP page, ani w FAQ (choć jest pytanie „W jaki sposób uruchomić CoreNLP na inne języki? '), ani w 2014 paper autorów CoreNLP;
- narzędzia, które łączą kilka bibliotek NLP , w tym Stanford CoreNLP, używają innej biblioteki dla języka identyfikacji, na przykład DKPro Core ASL; również other users mówić o tożsamości językowej i CoreNLP nie wspomnieć o tej możliwości
- plik źródłowy CoreNLP zawiera
Language
klas, ale nic związane z identyfikacją języka - można sprawdzić ręcznie dla wszystkich 84 występowania „język” słowem here
Wypróbuj TIKA lub TextCat lub Language Detection Library for Java (zgłaszają "99% ponad precyzją w 53 językach").
Ogólnie rzecz biorąc, jakość zależy od rozmiaru wprowadzanego tekstu: jeśli jest wystarczająco długi (powiedzmy, co najmniej kilka słów i nie został specjalnie wybrany), wówczas dokładność może być całkiem dobra - około 95%.
brzmi dobrze, dzięki! –
Standford CoreNLP nie posiada identyfikator języka (przynajmniej jeszcze nie), patrz http://nlp.stanford.edu/software/corenlp.shtml
Jest wiele więcej na temat językowych narzędzi wykrywania/identyfikacji. Ale weź raportowaną dokładność za pomocą szczypty soli. Jest to najczęściej oceniana wąsko, ograniczoną przez:
- listy fix języków,
- znacznej długości zdań testowych i
- tego samego języka i
- skrzywienie proporcji kształcenia do testowania instancje.
język godny narzędzia ID obejmuje:
- TextCat (http://cran.r-project.org/web/packages/textcat/index.html)
- CLD (https://code.google.com/p/cld2/)
- LingPipe (http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html)
Wyczerpująca lista z meta-przewodnika.com, zobacz http://meta-guide.com/software-meta-guide/100-best-github-language-identification/
uwagę zasługuje Język Identyfikacja podobne wspólne zadanie (z danymi szkolenia/testowania) obejmuje:
wziąć również zapoznać w:
- Language Identification: The Long and the Short of the Matter
- The Problems of Language Identification within Hugely Multilingual Data Sets
- Selecting and Weighting N-Grams to Identify 1100 Languages
- Indigenous Tweets
- Microblog Language Identification: Overcoming the Limitations of Short, Unedited and Idiomatic Text
ta lista jest imponująca! Dzięki! –
Użytkownik może być zainteresowany [zestawem danych testu porównawczego WiLI do identyfikacji w języku pisanym] (https://arxiv.org/abs/1801.07779). –