python error nltk.sent_tokenize ASCII kodek nie potrafi dekodować

mógłbym z powodzeniem czytać tekst do zmiennej, ale podczas próby tokenize teksty im się ten dziwny błąd:python error nltk.sent_tokenize ASCII kodek nie potrafi dekodować

sentences=nltk.sent_tokenize(sample) 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

znam przyczynę błędu jest jakiś specjalny ciąg/znak, którego tokenizator nie jest w stanie odczytać/odkodować, ale jak to obejść? Dzięki

Źródło

2014-11-30 rzach

powinien spróbować tego:

sentences=nltk.sent_tokenize(sample.decode('utf-8'))

Źródło

2014-11-30 11:54:13 shalini

pracował jak urok. Dzięki – rzach

z powodu błędu OP, jest oczywiste, że NLTK używa kodowania ASCII podczas sent_tokenize. Stąd powyższe rozwiązanie działa TYLKO, jeśli cały kod UNICODE można przekonwertować na równoważny ASCII, co nie zawsze ma miejsce, ponieważ UNICODE ma znacznie większy zestaw CHAR (> 1M) niż ASCII (= 256). – chandresh

W skrócie, funkcja pos_tag NLTK3 nie działa.

Funkcja NLTK2 działa dobrze.

pip odinstalować NLTK

pip zainstalować http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

Z drugiej strony, tagger jest bardzo złe (podobno 'oranżerii' to czasownik). Chciałbym, aby SpaCy działało w systemie Windows.

Źródło

2015-08-12 01:46:52 user3297367

python error nltk.sent_tokenize ASCII kodek nie potrafi dekodować

Odpowiedz

Powiązane problemy