mój ciąg jest Niệm Bồ Tát (Thiá»n sÆ° Nhất Hạnh)
i chcę dekodować go do Niệm Bồ Tát (Thiền sư Nhất Hạnh)
widzę w tym miejscu może to zrobić http://www.enderminh.com/minh/utf8-to-unicode-converter.aspxPython Jak naprawić uszkodzone kodowanie utf-8?
i zacznę próbować przez Python
mystr = '09. Bát Nhã Tâm Kinh'
mystr.decode('utf-8')
ale faktycznie nie jest prawidłowe, ponieważ oryginalny ciąg to utf-8, ale pokaz ciągów nie jest moim oczekiwanym rezultatem.
Uwaga: jest to wietnamski charakter.
Jak rozwiązać tę sprawę? Czy to jest Windows Unicode czy coś? Jak wykryć kodowanie tutaj. góry dzięki
wygląda jakby został zakodowany jako 'UTF-8' jednak interpretować jako' latin-1 '. – ch3ka
'>>>" Niệm Bồ Tát (Thiền sư Nhất Hạnh) ". Encode ('utf-8') .dodode (" latin-1 ') ' '' Niá »\ x87m Bá» \ x93 Tát (Thiá »\ x81n sÆ ° NhẠ¥ t Hạnh)' 'całkiem blisko ... – ch3ka
@ ch3ka, faktycznie cp1252, nadzbiór łacińskiego-1 –