Mam tekst, który zawiera znaki takie jak "\ xaf", "\ xbe", które, jak rozumiem z this question, są znakami zakodowanymi w ASCII.Jak przekonwertować zakodowane znaki xXY na UTF-8 w Pythonie?
Chcę przekonwertować je w Pythonie na ich odpowiedniki w formacie UTF-8. Zwykle string.encode("utf-8")
rzuca UnicodeDecodeError
. Czy jest jakiś lepszy sposób, na przykład, ze standardową biblioteką codecs
?
Próbka 200 characters here.
Twoja próbka nie zawiera żadnych '\ xaf' lub jak. Czy masz próbki z takimi postaciami? – dkarp
Twoje przykładowe dane * mają * poprawny kod UTF-8. Z znakami kontrolnymi "separator rekordów" i "separator jednostek". – dan04
Zgodnie z 'enca' (http://linux.die.net/man/1/enca) jest to UTF-8" otoczony/wymieszany z danymi nietekstowymi ". –