Niektóre sekwencje bajtów są najwyraźniej nieprawidłowe w kodowaniu Unicode i wiem, że niektóre języki (Python dla jednego) powodują błąd, gdy tak się dzieje.Unicode i Javascript: Niepoprawne sekwencje bajtów
Moje pytanie brzmi: co dzieje się w JavaScript podczas odbierania takiej sekwencji podczas XMLHttpRequest
lub XDomainRequest
? Czy wynikowy ciąg:
- Zostanie obcięty, gdy tak się stanie?
- Pomiń złą sekwencję i zacznij od następnego bajtu?
- Kontynuować dekodowanie i wyświetlać tylko zastępczy znak when, gdy jest wyświetlany?
Jeśli 3, to czy funkcja charCodeAt
zwraca prawidłowy kod znaku?
OK, dziękuję, tego właśnie szukałem. Dla przypomnienia, właśnie to potwierdziłem używając [this page] (http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt) i iterując przez 'charCodeAt' wartości. –
Świetne źródło testowania: http://www.cl.cam.ac.uk/~mgk25/ucs/examples/UTF-8-test.txt – saml