Czy HTML5 określa domyślne kodowanie znaków dla dokumentów HTML, jeśli nie podano kodowania znaków?

Przykładowy dokument HTML pobierane przez HTTP brakuje:Czy HTML5 określa domyślne kodowanie znaków dla dokumentów HTML, jeśli nie podano kodowania znaków?

HTTP Content-Type nagłówek
html <meta charset="<character encoding>" />
html <meta http-equiv='Content-Type' content='Type=text/html; charset=<character encoding>'>

W odniesieniu do HTML5, to domyślne, na przykład UTF-8, zakładany jako kodowanie znaków? Czy jest to całkowicie w górę aplikacji czytanie dokumentu HTML, aby wybrać domyślny?

Źródło

2012-09-13 Jon Cram

charset jest określana za pomocą tych zasad: nadpisanie

użytkownika.

Parametr "zestawu znaków" HTTP w polu "Content-Type".

Oznaczenie kolejności bajtów przed innymi danymi w samym dokumencie HTML.

Deklaracja META z atrybutem "charset".

Deklaracja META z atrybutem "http-equiv" ustawionym na "Content-Type" i wartością ustawioną dla "charset".

Nieokreślona analiza heurystyczna.

... a potem ...

znormalizować dany ciąg kodowania znaków według charset Alias Dopasowane zasad określonych w Unicode standard techniczny # 22.

Pomijanie niektórych problematycznych kodowań, tj. Celowe traktowanie niektórych kodowań tak, jakby były one różnymi kodowaniami. Najczęstszym nadpisaniem jest traktowanie US-ASCII i ISO-8859-1 jako Windows-1252, ale w tej tabeli wymieniono kilka innych nadpisań kodowania. Jak podaje specyfikacja, "wymóg traktowania pewnych kodowań jako innych kodowań zgodnie z powyższą tabelą jest świadomym naruszeniem specyfikacji modelu znaków W3C".

Ale najważniejszą rzeczą jest:

Należy zawsze określić kodowanie znaków na każdy dokument HTML lub złe rzeczy się wydarzy. Możesz to zrobić w trudny sposób (nagłówek treści treści HTTP), w łatwy sposób (deklaracja <meta http-equiv>) lub w nowy sposób (atrybut <meta charset>), ale zrób to. Sieć dziękuje.

Źródła:

Źródło

2012-09-13 12:22:13 ThiefMaster

Dzięki, doceniam, że kodowanie znaków powinno być zawsze określona.Sprawdzam dokumenty, nad którymi nie mam kontroli i muszę wiedzieć, czy powrócić do domyślnego kodowania, jeśli nie zostało określone. –

Rozważ użycie tej samej logiki, której używa walidator W3. To jest open source, więc możesz po prostu spojrzeć na jego kod, aby zobaczyć, co robi. – ThiefMaster

To tak naprawdę nie odpowiada na pytanie, dlaczego zestaw znaków jest potrzebny i jaki jest domyślny zestaw, który jest tak zły. Czy nadal jest to odpowiedź? Od tego czasu minęły 2 lata, a od tego czasu znacznie zmodernizowano przeglądarki. IE nie, ale starsze wersje odpadły. – trysis

Odpowiedz

Powiązane problemy