Dlaczego DOM zmienia kodowanie?

$string = file_get_contents('http://example.com'); 

if ('UTF-8' === mb_detect_encoding($string)) { 
    $dom = new DOMDocument(); 
    // hack to preserve UTF-8 characters 
    $dom->loadHTML('<?xml encoding="UTF-8">' . $string); 
    $dom->preserveWhiteSpace = false; 
    $dom->encoding = 'UTF-8'; 
    $body = $dom->getElementsByTagName('body'); 
    echo htmlspecialchars($body->item(0)->nodeValue); 
}

Zmienia wszystkie znaki UTF-8 do ¾, ¤ i innych śmieci. Czy istnieje inny sposób zachowania znaków UTF-8?Dlaczego DOM zmienia kodowanie?

Nie wysyłaj odpowiedzi mówi mi, aby upewnić się, jestem wyprowadzanie go jako UTF-8, zrobiłem pewien jestem.

góry dzięki :)

Źródło

2010-02-10 Richard Knop

Skąd dane ('$ string') pochodzi? –

I zostały zaktualizowane moje pytanie :) –

można podać link do adresu URL, który pobrać za pomocą file_get_contents()? Jak już wspomniałem w drugim pytaniu, podejrzewam, że otrzymujesz ISO-8859-1 lub inne dane, które * mają *, aby zostać zniekształcone, gdy wynik jest w UTF-8. Nie polegałbym na mb_detect_encoding(). –

miałem podobne problemy niedawno, a ostatecznie znaleźć tego obejścia - Konwersja wszystkich znaków spoza ASCII html jednostkach przed załadunkiem html

$string = mb_convert_encoding($string, 'HTML-ENTITIES', "UTF-8"); 
$dom->loadHTML($string);

Źródło

2010-02-10 15:48:52 andrewmabbott

WOW. Wielkie dzięki, działało idealnie. To już doprowadziło mnie do krawędzi szaleństwa. –

To jest świetne obejście problemu, ale nadal byłoby interesujące dowiedzieć się, dlaczego DOM twojego serwera produkcyjnego najpierw wykrywa UTF8. Może o coś zapytać administratora, jeśli taki istnieje. –

Jestem administratorem: D i nie mam pojęcia. Używam bardzo powszechnej konfiguracji Debiana 5.0 Lenny. Może to "funkcja" bezpieczeństwa, która to robi? –

W przypadku jest zdecydowanie DOM przekręcane kodowanie, ten trik zrobił to dla mnie jakiś czas temu na odwrót (przyjmowanie danych ISO-8859-1). DOMDocument powinny być UTF-8 domyślnie w każdym przypadku, ale można jeszcze spróbować:

$dom = new DOMDocument('1.0', 'utf-8');

Źródło

2010-02-10 15:06:44

To nie pomogło, ale andrewmabbott rozwiązał już mój problem - sprawdź odpowiedź;) –

Działa tylko z loadXml(), nie z loadHtml(). –

na początku skryptu gdzie twoje kłamstwa kod PHP (kod zostanie zaksięgowana tutaj), upewnij się wysłać UTF-8 nagłówek. Założę się, że twoje kodowanie jest teraz pewnym wariantem Latin1. Tak, wiem, że zdalna strona to utf8, ale ten skrypt php nie jest.

Źródło

2010-02-10 15:58:44 goat

musiałem dodać nagłówek utf8, aby uzyskać prawidłowy pogląd:

header('Content-Type: text/html; charset=utf-8');

Źródło

2018-01-06 19:12:30 fty4

Odpowiedz

Powiązane problemy