Biorąc pod uwagę tablicę bajtów przedstawiającą tekst w nieznanym kodowaniu (zwykle UTF-8 lub ISO-8859-1, ale niekoniecznie tak), jaki jest najlepszy sposób na uzyskać domysły na temat najbardziej prawdopodobnego kodowania (w Javie)?Zgadywanie kodowania tekstu reprezentowanego jako bajt [] w Javie
Warto zauważyć:
- Brak dodatkowych meta-dane są dostępne. Tablica bajtów jest dosłownie jedynym dostępnym wejściem.
- Algorytm wykrywania nie będzie w 100% poprawny. Jeśli algorytm jest poprawny, oznacza więcej niż 80% przypadków, które są wystarczająco dobre.
http://stackoverflow.com/questions/373081/ może pomocy – Chris