Szukam sposobu wykrywania zestawów znaków w dokumentach. Czytałem realizację wykrywania zestaw znaków Mozilli tutaj:Algorytm wykrywania kodowania znaków
Mam również implementację Javy tej nazwie jCharDet:
Oba te oparte są na badania przeprowadzone przy użyciu zestawu danych statycznych. Zastanawiam się, czy ktokolwiek użył jakiejkolwiek innej implementacji, a jeśli tak, to co? Czy zastosowałeś własne podejście, a jeśli tak, to jaki algorytm został użyty do wykrycia zestawu znaków?
Każda pomoc zostanie doceniona. Nie szukam na listę istniejących podejść za pośrednictwem Google, ani ja szukam linkiem do artykułu Joel Spolsky - tylko w celu wyjaśnienia:)
UPDATE: zrobiłem kilka badań nad tym i zakończył up znalezienie ramy nazwie cpdetector który używa plug podejście do wykrywania znaków, patrz:
zapewnia to BOM, chardet (Mozilla podejścia) oraz ASCII wykrywania wtyczek. Łatwo też napisać własną. Istnieje również inna struktura, która zapewnia znacznie lepsze wykrywanie znaków, że podejście Mozilla/jchardet etc ...
Jest to dość łatwe do napisania własnej wtyczki dla cpdetector który wykorzystuje te ramy do zapewnienia bardziej dokładny charakter algorytm wykrywania kodowania. Działa lepiej niż podejście Mozilli.
To trudny problem. Dzięki za świetne linki z własnych badań. – erickson
Jest jeden słynny przypadek: http://blogs.msdn.com/oldnewthing/archive/2007/04/17/2158334.aspx – McDowell
Tak, znajdowałem się w notatniku, zmienię swój post dzięki moim badaniom kiedy już skończę, kilka ciekawych rzeczy ... – Jon