Dlaczego string.Normalize nie jest spójny w zależności od kontekstu?

Mam następujący kod:Dlaczego string.Normalize nie jest spójny w zależności od kontekstu?

string input = "ç"; 
string normalized = input.Normalize(NormalizationForm.FormD); 
char[] chars = normalized.ToCharArray();

buduję ten kod z Visual Studio 2010, .net4, na 64 bitowych Windows 7.

go uruchomić w projekcie testów jednostkowych (platformy: Dowolny CPU) w dwóch kontekstach i sprawdzić zawartość chars:

wizualne testów jednostkowych Studio: znaków zawierający { 231 }.
ReSharper: znaki zawierają { 231 }.
NCrunch: znaki zawierają numer { 99, 807 }.

W msdn documentation, nie mogłem znaleźć żadnych informacji prezentujących różne zachowania.

Dlaczego więc dostaję różne zachowania? Dla mnie zachowanie NCrunch jest oczekiwane, ale oczekiwałbym tego samego u innych.

Edytuj: Powróciłem do .Net 3.5 i nadal mam ten sam problem.

Źródło

2012-05-10 remio

Hmm, dostaję {99, 807} z Visual Studio ... To by sugerowało, że jest coś w konfiguracji twojego projektu ... Może. – zmilojko

@zmilojko. Dziękuję za twoje testy. Otrzymuję takie same wyniki jak twoje w pustym nowym projekcie. Sprawdzam więc różnice między dwoma projektami (winmerge na csproj), ale nie mogłem jeszcze znaleźć, co było powodem, dla którego napisałem to pytanie: zrozum, który kontekst może wywołać inne zachowanie. – remio

Co to jest "Thread.CurrentThread.CurrentCulture" w każdym przypadku? – AakashM

W String.Normalize(NormalizationForm) documentation mówi, że

reprezentacja binarna jest w postaci normalizacji określonym przez parametr normalizationForm.

co oznacza, że w obu przypadkach stosujesz normalizację FormD, więc CurrentCulture i tak nie powinno mieć znaczenia.

Jedyne, co może się zmienić, to, co mogę myśleć, to postać "ç". Ten znak jest interpretowany zgodnie z kodowaniem znaków, które zostało założone lub skonfigurowane dla plików kodu źródłowego Visual Studio. Krótko mówiąc, myślę, że NCrunch zakłada inne kodowanie plików źródłowych niż inne.

Na podstawie szybkiego wyszukiwania na forum NCrunch wspomniano o pewnej konwersji UTF-8 -> UTF-16, więc sprawdziłbym to.

Źródło

2012-05-14 11:51:04 eis

Rzeczywiście, mocno podejrzewałem kodowanie znaku '' 'w kodzie źródłowym/uruchomieniowym. Zacząłem grać z kodowaniem pliku źródłowego bez powodzenia. Następnie próbowałem odczytać ciąg z pliku zewnętrznego, który zakończył się niepowodzeniem, dopóki nie zmusiłem jego kodowania do 'UTF-8'. Wreszcie zaktualizowałem swoją deklarację 'input' na' string input = new string (new [] {(char) 231}); ', i ... to działa! – remio

Dlaczego string.Normalize nie jest spójny w zależności od kontekstu?

Odpowiedz

Powiązane problemy