Wizualnie identyczne znaki w Unicode

Chcę znaleźć wizualnie identyczne znaki dla określonego znaku w Unicode. Wiem, jak znaleźć dekompozycje kanoniczne lub kompatybilności postaci; ale nie dają mi tego, czego chcę. Chcę znaleźć znaki, które są wizualnie identyczne (nie podobne), a jedyną różnicą mogą być ich rozmiary.Wizualnie identyczne znaki w Unicode

na przykład Chcę: (s, S) lub (S, S) (których punkty kodowe są różne). Nie chcę (ß, β) lub (e, é).

Wszelkie sugestie? Dzięki.

Źródło

2012-11-06 Bahar S

Kod Unicode nie określa wyglądu znaków. To jest problem z czcionką. (Standard używa _reprezentatywnych_ obrazów, ale nie są one częścią standardu.) Na przykład, czy chcesz, aby kapitał I i cyfra 1 i mała litera l były razem? W niektórych czcionkach są one identyczne, a w innych czcionkach są różne. –

Dla konkretnej postaci można rozpocząć od adnotacji na wykresach kodów w standardzie Unicode. Adnotacje często odnoszą się do innych postaci z różnych powodów, w tym podobieństwa lub tożsamości kształtu. Ale adnotacje nie mają na celu objęcia wszystkiego.

Możesz także narysować swoją postać pod numerem http://shapecatcher.com/ i poprosić o jej rozpoznanie. Często dostajesz długą listę wizualnie podobnych alternatyw.

Jak pisze @TedHopp w swoim komentarzu, tożsamość wizualna zależy od czcionki. Na przykład "s" i "S" nie muszą mieć identycznego kształtu; w większości czcionek nie są - podstawowa forma jest taka sama, ale istnieją różne różnice w zmienności szerokości, krzywizny, szeryfach itp. Jednak niektóre znaki mogą być wizualnie identyczne w każdej czcionce, która je zawiera, np. jako kapitał łaciński A, kapitał grecki alfa Α i kapitał cyrylicki А.

Nie sprecyzowałeś celu badania, ale możesz zrobić coś, co zostało wykonane w pewnym stopniu przez konsorcjum Unicode. Zobacz UTR #6, względy bezpieczeństwa Unicode, która zawiera również odnośniki do powiązanej pracy, w tym UTS #9, Mechanizmy zabezpieczeń Unicode, który zawiera confusables.txt zaleca zbliżonej mapowanie dla IDN (czyli do konkretnego kontekstu, ale może być zainteresowanie także innymi celami).

Źródło

2012-11-07 08:10:57

Wizualnie identyczne znaki w Unicode

Odpowiedz

Powiązane problemy