Jak zamienić znaki Unicode na ASCII

Mam następujące polecenie do zamiany znaków Unicode na znaki ASCII.Jak zamienić znaki Unicode na ASCII

sed -i 's/Ã/A/g'

Problemem jest Ã nie jest rozpoznawany przez polecenia sed w moim środowisku Unix więc ja zakładam, że zastąpić go jego wartości szesnastkowej. Jak wyglądałaby składnia, gdybym zamiast tego używał C3?

Używam tego polecenia jako wzorzec dla innych znaków chciałbym zamienić z pustych przestrzeniach, takich jak:

sed -i „s/©// g”

Źródło

2014-11-21 Sandeep Johal

masz na myśli? http://stackoverflow.com/questions/22450563/sed-matching-unicode-blocks-z – Leo

Jakiego zestawu znaków używa twój terminal? A jakie kodowanie wykorzystuje tekst wejściowy? W UTF-8 jest 0xC3 0x83, a znak 0x83 jest kodem kontrolnym w ISO 8859-1, więc może to być problem. Przypuszczam, że nie możesz po prostu ustawić 'LANG = en_US.UTF-8' na swoim systemie. – yellowantphil

"sed" wykona zadanie. Proszę zobaczyć moją odpowiedź. – ajaaskel

Można użyć iconv:

iconv -f utf-8 -t ascii//translit

Źródło

2014-11-21 00:36:57 tinySandy

Masz na myśli GNU iconv. Nie wszystkie wersje translatora obsługują iconv. –

Tak, ale może spróbować. – tinySandy

Dzięki, ale używam tego jako szablonu do tworzenia innych poleceń sed, które zastąpią określone znaki pustymi miejscami, na przykład: sed -i 's/©// g' –

możliwe jest użycie wartości szesnastkowe w "sed".

echo "Ã" | hexdump -C 
00000000 c3 83 0a           |...| 
00000003

Ok, ta postać jest kombinacją dwóch bajtów "c3 83". Załóżmy, zastąpić go jeden bajt "A":

echo "Ã" |sed 's/\xc3\x83/A/g' 
A

Objaśnienie: \ x wskazuje na "sed", że kod szesnastkowy następująco.

Źródło

2014-11-21 07:41:25 ajaaskel

Zwykle pisałbym te z <<<, ale piping daje lepszy pomysł przeciętnemu czytelnikowi, co się dzieje. – ajaaskel

Co masz na myśli "napisz do nich <<<"? – isomorphismes

hexdump -C <<< Ö – ajaaskel

spróbuj ustawić LANG=C a następnie uruchomić go w całym zakresie Unicode:
echo "hi ☠ there ☠" | LANG=C sed "s/[\x80-\xFF]//g"

Źródło

2015-11-12 15:27:22

Istnieje również uconv od ICU.

Przykłady:

uconv -x "::NFD; [:Nonspacing Mark:] > ; ::NFC;": usuwanie akcentami
uconv -x "::Latin; ::Latin-ASCII;" bo transliteracją łacińskiego/ASCII
uconv -x "::Latin; ::Latin-ASCII; ([^\x00-\x7F]) > ;": do transliteracją łacińska/ASCII oraz usunięcie pozostałych punktach kod> 0x7F
...

echo "À l'école ☠" | uconv -x "::Latin; ::Latin-ASCII; ([^\x00-\x7F]) > ;" podaje: A l'ecole

Źródło

2015-11-12 18:08:19 julp

Jak zamienić znaki Unicode na ASCII

Odpowiedz

Powiązane problemy