Python regex '\ s' nie pasuje do BOM Unicode (U + FEFF)

2015-09-10 10 views 9 likes

Python re modułu documentation mówi, że gdy flaga re.UNICODE jest ustawiony, '\s' będzie pasował:Python regex ' s' nie pasuje do BOM Unicode (U + FEFF)

cokolwiek jest klasyfikowany jako przestrzeni w Baza danych właściwości znaków Unicode.

O ile mogę stwierdzić, BOM (U + FEFF) to classified as a space.

Jednakże:

re.match(u'\s', u'\ufeff', re.UNICODE)

ocenia się None.

Czy to błąd w Pythonie, czy coś mi brakuje?

Odpowiedz

U + FEFF nie jest znakiem odstępu zgodnie z bazą danych Unicode.

Wikipedia wymienia je tylko jako "charakter powiązany". Są one podobne do białych znaków, ale nie mają właściwości WSpace w bazie danych.

Żaden z tych znaków nie jest zgodny z \s.

2015-09-10 16:19:52 Stefan

'len ([c dla c na mapie (chr, range (sys.maxunicode + 1)) jeśli unicodedata.category (c) == 'Cf' i c.isspace()])' wynosi zero. – jfs