Chcę usunąć część napisu (wytłuszczone) poniżej, to jest przechowywany w ciągu oldStringregex python z emisji (japoński) Unicode
[DMSM-8433] 加 護 亜 依 Kago Ai - 加 護 亜 依 vs. PIĄTEK
im przy następujące wyrażenia regularnego w ciągu pytona
p=re.compile(ur"([\W]+) (?=[A-Za-z ]+–)", re.UNICODE)
newString=p.sub("", oldString)
kiedy wyjście newString nr sprawa została usunięta
'oldString' również powinien zostać przekonwertowany na Unicode. Czy to jest? Jak ją zdobyć? Wypróbuj 'oldString = unicode (oldString," utf-8 ")' przed zadeklarowaniem 'p'. –
Jakie są twoje oczekiwane wyniki? – Kasramvd
@stribizhev i określam '# - * - coding: utf-8 - * -' na górze pliku, z tego, co czytałem, powinienem przekonwertować go do unicode, otrzymuję go od zeskanowania strony HTML @ Oczekiwany wynik Kasramvd powinien wynosić "[DMSM-8433] Kago Ai - 加 護 亜 依 vs. PIĄTEK" –