2015-05-30 28 views
10

Próbuję zestawić tabele znaków telefonicznych (znaków) w łańcuchu, ale znaki diakrytyczne są zestawiane jako znaki samodzielnie. Idealnie, mam listę słów w międzynarodowym alfabecie fonetycznym, z dużą ilością znaków diakrytycznych i kilkoma ich kombinacjami z postaciami podstawowymi. Podaję tutaj MWE z jednym słowem, ale to samo dotyczy listy słów i innych kombinacji.Tablica znaków z znakami diakrytycznymi w R

> word <- "n̥ana" # word constituted by 4 phones: [n̥],[a],[n],[a] 
> table(strsplit(word, "")) 
̥ a n 
1 2 2 

Ale poszukiwany wynik to:

a n n̥ 
2 1 1 

Jak zarządzać, aby uzyskać tego rodzaju skutek?

Odpowiedz

7

Spróbuj

library(stringi) 
table(stri_split_boundaries(word, type='character')) 
#a n n̥ 
#2 1 1 

Albo

table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE)) 
#a n n̥ 
#2 1 1