Słyszałem o stosunkowo udanych aplikacjach do wyszukiwania pełnotekstowego, które po prostu dzielą każdy znak jako odrębne słowo, po chińsku, stosując po prostu tokenizację kryteriów wyszukiwania dostarczonych przez użytkowników końcowych. Wyszukiwarka zapewnia lepszą pozycję w rankingu dla dokumentów, które dostarczają znaki - słowa w takiej samej kolejności, jak kryteria wyszukiwania. Nie jestem pewien, czy można to rozszerzyć na język taki jak japoński, ponieważ zestawy znaków Hirakana i Katagana sprawiają, że tekst jest bardziej zbliżony do języków europejskich z krótkim alfabetem.
EDIT:
Resources
To słowo łamanie problem, jak również związanych z tym kwestii, jest tak nietrywialne że całe książki zostały napisane na ten temat. Zobacz na przykład CJKV Information Processing (CJKV oznacza chiński, japoński, koreański i wietnamski, możesz również użyć słowa kluczowego CJK, ponieważ w wielu tekstach nie jest omawiana wietnamska). Zobacz także Word Breaking in Japanese is hard dla jednego pagera na ten temat.
Zrozumiałe, że większość materiałów dotyczących tego tematu jest napisana w jednym z podstawowych języków ojczystych, a zatem jest ograniczona w użyciu dla osób bez względnej biegłości w tych językach. Z tego powodu, a także aby pomóc ci zweryfikować wyszukiwarkę po rozpoczęciu wdrażania logiki łamania wyrazów, powinieneś zwrócić się o pomoc do native speakera lub dwóch.
Różne pomysły
Twój pomysł identyfikujących znaków, które systematycznie oznaczać słowo złamać (słownie notowania, nawiasów, myślnik, jak postacie i takie) jest dobre, a to jest chyba jedna heurystyczne stosowane przez niektóre z profesjonalnej klasy łamacze wyrazów. Powinieneś jednak szukać autorytatywnego źródła takiej listy, zamiast gromadzić je od zera, na podstawie anegdotycznych ustaleń.
Podobnym pomysłem jest złamać słowa w Kana-to-Kanji przejścia (ale zgaduję nie na odwrót), a być może w hiragana-to-Katakana lub odwrotnie przejściami.
Niezwiązane z łamaniem wyrazów, indeks może [-lub nie może- ;-)] korzystać z systematycznego przekształcania każdej, powiedzmy, postaci hiragany w odpowiadającą jej postać katakana. Tylko niewykształcony pomysł! Nie wiem wystarczająco dużo o języku japońskim, żeby wiedzieć, czy to pomogłoby; intuicyjnie, byłaby ona luźno podobna do systematycznego przekształcania podkreślonych liter i podobnych w korespondujący list nieakcentowany, jak to praktykowane w kilku językach europejskich.
Być może pomysł, o którym wspomniałem wcześniej, polegający na systematycznym indeksowaniu poszczególnych znaków (oraz na uszeregowaniu wyników wyszukiwania na podstawie ich kolejności w kolejności do kryteriów wyszukiwania) może być nieco zmieniony, na przykład poprzez zachowanie kolejnych znaków kana, a następnie inne zasady ... i stworzyć niedoskonałą, ale wystarczająco praktyczną wyszukiwarkę.
Nie rozczaruj się, jeśli tak nie jest ... Jak stwierdzono, nie jest to banalne i może zaoszczędzić czas i pieniądze, w dłuższej perspektywie, poprzez przerwę i czytanie książki lub dwóch. Innym powodem, aby spróbować dowiedzieć się więcej o „teorii” i najlepszych praktyk, jest to, że w tej chwili wydaje się być skupiona na słowo łamanie ale wkrótce, wyszukiwarka może również korzystać z wynikającego świadomość ; w istocie te dwie kwestie są, co najmniej lingwistyczne, powiązane i mogą odnieść korzyści z bycia traktowanymi w tandemie.
Życzymy powodzenia w tym irytującym, ale godnym wysiłku.
Inne języki współczesne, które nie używać spacji między słowami są tajski, laotański, Khmer (Kambodży) i Birmy (Myanmar). W języku wietnamskim występuje powiązany problem, że spacje są używane między wszystkimi sylabami, z wyjątkiem słów obcych. – hippietrail