2010-11-10 4 views
5

Mam pytanie dotyczące formatu pliku danych WordNet. Strona podręcznika wndb (5) mówi po części:Pomoc w formacie pliku danych WordNet

Pole źródło/cel odróżnia wskazówki leksykalne i semantyczne. Jest to pole czterobajtowe zawierające dwie dwucyfrowe liczby szesnastkowe. Pierwsze dwie cyfry oznaczają liczbę słów w bieżącym (źródłowym) zestawie synaps, dwie ostatnie cyfry oznaczają liczbę słów w docelowym zestawie synaps. Wartość 0000 oznacza, że ​​wskaźnik_interpisa reprezentuje relację semantyczną między bieżącym (źródłowym) synsetem a docelowym synsetem wskazanym przez synset_offset.

Relacja leksykalna między dwoma wyrazami w różnych synsetach jest reprezentowana przez niezerowe wartości w źródłowym i docelowym słowie liczbowym. Pierwsze i ostatnie dwa bajty tego pola wskazują numery słów odpowiednio w źródłowych i docelowych syntrach, pomiędzy którymi zachodzi relacja. Numery słów są przypisane do pól słów w zestawie synaps, od lewej do prawej, rozpoczynając od 1.

Rozumiem akapit drugi, gdy liczby źródłowe/docelowe są różne od zera, ale znaczenie, kiedy źródło/target są "0000" nadal nie jest dla mnie jasne.

Pozwolę sobie podać przykład słowa "arystokrata". Wpis index.noun jest:

arystokrata brak 1 4 @ ~ # m + 1 0 09807754

i odpowiednie data.noun wejście jest:

09807754 18 N 03 0 arystokrata blue_blood 0 patrycjusz 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102 ~ 09840639 n 0000 ~ 09872782 n 0000 ~ 10083823 n 0000 ~ 10175090 n 0000 ~ 10285135 n 0000 ~ 10472799 n 0000 ~ 10474064 n 0000 ~ 10505732 n 0000 ~ 10506642 n 0000 | członkiem arystokracji

pierwszy "ptr", którą jest:

@ 09623038 brak 0000

i wejście data.noun rozpoczyna:

09623038 18 n 01 lider 0 058 @ 00007846 n 0000 ...

To, co nie jest dla mnie jasne, to które słowo dotyczy tego związku. Czy relacja hypernym ("@") zawiera tylko oryginalne słowo ("arystokrata") do wszystkich słów w docelowym zestawie synaps (w tym przypadku jest tylko "lider")?

Czy relacja obejmuje wszystkie wyrazy w zestawie synchronizacji źródła ("arystokrata", "niebieska krew" i "patrycjusz") do wszystkich słów w docelowym zestawie synaps?

Odpowiedz

1

Relacja rzeczywiście obowiązuje dla wszystkich słów w źródłowym zestawie synchronizacji wszystkich słów w docelowym zestawie synchronizacji.

Nie oznacza to, że przywódca zawsze jest hipernym arystokraty, ale odnosi się do rozważanego poczucia arystokraty (członka arystokracji) i rozważanego sensu przywódcy (osoby, która rządzi lub inspiruje innych). Niektóre relacje mogą wydawać się dziwne, ale WordNet nie jest doskonały i nie może być.