2009-11-08 19 views
6

Na przykład ...Czy WordNet ma "poziomy"? (NLP)

Kurczak jest zwierzęciem .
Burrito to żywność.

WordNet pozwala ci na "is-a" ... funkcję hiearchy.

Jednak, skąd mam wiedzieć, kiedy przestać podróżować po drzewie? Chcę POZIOMU.
To jest zgodne.

Na przykład, jeśli przedstawię go z kilkoma słowami, chcę, aby wordNet zaklasyfikował wszystkie z nich, ale na pewnym poziomie, aby nie posunął się zbyt daleko. Kategoryzowanie "burrito" jako "rzeczy" jest zbyt szerokie, ale "meksykańskie jedzenie opakowane" jest zbyt szczegółowe. Chcę pójść w górę hiearchy lub w dół ... aż do właściwego POZIOMU.

Odpowiedz

12

WordNet to leksykon, a nie ontologia, więc "poziomy" tak naprawdę nie mają zastosowania.

Istnieje SUMO, która jest górną ontologią, która odnosi się do WordNet, jeśli potrzebujesz ukierunkowanej sieci zamiast sieci.

Dla niektórych domen, sump średniego poziomu SUMO jest prawdopodobnie tam, gdzie chcesz wyglądać, ale nie jestem pewien, czy ma "meksykańskie zapakowane jedzenie", ponieważ większość jego tematów jest naukowych lub technicznych.

hierarchia wordnet jest

beef burrito < burrito < dish/2 < victuals < food < substance < entity. 

Podmiot jest pojęciem najwyższego poziomu, więc jeśli zatrzymać jedną poniżej substancji dostaniesz burrito isa żywności. Można na tej podstawie obliczyć poziom, ale nie musi to być tak konsekwentne jak SUMO, ani generować własnego zestawu użytecznych pojęć na średnim poziomie, aby zakończyć w. W WordNet nie ma kroku "meksykańska owinięta żywność".

+0

Większość SUMO to nauka czy inżynieria? Nie zawiera codziennych słów, takich jak żywność, ludzie, samochody, miejsca pracy itp.? – TIMEX

+0

SUMO to górna ontologia. Ontologie średniego poziomu (gdzie można znaleźć pojęcia między "rzeczą" i "burrito wołowe") wymienione na stronie, nie zawierają żywności, ale odzwierciedlają rodzaje organizacji finansujących projekt. Dla ludzi istnieje ontologia średniego poziomu. Jest też jeden dla branż (a więc i miejsc pracy), w tym dla dostawców żywności, ale nie ma wzmianki o burritos, jeśli masz na to ochotę. –

+0

Dzięki, Pete. f – TIMEX

2

Aby uzyskać poziomy, należy wstępnie zdefiniować zawartość każdego poziomu. Ontologia często definiuje je jako bezpośrednie dzieci z IS_A określonej koncepcji, ale jeśli jest to nieobecne, musisz opracować własną metodę.

Następnym krokiem jest nadanie priorytetu każdej koncepcji, w przypadku gdy chcesz przedstawić tylko jedną kategorię dla każdego słowa. Priorytet można wykonać na wiele sposobów, na przykład jako liczbę relacji IS_A między kategorią a słowem lub ręcznie wybrane priorytety dla każdej kategorii. Dla każdego słowa możesz wybrać kategorię o najwyższym priorytecie. Na przykład możesz chcieć, aby mięso było "żywnością", a nie substancją chemiczną.

Możesz również wybrać kilka słów, które zmieniają priorytet, jeśli znajdują się na ścieżce. Na przykład, jeśli chcesz, aby niektóre chemikalia, które są również pożywieniem, zostaną ogłoszone jako chemikalia, ale inne powinny nadal być pożywieniem.

5

[Proszę kredyt Pete Kirkham, po raz pierwszy przyszedł z odniesieniem do SUMO, które mogą również odpowiedzieć na pytanie zadane przez Alex, OP]

(Ja tylko dostarczenie kompletu informacji tutaj; ja rozpoczęła się w polu komentarza, ale wkrótce zabrakło miejsca i możliwościach układu ...)

Alex: Większość SUMO jest nauka czy technika? Nie zawiera codziennych słów, takich jak żywność, ludzie, samochody, miejsca pracy itp.?
Pete K: SUMO to górna ontologia. Ontologie średniego poziomu (gdzie można znaleźć pojęcia między "rzeczą" i "burrito wołowe") wymienione na stronie, nie zawierają żywności, ale odzwierciedlają rodzaje organizacji finansujących projekt. Dla ludzi istnieje ontologia średniego poziomu. Jest też jeden dla branż (a więc i miejsc pracy), w tym dla dostawców żywności, ale nie ma wzmianki o burritos, jeśli pominiesz to.

Moje dwa centy
100% z WordNet (3,0 to najnowszy, a także starsze wersje) jest odwzorowane do SUMO, a może być tylko to, co Alex potrzebują. Ontologie średniego poziomu związane z SUMO (lub raczej z MILO) są efektywnie w określonych domenach i nie obejmują w tym czasie artykułów spożywczych, ale ponieważ WordNet (wliczając w to wszystko, wiele z tych codziennych rzeczy) robisz nie musi wykorzystywać żadnej formalnej ontologii "pod" SUMO, ale zamiast tego używać mapowania Sumo WordNet (być może oprócz WordNet, który znowu nie jest ontologią, ale z jego nieformalną i luźną "hierarchią" może również pomóc. pewne trudności mogą pojawić się jednak z dwóch powierzchni (a nawet więcej ;-)):

  • „poziom” Sumo ontologia nie może być poziom chcesz mieć na uwadze, dla konkretnego zastosowania. Na przykład, podczas gdy „Burrito” przynosi „Food” w jednostce poziomu górnego w SUMO „kurczaka” przynosi również „Chicken”, która jedynie przez długi łańcuch znajduje „zwierząt” (w szczególności: chicken- > Drób-> Ptak-> Warm_Blooded_Vertebrae-> Kręgowato-> Zwierzę).
  • Zasięg i metadane programu Wordnet są imponujące, ale w odniesieniu do koncepcji średniego poziomu mogą być nieco niespójne. Na przykład "nasz" hipernym Burrito to odpowiednio "Danie", które zapewnia mu około 140 potraw, w tym takie generyczne, jak "Zupa" lub "Zapiekanka", a także "Kurczak Marengo" (ale pomijając "Kurczak Cacciatore")

Moja uwaga, poruszając te kwestie, nie polega na krytykowaniu WordNet lub SUMO i powiązanych z nim ontologii, ale raczej na zilustrowaniu po prostu niektórych wyzwań związanych z budowaniem ontologii, szczególnie na poziomie średnim.

Niezależnie od pewnych możliwych wad i lackings roztworu na podstawie SUMO i WordNet, pragmatyczne stosowanie tych ram dobrze może „pasowały” (85% czasu) hypernym drzewo

+0

Dziękuję za wyjaśnienia.Jeśli moim celem było zeskanowanie dokumentu i zobaczenie, jakie jedzenie, praca, hobby, zainteresowania ma ta osoba ... jak byś poradził, żebym to zrobił? Czy najlepiej byłoby znaleźć listę słów "jedzenie" i listę słów "hobby" i "sport"? Jaki jest najbardziej praktyczny sposób robienia tego? – TIMEX

+0

@Alex: Ponieważ celujesz w stosunkowo niewiele domen, rozważam opracowanie własnych leksykonów. Można je "zaliczyć", wyodrębniając je z mapy SUMO Wordnet lub podobnych źródeł. Najprawdopodobniej będziesz także musiał utworzyć listę nazwanych podmiotów (takich jak artyści, sportowcy, miasta, konkretne miejsca itp.). Chociaż tworzenie takich list nie jest niedrogie, okaże się, że wynikowa zredukowana domena pozwala na znacznie mniej logiczną logikę/heurystykę dla podobnej (lub zazwyczaj lepszej) precyzji i przypomnienia w teście. – mjv

0

wordnet kończy z synchronizacja pojedynczego korzenia dla słowa "entity". Jeśli używasz biblioteki C WordNet, możesz uzyskać strukturę rekursywną dla przodków zestawu synsetów przy użyciu traceptrs_ds, a możesz uzyskać całe drzewo synchronizacji, rekursywnie podążając za wskaźnikami, dopóki nie trafisz na wskaźniki null.