2012-09-25 22 views
6

Mam kilka dokumentów tekstowych opisujących choroby. Dokumenty te są w większości przypadków dość krótkie i często zawierają tylko jedno zdanie. Przykładem są tu:Rozpoznanie rozpoznanego podmiotu chorobowego

pierwotne nadciśnienie płucne jest postępującą chorobą, w której powszechne zamknięcie najmniejszych naczyń płucnych prowadzi do zwiększenia oporu naczyniowego płuc i niewydolność następnie prawej komory.

Co potrzebne jest narzędzie, które wyszukuje wszystkie warunki chorobowe (np „nadciśnienie płucne” w tym przypadku) w zdaniach i mapuje je do kontrolowanego słownictwa jak MeSH.

Z góry dziękuję za odpowiedzi!

+1

Brzmi to bardzo specyficznie i nie jest problemem programistycznym * per se *. Przynajmniej nie tak, jak tutaj wyrażono. –

+1

Wygląda na to, że jest to raczej pytanie dotyczące eksploracji danych? – Harpal

Odpowiedz

2

istnieje wiele narzędzi, aby to zrobić. Niektóre popularne:

najbardziej z nich pochodzą pewne predefiniowane modele, tj. zostały już przeszkolone w zakresie ogólnego zbioru danych s (artykuły z wiadomościami itp.). jednak twoje teksty są dość specyficzne, więc możesz najpierw stworzyć korpus i przećwiczyć jedno z tych narzędzi, aby dostosować je do twoich danych.

Po prostu, jako pierwszy test, możesz wypróbować podejście słownikowe: zaprojektuj listę nazw jednostek i wykonaj dokładne lub przybliżone dopasowanie. na przykład ta operacja została opisana w LingPipe's tutorial.

6

Oto dwa rurociągi, które są specjalnie zaprojektowane dla medycznych parsowania dokumentu:

Zarówno użyć UMLS, zunifikowanego systemu języka medycznego, a zatem wymagać, że masz (darmowa) licencja. Obie są Java i mniej lub bardziej łatwe do skonfigurowania.

+2

Nie jestem pewien, czy sklasyfikuję je jako "łatwe do skonfigurowania", ale działają one raczej dobrze.Nowa wersja MetaMap została wydana również pod koniec zeszłego roku. –