Jak przechodzisz do parsowania strony HTML z bezpłatnym tekstem, listami, tabelami, nagłówkami itp. Na zdania?Parsowanie HTML w zdania - jak obsługiwać tabele/listy/nagłówki/etc?
Weźmy na przykład this wikipedia page. Nie jest/są:
- darmo tekstowe: http://en.wikipedia.org/wiki/Neurotransmitter#Discovery
- listy: http://en.wikipedia.org/wiki/Neurotransmitter#Actions
- tabelach: http://en.wikipedia.org/wiki/Neurotransmitter#Common_neurotransmitters
Po aprowizacji z pytona NLTK, chcę przetestować wszystkie te różne metody adnotacji korpusu (od http://nltk.googlecode.com/svn/trunk/doc/book/ch11.html#deciding-which-layers-of-annotation-to-include):
- Tokenizacja słowa: Ortogonalna forma tekstu nie jednoznacznie identyfikuje jego tokenów. Tokenized i znormalizowana wersja, oprócz konwencjonalnej wersji ortograficznej, może być bardzo wygodnym zasobem.
- 10 Segmentacja zdań: Jak widzieliśmy w rozdziale 3, segmentacja zdań może być trudniejsza niż się wydaje. Niektóre korporacje używają więc wyraźnych adnotacji do oznaczania segmentacji zdań.
- Podział na akapity: Akapity i inne elementy strukturalne (nagłówki, rozdziały itp.) Mogą być wyraźnie przypisane.
- Część mowy: Kategoria składniowa każdego słowa w dokumencie.
- Struktura syntaktyczna: Struktura drzewa przedstawiająca strukturę zdania.
- Płytka semantyka: Adnotacje nazw i odniesień do rdzenia, znaczniki ról znaczeniowych.
- dialogu i dyskursu: dialog tagi Act, retoryczna konstrukcja
Po przerwie dokumentu do zdań wydaje się całkiem proste. Ale w jaki sposób chcesz przełamać coś takiego jak HTML z tej strony Wikipedii? Jestem bardzo obeznana z używaniem parserów HTML i XML oraz przechodzeniem przez drzewo i próbowałem po prostu rozebrać znaczniki HTML, aby uzyskać zwykły tekst, ale ponieważ po usunięciu HTML interpunkcja jest niedostępna, NLTK nie parsuje rzeczy takich jak komórki tabeli, lub nawet listy, poprawnie.
Czy jest jakaś najlepsza praktyka lub strategia do analizowania tego z NLP? Czy po prostu trzeba ręcznie napisać analizator składniowy dla danej strony?
Poszukuję wskazówek w dobrym kierunku, naprawdę chcę wypróbować to NLTK!
Czy próbowali za pomocą Punkt (nie jest to realizowane w NLTK) na pozbawiony tekstu aby sprawdzić, czy dostaje się wszędzie? – dmh
Moja nieoficjalna obserwacja jest taka, że analizatory składniowe generalnie źle radzą sobie z wyświetlaniem tekstu (w przeciwieństwie do działającej prozy). Jeśli znajdziesz lub opracujesz dobre rozwiązanie, proszę wykonaj tutaj! – tripleee