Niedawno zacząłem szukać apaszki. Mógłbym skonfigurować i móc indeksować strony internetowe z mojego zainteresowania z nutch. Nie bardzo rozumiem, jak czytać te dane. Zasadniczo chcę powiązać dane każdej strony z niektórymi metadanymi (niektóre losowe dane na razie) i przechowywać je lokalnie, które później zostaną wykorzystane do wyszukiwania (semantyczne). Czy muszę używać solr lub lucenu do tego samego? Jestem nowy w tych wszystkich dziedzinach. O ile wiem, Nutch jest używany do indeksowania stron internetowych. Czy może wykonywać dodatkowe funkcje, takie jak dodawanie metadanych do przeszukiwanych danych?Nutch: Dane odczytują i dodają metadane
5
A
Odpowiedz
3
Przydatne polecenia.
Rozpocznij Crawl
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
uzyskać statystyki zindeksowanych adresu URL
bin/nutch readdb crawl/crawldb -stats
przeczytane segmencie (pobiera wszystkie dane ze stron internetowych)
bin/nutch readseg -dump crawl/segments/* segmentAllContent
Czytaj segmentu (dostaje tylko tekst pole)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
Uzyskaj listę wszystkich znanych linków do każdego adresu URL, w tym zarówno źródłowy adres URL, jak i tekst zakotwiczenia linku.
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
Pobranie wszystkich adresów URL. Daje również inne informacje, takie jak, czy została ona pobrana, ściągnięcie czas, zmodyfikowany czas itd
bin/nutch readdb crawl/crawldb/ -dump crawlContent
do drugiej części. tj. dodać nowe pole planuję użyć wtyczki index-extra lub napisać wtyczkę niestandardową.
Patrz:
Hi CRS, ponieważ określili swoje pytanie z „semantycznej-web” Zakładam, że chcesz, aby wyodrębnić pewne ustrukturyzowanych danych ze stron, które chcesz indeksować (albo mikroformaty RDFa i/lub Mikrodane). Jeśli tak jest, zaoszczędzi to dużo czasu na Any23 (http://incubator.apache.org/any23/) (który może być zintegrowany z Nutch i prawdopodobnie ktoś już próbuje to zrobić lub zrobił to już). – castagna
Dziękuję za odpowiedź. Rzucę okiem na Any23. Właściwie to indeksuję "normalne" strony internetowe. Nie jest powiązany z żadnymi metadanymi. Mamy pewien algorytm, który wylicza metadane z tekstu z tych stron. Te metadane powinny zostać dodane do lokalnej kopii strony internetowej. Dlatego szukam robota przeszukującego strony internetowe i wyodrębniającego zawartość, a następnie wstawia metadane do lokalnej kopii stron internetowych. – CRS