2011-08-30 12 views
7

Poszukuję parsera robots.txt w języku Java, który obsługuje tę samą funkcję pattern matching rules jako Googlebota.Parser robots.txt dla języka Java z obsługą symboli wieloznacznych

Znalazłem kilka librairies do analizowania plików robots.txt, ale żaden z nich nie obsługuje Googlebot stylu dopasowanie Wzór:

  • Heritrix (tam jest open issue na ten temat)
  • Crawler4j (patrzy jak sam realizacji jako Heritrix)
  • jrobotx

nikomu wiadomo z biblioteki java, który może to zrobić?

+0

wierzę ex-robot będzie działać . http://sourceforge.net/projects/ex-crawler/ – Fred

Odpowiedz

1

Nutch wydaje się używać kombinacji crawler-commons z some custom code (patrz RobotsRulesParser.java). Nie jestem jednak pewien obecnego stanu rzeczy.

W szczególności problem NUTCH-1455 wygląda być dość podobne do swoich potrzeb:

Jeśli nazwa (-y) User-agent skonfigurowany w http.robots.agents zawiera spacje nie dorównuje nawet jeśli jest dokładnie zawarty w pliku robots.txt http.robots.agents = "Pobierz ninja, *"

Może jego warto spróbować/patch/złożyć poprawkę :)