7

Czy istnieje dobra biblioteka/pakiet do skrobania w Internecie za pomocą Scheme (najlepiej Racket)?Web scraping ze Scheme

np. odpowiednik schematu mechanize?

+0

Poprawny HTML (odczyt XML) można łatwo przetworzyć na wyrażenia S. – leppie

+0

Dobrze, ale co z wysyłaniem formularzy html, nawigowaniem po linkach itp.? – abeln

+0

Jestem pewien, że Racket ma niektóre biblioteki klienta HTTP/klienta WWW. – leppie

Odpowiedz

7

Użyłem kombinacji biblioteki Rakieta net/url The html-parsing package i SXML (zwłaszcza sxpath dla kwerend XPath). Właściwie, napisałem some wrappers wokół net/url, które sprawiają, że jest nieco łatwiejszy w użyciu, IMO.

Kiedy potrzebowałem obsługiwać pliki cookie, zamiast używać net/url, wywołałem polecenie curl.