Co to są niektóre narzędzia bazujące na Ruby, które mogą mi pomóc osiągnąć coś podobnego do tego, co robi Scrapy dla Pythona? http://doc.scrapy.org/intro/overview.htmlRubinowa alternatywa dla Scrapy?
Odpowiedz
Jest Mechanize, który jest zbudowany na Nokogiri.
Istnieje Nokigiri oparty na XPath.
Hpricot to kolejne narzędzie.
Istnieje Scrapi oparty na selektorach CSS do wyodrębniania informacji, ale działa on wolniej niż Nokogiri w oparciu o moje testy.
Jest scRUBYt.
Jestem pewien, że są inni, ale to są te, które spotkałem.
Jeśli nie znajdziesz jednego narzędzia, które rozwiąże Twoje problemy, spróbuj skorzystać z bibliotek internetowych, takich jak Anemone, i połącz je z jedną z niskopoziomowych frameworków wymienionych powyżej.
Albo po prostu śmiało i naucz się Pythona. To rozszerzy twoją karmę w świecie programowania.
O ile wiem (nie wiem, Ruby), te moduły to tylko parsery HTML/XML, a nie skrobanie frameworków takich jak Scrapy . – Acorn
@Acorn - to wszystkie skrobiące frameworki. To, czego nie mają, to robot lub pająk. Skrobanie jest prostopadłe do raczkowania. – Anurag
Ale ... raczkowanie jest tylko jednym z aspektów Scrapy. Ma wiele funkcji, które mają zastosowanie do wszelkiego rodzaju skrobania, takich jak elementy i potoki do przechowywania wyników. Narzędzia, które łączysz, wydają się być porównywalne do lxml lub BeautifulSoup, a nie do Scrapy. – Acorn
Można również sprawdzić Anemone
może chcesz po prostu dać scrapy strzał. Wydaje się, że ma doskonałą dokumentację i bardzo przyjazne API. Jeśli znasz Rubiego, pobranie Pythona prawdopodobnie nie zajmie Ci więcej niż dzień czy dwa. Są to bardzo podobne języki. – zeekay
@zeekay, masz na myśli [scrappy] (http://rubydoc.info/gems/scrappy/0.3.5/frames)? – Zabba
Nie, zapytał o ruby alternatywę do scrapy, która jest ramową aplikacją Pythona do przeszukiwania witryn internetowych i wyodrębniania danych strukturalnych. Po prostu wskazywałem, że uczenie się Pythona jest łatwe, a równie dobrze mógłby go po prostu użyć (zakładając, że nie znaleziono satysfakcjonującej alternatywy). – zeekay