2015-09-06 11 views
14

Przykro mi, jeśli to pytanie zostało zadane na niewłaściwej stronie, ale nie mogłem ustalić, na której innej stronie należy zadać to pytanie.Czy skrobanie w Internecie jest dozwolone?

Pracuję więc nad projektem, który wymaga pewnych statystyk z innej strony internetowej, a także stworzyłem skrobak HTML, który automatycznie pobiera te dane co 15 minut. Jednak teraz zatrzymałem bota, tak jak w warunkach użytkowania, wspominają, że nie pozwalają na to.

Naprawdę chcę szanować to, a zwłaszcza jeśli istnieje prawo zabraniające mi przyjmowania tych danych, ale kontaktowałem się z nimi kilka razy, bez jednej odpowiedzi, więc teraz doszedłem do wniosku, że Po prostu wezmę dane, jeśli to legalne.

Na niektórych forach czytałem, że jest legalne, ale wolałbym uzyskać bardziej "precyzyjną" odpowiedź tutaj na StackOverflow.

Powiedzmy, że w rzeczywistości nie jest to nielegalne, czy mieliby jakieś oprogramowanie do wykrycia mojego bota co kilka minut co 15 minut?

Ponadto, mówiąc o podejmowaniu ich danych, mówimy o jednym numerze dla każdego "zespołu", a ten numer, będę przekazywać na nasz własny numer.

+1

Głosuję, aby zamknąć to pytanie jako nietypowe, ponieważ wymaga ono legalności skriningu ekranu. Zależy to od wielu czynników, na które nie można w rozsądny sposób odpowiedzieć. –

+0

odpowiedź brzmi "to zależy" –

+0

imho, jeśli honorujesz ustawienia wewnątrz pliku 'robots.txt', to webmaster nie ma co narzekać. – ankhzet

Odpowiedz

23

będę cytować Pablo Hoffmana (Scrapinghub współzałożycielem) odpowiedź na „Co jest legalność internetowej skrobania?”, Znalazłem na innej stronie:

początek: Nie jestem prawnikiem i te komentarze są wyłącznie w oparciu o moje doświadczenie w pracy pod numerem Scrapinghub, proszę uzyskać pomoc prawną odpowiednio.

Oto kilka rzeczy do rozważenia przy skrobaniu danych publicznych ze stron internetowych (zauważ, że następujące adresy tylko prawo USA):

  • Dopóki nie pełzać na destrukcyjne tempie, skrobaki nie naruszaj żadnej umowy (w formie warunków użytkowania) ani nie popełnij przestępstwa (zgodnie z definicją w Ustawie o nadużyciach komputerowych i nadużyciach).
  • Umowa użytkownika strony internetowej is not enforceable jako umowa przeglądania, ponieważ firmy nie podają dostatecznej ilości informacji o użytkownikach witryny.
  • Skrobaki uzyskują dostęp do danych strony internetowej jako odwiedzający, i podążając ścieżkami podobnymi do wyszukiwarki. Można to zrobić bez rejestracji jako użytkownik (i wyraźnie akceptując jakiekolwiek warunki).
  • W Nguyen przeciwko Barnes & Noble, Inc.sądy ruled, że zwyczajne umieszczenie linku do warunków użytkowania u dołu strony nie jest wystarczające, aby "spowodować powstanie konstruktywnego powiadomienia." Innymi słowy, na publicznej stronie nie ma niczego, co oznaczałoby, że dostęp do informacji podlega jakimkolwiek postanowieniom umownym. Skrobaki dają ani jednoznaczną, ani domniemaną zgodę na jakąkolwiek umowę, dlatego też nie narusza umowy.
  • Sieci społecznościowe, na przykład, przypisują wartość stania się użytkownikiem (w oparciu o wezwanie do działania na stronie publicznej), jako możliwość: i) uzyskania dostępu do pełnych profili, ii) identyfikacji wspólnych znajomych/połączeń, iii) Zapoznaj się z innymi oraz iv) Skontaktuj się bezpośrednio z członkami. Dopóki skrobaki nie próbuje wykonać dowolną z tych działań nie zysk „nieautoryzowany dostęp” do swoich usług, a tym samym nie narusza CFAA
  • gruntowną ocenę kwestii prawnych można zobaczyć tutaj: http://www.bna.com/legal-issues-raised-by-the-use-of-web-crawling-and-scraping-tools-for-analytics-purposes
+2

To jest najbliższe, myślę, że dostanę odpowiedź, więc zaznaczę to jako odpowiedź. Dziękuję Ci! – Mikkel

0

Musi być plik robots.txt w folderze głównym tej witryny.

Istnieją określone ścieżki, które są forbidden w celu nękania ze skrobakami i te, które są allowed (z określonymi dopuszczalnymi limitami czasu).

Jeśli ten plik nie istnieje - wszystko jest dozwolone, a Ty nie ponosisz odpowiedzialności za to, że właściciele witryn nie podają tych informacji.


Również here można znaleźć jakieś wyjaśnienie robots exclusion standard.

+1

Hit and run? Ładna ideologia ... – ankhzet

+0

Tylko jeśli nie mają na sobie tabliczki z napisem "proszę, nie bij mnie". – FraggaMuffin

0

Niektóre witryny blokują roboty przed indeksowaniem i wyodrębnianiem danych. Niektórzy inni stwierdzą, że nie chcą, aby boty były indeksowane na ich stronie TOS. Jeśli nie mają żadnego z tych elementów, przeszukiwanie sieci nie powinno sprawić Ci kłopotów. Podwójne sprawdzanie jest jednak zawsze dobrym pomysłem.