2011-09-07 11 views
5

Chcemy ustawić mały obraz honeypota w naszych ciałach html, aby wykryć skrobaki/złe roboty.Porady na temat używania tagów img honeypot do wykrywania skrobaków/złych botów.

Czy ktoś wcześniej ustawił coś takiego?

Myśleliśmy, że najlepszym sposobem, aby przejść na byłoby:

a) Komentarz html za pośrednictwem:

<!-- <img src="http://www.domain.com/honeypot.gif"/> --> 

b) Zastosuj style css do obrazu, która stałaby się ukryty z przeglądarkami poprzez:

.... id="honeypot" .... 

#honeypot{ 
    display:none; 
    visibility:hidden; 
} 

Stosując powyższe czy ktoś przewidzieć wszelkie sytuacje, w których właściwy i prawdziwy useragent by pociągnąć za zdjęcie/próbę renderować?

Plik honeypot.gif byłby skryptem php mod_rewritten, w którym wykonalibyśmy nasze logowanie.

Chociaż rozumiem, że powyższe 2 warunki mogły zostać pominięte przez dobrze kodowany skrobak, to przynajmniej rzuciłoby trochę wgląd w te bardzo brudne.

Jakieś inne wskazówki na temat tego, jak najlepiej to osiągnąć?

+0

Jaka jest Twoja definicja "złych botów"? Jakiego rodzaju rzeczy próbujesz zapobiec? Bota, który zachowuje się kiepsko przy pobieraniu twoich stron, może nie paść ofiarą parsowania html - nie możesz tego złapać. Mogą być łatwiejsze sposoby na wykrycie tego, czego szukasz. –

+0

Nie rozumiem, jak to jest implementacja honeypota. Zwykle dotyczy to pola formularza, które jest ukryte przed użytkownikiem za pomocą skryptu/css, którego boty nieświadomie wypełniają. – TheCodeKing

+0

Chociaż może wydawać się to zbyt szerokie, naszą definicją złego bota/skrobaka jest osoba, która nie identyfikuje produktu źródłowego (read: domain.com) za pośrednictwem useragenta LUB twierdzi, że domena.com nie zapewnia sposobu na blokowanie dostępu za pośrednictwem robotów .tekst. Widzimy wiele tych małych cipek. Mamy już dość kompleksowy system, który pozwala nam je wykryć poprzez useragenta/brak tam, brak nagłówka, trafień/interwałów itp. Itd. To byłby dalszy dodatek do tego systemu, który dałby nam dodatkowe + na temat tego, na co mam skoncentrować ręczną siłę roboczą. –

Odpowiedz

3

Bot zignoruje twój tag img, ponieważ znajduje się w komentarzu.

Zamiast tego można rozważyć utworzenie niewidocznego elementu div zawierającego odsyłacz do adresu URL wyzwalacza w tej samej lokacji (najlepiej w tym samym katalogu, na wypadek, gdy jest on wrażliwy na głębokość).

+0

+1 dla wrażliwych na głębokość. –

+0

skończyło się na zrobieniu obu, ukrytego obrazu i ukrytego łącza. dzięki! –

0

IMO Myślę, że każdy dobry skrobak będzie wiedział, jak przekazać kod HTML za pomocą SGML parser i po prostu pominie komentarz, ale mogę się mylić.

Co najwyżej daje pojęcie, kiedy to się dzieje, ale nie zapewnia sposobu na skontrowanie skrobaka. Prawdopodobnie lepiej byłoby wymyślić jakieś rozwiązanie oparte na plikach cookie, ponieważ większość botów prawdopodobnie nie dba o nie. Można również losowo wybierać ścieżki obrazów między żądaniami i wygasać po krótkim czasie.

Sprawdzanie strony odsyłającej jest oczywiste, jeśli nie interesują Cię przeglądarki, które ich nie obsługują lub osoby, które je ukrywają/zmieniają.