2014-11-28 28 views
6

ja, takie jak t całkowicie zablokować Bing indeksowania mi miejsce teraz (jest atakowanie mi miejsce w alarmującym tempie (500 GB danych w miesiącu).bloku bingbot indeksowania mi strony

I 1000 subdomen dodano do narzędzia dla webmasterów Bing więc nie mogę iść i ustawić każdy własnego szybkość indeksowania. próbowałem blokuje go za pomocą pliku robots.txt, ale jej nie działa tutaj jest mój robots.txt

# robots.txt 
User-agent: * 
Disallow: 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 
Disallow: bingbot 
User-agent: ia_archiver 
Disallow:/
+0

Znalazłem też bingbota na wielu stronach, którymi zarządzam. Całkowicie ignoruje ogólne zasady "*" i wszelkie opóźnienia indeksowania. – WooDzu

Odpowiedz

2

to z pewnością wpływa na SEO/ranking wyszukiwania i spowoduje, że strony spadną z indeksu, więc należy używać z ostrożnością

Można zablokować wnioski oparte na ciąg user-agent, jeśli masz moduł IIS przepisać zainstalowany (jeśli nie iść here)

a następnie dodać regułę do webconfig tak:

<system.webServer> 
    <rules> 
    <rule name="Request Blocking Rule" stopProcessing="true"> 
     <match url=".*" /> 
     <conditions> 
     <add input="{HTTP_USER_AGENT}" pattern="msnbot|BingBot" /> 
     </conditions> 
     <action type="CustomResponse" statusCode="403" statusReason="Forbidden: Access is denied." statusDescription="You do not have permission to view this page." /> 
    </rule> 
    </rules> 
</system.webServer> 

To zwróci 403, jeśli bot trafi na twoją stronę.

UPDATE

Patrząc na robots.txt myślę, że powinno być:

# robots.txt 
User-agent: * 
Disallow: 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 
User-agent: bingbot 
Disallow:/
User-agent: ia_archiver 
Disallow:/
+0

Dziękuję, że wydaje się, że działa ... przynajmniej od weryfikacji bing Webmaster Toolbox. – Zoinky

+0

Nie ma problemu - dodałem też do mojej odpowiedzi, jak myślę, powinien być plik robots (pierwsze odrzucenie powinno być "/", a nie puste.) Boty wymagają jednak czasu, aby wykryć zmiany w plikach robots.txt, nawet jeśli jeśli przesyłasz je za pomocą narzędzi dla webmasterów. – Carl

+0

Zaktualizowany robot będzie blokował wszystkie roboty. teraz próbuję powstrzymać tylko bing przed czołganiem, dopóki nie zrozumiem, dlaczego tak bardzo go atakuje. – Zoinky

2

robots.txt nie jest poprawna:

  • Trzeba podziały wiersza między rekordy (rekord zaczyna się od jednej lub więcej linii User-agent).

  • Disallow: bingbot zabrania ono indeksowania adresów URL, których ścieżki zaczynają się od „bingbot” (tj http://example.com/bingbot), która prawdopodobnie nie jest to, co chcesz.

  • Nie jest to błąd, ale Disallow: nie jest potrzebny (ponieważ jest to ustawienie domyślne).

Więc prawdopodobnie chcesz użyć:

User-agent: * 
Disallow: *.axd 
Disallow: /cgi-bin/ 
Disallow: /member 

User-agent: bingbot 
User-agent: ia_archiver 
Disallow:/

To uniemożliwia indeksowania niczego dla "bingbot" i "ia_archiver". Wszystkie inne boty mogą indeksować wszystko oprócz adresów URL, których ścieżki rozpoczynają się od /member, lub *.axd.

Zauważ, że *.axd będą interpretowane dosłownie przez boty po pierwotnej specyfikacji robots.txt (więc nie będzie indeksować http://example.com/*.axd, ale będą pełzać http://example.com/foo.axd). Jednak wiele botów rozszerza specyfikację i interpretuje * jako rodzaj wieloznacznika.