2013-01-02 24 views
5

Zanim powiesz "co próbujesz" i "przetestujesz to sam", chciałbym zauważyć, że robots.txt aktualizacje strasznie powolne dla dowolnej witryny w wyszukiwarkach, więc jeśli mógłbyś dostarczyć teoretyczne doświadczenie, to byłoby docenione.Czy mogę użyć pliku robots.txt do zablokowania określonych parametrów adresu URL?

Na przykład, jest to możliwe, aby umożliwić:

http://www.example.com 

I blok:

http://www.example.com/?foo=foo 

nie jestem pewien.

Pomoc?

+1

można spróbować użyć emulatora robota, ale stosując ** zaprzeczyć ** w pliku robots.txt nie znaczy wszystkie roboty będą go śledzić! –

Odpowiedz

6

Według Wikipedia „robots.txt wzory są dopasowane prostych porównań podciąg” i jako ciąg GET jest adres URL powinien być w stanie po prostu dodać:

Disallow: /?foo=foo 

lub coś bardziej wymyślne jak

Disallow: /*?* 

, aby wyłączyć wszystkie ciągi pobierania. Gwiazdka jest symbolem wieloznacznym, więc pasuje do jednej lub wielu znaków cokolwiek.

Example of a robots.txt with dynamic urls.

+0

Zastanawiasz się, czy możliwe jest zablokowanie wszystkich adresów URL za pomocą '? Foo = foo', a nie tylko katalogu podstawowego? – think123

+0

Jasne, jeśli usuniesz przedni ukośnik, po prostu dopasuje ciąg w dowolnym miejscu w adresie URL. –

+1

Należy zauważyć, że symbol wieloznaczny '*' nie jest częścią oryginalnej specyfikacji pliku robots.txt. – unor