2016-08-08 43 views
18

Próbuję zaindeksować witrynę sieci Web, a dokładniej: Google Site przy użyciu ManifoldCF, która ma uwierzytelnianie SAML i indeksuje zindeksowane dane do Apache Solr. Ale podczas indeksowania adresu URL następuje przekierowanie na stronę logowania, a następnie RESPONSECODENOTINDEXABLE.Jak zindeksować witrynę internetową z uwierzytelnianiem SAML za pomocą narzędzia ManifoldCF lub Nutch?

Nie jestem pewien, czy poprawnie uwierzytelniłem, czy nie. W manifoldCF mamy opcje uwierzytelniania HTTP basic, NTLM authentication i uwierzytelniania poświadczeń dostępu. Użyłem metody uwierzytelniania Session based, która bardziej przypomina uwierzytelnianie oparte na formularzach niż uwierzytelnianie SAML.

Czy ktoś przeszukiwał witrynę za pomocą manifoldCF z uwierzytelnianiem SAML? A jeśli nie, manifoldCF, ktoś był w stanie to zrobić poprzez Apache Nutch, ponieważ obawiam się, że zapewnia on tylko uwierzytelnianie HTTP podstawowe, Digest i NTLM.

Każdy wgląd byłby pomocny. Może dostarczyć więcej informacji na ten temat, jeśli ktokolwiek tutaj myśli, że można go łatwo zrealizować. Zasadniczo po zaindeksowaniu https://sites.google.com/a/my-sub-domain.com następuje przekierowanie do strony logowania SSO, a robot indeksujący odmawia ponownego indeksowania, podając błąd 302. To strona internetowa oparta na intranecie.

Odpowiedz

0

Nie jesteś pewien, czy to pomoże, po prostu go wypróbuj. W nutch możemy podać dane logowania do strony, mamy plik httpclient-auth.xml w katalogu conf. Możesz podać swoją nazwę hosta wraz z poświadczeniami.

<auth-configuration> 
    <credentials username="admin" password="admin123"> 
     <authscope host="hostname" realm="login"/> 
     <default/> 
    </credentials> 
</auth-configuration> 

Podobnie można dodać dowolną liczbę poświadczeń do tej konfiguracji.

Aby zindeksować stronę https, zmień wtyczkę plugin.includes na właściwość z protokołu-http na protokół-httpclient w pliku nutch-conf.xml