Próbuję zaindeksować witrynę sieci Web, a dokładniej: Google Site
przy użyciu ManifoldCF
, która ma uwierzytelnianie SAML i indeksuje zindeksowane dane do Apache Solr. Ale podczas indeksowania adresu URL następuje przekierowanie na stronę logowania, a następnie RESPONSECODENOTINDEXABLE
.Jak zindeksować witrynę internetową z uwierzytelnianiem SAML za pomocą narzędzia ManifoldCF lub Nutch?
Nie jestem pewien, czy poprawnie uwierzytelniłem, czy nie. W manifoldCF mamy opcje uwierzytelniania HTTP basic
, NTLM authentication
i uwierzytelniania poświadczeń dostępu. Użyłem metody uwierzytelniania Session based
, która bardziej przypomina uwierzytelnianie oparte na formularzach niż uwierzytelnianie SAML
.
Czy ktoś przeszukiwał witrynę za pomocą manifoldCF z uwierzytelnianiem SAML
? A jeśli nie, manifoldCF
, ktoś był w stanie to zrobić poprzez Apache Nutch, ponieważ obawiam się, że zapewnia on tylko uwierzytelnianie HTTP
podstawowe, Digest
i NTLM
.
Każdy wgląd byłby pomocny. Może dostarczyć więcej informacji na ten temat, jeśli ktokolwiek tutaj myśli, że można go łatwo zrealizować. Zasadniczo po zaindeksowaniu https://sites.google.com/a/my-sub-domain.com następuje przekierowanie do strony logowania SSO, a robot indeksujący odmawia ponownego indeksowania, podając błąd 302. To strona internetowa oparta na intranecie.