Robię skrobanie przez Internet w ramach projektu akademickiego, w którym ważne jest, aby wszystkie linki były śledzone do rzeczywistej treści. Irytujące jest to, że istnieją pewne ważne przypadki błędów w witrynach "zarządzania mediami społecznościowymi", w których użytkownicy umieszczają swoje linki w celu wykrycia, kto je klika.Przejdź do oryginalnego adresu URL na stronach zarządzania mediami społecznościowymi
Na przykład rozważ adres this link on linkis.com, który prowadzi do http: // + bit.ly +/1P1xh9J (oddzielony link z powodu ograniczeń związanych z publikowaniem SO), który z kolei łączy się z http://conservatives4palin.com. Problem pojawia się, ponieważ oryginalny link pod numerem linkis.com nie powoduje automatycznie przekierowania do przodu. Zamiast tego użytkownik musi kliknąć krzyżyk w prawym górnym rogu, aby przejść do pierwotnego adresu URL.
Ponadto wydaje się, że istnieją różne odmiany (patrz np. linkis.com link 2, gdzie krzyż znajduje się w lewym dolnym rogu strony). Są to jedyne dwie odmiany, które znalazłem, ale może być ich więcej. Zauważ, że używam skrobaczki internetowej podobnej do this one. Funkcjonalność przejścia do rzeczywistego łącza nie musi być stabilna/funkcjonująca w czasie, ponieważ jest to jednorazowy projekt akademicki.
Jak automatycznie przejść do pierwotnego adresu URL? Czy najlepszym rozwiązaniem byłoby zaprojektowanie regexu, który znajdzie odpowiedni link?
Nie ma czasu na napisanie odpowiedzi ale patrząc na „unshorten URL Pythona” może dać ci wskazówki – Josay