2011-10-23 10 views
9

Właśnie zapoznałem się z cudami MozRepl używanymi w połączeniu z Perl's :: Mechanize :: Firefox i próbowałem wymyślić jak go użyć do indeksowania GWT strony (np .: https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42)Uzyskiwanie kodu HTML za pomocą MozRepl i Mechanize :: Firefox

Tym, czego naprawdę chcę, jest renderowany HTML, a nie rzeczywisty html. Byłbym wdzięczny za przykład tego, jak mógłbym to zdobyć.

+0

Wygląda na to, że mogę renderować części strony, wykonując np .: $ mech-> xpath ('// * [@ id = "goh-content-container"]', jeden => 1) -> {innerHTML}; Co dziwne, wydaje się, że nie działa to konsekwentnie. Od czasu do czasu nic nie wyświetli, a czasami wyświetli kod HTML. Jakieś pomysły na to, dlaczego nie zapewnia spójnego dostarczania wyników? –

+0

Więcej informacji: gdy uruchamiam pojedynczego przeszukiwacza, wydaje się on konsekwentnie wyprowadzać, ale jeśli mam wiele interakcji z MozRepl, wydaje się, że dane wyjściowe są mniej konsekwentnie produkowane. Działa na Ubuntu 11.04 z Firefoksem 7.0.1 –

Odpowiedz

2

Postanowiłem użyć fantastycznego PhantomJS, aby wykonać zadanie. Jest niezwykle łatwy w użyciu Phantom jako narzędzie po stronie serwera, aby uzyskać renderowany HTML dynamicznej strony internetowej.