Chcę zrobić kilka screen-scraping z Pythonem 2.7 i nie mam kontekstu dla różnic między HTMLParser
, SGMLParser
lub Piękną zupą.Parsowanie kodu HTML za pomocą Pythona 2.7 - HTMLParser, SGMLParser lub Beautiful Soup?
Czy wszyscy próbują rozwiązać ten sam problem, czy też istnieją z różnych powodów? Który jest najprostszy, który jest najbardziej solidny i który (jeśli jest) jest domyślnym wyborem?
Proszę również dać mi znać, jeśli przeoczyłem ważną opcję.
Edit: należy wspomnieć, że nie jestem szczególnie doświadczony w parsowania HTML i jestem szczególnie zainteresowany w którym dostanie mnie porusza najszybsza, z celem parsowania HTML na jednym konkretnym miejscu.
Zrozumienie użycia xpath przy pomocy lxml z kilkoma dobrymi przykładami byłoby dobrym podejściem IMO. Wypróbuj te: http://lxml.de/tutorial.html i http://www.techchorus.net/web-scraping-lxml – Medorator