Potrzebuję przeglądać drzewo DOM parsowanego dokumentu HTML.Jak parsować zniekształcony HTML w pytonie
Używam uTidyLib przed parsowania ciąg z lxml
a = tidy.parseString (html_code, opcje) dom = etree.fromstring (STR (a))
czasami pojawia się błąd , wydaje się, że tidylib nie jest w stanie naprawić źle sformułowanego html.
Jak mogę analizować każdy plik HTML bez otrzymania błędu (parsowanie tylko niektórych części plików, których nie można naprawić)?
+1, ElementSoup to doskonała alternatywa. –
Linki zostały zerwane; edytowali je. Mam nadzieję, że nowe lokalizacje zawierają tę samą treść, na którą pierwotnie wskazywałeś. – tripleee
Jeśli nie masz zainstalowanej pięknej zupy, możesz potrzebować jej do zupy elementów. Po prostu zrób 'pip install beautifulsoup' – BobTuckerman