Jestem za pomocą skrobania w Internecie za pomocą Node.js. Chciałbym użyć XPath, ponieważ mogę go wygenerować półautomatycznie z kilkoma rodzajami GUI. Problem polega na tym, że nie mogę znaleźć sposobu, aby to zrobić skutecznie.Wykonanie parsowania stron za pomocą Node.js i XPath
jsdom
jest bardzo wolny. Parsowanie pliku 500KiB zajmuje mniej więcej minutę z pełnym obciążeniem procesora i dużą ilością pamięci.- Popularne biblioteki do analizowania HTML (np.
cheerio
) ani nie obsługują XPath, ani nie eksponują modelu DOM zgodnego z W3C. - Efektywne analizowanie HTML jest oczywiście zaimplementowane w WebKit, więc używanie opcji
phantom
lubcasper
jest opcją, ale te wymagają uruchomienia w specjalny sposób, a nie tylkonode <script>
. Nie mogę liczyć na ryzyko wynikające z tej zmiany. Na przykład znacznie trudniej jest znaleźćnode-inspector
zphantom
. Spooky
to opcja, ale jest to buggy enough, więc nie uruchomiła się wcale na moim komputerze.
Jaki jest więc właściwy sposób analizy strony HTML za pomocą XPath?
https://www.npmjs.org/package/xpath lub https://github.com/yaronn/xpath.js? – mb21
@ mb21 Dowolna wydajna implementacja DOM, aby je uruchomić? –