Biorąc pod uwagę stronę z artykułem prasowym (z dowolnego ważnego źródła wiadomości, takiego jak czas lub bloomberg), chcę zidentyfikować główną treść artykułu na tej stronie i wyrzucić pozostałe elementy misc takie jak reklamy, menu, paski boczne, komentarze użytkowników.Skrobanie przez Internet - jak zidentyfikować główną treść na stronie internetowej
Co to jest ogólny sposób, który będzie działał w większości ważnych witryn informacyjnych?
Jakie są dobre narzędzia lub biblioteki do eksploracji danych? (najlepiej na podstawie Pythona)
zobaczyć jak 'Readability' zakładka jest realizowany http://lab.arc90.com/experiments/readability/ – jfs
Przeglądarka, która to zrobi, stanowiłaby ogromne zagrożenie dla reklam online. –
kod do oryginalnej bookmarklet znajduje się tutaj: http://code.google.com/p/arc90labs-readability/source/browse/ 'Czytelność' jest teraz usługą i jej kod jest niedostępny. – lsh