Zrobiłem wiele badań, aby znaleźć najlepszy sposób kodowania aplikacji, aby uzyskać główną treść artykułu z niemal każdej strony HTML. Mam program w języku C, który używa biblioteki libxml2 do analizowania kodu XML, ale natrafiłem na Alchemy API, który wydaje się robić to, co chcę.Wyodrębnianie zawartości artykułu HTML - Alchemia API alternatywa
Jednak ma on tylko interfejs API online i chciałem zachować aplikację w domu bez polegania na połączeniach zewnętrznych.
Czy ktoś ma napiwki? Miałem nadzieję na alternatywę off-line, która działa w oparciu o API Alchemy (płatne/nieopłacane).
Moją alternatywą może być po prostu analiza kodu HTML i użycie technik NLP (przetwarzanie języka naturalnego) i innych metod, aby uzyskać dostęp do głównej zawartości artykułu. Typy witryn internetowych, które będą używane, obejmują witryny z sekcją wiadomości lub bloga.
Uważam, że oznaczyłeś to pytanie niepoprawnie. Tag "Alchemy" odnosi się do Adobe Alchemy. Zgaduję, że mówisz o http://www.alchemyapi.com – Gunslinger47