2010-11-08 10 views
7

Zrobiłem wiele badań, aby znaleźć najlepszy sposób kodowania aplikacji, aby uzyskać główną treść artykułu z niemal każdej strony HTML. Mam program w języku C, który używa biblioteki libxml2 do analizowania kodu XML, ale natrafiłem na Alchemy API, który wydaje się robić to, co chcę.Wyodrębnianie zawartości artykułu HTML - Alchemia API alternatywa

Jednak ma on tylko interfejs API online i chciałem zachować aplikację w domu bez polegania na połączeniach zewnętrznych.

Czy ktoś ma napiwki? Miałem nadzieję na alternatywę off-line, która działa w oparciu o API Alchemy (płatne/nieopłacane).

Moją alternatywą może być po prostu analiza kodu HTML i użycie technik NLP (przetwarzanie języka naturalnego) i innych metod, aby uzyskać dostęp do głównej zawartości artykułu. Typy witryn internetowych, które będą używane, obejmują witryny z sekcją wiadomości lub bloga.

+1

Uważam, że oznaczyłeś to pytanie niepoprawnie. Tag "Alchemy" odnosi się do Adobe Alchemy. Zgaduję, że mówisz o http://www.alchemyapi.com – Gunslinger47

Odpowiedz

4

dostępnych jest kilka narzędzi o otwartym kodzie źródłowym, które wykonują zadania ekstrakcji podobnego artykułu. https://github.com/jiminoc/goose, które zostało otwarte przez Gravity.com

Posiada informacje na wiki, a także źródło, które można wyświetlić. Istnieją dziesiątki testów jednostkowych, które pokazują tekst wyodrębniony z różnych artykułów.

+0

znasz jakieś inne alternatywy podobne do gęsi, ale w PHP? –

0

AlchemyAPI oferuje także rozwiązanie lokalne, dzięki czemu nie trzeba go otwierać online. Zasadniczo nasi klienci, którzy korzystają z rozwiązań lokalnych, korzystają z niego, jeśli mają specjalne wymagania bezpieczeństwa lub opóźnienia. Więcej informacji na temat rozwiązań lokalnych można znaleźć tutaj: http://www.alchemyapi.com/products/on-premise/

+0

Link jest teraz nieprawidłowy; rozwiązanie na miejscu zostało przerwane. – Naffi