boilerpipe

    5Ciepło

    2Odpowiedz

    Po prostu chcę wiedzieć, w jaki sposób mogę wyodrębnić tekst główny i zwykły tekst z html przy użyciu Tika? Może jednym z możliwych rozwiązań jest użycie BoilerPipeContentHandler, ale czy masz kilka p

    5Ciepło

    1Odpowiedz

    Używam boilerpipe i wydaje się świetny, ale chcę wyjściowe JSON. Używam wersji Java i testów w NetBeans w następujący sposób: final URL url = new URL("http://mashable.com/2012/09/26/worlds-best-father

    9Ciepło

    2Odpowiedz

    >>> import boilerpipe Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\Anaconda\lib\site-packages\boilerpipe\__init__.py", line 10, in <module> jpype.sta