Po prostu chcę wiedzieć, w jaki sposób mogę wyodrębnić tekst główny i zwykły tekst z html przy użyciu Tika? Może jednym z możliwych rozwiązań jest użycie BoilerPipeContentHandler, ale czy masz kilka p
Używam boilerpipe i wydaje się świetny, ale chcę wyjściowe JSON. Używam wersji Java i testów w NetBeans w następujący sposób: final URL url = new URL("http://mashable.com/2012/09/26/worlds-best-father