Próbuję wyszukiwać pliki PDF w języku arabskim w Apache Solr. Problem polega na tym, że Tika indeksuje plik PDF w odwrotnej kolejności (od lewej do prawej) zamiast (od prawej do lewej).Solr dla arabskiego pliku PDF
znalazłem wzmianki o tym problemie tutaj:
- Solr for Arabic
- How to parse arabic pdf with Tika
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
Ja jednak nie wiem jak to ostatnią wersję PDFBox lub ICU4J w moim apache solr. Mój folder Apache Solr Contrib/extraction/lib
zawiera pdfbox-1.6.0.jar
i icu4j-4.8.1.1.jar
. Czy usunięcie wymienionych plików i zastąpienie ich najnowszymi bibliotekami ze stron projektów będzie satysfakcjonujące, aby zmusić TIKA do ich użycia?
Proszę wyjaśnić, ponieważ nie mam wcześniejszych doświadczeń z serwletem Java. Dzięki!