2012-11-27 34 views
6

Próbuję wyszukiwać pliki PDF w języku arabskim w Apache Solr. Problem polega na tym, że Tika indeksuje plik PDF w odwrotnej kolejności (od lewej do prawej) zamiast (od prawej do lewej).Solr dla arabskiego pliku PDF

znalazłem wzmianki o tym problemie tutaj:

Ja jednak nie wiem jak to ostatnią wersję PDFBox lub ICU4J w moim apache solr. Mój folder Apache Solr Contrib/extraction/lib zawiera pdfbox-1.6.0.jar i icu4j-4.8.1.1.jar. Czy usunięcie wymienionych plików i zastąpienie ich najnowszymi bibliotekami ze stron projektów będzie satysfakcjonujące, aby zmusić TIKA do ich użycia?

Proszę wyjaśnić, ponieważ nie mam wcześniejszych doświadczeń z serwletem Java. Dzięki!

Odpowiedz

0

Z tagów na twoje pytanie zakładam, że używasz Drupala do interfejsu Apache Solr. Tika może uruchamiać się z poziomu Solr, gdy wysyłasz dokumenty binarne lub możesz go użyć przed wysłaniem dokumentów do Solr. Moduł Drupal Solr Attachments ma ustawienie dla tego "Tika (lokalna aplikacja java)". W drugim podanym przez ciebie łączniku poprawiono moduł załączników Solr, aby użyć PDFBox zamiast Tika do przeanalizowania plików binarnych przed wysłaniem do Solr. Jeśli nie korzystasz z Drupala, powinieneś wypróbować podobne podejście.