Mam witrynę internetową, na której użytkownicy przesyłają dokumenty w formacie .doc i .pdf. Używam Sphinx do przeszukiwania pełnego tekstu w mojej bazie danych SQL (MySQL). Jaki jest najlepszy sposób indeksowania tych formatów plików za pomocą Sphinx?Indeksowanie dokumentów programu Word i plików PDF za pomocą Sphinx
10
A
Odpowiedz
6
Niestety, Sphinx nie może bezpośrednio indeksować tych typów plików. Musisz zaimportować tekstową zawartość do bazy danych lub do an XML format that Sphinx can understand.
9
Metoda, której używam, to pdf2text i antywojenny. Korzystam z obu tych metod, aby zrzucić zawartość plików pdf i dokumentów tekstowych do bazy danych. Stamtąd łatwo jest czołgać się z Sfinksem.
+0
Korzystam z tej samej metody jak ty i dla mnie działającej. – Johny
1
Czy ktoś użył Tika do indeksowania innych typów dokumentów, podobnie jak wtyczka SOLR? Apache Tika
Niektóre linki:
Polecam jednej metody nad drugą? –
Zależy od języka używanego po stronie serwera. Jeśli chodzi o Ruby/Rails, wiem, że wszystkie biblioteki nie obsługują XML po wyjęciu z pudełka, chyba że budujesz system od zera (zamiast, powiedzmy, używając ActiveRecord). Więc użyłbym bazy danych. W przeciwnym razie zależy to od Ciebie. Jeśli nie używasz Ruby, sprawdź, jakie biblioteki są dostępne dla Twojego wybranego języka, zobacz, co mogą/nie mogą zrobić. – pat