Indeksowanie dokumentów programu Word i plików PDF za pomocą Sphinx

Mam witrynę internetową, na której użytkownicy przesyłają dokumenty w formacie .doc i .pdf. Używam Sphinx do przeszukiwania pełnego tekstu w mojej bazie danych SQL (MySQL). Jaki jest najlepszy sposób indeksowania tych formatów plików za pomocą Sphinx?Indeksowanie dokumentów programu Word i plików PDF za pomocą Sphinx

Źródło

2009-07-30 Jared Brown

Niestety, Sphinx nie może bezpośrednio indeksować tych typów plików. Musisz zaimportować tekstową zawartość do bazy danych lub do an XML format that Sphinx can understand.

Źródło

2009-07-30 21:16:12 pat

Polecam jednej metody nad drugą? –

Zależy od języka używanego po stronie serwera. Jeśli chodzi o Ruby/Rails, wiem, że wszystkie biblioteki nie obsługują XML po wyjęciu z pudełka, chyba że budujesz system od zera (zamiast, powiedzmy, używając ActiveRecord). Więc użyłbym bazy danych. W przeciwnym razie zależy to od Ciebie. Jeśli nie używasz Ruby, sprawdź, jakie biblioteki są dostępne dla Twojego wybranego języka, zobacz, co mogą/nie mogą zrobić. – pat

Metoda, której używam, to pdf2text i antywojenny. Korzystam z obu tych metod, aby zrzucić zawartość plików pdf i dokumentów tekstowych do bazy danych. Stamtąd łatwo jest czołgać się z Sfinksem.

Źródło

2011-04-02 22:01:27 mlissner

Korzystam z tej samej metody jak ty i dla mnie działającej. – Johny

Czy ktoś użył Tika do indeksowania innych typów dokumentów, podobnie jak wtyczka SOLR? Apache Tika

Niektóre linki:

Źródło

2013-10-17 19:37:46 Wadester

Indeksowanie dokumentów programu Word i plików PDF za pomocą Sphinx

Odpowiedz

Powiązane problemy