2009-10-31 24 views
5

Czy istnieje biblioteka, która ma klasę do wyodrębnienia tekstu z pliku pdf w języku C# .net? Próbowałem kilku, ale dokumentacja jest okropna, więc nie udało mi się tego znieść. Również jeśli zapewnia klasę do wyodrębniania obrazów, które byłyby plusem. Jakieś sugestie? Z góry.Przekształcanie pliku PDF w działający tekst za pomocą C#

Muszę też mieć możliwość zaimplementowania go w istniejącej aplikacji.

Odpowiedz

3

Czy próbowałeś już PDFKit.NET? Ma rozsądne dokumenty i kilka dobrych przykładów. Jest przeznaczony do środowiska serwerowego, więc jest trochę drogi.

EDYCJA Oto biblioteka open source na SourceForge pod nazwą iTextSharp. Jest bezpłatny dla projektów open source. Nie użyłem go, ale wygląda obiecująco. Here is a tutorial dla tego, który ma wiele przykładów kodu.

+1

+1 za darmo jest dobre. –

0

W celu konwersji obrazu użyliśmy oprogramowania do pracy w śniegu. to najwyraźniej też obsługuje text extraction. jednak nie jest za darmo.

+0

nie wiesz, dlaczego link nie działa. ale możesz przejść do snowbound.com -> rozwiązania -> ekstrakcja tekstu –

1

Istnieje kilka sposobów, w jakie można tutaj przejść - wiele z nich będzie zależeć od tego, czy chcesz zachować formattting (tj. Akapity i inne elementy układu) oryginalnego pliku PDF.

Jeśli rozważasz komercyjne rozwiązania, oferujemy dwa produkty, które mogą spełnić Twoje wymagania. Jednym z nich jest pakiet SDK EasyPDF, który zawiera pojedyncze wywołania funkcji ExtractText() i ExtractText2(), które pobierają tekst z plików PDF jako zwykły tekst.

Należy zauważyć, że wynik tych wywołań jest dość prosty i spowoduje utratę wielu oryginalnych elementów układu. Są dobre do prostego ekstrakcji tekstu, ale mogą nie być świetne, jeśli plik PDF zawiera dane tabelaryczne.

Jeśli masz do czynienia z tabelami, ładniejszą alternatywą może być zamiast tego wyciągnięcie go w postaci tekstu sformatowanego. Mamy narzędzie o nazwie EasyConverter SDK przystosowane do dokumentów biznesowych, które robi to za pomocą pojedynczego wywołania funkcji.

W pakiecie EasyConverter SDK układ oryginalnego pliku PDF zostanie zachowany.

Oba obsługują C#, więc zachęcamy do zapoznania się z wersjami eval na stronie www.pdfonline.com, jeśli jesteś zainteresowany. Pracuję dla sprzedawcy, więc weź tę sugestię jako rodzaj matki kochającej własne dziecko :-) Przeglądam stackoverflow.com w poszukiwaniu fragmentów kodu przez długi czas, ale dopiero niedawno zacząłem publikować, więc jeśli masz wszelkie pytania z jednym z interfejsów API po prostu mi pozwolą i mogę pomóc. Twoje zdrowie!

1

Docotic.Pdf library może wyodrębnić tekst i obrazy z plików PDF.

Możesz wyodrębnić tekst z całego dokumentu tylko z niektórych stron. Biblioteka może wyodrębniać zwykły tekst, a także fragmenty tekstu z współrzędnymi.

Obrazy można wyodrębnić z plików PDF (jako pliki JPEG i TIFF).

Oto kilka próbek o zadaniu:

Disclaimer: pracować dla Bit Miracle, sprzedawcy biblioteki.