2009-09-29 17 views
13

28 września 2009 roku wersja Apache POI project wydała wersję 3.5, która oficjalnie obsługuje formaty OOXML wprowadzone w pakiecie Office 2007, takie jak DOCX i XLSX.Jak wyodrębnić zwykły tekst z pliku DOCX przy użyciu nowej obsługi OOXML w Apache POI 3.5?

Proszę podać przykładowy kod do wyodrębniania zawartości pliku DOCX w postaci zwykłego tekstu, ignorując wszelkie style i formatowanie.

Pytam o to, ponieważ nie byłem w stanie znaleźć żadnych przykładów POI Apache obejmujących nową obsługę OOXML.

Odpowiedz

16

To zadziałało dla mnie. Upewnij się, dodać wymagane słoiki (upgrade XMLBeans itp)

public String extractText(InputStream in) throws Exception { 
    XWPFDocument doc = new XWPFDocument(in); 
    XWPFWordExtractor ex = new XWPFWordExtractor(doc); 
    String text = ex.getText(); 
    return text; 
} 
6

Jest to bardziej ogólne

POITextExtractor poitex = ExtractorFactory.createExtractor (w);

return poitex.getText();

+1

Zgadzam się. Dziękuję za dobrą odpowiedź obejmującą bardziej ogólne wyodrębnianie tekstu. Chciałbym móc przyjąć oba. – rcampbell