Jak wyodrębnić zwykły tekst z pliku DOCX przy użyciu nowej obsługi OOXML w Apache POI 3.5?

28 września 2009 roku wersja Apache POI project wydała wersję 3.5, która oficjalnie obsługuje formaty OOXML wprowadzone w pakiecie Office 2007, takie jak DOCX i XLSX.Jak wyodrębnić zwykły tekst z pliku DOCX przy użyciu nowej obsługi OOXML w Apache POI 3.5?

Proszę podać przykładowy kod do wyodrębniania zawartości pliku DOCX w postaci zwykłego tekstu, ignorując wszelkie style i formatowanie.

Pytam o to, ponieważ nie byłem w stanie znaleźć żadnych przykładów POI Apache obejmujących nową obsługę OOXML.

Źródło

2009-09-29 rcampbell

To zadziałało dla mnie. Upewnij się, dodać wymagane słoiki (upgrade XMLBeans itp)

public String extractText(InputStream in) throws Exception { 
    XWPFDocument doc = new XWPFDocument(in); 
    XWPFWordExtractor ex = new XWPFWordExtractor(doc); 
    String text = ex.getText(); 
    return text; 
}

Źródło

2009-10-22 18:49:09

Jest to bardziej ogólne

POITextExtractor poitex = ExtractorFactory.createExtractor (w);

return poitex.getText();

Źródło

2009-10-22 21:31:50

Zgadzam się. Dziękuję za dobrą odpowiedź obejmującą bardziej ogólne wyodrębnianie tekstu. Chciałbym móc przyjąć oba. – rcampbell

Jak wyodrębnić zwykły tekst z pliku DOCX przy użyciu nowej obsługi OOXML w Apache POI 3.5?

Odpowiedz

Powiązane problemy