Próbuję pracować z pakietem tm w R, i mieć plik CSV z opiniami klientów, z których każda linia jest innym wystąpieniem opinii. Chcę zaimportować całą zawartość tej opinii do korpusu, ale chcę, aby każda linia była innym dokumentem w korpusie, aby móc porównać opinie w Matrix DocTerms. W moim zbiorze danych znajduje się ponad 10 000 wierszy.Dokumenty wyszukiwania tekstu R z pliku CSV (jeden wiersz na doc)
Początkowo robiłem co następuje:
fdbk_corpus <-Corpus(VectorSource(fdbk), readerControl = list(language="eng"), sep="\t")
To tworzy korpus z 1 dokumentu oraz> 10000 wierszy i chcę> 10000 dokumenty z 1 rzędzie każdy.
Wyobrażam sobie, że mogę mieć ponad 10.000 oddzielnych dokumentów CSV lub TXT w folderze i utworzyć z tego korpus ... ale myślę, że jest o wiele prostsza odpowiedź, czytając każdą linię jako oddzielny dokument .