Używam edytora strumieniowego sed do przekonwertowania dużego zestawu plików tekstowych (400MB) do formatu csv.sed - usuń cytaty w cudzysłowach w dużych plikach CSV
doszedłem bardzo blisko do końca, ale wybitny problemem są cytaty w cudzysłowie, na danych jak ten:
1,word1,"description for word1","another text",""text contains "double quotes" some more text"
2,word2,"description for word2","another text","text may not contain double quotes, but may contain commas ,"
3,word3,"description for "word3"","another text","more text and more"
Pożądana wyjściowy:
1,word1,"description for word1","another text","text contains double quotes some more text"
2,word2,"description for word2","another text","text may not contain double quotes, but may contain commas ,"
3,word3,"description for word3","another text","more text and more"
Szukałem wokół o pomoc, ale nie jestem zbyt blisko rozwiązania, próbowałem następujące seds z wzorami regex:
sed -i 's/(?<!^\s*|,)""(?!,""|\s*$)//g' *.txt
sed -i 's/(?<=[^,])"(?=[^,])//g' *.txt
Są z poniższych pytań, ale nie wydają się działać dla sed:
Oryginalne pliki * .txt i próbuję edytować je w miejscu sed.
Jakie są pożądane wyniki? –
Zaktualizowałem, dzięki. – nol