【发布时间】:2018-11-11 20:49:46
【问题描述】:
我正在将一个文本文件读入 R:
text <- read_delim("textfile.txt", "\n", escape_double = F, col_names = F, trim_ws = T)
相关部分是它由换行符分隔。 然后我把它分成speaker列和cmets列:
text2 <- text %>%
separate(X1, into = c("speaker", "comment"), sep = ":")
结果是一个数据框,其中有一列发言者和另一列他们的 cmets。
问题在于,一些长 cmets 中嵌入了换行符。这会弄乱数据结构,将评论放在扬声器列中的换行符之后,然后在 cmets 部分中放置一个 NA。
如何告诉 R 忽略这些嵌入的换行符?如果有帮助,则用冒号分隔各列(即面试官:你好吗?),因此“真”换行符之前应该只有一个冒号。
谢谢!
【问题讨论】:
-
你能发布几个你输入的例子吗
-
是否可以改变
textfile.txt的输出格式? (可能不会,但值得一试)
标签: r text delimiter data-cleaning