【发布时间】:2017-03-27 23:56:23
【问题描述】:
我正在尝试学习如何在 R 中对句子进行分类。
我有一个包含以下格式句子的文本文件:
<happy>
This did the trick : the boys now have a more distant friendship and David is much happier .
<\happy>
<happy>
When Anna left Inspector Aziz , she was much happier .
<\happy>
我打算用以下方式标记句子:
dataset$text = When Anna left Inspector Aziz , she was much happier
dataset$label = happy
我想提取句子并用情感标记它们。我应该如何处理这个?我知道我应该在正则表达式中使用分组,但我不知道如何在 R 中执行此操作。我是新手并且正在学习。
rl <- readLines('sentences.txt')
【问题讨论】:
-
那些反斜杠会导致问题;如果它们是正斜杠,则可以将其解析为 XML。
-
lapply(split(Filter(nzchar, gsub('<\\\\\\w+>|[<>]', '', trimws(rl))), c(1,1,2,2)), as.list)剩下的交给你 -
这是一个真正的 sn-p 吗? (a) 它不是 HTML (b) 它不是有效的 XML (c) 我知道没有使用反斜杠的标记语言。
标签: r nlp text-mining