【发布时间】:2020-05-28 19:01:49
【问题描述】:
我正在对一项调查进行大约 160 条单独的回复。在清理之后,我运行了 R 代码来生成一个简单的 wordcloud 和一些敏感性分析。 但是,分析包括要求受访者完成的模板中的所有文本,例如介绍性文本、说明、姓名、公司、地址,以及所有部分标题和提出的问题。 由于所有这些模板文本都将针对 160 个响应中的每一个重复,因此会扭曲响应中单词的频率。 R 中是否有一种方法不仅可以排除单个单词(根据停用词或创建 mystopwords),还可以从分析中排除完整的句子或短语,以便模板中的所有文本都可以被忽略并且不包含在响应集中? 由于保密,我无法分享回复,但我可以分享包含我希望从分析中排除的所有文本的空白模板,可在https://www.economy-ni.gov.uk/energy-strategy-call-for-evidence 获得。
R 中的虚拟数据:
[50] “2. 北爱尔兰的能源”
[51] “Q1。在解决能源问题方面,我们可以从其他地方学到什么教训”
[52]“总体气候行动框架?”
[53]“Q2。北爱尔兰能源脱碳的主要考虑因素是什么”
[54] “与其他司法管辖区现有联系的部门?”
[55] 《Q3.北爱尔兰应在多大程度上实施关键能源相关》
[56] “CCC‘减少北爱尔兰排放’的建议”
[57] “报告?”
[58]“Q4。你同意30年的时间框架吗?如果不同意,请说明你的首选”
[59]《方法与理由》。
[60] “受访者回复文字 xxxxxxxx blahblahvlahblah”
[61] “3. 北爱尔兰的能源转型”
[62]《Q5.北爱尔兰有哪些独特的特色需要》
[63] “是否考虑过净零碳能源转型?”
[64]“Q6.贵组织是否正在开展或计划开展支持项目”
[65]“能源转型?如果是,请提供更多细节。”
[66] “受访者回复文本 xxxxxxxx blahblahvlahblah”
在这个数据子集中,我希望排除第 50 到 59 行和第 61 到 65 行中的标准文本,因为它们在所有响应中都包含相同的文本,即所有响应中的每一行每次都以相同的文本开头.
以响应者响应文本开头的行只是用于说明目的的虚拟数据,并且每次响应一个部分/问题时都会有所不同。在此示例中,我将寻求将文本保留在第 60 行和第 66 行中以进行分析。
要排除的标准文本在每个响应/文件中并不总是相同的行号。这是由于响应运行在多行上造成的。
谢谢 斯蒂芬
【问题讨论】:
-
您需要更清楚地描述您认为是“标准文本”的内容,您似乎想要排除这些内容,以及您似乎想要保留的“回复”。该描述需要包括“规则”;例如,回复是否总是以“Respondent response text”开头,标准文本是否总是以“Q + number + period”开头,等等。给定一组这样的规则,挖掘您的文本数据绝对是可行的。此外,您帖子的最后一句话在语法上难以解析,从而导致读者难以理解。
-
嗨,克里斯。对这一切都是新手,并了解我需要变得更好,因此感谢这些提示。我已经编辑了上面的文字,但简要说明了规则:对问题的回答可以从任何东西开始,注意标准。标准元素是标题(2. 能量等)和问题(以 Q 或下一行开头,以 ? 结尾)。这些标准元素是我希望从文本分析中排除的元素。
-
抱歉,仍然不清楚:在您的帖子中,您说您要“保留第 60 行和第 66 行中的文本以供分析”,但在评论中您说“标准元素是标题 (2.能源等)”,你想排除。但是第 61 行“”3。北爱尔兰的能源转型”似乎就是这样一个标题。
-
因此,您要提取的文本始终以““Respondent response text xxxxxxxx blahblahvlahblah”开头,并以部分编号+句点或Q加数字加句点结尾?
-
好的,这样结束点就清楚了。但是你还需要为开始定义某种规则。
标签: r text-mining