折叠R中不同子字符串的空格答案

【问题标题】：Collapse whitespace of different substrings in R折叠R中不同子字符串的空格
【发布时间】：2021-08-18 20:02:59
【问题描述】：

我正在处理 Twitter 数据，尤其是美国政界人士的数据。在对推文进行标记时，我想将法案和决议的提及保留为 unigram（非 n-gram）。问题是，这些法案中的许多都以不同的方式输入政治（例如“HR 104”、“HR 104”、“HR104”），有不同类型的法案（例如“HRes 1019”、“S Res 18” , "S Con Res 12") 并且位数从 1 到 4 不等（例如 "S 1"、"S 50"、S 1921"）

理想情况下，我希望所有内容都折叠成一个没有空格的单词（例如“HR104”、SConRes18”、“HJRes4525”）。我不太熟悉 gsub 和 grep 函数的语法，但是我猜这就是我用来识别字符串的方法。不过我不确定如何折叠空格。

这个子字符串是推文的一部分，所以我从来没有自己的账单。例如：“美国需要符合宪法的移民改革，以保护我们的美国利益 HR 6 美国梦和承诺法案 HR 1603 农场劳动力现代化法案鼓励继续进行非法行为，但不会产生任何影响 14”

我想将全文中的“HR 1603”改为“HR1603”。

非常感谢任何和所有帮助！谢谢！。

【问题讨论】：

标签： r text twitter gsub

【解决方案1】：

gsub(" ", "", x)（其中 x 是任意字符串）能解决您的问题吗？

【讨论】：

【解决方案2】：

我们可以使用str_replace_all

library(stringr)
str_replace_all(x, fixed(" "), "")
str_replace_all(x, space(), "")

【讨论】：

【解决方案3】：

我们也可以使用

library(stringr)
str_remove_all(x, " ")

【讨论】：