【问题标题】:Collapse whitespace of different substrings in R折叠R中不同子字符串的空格
【发布时间】:2021-08-18 20:02:59
【问题描述】:

我正在处理 Twitter 数据,尤其是美国政界人士的数据。在对推文进行标记时,我想将法案和决议的提及保留为 unigram(非 n-gram)。问题是,这些法案中的许多都以不同的方式输入政治(例如“HR 104”、“HR 104”、“HR104”),有不同类型的法案(例如“HRes 1019”、“S Res 18” , "S Con Res 12") 并且位数从 1 到 4 不等(例如 "S 1"、"S 50"、S 1921")

理想情况下,我希望所有内容都折叠成一个没有空格的单词(例如“HR104”、SConRes18”、“HJRes4525”)。我不太熟悉 gsub 和 grep 函数的语法,但是我猜这就是我用来识别字符串的方法。不过我不确定如何折叠空格。

这个子字符串是推文的一部分,所以我从来没有自己的账单。例如:“美国需要符合宪法的移民改革,以保护我们的美国利益 HR 6 美国梦和承诺法案 HR 1603 农场劳动力现代化法案鼓励继续进行非法行为,但不会产生任何影响 14”

我想将全文中的“HR 1603”改为“HR1603”。

非常感谢任何和所有帮助!谢谢!。

【问题讨论】:

    标签: r text twitter gsub


    【解决方案1】:

    gsub(" ", "", x)(其中 x 是任意字符串)能解决您的问题吗?

    【讨论】:

      【解决方案2】:

      我们可以使用str_replace_all

      library(stringr)
      str_replace_all(x, fixed(" "), "")
      str_replace_all(x, space(), "")
      

      【讨论】:

        【解决方案3】:

        我们也可以使用

        library(stringr)
        str_remove_all(x, " ")
        

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 1970-01-01
          • 2015-05-24
          • 2010-10-19
          • 2011-04-25
          • 2015-05-13
          • 2012-03-08
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多