【发布时间】:2021-08-18 20:02:59
【问题描述】:
我正在处理 Twitter 数据,尤其是美国政界人士的数据。在对推文进行标记时,我想将法案和决议的提及保留为 unigram(非 n-gram)。问题是,这些法案中的许多都以不同的方式输入政治(例如“HR 104”、“HR 104”、“HR104”),有不同类型的法案(例如“HRes 1019”、“S Res 18” , "S Con Res 12") 并且位数从 1 到 4 不等(例如 "S 1"、"S 50"、S 1921")
理想情况下,我希望所有内容都折叠成一个没有空格的单词(例如“HR104”、SConRes18”、“HJRes4525”)。我不太熟悉 gsub 和 grep 函数的语法,但是我猜这就是我用来识别字符串的方法。不过我不确定如何折叠空格。
这个子字符串是推文的一部分,所以我从来没有自己的账单。例如:“美国需要符合宪法的移民改革,以保护我们的美国利益 HR 6 美国梦和承诺法案 HR 1603 农场劳动力现代化法案鼓励继续进行非法行为,但不会产生任何影响 14”
我想将全文中的“HR 1603”改为“HR1603”。
非常感谢任何和所有帮助!谢谢!。
【问题讨论】: