【问题标题】:R removing unicode linebreaksR删除unicode换行符
【发布时间】:2014-10-17 12:12:34
【问题描述】:

我需要删除的字符串中有 Unicode 换行符。

这些字符可以是回车符\U000D、换行符\U000A、行分隔符或段落分隔符。

我可以使用以下内容删除回车符和换行符。

gsub("\\s", "", x)

就像我说的那样,这对那些 Unicode 字符很有效,但我无法删除行分隔符 \U2028 或段落分隔符 \U2029 字符。

还有其他方法吗?

【问题讨论】:

  • 将它们包含在正则表达式中:例如 [\\s\u2028\u2029]。

标签: regex r


【解决方案1】:

您可以使用perl=T 打开PCRE 并使用方便的转义序列 (\R)

> x <- 'foo\U000D\U000A bar\U2029 baz\U2028\U2029'
> x
## [1] "foo\r\n bar\u2029 baz\u2028\u2029"
> gsub('\\R', '', x, perl=T)
## [1] "foo bar baz"

【讨论】:

    猜你喜欢
    • 2017-07-26
    • 2015-04-24
    • 2016-11-13
    • 2018-11-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-10-01
    • 2019-10-30
    相关资源
    最近更新 更多