【发布时间】:2014-03-02 14:13:23
【问题描述】:
我有以下字符串,存储在对象sentence中:
sentence <- "aazdlubtirol: RT @tradeDayTrades: sister articles \"$AAPL Dancing in a Burning Room\" January 2013 http://t.co/tkuCRfLy \" $AAPL vs $AAPL \" August 2011 http://t.co/863HkVjn"
我正在尝试使用 gsub 删除以 http 开头的网址:
sentence <- gsub('http.*','',sentence)
但是,它会替换 http 之后的所有内容:
aazdlubtirol: RT @tradeDayTrades: sister articles \"$AAPL Dancing in a Burning Room\" January 2013
我想要的是:
aazdlubtirol: RT @tradeDayTrades: sister articles \"$AAPL Dancing in a Burning Room\" January 2013 \" $AAPL vs $AAPL \" August 2011
我正在尝试清理 url,所以如果字符串包含 http 我想删除 url。我找到了一些解决方案,但它们对我没有帮助。
【问题讨论】:
-
为您的替换组添加一个空间:
gsub('http.* ', '', sentence)。 -
@Justin 很好的答案我试过
gsub('http.*\\s', '', sentence),但它不起作用。也许你可以添加你的答案。 -
我觉得奇怪的是
\\s在单个空格处不起作用。 -
@Justin 我尝试使用空间,但它不起作用。
-
您的问题过于复杂。如果我理解正确,您的意思是:“如何使用正则表达式从字符串中删除所有 url?”。