【发布时间】:2013-03-24 19:46:05
【问题描述】:
我正在尝试从 R 中的 URL 列表中清理和删除目录
我有什么:
http://domain.com/123
http://www.sub.domain1.com/222
http://www.domain2.com/1233/abc
我想要什么:
domain.com
sub.domain1.com
domain2.com
我还有一段路要清理 URL 的开头
url <- c("http://domain.com/123", "http://www.sub.domain1.com/222","http://www.domain2.com/1233/abc"
cleanurl <- gsub("http://","",url)
cleanurl2 <- gsub("www.","",cleanurl)
(如果有更简单的方法来清理 http:// 和 www.,请告诉我。)
现在我遇到了正则表达式问题,并在最后删除了 / 之后的所有内容。
这个我试过了
cleanurl3 <- gsub("/*","",cleanurl2)
但它只是删除了/,而不是它之后的所有内容。
提前感谢您的帮助!
【问题讨论】:
-
尝试使用“\/*”(那里有一个反斜杠)。我认为斜线应该被转义。看看这是否有效。
-
我试过了,但它给了我这个错误 > cleanurl3
-
您的第二个表达式不会删除斜线,因为
/*匹配任意数量的/字符。你想要/.*。