【发布时间】:2015-12-11 19:09:31
【问题描述】:
我在 csv 中有数据,其中包含以下列
ARTICLE_URL
http://twitter.com/aviryadsh/statuses/528219883872337920
http://www.ibtimes.co.in/2014
我想在此列旁边创建另一个列,其中我只能拥有像 twitter.com, team-bhp.com, ibtimes.co.in,broadbandforum.co 这样的网址。
我试过了
text$ne=str_extract(Brand$ARTICLE_URL, '\\w+(.com)')
但这只是给出以 .com 结尾的 url 如何获取所有其他的。
【问题讨论】:
-
你可以使用一个复杂的正则表达式,或者两个简单的字符串替换。简单的字符串替换如下所示:
tmp <- str_replace(Brand$ARTICLE_URL, "http://(www.)?", ""); text$ne <- str_replace(tmp, "/.*", "") -
感谢马克的回复。但问题是在这个特定的列中,一些单元格包含 http://,一些包含 https://,一些以 www 开头。只是,我可以在这里给出或条件以获得所有可能的组合或任何其他方式的任何方式也是如此......请提供您的宝贵意见。
-
str_replace和str_replace_all可以采用正则表达式来查找模式。所以我们可以稍微修改一下代码的第一部分:str_replace_all(Brand$ARTICLE_URL, "https://|http://|www.", "")。这应该会删除 URL 开头的所有内容。