【发布时间】:2019-08-25 07:13:48
【问题描述】:
我目前正在清理来自 eCom 的一些 URL 数据,因为我想更好地了解引荐来源网址流量的来源。
我在 R 中尝试过 sub() 函数,但在正确应用 RegEx 时遇到了困难。
sub("*.com", "", q2$Session.First.Referrer)
我想简单地清理一个看起来像的 URL “http\://www\.gazelle\.com/main/home\.jhtml” 基本 URL 所以“www.gazelle.com”。
【问题讨论】:
-
查看regex有关提取部分 URL 的问题。您可以将另一种语言中使用的正则表达式改编为 R
-
在其他一些 SO 帖子中解决了很多复杂问题需要考虑:您检查
http和https吗?是否所有 URL 都包含http://,还是仅以www.开头?是否有任何子域,例如http://stats.stackexchange.com/,这样就不会有www?ww2.呢?.edu?.co.uk?.io?这实际上是一项比最初看起来更大的任务。