【发布时间】:2017-04-29 16:54:19
【问题描述】:
我有内容如下的 csv(或数据框):
date | URLs | Count
-----------------------------------------------------------------------
17-mar-2014 | www.example.com/abcdef&=randstring | 20
10-mar-2016 | www.example.com/xyzabc | 12
14-apr-2015 | www.example.com/abcdef | 11
12-mar-2016 | www.example.com/abcdef/randstring | 30
15-mar-2016 | www.example.com/abcdef | 10
17-feb-2016 | www.example.com/xyzabc&=randstring | 15
17-mar-2016 | www.example.com/abcdef&=someotherrandstring | 12
我想清理我想将www.example.com/abcdef&=randstring 或www.example.com/abcdef/randstring 转换为 www.example.com/abcdef 的列“URLs”,等等。
我尝试使用 urlparse 库并解析 URL 以仅组合 urlparse(url).netloc 和 urlparse(url).path/query/params。但是,由于每个 URL 都会导致完全不同的路径/查询/参数,因此它的效率很低。
有没有使用 pandas 解决这个问题的方法?非常感谢任何提示/建议。
【问题讨论】:
-
你不需要解析任何东西,只需在第一个'&'/'处截断字符串?' .如果您想保留“/查询”部分,也不清楚您写的内容。这是简单的字符串操作,几乎没有正则表达式领域。
标签: python regex pandas url dataframe