【发布时间】:2010-09-20 20:45:51
【问题描述】:
我仍在处理这个庞大的 URL 列表,我收到的所有帮助都很棒。
目前我的列表看起来像这样(虽然有 17000 个 URL):
http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=3
http://www.example.com/page?CONTENT\_ITEM\_ID=2
http://www.example.com/page?CONTENT\_ITEM\_ID=1
http://www.example.com/page?CONTENT\_ITEM\_ID=2
http://www.example.com/page?CONTENT\_ITEM\_ID=3
http://www.example.com/page?CONTENT\_ITEM\_ID=3
我可以用几种方法过滤掉重复项,awk 等没有问题。我真正想做的是取出重复的 URL,但同时计算 URL 中存在的次数使用管道分隔符列出并打印 URL 旁边的计数。处理完列表后应该是这样的:
网址 |数
http://www.example.com/page?CONTENT\_ITEM\_ID=1 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=2 | 2
http://www.example.com/page?CONTENT\_ITEM\_ID=3 | 3
什么方法是实现这一目标的最快方法?
【问题讨论】:
-
该用户之前提出的所有问题都是 Python ——我认为这也是 Python。出于这个原因,我把 [python] 放在了这个问题上。
-
我删除了它,因为它不在问题中,我不知道这个用户只询问了 Python。
-
我在问一般,任何方法都可以,我有兴趣看到不同的方法,都很好:)
-
我添加了
language-agnostic标签并删除了unix。
标签: text-processing