【发布时间】:2017-01-13 17:53:07
【问题描述】:
我有一个 URL 文件。文件是这样的
http://www.example.com/images/1 http://www.example.com/images/2 . . . http://www.example.com/images/2000 http://www.example.org/p/q/r/1/s/t http://www.example.org/p/q/r/2/s/t http://www.example.org/p/q/r/3/s/t . . . http://www.example.org/p/q/r/5000/s/t
等等。 URL 未排序。我只是整理出来解释清楚。
我必须处理这些 URL,以便如果 2 个 URL 之间有一个单词(两个斜杠之间的单词)不同且此类出现的次数大于 1000,我将用 * 替换该单词
例如,在上面的文件中,我会有
http://www.example.com/images/* http://www.example.org/p/q/r/*/s/t
文件大小为数百 GB。有人可以帮我解决这个问题吗?
【问题讨论】:
-
这些文件是否存储在 S3 中?
-
是的。我什至可以使用 Map Reduce 解决方案。
标签: amazon-web-services url mapreduce distributed-computing