【发布时间】:2011-01-18 20:13:27
【问题描述】:
我有一些文本内容,其中包含 URL 列表。
我正在尝试抓取所有 URL 并将它们放入一个数组中。
我有这个代码
content = "Here is the list of URLs: http://www.google.com http://www.google.com/index.html"
urls = content.scan(/^(http|https):\/\/[a-z0-9]+([\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(([0-9]{1,5})?\/.*)?$/ix)
我试图得到的最终结果是:
['http://www.google.com', 'http://www.google.com/index.html']
上面的代码似乎不能正常工作。有谁知道我做错了什么?
谢谢
【问题讨论】: