【发布时间】:2011-01-10 01:38:32
【问题描述】:
我正在使用 javascript 正则表达式来执行以下操作:
我将页面的 html 内容保存在一个字符串中,我想匹配页面上的所有 URL。
例如,如果文档包含--
<script src = "http://www.a.com">
<a href="http://www.b.com">
<a href= "http://www.c.com">
<a href ="http://www.d.com">
我希望比赛是--
http://www.a.com
http://www.b.com
http://www.c.com
http://www.d.com
任何帮助将不胜感激,谢谢!
【问题讨论】:
-
你的网址真的那么简单吗,还是会包含参数或更长的路径?
-
/me facepalms stackoverflow.com/questions/1732348/…
-
@Hello71 我已经按照你的要求做了,我已经用 HTML5 Lib 解析了 HTML,我已经获取了所有的链接,我已经修复了所有的编码错误,所有未知的不支持的 unicode 符号,最后经过数周的工作,从该 html 中获得了这些链接。它值得吗?也许。增加的复杂性值得吗?不,不是,解析 HTML 比你想象的要困难得多,HTML 可以包含其他类型的内容并且非常复杂,正则表达式匹配链接实际上可能是更好的答案......或者自定义解析器(我也试过,非常适合长文本)。
标签: javascript html regex string