【发布时间】:2011-12-27 23:58:24
【问题描述】:
我正在解析网页的 html 代码并使用正则表达式获取所有提到的链接作为 hrefs,但是某些网站(例如维基百科)在 html 代码中提到某些 hrefs 例如:
代码说:
href="#cite_note-Types_of_Test_Item_Formats-
但链接实际上是: http://en.wikipedia.org/wiki/Test_(assessment)#cite_note-Types_of_Test_Item_Formats-15
如何仅使用网页源访问这些链接?
编辑:用java编码
任何帮助表示赞赏
【问题讨论】:
-
你用什么语言解析?
-
锚点 (#) 指的是当前 URL...只要不涉及 javascript,这应该相当容易。
-
对于 JS,您可以使用
window.location并在需要时附加 href。 -- 你用什么语言解析 html ?