【发布时间】:2012-08-09 14:24:14
【问题描述】:
我正在尝试从 href.<a class="p_l" href="" id="0" target="_blank"> 中提取链接
这是在页面视图源中可见的内容,但是当我使用 firebug 进行检查时,href 将包含http://home.website.com/preview/preview?uname=3eadsf132sdas。我尝试使用 htmlagilitypack 但 href 返回 null。如何提取href中的链接。
【问题讨论】:
-
那是因为空的
href表示“无论当前 URL 是什么”。敏捷包无法知道您从哪里获得 HTML。 -
是否可以提取链接。如何获取href中的链接。
-
@Maddy 重申第一个评论者所说的话,没有什么可提取的。 Firebug 向您展示了 web 浏览器 知道的内容。 HTML Agility Pack 只知道 HTML 源代码 知道的内容。浏览器知道它从哪里加载 HTML,而 Html Agility Pack 不知道。与其看萤火虫,不如看“查看源代码”。这就是 HAP 实际看到的。
-
谢谢@jamietre。我得到了它。我的问题是,当用户点击该
href标签时,它将被重定向到另一个页面。我想提取该链接。当查看源仅不显示链接时,如何提取它。 -
麦迪,你不能。该信息在源中不可用。浏览器向用户显示的内容不是来自 HTML 源代码。它可能是用 javascript 填充的,或者只是像第一个评论者所说的那样缺失(并且代表基本页面 url)。
标签: c# c#-4.0 html-parsing web-scraping