【发布时间】:2012-01-05 03:45:04
【问题描述】:
我正在设计一个网站,它会抓取顶级技术网站,例如 thenextweb.com、mashable.com 和 readwriteweb.com 等。
现在使用 Html Agility Pack 废弃的一种方法是让一个网站让 thenextweb.com 根据其<tags> 获取其文章链接和内容,即使用<div class ="article-listing"> ..... </div> 并通过它获取链接。
以相同的方式为每个网站设计算法(因为每个网站的标签都不同)。
这是我用来从网站 thenextweb.com 的主页获取链接的内容:
var webGet = new HtmlWeb();
var document = webGet.Load(url);
var infos = from info in
document.DocumentNode.SelectNodes("//div[@class='article-listing']")
select new
{
Contr = info.InnerHtml
};
lvLinks.DataSource = infos;
lvLinks.DataBind();
有没有其他简单的方法可以提取链接和内容(帖子及其图片、日期等)?
【问题讨论】:
标签: c# asp.net web-crawler html-agility-pack