【发布时间】:2013-01-28 21:46:05
【问题描述】:
我想使用HTMLAgilityPack 获取页面的文本。我有一些代码:
HtmlAgilityPack.HtmlWeb TheWebLoader = new HtmlWeb();
HtmlAgilityPack.HtmlDocument TheDocument = TheWebLoader.Load(textBox1.Text);
List<string> TagsToRemove = new List<string>() { "script", "style", "link", "br", "hr" };
var Strings = (from n in TheDocument.DocumentNode.DescendantsAndSelf()
where !TagsToRemove.Contains(n.Name.ToLower())
select n.InnerText).ToList();
textBox2.Lines = Strings.ToArray();
问题是,它也返回了script 标签的内容。我不知道为什么会这样。有人可以帮帮我吗?
【问题讨论】:
标签: c# linq c#-4.0 html-agility-pack