【发布时间】:2012-05-29 09:03:56
【问题描述】:
我正在用 C# 开发一个程序,我需要一些帮助。我正在尝试创建一个显示在某个网站上的数组或项目列表。我要做的是阅读锚文本,它是href。例如,这是 HTML:
<div class="menu-1">
<div class="items">
<div class="minor">
<ul>
<li class="menu-item">
<a class="menu-link" title="Item-1" id="menu-item-1"
href="/?item=1">Item 1</a>
</li>
<li class="menu-item">
<a class="menu-link" title="Item-1" id="menu-item-2"
href="/?item=2">Item 2</a>
</li>
<li class="menu-item">
<a class="menu-link" title="Item-1" id="menu-item-3"
href="/?item=3">Item 3</a>
</li>
<li class="menu-item">
<a class="menu-link" title="Item-1" id="menu-item-4"
href="/?item=4">Item 4</a>
</li>
<li class="menu-item">
<a class="menu-link" title="Item-1" id="menu-item-5"
href="/?item=5">Item 5</a>
</li>
</ul>
</div>
</div>
</div>
所以我想从那个 HTML 中阅读:
string[,] array = {{"Item 1", "/?item=1"}, {"Item 2", "/?item=2"},
{"Item 3", "/?item=3"}, {"Item 4", "/?item=4"}, {"Item 5", "/?item=5"}};
HTML 是我写的一个例子,实际的网站不是这样的。
【问题讨论】:
-
您是否尝试查看 XmlTextReader 流?你会捕捉到所有的 a 并且 - 另外 - 即使是一个大的 XML 文件,它也很快。
-
查看 HtmlAgilityPack