【发布时间】:2018-04-09 08:34:38
【问题描述】:
我正在尝试从维基百科页面(“https://en.wikipedia.org/wiki/Category:The_Kinks_songs”)获取歌曲名称列表
这是我目前正在尝试的代码
//Get page source and parse it
string pageSource = PageSource.Get(url);// own method
HtmlParser parser = new HtmlParser();
var doc = parser.Parse(pageSource);
//Get div tag with class="mw-category"
var div_mw_content_ltr = doc.All.Where(tag => tag.LocalName == "div" && tag.GetAttribute("class") == "mw-category");
//Get all li tags
var li = div_mw_content_ltr.All(tag => tag.LocalName == "li");
List<string> LS = new List<string>();
foreach (var item in div_mw_content_ltr)
{
string tmp = item.TextContent;
LS.Add(tmp);
}
return LS;
我对这些东西真的很陌生。 var li 是假的,我希望它是 div_mw_content_ltr 中列表项标签的集合。
我尝试创建一个新的解析器并解析 div_mw_content_ltr 的 innerhtml,但该成员不存在。
我已经搜索了 stackoverflow 及更高版本上的所有 Anglesharp 标签,但找不到解决方案。 我觉得在你甚至可以理解如何使用anglesharp之前,需要一些解析html和查询选择器等的基础知识,所以作为一个方面,我也很感激任何资源链接,我可以更好地了解如何实际使用anglesharp库。
感谢您抽出宝贵时间阅读。
【问题讨论】:
标签: c# html parsing anglesharp