【发布时间】:2012-06-11 09:12:14
【问题描述】:
背景
我正在尝试阅读和分析网页中的内容,重点关注页面的主要内容 - 没有菜单、侧边栏、脚本和其他 HTML 混乱。
- 我试过NReadability,但它会抛出异常并且在太多情况下失败。除此之外,这是一个很好的解决方案。
- HTML Agility Pack 不是我需要的,因为我也想摆脱非内容代码。
编辑:我正在寻找一个真正筛选内容的库,并且只给我页面中的“相关”文本(即对于这个页面,“评论”、“聊天”、“元”等词,顶部栏中的“关于”和“常见问题解答”不会显示,以及“用户贡献许可下”。
那么,您知道其他用于从网站提取内容的稳定 .Net 库吗?
【问题讨论】:
标签: html .net readability