【发布时间】:2011-06-08 00:11:54
【问题描述】:
给定一个新闻文章网页(来自任何主要新闻来源,如时代或彭博社),我想识别该页面上的主要文章内容,并丢弃其他杂项元素,如广告、菜单、侧边栏、用户 cmets。
在大多数主要新闻网站上都可以使用的通用方法是什么?
有哪些好的数据挖掘工具或库? (最好基于python)
【问题讨论】:
-
看看
Readability书签是如何实现的lab.arc90.com/experiments/readability -
这样做的浏览器将对在线广告构成巨大威胁。
-
原始书签的代码在这里:code.google.com/p/arc90labs-readability/source/browse
Readability现在是一项服务,它的代码不可用。 -
我认为这是一个非常好的机器学习案例。 ML 模型可以通过
readability等库进行训练,也可以通过人工监督进行训练。 -
有很多图书馆试图为你做这件事(显然不是 100 准确)。看看这个github.com/nabinkhadka/readable-content
标签: python web-scraping html-parsing webpage