寻找主要内容的启发式方法答案

【问题标题】：Heuristic Approaches to Finding Main Content寻找主要内容的启发式方法
【发布时间】：2023-03-14 09:25:01
【问题描述】：

想知道是否有人可以指出学术论文的方向或启发式方法的相关实现以查找特定网页的真实内容。

显然这不是一项简单的任务，因为问题描述如此模糊，但我认为我们都对页面主要内容的含义有一个大致的了解。

例如，它可能包含新闻文章的故事文本，但可能不包含任何导航元素、法律免责声明、相关故事预告片、cmets 等。文章标题、日期、作者姓名和其他元数据属于灰色类。

我认为这种方法的应用价值很大，并且预计 Google 会在他们的搜索算法中以某种方式使用它，所以在我看来，这个主题过去曾被学术界处理过。

有参考吗？

【问题讨论】：

标签： parsing nlp web-crawler

【解决方案1】：

看待这个问题的一种方法是作为信息提取问题。

因此，一种高级算法是收集相同页面类型的多个示例，并为页面的不同部分推断解析（或提取）规则（这可能是主要主题）。直觉是，常见的样板（页眉、页脚等）和广告最终会出现在这些网页的多个示例中，因此通过对其中一些进行训练，您可以快速开始可靠地识别此样板/附加代码，然后忽略它。这不是万无一失的，但这也是商业和学术网络抓取技术的基础，例如 RoadRunner：

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf

引文是：

Valter Crescenzi，Giansalvatore 麦加， Paolo Merialdo：RoadRunner：迈向从大数据中自动提取数据网站。 VLDB 2001：109-118

还有一个被广泛引用的提取技术调查：

Alberto H. F. Laender，Berthier A. Ribeiro-Neto，Altigran S. da Silva， Juliana S. Teixeira，对网络数据提取工具，ACM SIGMOD 记录，v.31 n.2，2002 年 6 月 [doi>10.1145/565117.565137]

【讨论】：