【发布时间】:2023-03-14 09:25:01
【问题描述】:
想知道是否有人可以指出学术论文的方向或启发式方法的相关实现以查找特定网页的真实内容。
显然这不是一项简单的任务,因为问题描述如此模糊,但我认为我们都对页面主要内容的含义有一个大致的了解。
例如,它可能包含新闻文章的故事文本,但可能不包含任何导航元素、法律免责声明、相关故事预告片、cmets 等。文章标题、日期、作者姓名和其他元数据属于灰色类。
我认为这种方法的应用价值很大,并且预计 Google 会在他们的搜索算法中以某种方式使用它,所以在我看来,这个主题过去曾被学术界处理过。
有参考吗?
【问题讨论】:
标签: parsing nlp web-crawler