【发布时间】:2019-04-16 18:57:05
【问题描述】:
目前我正在做一个项目,我想分析来自不同博客、杂志等的不同文章,这些文章在他们的网站上在线发布。
因此,我已经使用 Python 构建了一个 Webcrawler,它将每篇新文章都以 html 格式获取。
现在重点是,我想分析纯内容(只有文章,没有 cmets 或推荐等),但我无法访问此内容,没有定义正则表达式,从 html 响应中提取内容我明白了。每个来源的正则表达式不是替代品,因为我有大约 100 个不同的文章来源。
我曾尝试使用库 html2text 来提取内容,但是该库仅将纯 html 转换为 markdown,因此仍然存在 cmets 或推荐之类的东西,我必须手动删除。
任何想法,我该如何面对这个问题?
【问题讨论】:
标签: python web-scraping web-crawler data-analysis