【发布时间】:2020-09-03 19:30:49
【问题描述】:
我正在做一个项目,我正在爬取数千个网站以提取文本数据,最终用例是自然语言处理。
编辑 * 因为我正在抓取 100 多个网站,所以我无法为每个网站定制抓取代码,这意味着我无法搜索特定的元素 id,我正在寻找的解决方案是通用的 *
我知道诸如美丽汤中的 .get_text() 函数之类的解决方案。这种方法的问题在于它从网站获取所有文本,其中大部分与该特定页面上的主题无关。在大多数情况下,网站页面将专注于一个主题,但在侧面、顶部和底部可能会有关于其他主题或促销或其他内容的链接或文本。
使用 .get_text() 函数,它可以一次性返回站点页面上的所有文本。问题在于它将所有内容(相关部分与不相关部分)结合在一起。是否有另一个类似于 .get_text() 的函数返回所有文本但作为列表并且每个列表对象都是文本的特定部分,这样它可以知道新科目的开始和结束。
作为奖励,有没有办法识别网页上的正文?
【问题讨论】:
-
也许您可以尝试使用正则表达式来获取您需要的链接。
-
@MustardTiger,你试过使用
find_all,它允许通过标签和属性搜索元素然后调用text
标签: python html parsing web-scraping web-crawler