【发布时间】:2020-10-07 00:17:48
【问题描述】:
我想提取新闻文章内容,我目前正在使用 newspaper3k 库:
a = Article(url, memoize_articles=False, language='en')
a.download()
a.parse()
content = a.text
但对于某些网站,图像中存在广告和文字等不需要的元素。所以我想删除那些不需要的元素和文本。有没有办法从这些标签和类中删除所有内容?
【问题讨论】:
标签: html python-3.x web-scraping data-cleaning newspaper3k