【发布时间】:2021-06-15 22:11:17
【问题描述】:
我创建了一个程序来抓取比特币和以太坊等加密货币的各种新闻来源,并将文章存储在 mongodb 中。刮板刮掉的不仅仅是与加密有关的文章,现在我正在尝试删除不相关的文章。
我将数据下载到 .csv 并使用 pandas 来检查和清理数据。各栏目如下:
Index(['_id', 'author', 'title', 'description', 'url', 'urlToImage',
'publishedAt', 'content', 'summarization', 'source_id']
我专注于内容栏以尝试提取不相关的文章。我的困境是确定查找和删除不相关文章的最佳方法。
我的思路是找到所有不包含以下字符串的文章并删除:
(['cryptocurrency', 'cryptocurrencies', 'bitcoin', 'ethereum']
但是,我不确定这是否是最有效的方法。谁能推荐解决这个问题的方法?
【问题讨论】:
标签: python-3.x pandas machine-learning nlp data-cleaning