清理和规范脏刮数据的库答案

【问题标题】：Library to sanitize and normalize dirty scraped data清理和规范脏刮数据的库
【发布时间】：2019-10-31 18:21:14
【问题描述】：

我正在处理一个项目，该项目通过抓取从各个网站汇总数据，然后对输入数据进行清理并将其存储在 mongo 中。

目前，我必须实施许多自己的解决方案，以便在脏/丑陋的数据被刮掉时对其进行规范化或清理。例如，将所有出现的 USA、U.S.A、US 和 United States 替换为“USA”，以便表示统一，以及规范货币表示和数值。所以基本上我必须定期做以下事情：

我当前的实现工作，但经常在我广泛的 elif 语句列表中找到我不满足的情况。我不禁觉得我在重新发明轮子（糟糕的是），肯定有一个 Python 库可以解决这个问题吗？

【问题讨论】：

【解决方案1】：

【讨论】：