【发布时间】:2019-10-31 18:21:14
【问题描述】:
我正在处理一个项目,该项目通过抓取从各个网站汇总数据,然后对输入数据进行清理并将其存储在 mongo 中。
目前,我必须实施许多自己的解决方案,以便在脏/丑陋的数据被刮掉时对其进行规范化或清理。例如,将所有出现的 USA、U.S.A、US 和 United States 替换为“USA”,以便表示统一,以及规范货币表示和数值。所以基本上我必须定期做以下事情:
- “模糊”匹配原始字符串值以规范化表示(美国;美国,美国 -> 美国)
- 将文本中的范围(日期时间或数字)解析为(最小、最大、)元组(“1,200 到 1,500”;“50 - 60”;“12+”)
- 从文本中确定货币和数值(200 美元;1200 英镑;)
我当前的实现工作,但经常在我广泛的 elif 语句列表中找到我不满足的情况。 我不禁觉得我在重新发明轮子(糟糕的是),肯定有一个 Python 库可以解决这个问题吗?
【问题讨论】:
标签: python validation web-scraping scrapy data-science