【问题标题】:Library to sanitize and normalize dirty scraped data清理和规范脏刮数据的库
【发布时间】:2019-10-31 18:21:14
【问题描述】:

我正在处理一个项目,该项目通过抓取从各个网站汇总数据,然后对输入数据进行清理并将其存储在 mongo 中。

目前,我必须实施许多自己的解决方案,以便在脏/丑陋的数据被刮掉时对其进行规范化或清理。例如,将所有出现的 USA、U.S.A、US 和 United States 替换为“USA”,以便表示统一,以及规范货币表示和数值。所以基本上我必须定期做以下事情:

  • “模糊”匹配原始字符串值以规范化表示(美国;美国,美国 -> 美国)
  • 将文本中的范围(日期时间或数字)解析为(最小、最大、)元组(“1,200 到 1,500”;“50 - 60”;“12+”)
  • 从文本中确定货币和数值(200 美元;1200 英镑;)

我当前的实现工作,但经常在我广泛的 elif 语句列表中找到我不满足的情况。 我不禁觉得我在重新发明轮子(糟糕的是),肯定有一个 Python 库可以解决这个问题吗?

【问题讨论】:

    标签: python validation web-scraping scrapy data-science


    【解决方案1】:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2013-12-16
      • 1970-01-01
      • 1970-01-01
      • 2021-10-27
      • 2017-01-30
      • 2017-06-14
      • 2011-07-12
      相关资源
      最近更新 更多