【发布时间】:2015-10-28 11:31:45
【问题描述】:
我正在从不同供应商(来自网站或 api)收集与电子产品相关的数据,我需要一种方法来从每个供应商那里找到类似产品并将它们链接到主数据库中。例如:供应商 1 将名称列为“Samsung Galaxy Note 4”,供应商 2 列为“galaxy note 4 black 16 GB”,供应商 3 列为“galaxy note 4”,我需要将它们全部链接为单个产品并存储参考不同的供应商。我进行了搜索,发现可以使用诸如 Talend 和 Kettle 之类的 ETL 并使用诸如 levenshtein、metaphone 等算法或使用 python 的 FuzzyWuzzy 来完成这种分析。它适用于不到 50% 的数据。我的问题是
- 在这种情况下,我应该使用什么类型的工具或包来获得最佳结果?
- 无论工具或代码有多好,关于正确性的最终决定都必须由人来做出,是否有更简单的方法来使用 GUI 作为最终检查来实现此映射。例如在 python 中,例如连接到两个表并在 ui(浏览器)中显示该数据并允许用户拖放到正确的数据。
我正在寻找帮助我解决问题的软件包或工具的名称。 我将非常感谢 anwser。
【问题讨论】:
-
工具推荐因堆栈溢出而脱离上下文。虽然我的建议是
pandas.
标签: python etl data-analysis