【发布时间】:2015-11-17 01:09:09
【问题描述】:
我正在尝试合并两个关于并购的数据集。它们都包含 c.10'000 个观测值,每个观测值具有 c.50-100 个变量。一个包含有关实际并购交易的信息,而另一个包含有关交易如何融资的信息。
问题是没有明确和唯一的标识符。例如,我可以使用宣布交易的日期,但这不是唯一的,因为在某些日子里宣布了 10 笔交易。使用公司名称很困难,因为它们在两个数据集中大多不相同。例如,如果我在一个数据集中找到“Ebay”,在另一个数据集中,同一家公司可能被称为“eBay”、“Ebay Inc”或“Ebay, Inc.”。
我一直在使用 Excel 的 Fuzzy Lookup 插件,以及连接各种非唯一但组合起来有用的标识符(例如日期和国家/地区以及 SIC 行业分类代码等)。但是,我无法生成我希望的那么多匹配项。
如果有任何想法或资源指针可以帮助我更有效地合并数据集,我将不胜感激。
【问题讨论】:
标签: database excel dataset record-linkage