【发布时间】:2019-12-19 08:34:46
【问题描述】:
我有一组来自 CMS (Medicare) 的 Excel 电子表格,我想对其进行分析,并已使用 pandas 成功地将它们导入数据框。不幸的是,列名不是统一的,很多是相似的,但是由于随机空格、换行或额外信息而有所不同。示例:
- '血管或循环系统疾病'
- '血管或循环系统疾病 (CC 104-106)'
- '血管或循环系统疾病'
或
- 'ID\n编号'
- 'ID \nNumber'
- '身份证号'
我会简单地单独更改列的名称pandas: Merge two columns with different names?,但我有超过 350 列,并且很有可能它们的列名将来会更改。
一些想法是使用正则表达式来创建匹配名称的案例,但我发现很难捕获所有案例并且将来可能会遇到新案例。另一个想法是使用 NLP 来软匹配列。
有什么建议或图书馆吗?谢谢!
【问题讨论】: