【发布时间】:2016-01-16 06:20:38
【问题描述】:
我正在尝试创建一个用于数据挖掘的 csv 文件,其中每个单独的实例都有一个属性 subject,该属性具有 40 可能的值,并且相应的 grade 也是一个属性。每个实例最多只能有 4 subjects 和 grade。如何在 excel 中创建一个 csv 文件,将每个主题 {p,q,r,s,t,u,v,w,x,y,z,aa,ab,...} 表示为主题的 sub-attribute,以等级 {A,B,C,D,E,F,O} 为值,这样我就不会失去依赖和关系。
他们显然是安排(subject->sub, grade->grd)如下
|id|sex|sub1 |grd1 |sub2 |grd2 |sub3 |grd3 |sub4 |grd4 |
|--|---|-----|-----|-----|-----|-----|-----|-----|-----|
|1 |M |x |A |y |B |u |O |s |C |
|2 |F |p |E |aa |E |t |A |r |B |
|3 |M |q |B |z |D |aa |A |v |C |
|4 |F |t |D |ab |O |y |B |u |A |
我想把属性转换成什么
|id|sex|subject |
|--|---|-----------------------------------------------|
|1 |M |x |A |y |B |u |O |s |C |
|2 |F |p |E |aa |E |t |A |r |B |
|3 |M |q |B |z |D |aa |A |v |C |
|4 |F |t |D |ab |O |y |B |u |A |
提前致谢
【问题讨论】:
-
为什么?没有应用程序能够读取这种格式。因为它不再是 不是 CSV了。
-
这两个表除了列标题外看起来完全相同,因此很难理解您要查找的转换类型。你能澄清一下吗?通常,Excel 中的大规模转换往往比使用 OpenRefine 等工具或 Python 等语言更难。
标签: python r excel csv data-mining