【问题标题】:Reformatting CSV files in R在 R 中重新格式化 CSV 文件
【发布时间】:2016-01-16 06:20:38
【问题描述】:

我正在尝试创建一个用于数据挖掘的 csv 文件,其中每个单独的实例都有一个属性 subject,该属性具有 40 可能的值,并且相应的 grade 也是一个属性。每个实例最多只能有 4 subjectsgrade。如何在 excel 中创建一个 csv 文件,将每个主题 {p,q,r,s,t,u,v,w,x,y,z,aa,ab,...} 表示为主题的 sub-attribute,以等级 {A,B,C,D,E,F,O} 为值,这样我就不会失去依赖和关系。

他们显然是安排(subject->sub, grade->grd)如下

|id|sex|sub1 |grd1 |sub2 |grd2 |sub3 |grd3 |sub4 |grd4 |
|--|---|-----|-----|-----|-----|-----|-----|-----|-----|
|1 |M  |x    |A    |y    |B    |u    |O    |s    |C    |
|2 |F  |p    |E    |aa   |E    |t    |A    |r    |B    |
|3 |M  |q    |B    |z    |D    |aa   |A    |v    |C    |
|4 |F  |t    |D    |ab   |O    |y    |B    |u    |A    |

我想把属性转换成什么

|id|sex|subject                                        |
|--|---|-----------------------------------------------|
|1 |M  |x    |A    |y    |B    |u    |O    |s    |C    |
|2 |F  |p    |E    |aa   |E    |t    |A    |r    |B    |
|3 |M  |q    |B    |z    |D    |aa   |A    |v    |C    |
|4 |F  |t    |D    |ab   |O    |y    |B    |u    |A    |

提前致谢

【问题讨论】:

  • 为什么?没有应用程序能够读取这种格式。因为它不再是 不是 CSV了。
  • 这两个表除了列标题外看起来完全相同,因此很难理解您要查找的转换类型。你能澄清一下吗?通常,Excel 中的大规模转换往往比使用 OpenRefine 等工具或 Python 等语言更难。

标签: python r excel csv data-mining


【解决方案1】:

已经很久了,但希望这对其他人有所帮助。正如@Anony-Mousse 所指出的,该格式不再是 csv 数据格式。诸如字典之类的数据结构可能有助于这种表示形式。这里有两种可能的选择,您可以创建嵌套字典和列表,或者数据的表示可以是宽格式。对于像 R 这样的语言,要将数据转换为长格式,您可以使用 reshape 包参考此链接。 https://stats.idre.ucla.edu/r/faq/how-can-i-reshape-my-data-in-r/

【讨论】:

    猜你喜欢
    • 2020-10-28
    • 2015-12-07
    • 2018-12-08
    • 1970-01-01
    • 1970-01-01
    • 2016-10-04
    • 1970-01-01
    • 2017-04-19
    • 1970-01-01
    相关资源
    最近更新 更多