【发布时间】:2018-06-01 14:07:37
【问题描述】:
我想使用来自 NOAA 网站的一些数据。这是一个 csv 文件,包含自 1851 年以来所有飓风的数据,格式如下:Format example / README file
如您所见,尽管所有内容都包含在一个 csv 文件中,但每个飓风都有自己的表格,并带有单独的标题。
如何删除标题并将信息放在“飓风名称”列中?我想将所有内容组合到一个数据框中,因此更易于使用。谢谢!
例子:
AL092011,艾琳,3,
20110821, 0000, , TS, 15.0N, 59.0W, 45, 1006, 105, 0, 0,
45, 0, 0, 0, 0, 0, 0, 0, 0,20110821, 0600, , TS, 16.0N, 60.6W, 45, 1006, 130, 0, 0,
80, 0, 0, 0, 0, 0, 0, 0, 0,20110821, 1200, , TS, 16.8N, 62.2W, 45, 1005, 130, 0, 0,
70, 0, 0, 0, 0, 0, 0, 0, 0,AL092012,ANOTHER_NAME,2,
20110821, 1800, , TS, 17.5N, 63.7W, 50, 999, 130, 20, 0,
70, 30, 0, 0, 0, 0, 0, 0, 0,20110822, 0000, , TS, 17.9N, 65.0W, 60, 993, 130, 30, 30,
90, 30, 0, 0, 30, 0, 0, 0, 0,
我想把标题信息放到列中,像这样:
AL092011, IRENE, 20110821, 0000, , TS, 15.0N, 59.0W, 45, 1006, 105, 0, 0,
45, 0, 0, 0, 0, 0, 0, 0, 0,AL092011, IRENE, 20110821, 0600, , TS, 16.0N, 60.6W, 45, 1006, 130, 0, 0,
80, 0, 0, 0, 0, 0, 0, 0, 0,AL092011, IRENE, 20110821, 1200, , TS, 16.8N, 62.2W, 45, 1005, 130, 0, 0,
70, 0, 0, 0, 0, 0, 0, 0, 0,AL092012, ANOTHER_NAME, 20110821, 1800, , TS, 17.5N, 63.7W, 50, 999, 130, 20, 0,
70, 30, 0, 0, 0, 0, 0, 0, 0,AL092012, ANOTHER_NAME, 20110822, 0000, , TS, 17.9N, 65.0W, 60, 993, 130, 30, 30,
90, 30, 0, 0, 30, 0, 0, 0, 0,
【问题讨论】:
-
每个标头都以“AL”开头,因此应该很容易确定在哪里拆分数据
-
您不能创建一个输入示例来帮助我们理解您的数据并包含所需的输出吗?
-
@zipa 链接中有数据示例
-
链接中的数据示例包含单个表格,您没有向我们提供所需的输出。请看如何提供minimal reproducible example
-
@zipa 它只是 csv 文件的一部分,基本上数据与此相同,但使用不同的标题一遍又一遍地重复..
标签: python pandas csv dataframe data-cleaning