【发布时间】:2020-02-10 18:06:37
【问题描述】:
我是编码新手,在合并 csv 文件时遇到问题。我搜索了类似的问题,但没有找到解决方法。只是包括一些相关的细节: CSV 文件是 1950 - 2017 年期间不同国家的癌症类型(肺癌、结直肠癌、胃癌、肝癌和乳腺癌) 以下是肺癌的布局示例。
dlung.describe(include='all')
dlung
Year Cancer Country Gender ASR SE
0 1950 Lung Australia Male 13.89 0.56
1 1951 Lung Australia Male 14.84 0.57
2 1952 Lung Australia Male 17.19 0.61
3 1953 Lung Australia Male 18.21 0.62
4 1954 Lung Australia Male 19.05 0.63
5 1955 Lung Australia Male 20.65 0.65
6 1956 Lung Australia Male 22.05 0.67
7 1957 Lung Australia Male 23.93 0.69
8 1958 Lung Australia Male 23.77 0.68
9 1959 Lung Australia Male 26.12 0.71
10 1960 Lung Australia Male 27.08 0.72
我有兴趣根据共享列(年份、国家/地区)将所有癌症类型加入一个数据框。 我尝试了不同的方法,但它们似乎都重复了年份和国家(如下)
-
这个还不错,但是我有两列分别代表年份和国家
df_lung_colorectal = pd.concat([dlung, dcolorectal], axis = 1) df_lung_colorectal Year Cancer Country Gender ASR SE Year Cancer Country Gender ASR SE
如果我继续这样下去,我将得到 5 个相同的 YEAR 列和 5 个 COUNTRY 列。
关于如何将所有独立的值(癌症类型和相关的 ASR(标准化风险)以及 SE 值)合并为 YEAR、COUNTRY(和 GENDER)的一列(如果可能)有什么想法吗?
【问题讨论】: