【发布时间】:2022-10-23 21:43:32
【问题描述】:
第一次问问题,请见谅。处理两个不同的数据帧,一个包含州级数据,另一个包含单个级别数据(在州内)
调查框架:
| Location | Year | Age | Smokes | |
|---|---|---|---|---|
| 1 | NY | 2000 | 15 | False |
| 2 | NY | 2000 | 17 | True |
| 3 | NY | 2001 | 13 | True |
| 4 | NY | 2001 | 16 | False |
| 5 | SD | 2000 | 15 | False |
| 6 | SD | 2000 | 17 | True |
| 7 | SD | 2001 | 13 | True |
| 8 | SD | 2001 | 16 | False |
ETC...
税框架:
| Location | Year | SubMeasure | Value | |
|---|---|---|---|---|
| 1 | NY | 2000 | Total Tax/Pack | 0.50 |
| 2 | NY | 2000 | Avg Cost/Pack | 5.50 |
| 3 | NY | 2001 | Total Tax/Pack | 0.75 |
| 4 | NY | 2001 | Avg Cost/Pack | 5.75 |
| 5 | SD | 2000 | Total Tax/Pack | 0.10 |
| 6 | SD | 2000 | Avg Cost/Pack | 3.25 |
| 7 | SD | 2001 | Total Tax/Pack | 0.10 |
| 8 | SD | 2001 | Avg Cost/Pack | 3.25 |
ETC...
欲望:
| Location | Year | Age | Smokes | Total Tax/Pack | Avg Cost/Pack | |
|---|---|---|---|---|---|---|
| 1 | NY | 2000 | 15 | False | 0.50 | 5.50 |
| 2 | NY | 2000 | 17 | True | 0.50 | 5.50 |
| 3 | NY | 2001 | 13 | True | 0.75 | 5.75 |
| 4 | NY | 2001 | 16 | False | 0.75 | 5.75 |
| 5 | SD | 2000 | 15 | False | 0.10 | 3.25 |
| 6 | SD | 2000 | 17 | True | 0.10 | 3.25 |
| 7 | SD | 2001 | 13 | True | 0.10 | 3.25 |
| 8 | SD | 2001 | 16 | False | 0.10 | 3.25 |
使用大约 10 个州和超过 200,000 个人的多个子措施的数据。
我的第一个想法是遍历附加到surveyrfame 的每一列,从位置和年份与当前indes 的位置和年份匹配的taxframe 中填写值,但这似乎效率低下。有没有更好的方法来用熊猫完成这件事?
谢谢
【问题讨论】:
-
请提供预期的输出数据框。
-
请提供足够的代码,以便其他人可以更好地理解或重现该问题。
标签: python pandas dataframe google-colaboratory