【发布时间】:2017-09-27 06:55:12
【问题描述】:
我有关于熊猫数据框合并的问题。
请看下面的数据..
Rating csv
UserID ContentID Rating
U-1 C-1 3
U-1 C-2 4
U-3 C-3 1
U-5 C-1 5
Content csv
Title ContentID Language
T-1 C-1 EN
T-2 C-2 EN
T-3 C-3 EN
User csv
UserID Age Gender
U-1 10 1
U-2 20 0
U-3 30 1
U-4 40 0
U-5 50 1
U-6 60 0
U-7 70 1
我想要结果
UserID ContentID Rating Title Language Age Gender
U-1 C-1 3 T-1 EN 10 1
U-1 C-2 4 T-2 EN 10 1
U-1 C-3 NAN T-3 EN 10 1
U-2 C-1 NAN T-1 EN 20 0
U-2 C-2 NAN T-2 EN 20 0
U-2 C-3 NAN T-3 EN 20 0
U-3 C-1 NAN T-1 EN 30 1
U-3 C-2 NAN T-2 EN 30 1
U-3 C-3 1 T-3 EN 30 1
U-4 C-1 NAN T-1 EN 40 0
U-4 C-2 NAN T-2 EN 40 0
U-4 C-3 NAN T-3 EN 40 0
U-5 C-1 5 T-1 EN 50 1
U-5 C-2 NAN T-2 EN 50 1
U-5 C-3 NAN T-3 EN 50 1
U-6 C-1 NAN T-1 EN 60 0
U-6 C-2 NAN T-2 EN 60 0
U-6 C-3 NAN T-3 EN 60 0
U-7 C-1 NAN T-1 EN 70 1
U-7 C-2 NAN T-2 EN 70 1
U-7 C-3 NAN T-3 EN 70 1
总 DF 行大小为 UserID(User csv) Count * ContentID(Content csv) Count (例如> 7 * 3 以上 -> 21 行)
所有 DataFrame 都是相关的。 - 评级/内容 -> ContentID - 评级/用户 -> 用户 ID
也就是说,Result DataFrame 只是保持 rating zone(NAN),Other zone 是 none nan。
Real Size Content(6000), User(220000) -> 总结果行数:约 1300000000
我试了一下,但它会引发 memoryError...
请帮帮我..谢谢..
【问题讨论】:
-
听起来你想要加入(某种形式的)。
标签: pandas join dataframe tensorflow concat