【问题标题】:Pandas Merge Multi DataFrame( relate DataFrame )Pandas 合并多数据帧(相关数据帧)
【发布时间】:2017-09-27 06:55:12
【问题描述】:

我有关于熊猫数据框合并的问题。

请看下面的数据..

Rating csv
UserID ContentID Rating 
U-1      C-1       3
U-1      C-2       4
U-3      C-3       1
U-5      C-1       5

Content csv
Title ContentID Language
T-1      C-1      EN
T-2      C-2      EN
T-3      C-3      EN

User csv
UserID Age Gender
U-1    10    1
U-2    20    0
U-3    30    1
U-4    40    0 
U-5    50    1
U-6    60    0
U-7    70    1

我想要结果

UserID ContentID Rating Title Language Age  Gender
U-1      C-1       3     T-1     EN     10     1
U-1      C-2       4     T-2     EN     10     1
U-1      C-3      NAN    T-3     EN     10     1
U-2      C-1      NAN    T-1     EN     20     0   
U-2      C-2      NAN    T-2     EN     20     0
U-2      C-3      NAN    T-3     EN     20     0
U-3      C-1      NAN    T-1     EN     30     1         
U-3      C-2      NAN    T-2     EN     30     1   
U-3      C-3       1     T-3     EN     30     1    
U-4      C-1      NAN    T-1     EN     40     0    
U-4      C-2      NAN    T-2     EN     40     0   
U-4      C-3      NAN    T-3     EN     40     0   
U-5      C-1       5     T-1     EN     50     1          
U-5      C-2      NAN    T-2     EN     50     1    
U-5      C-3      NAN    T-3     EN     50     1    
U-6      C-1      NAN    T-1     EN     60     0     
U-6      C-2      NAN    T-2     EN     60     0     
U-6      C-3      NAN    T-3     EN     60     0     
U-7      C-1      NAN    T-1     EN     70     1     
U-7      C-2      NAN    T-2     EN     70     1     
U-7      C-3      NAN    T-3     EN     70     1    

总 DF 行大小为 UserID(User csv) Count * ContentID(Content csv) Count (例如> 7 * 3 以上 -> 21 行)

所有 DataFrame 都是相关的。 - 评级/内容 -> ContentID - 评级/用户 -> 用户 ID

也就是说,Result DataFrame 只是保持 rating zone(NAN),Other zone 是 none nan。

Real Size Content(6000), User(220000) -> 总结果行数:约 1300000000

我试了一下,但它会引发 memoryError...

请帮帮我..谢谢..

【问题讨论】:

  • 听起来你想要加入(某种形式的)。

标签: pandas join dataframe tensorflow concat


【解决方案1】:

您可以将交叉连接与左连接一起使用 - df2.ContentIDdf3.UserID 中必要的唯一值:

df = pd.merge(pd.merge(df3.assign(A=1), df2.assign(A=1), on='A'), df1, 'left').drop('A', 1)
print (df)
   UserID  Age  Gender Title ContentID Language  Rating
0     U-1   10       1   T-1       C-1       EN     3.0
1     U-1   10       1   T-2       C-2       EN     4.0
2     U-1   10       1   T-3       C-3       EN     NaN
3     U-2   20       0   T-1       C-1       EN     NaN
4     U-2   20       0   T-2       C-2       EN     NaN
5     U-2   20       0   T-3       C-3       EN     NaN
6     U-3   30       1   T-1       C-1       EN     NaN
7     U-3   30       1   T-2       C-2       EN     NaN
8     U-3   30       1   T-3       C-3       EN     1.0
9     U-4   40       0   T-1       C-1       EN     NaN
10    U-4   40       0   T-2       C-2       EN     NaN
11    U-4   40       0   T-3       C-3       EN     NaN
12    U-5   50       1   T-1       C-1       EN     5.0
13    U-5   50       1   T-2       C-2       EN     NaN
14    U-5   50       1   T-3       C-3       EN     NaN
15    U-6   60       0   T-1       C-1       EN     NaN
16    U-6   60       0   T-2       C-2       EN     NaN
17    U-6   60       0   T-3       C-3       EN     NaN
18    U-7   70       1   T-1       C-1       EN     NaN
19    U-7   70       1   T-2       C-2       EN     NaN
20    U-7   70       1   T-3       C-3       EN     NaN

【讨论】:

  • 您好,您的回答是在大数据中引发 MemoryError。您的回答在小数据中很好,但在大数据中会引发 memoryError。我使用用户(6000),内容(220000)。请帮帮我。
  • 很抱歉,熊猫如果非常大的文件需要更多RAM。 Mayby 最好使用dask
猜你喜欢
  • 1970-01-01
  • 2018-08-06
  • 1970-01-01
  • 2021-01-10
  • 1970-01-01
  • 1970-01-01
  • 2016-10-17
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多