【发布时间】:2016-10-05 17:16:53
【问题描述】:
我有一个这样的数据框。
user tag1 tag2 tag3
0 Roshan ghai 0.0 1.0 1.0
1 mank nion 1.0 1.0 2.0
2 pop rajuel 2.0 0.0 1.0
3 random guy 2.0 1.0 1.0
我必须对每一行应用一个计算。对于每个元素 x
x =(( specific tag's count for that user ##that element itself##))/ max no. of count of that tag ##max value of that column##)) * (ln(no. of total user ##lenth of df##)/(no. of of user having that tag ##no. of user having non 0 count for that particular tag or column ##))
我用## 来描述那个特定的值。我必须为数据框的每个元素都这样做,因为我有一个很大的数字,所以最有效的方法是什么。的元素。我正在使用python2.7。 输出:
user tag1 tag2 tag3
0 Roshan ghai 0 .287 0
1 mank nion .143 .287 0
2 pop rajuel .287 0 0
3 random guy .287 .287 0
我刚刚使用了我为 mank nion 和 tag1 编写的公式 x =((1.0)/2.0)*(ln(4/3) = .143 .
【问题讨论】:
-
您能否添加所需的输出以及如何计算此输出中的第一个值?
-
@jezrael 我已经添加了输出,该用户的计数是我在数据框中为该用户和标签所拥有的内容,例如 mank nion 和 tag1 它是 1.0。还有其他疑问吗?请帮忙
-
@jezrael 请帮忙。
-
请检查解决方案。
标签: python pandas dataframe data-analysis large-data