【发布时间】:2015-03-03 21:31:38
【问题描述】:
我目前被一些小型数据集的基本问题难住了。下面是前三行来说明数据的格式:
"Sport","Entry","Contest_Date_EST","Place","Points","Winnings_Non_Ticket","Winnings_Ticket","Contest_Entries","Entry_Fee","Prize_Pool","Places_Paid"
"NBA","NBA 3K Crossover #3 [3,000 保证](仅限早期)(1/15)","2015-03-01 13:00:00",35,283.25,"13.33","0.00" ,171,"20.00","3,000.00",35
"NBA","NBA 1,500 上篮 #4 [1,500 保证] (仅早期) (1/25)","2015-03-01 13:00:00",148,283.25,"3.00","0.00" ,862,"2.00","1,500.00",200
使用 read_csv 创建 DataFrame 后遇到的问题:
某些分类值(例如 Prize_Pool)中存在逗号导致 python 将这些条目视为字符串。我需要将这些转换为浮点数以便进行某些计算。我已经使用了 python 的 replace() 函数来去掉逗号,但这就是我所得到的。
类别 Contest_Date_EST 包含时间戳,但有些是重复的。我想将整个数据集子集化为一个只有唯一时间戳的数据集。可以选择删除重复条目或条目,但目前我只想能够过滤具有唯一时间戳的数据。
【问题讨论】:
-
否,
csv将 所有 字段视为字符串。如果您希望它们不是字符串,那么您需要对它们进行后处理。 -
很高兴知道,但是 python 允许我对其他类别(例如 Entry_Fee)进行基本计算,没有任何问题。你会推荐什么样的后处理?
-
然后其他东西正在对这些字段进行后处理。也许你应该告诉它后处理其他字段的正确方法。
-
float(row[9].replace(',',''))有什么问题? -
好的,从时间戳类别中过滤掉重复条目怎么样?回复:Clemens - 我收到以下错误:TypeError: cannot convert the series to
标签: python pandas unique dataframe