【发布时间】:2017-07-28 19:26:57
【问题描述】:
我有一个包含 5 列的 100 万条记录的数据框。
unique_index,name,company_name,city_id,state_id
company_name 列有 100k 条唯一记录。这遵循幂律。 Top 5000 company_names 覆盖了 70% 的记录。
我想从对前 5000 名数据做出贡献的公司和剩余的集合中抽取相同数量的样本。
我试过pd.qcut(df['company_name'],[0.25,1]。这给了我以下错误:
TypeError: unorderable types: str() <= float()。 qcut可以不加字符串吗?
【问题讨论】:
标签: python pandas sampling power-law