【发布时间】:2021-11-13 11:13:00
【问题描述】:
我正在使用顺序和频繁模式挖掘。我得到了这种类型的数据集来完成这项任务,并被告知在处理之前从数据集中制作一个序列。
这是从数据集中获取的样本数据,采用表格格式。 .csv 格式的表格位于:https://drive.google.com/file/d/1j1rEy4Q600y_oym23cG3m3NNWuNvIcgG/view?usp=sharing
| User | Item 1 | Item 2 | Item 3 | Item 4 | Item 5 | Item 6 |
|---|---|---|---|---|---|---|
| A | milk | cake | citrus | |||
| B | cheese | milk | bread | cabbage | carrot | |
| A | tea | juice | citrus | salmon | ||
| B | apple | orange | ||||
| B | cake |
首先,我想我必须将 csv 文件制作成 Pandas Dataframe。我对此没有问题,我想问的是,数据框怎么可能产生这样的结果?
预期结果1,从1个用户那里购买的一组物品被分组到一个元组中
| User | Transactions |
|---|---|
| A | (milk cake citrus)(tea juice citrus salmon) |
| B | (cheese milk bread cabbage carrot)(apple orange)(cake) |
预期结果2,用户购买的每件商品不按一个分组。
| User | Transactions |
|---|---|
| A | milk, cake, citrus, tea, juice, citrus, salmon, |
| B | cheese, milk, bread, cabbage, carrot, apple, orange, cake |
我的问题是,如何制作这些数据框?我已经尝试了这篇文章中的解决方案:How to group dataframe rows into list in pandas groupby,但仍然没有成功。
【问题讨论】:
-
你应该包括你的尝试和不适合你的地方。