【发布时间】:2020-04-08 12:48:27
【问题描述】:
所以我仍然是 pandas 和 scikit-learn 的新手,并且已经完成了作业,以找到对给出的样本数据的任何见解。我得到的唯一线索是,部分见解应该与机器学习有关。
我查过数据后发现有很多不一致的地方。这是一个包含 2 列、地址和发货日期的一周发货数据。我遇到了地址列数据不一致的问题,这里是示例:
+--------------------------------+--------------+
| to_address | booking_date |
+--------------------------------+--------------+
| 52426 E. La Palma, Anaheim, CA | 11-12-17 |
| 52511 Blvd, Avn. Californi | 12-12-17 |
| | 13-12-17 |
| 600 S.Brookhurst UTAH | 14-12-17 |
| 190 E.Stacy Rd.,Allen,Texas | 15-12-17 |
| 1075 W. I-20, Tex | 15-12-17 |
+--------------------------------+--------------+
如您所见,地址输入有很多不一致的地方。有些地址的状态可以用逗号分隔,有些则没有。有些地址有完整的状态,有些缺少几个字符。地址列中还有空格和 \n 格式。到目前为止,我一直在清理这个地址列,方法是删除空格,从地址中删除 \n 格式,并通过用逗号分割地址列并获取最后一个索引来创建状态列(tbh,它不是很好,因为打字不一致)。
我的问题是,我在清理数据方面的工作方向是否正确?如何在这类数据中使用 seaborn 进行探索性数据分析以获得可能的洞察力? (我尝试过按预订日期使用计数图,它显示了 12 月 12 日和 15 日之间的巨大差距,这是洞察力吗?)。它真的适用于机器学习分类算法吗?
任何有用的方向都会非常棒,谢谢。
【问题讨论】:
标签: python pandas scikit-learn seaborn data-science