kaggle比赛链接:https://www.kaggle.com/c/competitive-data-science-predict-future-sales/data?select=item_categories.csv

该比赛将使用具有挑战性的时间序列数据集,由俄罗斯最大的软件公司之一 1C公司提供。数据中包括商店,商品,价格,日销量等连续34个月的数据,要求预测第35个月产品和商店的销量。评价指标为RMSE,Baseline是1.1677。

数据集共6张表。其中sales_train是主表。item_categories, items, shops为补充表。test为提交用的表,sample_submission表顾名思义。

【kaggle】Predict Feature Sales

 一、读数据

拿到数据后,先看一下数据。csv数据直接用pd.read_csv来阅读,pd.head()可看到该pd的前5行数据,pd.info()可统计该pd属性type、count等信息,df.describe()可统计pd中每个属性mean、std等信息。

train = pd.read_csv("../DATA/SALES/sales_train.csv")
cats = pd.read_csv("../DATA/SALES/item_categories.csv")
items = pd.read_csv("../DATA/SALES/items.csv")
shops=pd.read_csv("../DATA/SALES/shops.csv")
test = pd.read_csv("../DATA/SALES/test.csv")
read data

相关文章: