该比赛将使用具有挑战性的时间序列数据集,由俄罗斯最大的软件公司之一 1C公司提供。数据中包括商店,商品,价格,日销量等连续34个月的数据,要求预测第35个月产品和商店的销量。评价指标为RMSE,Baseline是1.1677。
数据集共6张表。其中sales_train是主表。item_categories, items, shops为补充表。test为提交用的表,sample_submission表顾名思义。
一、读数据
拿到数据后,先看一下数据。csv数据直接用pd.read_csv来阅读,pd.head()可看到该pd的前5行数据,pd.info()可统计该pd属性type、count等信息,df.describe()可统计pd中每个属性mean、std等信息。
train = pd.read_csv("../DATA/SALES/sales_train.csv") cats = pd.read_csv("../DATA/SALES/item_categories.csv") items = pd.read_csv("../DATA/SALES/items.csv") shops=pd.read_csv("../DATA/SALES/shops.csv") test = pd.read_csv("../DATA/SALES/test.csv")