Task01&Task02

Task01 天池二手车数据题目理解&baseline

Task01&Task02
一、赛题数据
赛题以预测二手车的交易价格为任务，数据集报名后可见并可下载，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取15万条作为训练集，5万条作为测试集A，5万条作为测试集B，同时会对name、model、brand和regionCode等信息进行脱敏。
二、赛题的评判标准 Task01&Task02
三、分析赛题
根据赛题的数据及评判标准，可以分析此次赛题应该会回归的模型。原因在于回归问题可以减小误差，符合题意，具有应用性，如果采用分类，可能会出现因分类区间问题导致的相似品质的二手车价格被分在两个不同的区间，导致误差增大，模型效果差。
所以此次我们可以选择XGB和LGBM模型，调参的话可以采用网格搜索自动调参，后续可以考虑运算时间的优化。
本次赛题的重难点应该在数据清洗，通过EDA挖掘数据结构和树蕨特征，处理异常值。
四、baseline框架
（1）读取数据
a.描述数据，分析数据信息
b.对比测试集和训练集数据集的数据情况
（2）清洗数据
（3）模型构建