【发布时间】:2013-03-08 23:06:12
【问题描述】:
我是一个超级足球迷,对机器学习也很感兴趣。作为我的 ML 课程的一个项目,我正在尝试建立一个模型,根据主队和客队的名字来预测主队获胜的机会。(我查询我的数据集并根据之前的比赛创建数据点两队之间)
我有所有球队几个赛季的数据,但是我有以下问题,我想提出一些建议。 EPL(英超联赛)有 20 支球队在主场和客场比赛(总共 380 场比赛)季节)。因此,每个赛季,任何 2 支球队只交手两次。
我有过去 10 多年的数据,因此两个团队有 2*10=20 个数据点。但是我不想超过 3 年,因为我相信球队会随着时间的推移发生相当大的变化(曼城、利物浦),这只会给系统带来更多错误。
因此,这导致每对团队只有大约 6-8 个数据点。但是,对于每个数据点,我确实有几个特征(最多 20 多个),例如两支球队的全场进球、半场进球、传球、射门、黄球、红球等,因此我可以包括最近的形式、最近的主场等特征表格,最近离开表格等。
但是,仅使用 6-8 个数据点进行训练的想法对我来说似乎是不正确的。关于如何解决这个问题有什么想法吗?(如果这首先是一个问题,即)
谢谢!
编辑:FWIW,这是我在项目完成时编译的报告的链接。 https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf 。这不是什么“好”的东西,但我认为我设法引出的一些观察结果非常酷(比如我的预测对德甲联赛非常有效,因为拜仁一直赢得联赛冠军)。
【问题讨论】:
-
非常有趣。您的数据集是否公开,以便其他人也可以进行试验?
-
我正在使用这些football-data.co.uk/data.php
-
@keithxm23 您使用了哪些工具? WEKA 还是快速矿工?
-
@user2137186 我使用 WEKA 进行初步分析,然后最终编写了自己的 AdaBoost 作为最终报告。
-
@keithxm23 您的 Github 上的数据集包括所有内容,甚至包括投注赔率……您为什么使用它?
标签: machine-learning neural-network regression prediction