2020 Kaggle比赛:OSIC 基于肺部CT的肺功能衰退预测(一)

几个月前kaggle的认识也只停留在只知道它是一个数据科学竞赛的平台。由于种种契机,直到现在才算是刚刚真正接触kaggle比赛,作为一个菜鸟,学了一部分基础课程,然后挑战了练习赛:【房价预测】,经过几次提交总算达到前9%的成绩。虽然是练习赛,排名上每一次小小的进步还是让人有点小兴奋。

2020 Kaggle比赛:OSIC 基于肺部CT的肺功能衰退预测(一)

由于刚刚入门吧,遇到不少困难。期间也看过不少其他博客,都说通过参加比赛(实践)能快速提升技能,于是决定参赛,想通过写博客来记录自己初次kaggle比赛的体验,希望分享自己的经验来获得成长。同时也是第一次在CSDN上写博客,可能会翻车,还请谅解。
废话不多说了,直接进入正题。

什么是kaggle

Kaggle是由安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,世界知名的机器学习竞赛平台。

2020 Kaggle比赛:OSIC 基于肺部CT的肺功能衰退预测(一)
企业,研究机构等在这个平台上提供数据,有的也会提供丰富的奖金池来吸引世界各地的参加者来竞争,系统会自动评分和排名,看谁的模型性能更好。再大白话一点就是,聚集世界上聪明的人来解决各行各业的棘手难题。

但是近些年比赛竞争越来越激烈,拿奖金和奖牌好像也变更难了。左右看来看去最后选择了下面????这个稍微感兴趣的比赛。

【OSIC预测肺功能下降】赛事背景

2020 Kaggle比赛:OSIC 基于肺部CT的肺功能衰退预测(一)

由于肺的纤维化,呼吸会变得困难,这是一种不明原因并且目前无法治愈的疾病。

在这场比赛中,根据肺部CT扫描预测患者肺功能下降的严重程度。将根据肺活量计的输出确定肺功能,肺活量计测量吸入和呼出的空气量。挑战在于使用机器学习技术以图像,元数据和基线FVC作为输入进行预测。

如果成功,患者及其家人在首次被诊断出患有这种无法治愈的肺部疾病时,将会更好地了解他们的预后。改进的严重性检测也将对治疗试验设计产生积极影响,并加速新疗法的临床开发。

数据的说明

在数据集中,提供了一组患者的基线胸部CT扫描和相关的临床信息。患者具有一次采集的图像,Week = 0并且在大约1-2年的过程中进行了多次随访,然后对其FVC进行了测量。
在训练集中,有匿名的基线CT扫描以及FVC测量的整个历史记录。
在测试集中,有基线CT扫描和仅初始FVC测量。要求预测FVC每位患者的最终三项测量结果以及预测的置信度值。
由于这是真实的医学数据,因此FVC测量的相对时间差异很大。对于每个患者,相对于CT扫描的初始测量时间以及到预测时间点的持续时间可能会有所不同。这被认为是竞争挑战的一部分。为了避免在后续就诊时出现潜在的渗漏,要求在每个可能的星期内预测每个患者的FVC测量结果。在最后三次访问中不在的那几周在得分中将被忽略。

train.csv和test.csv

列名 说明
Patient 每个患者的唯一ID(也是患者的DICOM文件夹的名称)
Weeks 基线CT前后的相对周数(可能为负)
FVC 记录的肺容量(毫升) Percent-计算出的字段,该字段将患者的FVC近似为具有相似特征的人的典型FVC的百分比
Age 年龄
Sex 性别
SmokingStatus 吸烟状况

样例Submit.csv

列名 说明
Patient_Week 通过将Patient和Weeks列串联而形成的唯一ID (即ABC_22是对患者ABC在第22周的预测)
FVC 以毫升为单位的预测FVC
Confidence 预测的置信度值(也以ml为单位)

时间线

2020 年9月29日 -报名截止日期。
2020 年9月29日 -合并团队截止日期。
2020 年10月6日 -最终提交截止日期。

奖金

第一名-$ 30,000
第二名-$ 15,000
第三名-$ 10,000

规范要求

参赛作品必须通过notebook提交。为了使提交后**“submission”按钮,必须满足以下条件:

  • CPU笔记本电脑<= 9小时运行时间
  • GPU笔记本电脑<= 4小时运行时间
  • TPU将无法用于提交比赛。仍然欢迎将它们用于训练模型。
  • 没有启用互联网
  • 允许免费公开提供外部数据。这包括预先训练的模型。
  • 提交文件必须命名 submission.csv

最后

目前有287个队伍,319个竞争者,2034个参赛作品。
离比赛结束还有2个多月左右。

作为一个生活在东京的日企社畜,疫情日益严重之下也不能出门,为了充实一下在家办公的闲暇时间,现在跟公司几个小伙伴组了队,不过大家都是不同背景的新米,虽然没有找到大神组队,不过相信后浪,只要找准方法下够功夫,说不定可以拍前浪呢!????

今天算是一个介绍,进一步分析后,下次继续更新。

相关文章: