NIH 临床中心最新公布了一个迄今规模最大的多类别、病灶级别标注临床医疗 CT 图像开放数据集 DeepLesion,研究人员在此基础上训练深度神经网络,创建了一个具有统一框架的大规模通用病灶检测器,能够更准确、更自动地衡量患者体内所有病灶的大小,实现全身范围的癌症初步评估。数据集包含:
- 4,427 名独立的匿名患者
- 10,594 次 CT 扫描(平均每位患者有 3 次随访)
- 32,735 个带标记的病灶实例
- 一共 928,020 张 CT 横切图像(512×512 分辨率)
每个切片被命名为“{患者索引}_{研究索引}_{系列索引}/{切片索引}.png”
在3DCE算法里找到窗宽的设置为[-1024, 3071]
图像以无符号16位存储,要得到原始的 Hounsfield unit (HU) 值,需要从像素强度中减去32768.
数据集不仅提供了包含病变主是的关键CT切片,害提供了它的3D上下文(关键切片上下各30mm的额外切片)。由于数据量很大(221GB),我们将他们打包为56个更小的zip文件以供下载。
注释文件分析:
在 DL info.csv,每一行都是深部病变的信息。列的意义是
- 文件名。请用/或\替换最后的下划线,以指示子文件夹
- 患者指数从1开始
- 每个患者的研究指标从1开始。每个患者有126个研究。
- 系列ID
- 包含病变注释的关键切片的切片指数,从1开始
- 8D矢量,病变两个直径的图像坐标。[x, y, x, y, x, y, x, y]。 前4个坐标是长轴。请参阅我们的论文及其补充材料作进一步说明
- 4D向量,病变的边界盒[x, y, x, y]从直径估计,见我们的论文。
- 二维向里,长轴和短轴的长度。单位是像素
- 病灶中心的相对身体位置。唑坐标由自监督体部回归器进行预测。详见我们的论文。这些坐标是近似值,仅供参考
- 病变的类型。1~8型分别为骨、腹、纵膈、肝、肺、肾、软组织、骨盆。详见我们的论文。病变类型有粗略定义,仅供叁考。只有ⅶa和测试集中的病变被标注为-1
- 根据手动检查,如果该病灶的注释可能有噪声,则将该字段设置为1.到目前为止,我们在32,735条注释中找到了35条
- 片范围。这个数据集中提供了与键片相邻的上下文片。如第一个病灶,关键切片为109,切片范围为103-115,即提供103-115片时于大多数病变,我们在关键切片上下分别提供3mm的额外切片,除非病变的长轴大于这个厚度(然后我们提供更多),或者达到体积的开始或结束
- x轴、轴和的间距(每像素毫米)。第三个值是片间隔,即两个片之间的物理距离
- 图像的大小
- Hounsfield单元中从原始DCOM件中提取的窗口(最小-最大)
- 病人性别。F代表女性,M代表男性
- 病人的年龄
- 官方随机生成的患者级数据分割,训练=1,验证=2,则试=3