【问题标题】:Could i use datasets from different sources when doing deep learning我可以在进行深度学习时使用来自不同来源的数据集吗
【发布时间】:2019-09-04 18:58:13
【问题描述】:

简单地说,我想检测患者是否患有肺癌或不使用胸部 X 射线图像。

我在这里遇到的问题是: 我有来自 3 个不同来源的 3 个数据集,其中 3 个主题都是胸部 X 射线图像,假设所有其他医学属性也相同。 第一个数据集包含 130 张正常和癌症诊断患者的图像。 第二个数据集包含 40 张正常患者的图像 第三个数据集包含 120 张癌症患者的图像。

因此,我想结合来自 3 个不同来源的 3 个数据集来训练和评估我的模型。 我打算混合和打乱所有数据,然后开始分成训练、验证、测试集。可以吗?

还有什么我应该注意的东西/特征吗?

【问题讨论】:

    标签: deep-learning dataset distribution


    【解决方案1】:

    据我所知,通常混合数据集并不是一件好事,尤其是当数据集彼此不是很相似时。但是,在您的情况下,您说它们都是人肺的X射线图像。我们希望所有图像都非常相似,因此混合它们不会对性能产生不好的影响,但我猜是好的。

    在深度学习领域拥有大量数据总是好的。尤其是大型神经网络需要大量数据。你的数据对我来说似乎更少。我建议您使用简单的网络。

    简而言之,是否所有组合的图像都来自同一来源?即它们总体上彼此相似,但仅在感染的部分不同?如果是,请继续。

    祝你好运

    【讨论】:

    • 感谢您的评论,总的来说,它们在病变的形状和区域上有所不同。但在正常情况下,它是相同的。但是,我还有一个问题,我的数据集中的“分布”是什么意思,是正常类和癌症类的比率吗?
    • @TotallyNew 你能给出整个句子和上下文吗?但是,是的,例如,我猜同质分布意味着你有相似数量的类。
    • 我只是想知道,对于一个只包含正常和癌症患者图像的数据集,数据集的分布是什么。分布是否意味着癌和正常类之间的比率
    • @TotallyNew 是的。这意味着有多少图像是癌性图像,有多少是正常图像。
    猜你喜欢
    • 1970-01-01
    • 2016-01-03
    • 1970-01-01
    • 2017-01-08
    • 2019-06-07
    • 2019-07-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多