【问题标题】:Split torch dataset without shuffling拆分火炬数据集而不改组
【发布时间】:2022-01-13 09:43:09
【问题描述】:

我正在使用Pytorch 来运行 Transformer 模型。当我想拆分数据(标记化数据)时,我正在使用此代码:

train_dataset, test_dataset = torch.utils.data.random_split(
                                                            tokenized_datasets,
                                                            [train_size, test_size])

torch.utils.data.random_split 使用洗牌方法,但我不想洗牌。我想按顺序拆分。

有什么建议吗?谢谢

【问题讨论】:

    标签: python pytorch torch transformer pytorch-dataloader


    【解决方案1】:

    random_split 方法没有可以帮助您创建非随机顺序拆分的参数。

    实现顺序拆分的最简单方法是直接传递要创建的子集的索引:

    # Created using indices from 0 to train_size.
    train_dataset = torch.utils.data.Subset(tokenized_datasets, range(train_size))
    
    # Created using indices from train_size to train_size + test_size.
    test_dataset = torch.utils.data.Subset(tokenized_datasets, range(train_size, train_size + test_size))
    

    参考:PyTorch docs

    【讨论】:

    • 谢谢,它就像我想要的那样工作......
    猜你喜欢
    • 2022-11-02
    • 2016-10-06
    • 2018-01-24
    • 2022-11-07
    • 2017-02-23
    • 2017-08-31
    • 2022-10-23
    • 2020-11-24
    • 2022-11-18
    相关资源
    最近更新 更多