【问题标题】:Load a plain text file into PyTorch将纯文本文件加载到 PyTorch
【发布时间】:2019-08-08 12:35:37
【问题描述】:

我有两个单独的文件,一个是文本文件,每一行都是一个文本。另一个文件包含相应行的类标签。如何将其加载到 PyTorch 并进行进一步的标记化、嵌入等?

【问题讨论】:

    标签: python nlp pytorch text-classification torchtext


    【解决方案1】:

    您已经尝试过什么?你所描述的仍然不是很相关 PyTorch,你可以制作一个预处理脚本,将所有句子加载到单个数据结构中,例如:(文本,标签)元组列表。你也可以已经将数据拆分为训练和在此步骤中设置的保留。然后,您可以将所有这些转储到 .csv 文件中。

    然后,一种方法是分 3 步:

    • 实现 Dataset 类 - 以高效加载数据,读取生成的 .csv 文件;
    • 拥有另一个类似 Vocabulary 的方法来保持从标记到 id 的映射,反之亦然;
    • 类似于 Vectorizer 的东西,可将您的句子转换为向量,可以是 one-hot-encondings 也可以是嵌入;

    然后您可以使用它来生成句子的向量表示并将其传递给神经网络。

    查看此笔记本以更详细地了解所有这些:

    【讨论】:

      猜你喜欢
      • 2019-07-11
      • 1970-01-01
      • 2020-07-19
      • 1970-01-01
      • 2018-10-09
      • 1970-01-01
      • 2021-03-02
      • 2011-08-18
      • 2021-07-10
      相关资源
      最近更新 更多