【发布时间】:2019-08-08 12:35:37
【问题描述】:
我有两个单独的文件,一个是文本文件,每一行都是一个文本。另一个文件包含相应行的类标签。如何将其加载到 PyTorch 并进行进一步的标记化、嵌入等?
【问题讨论】:
标签: python nlp pytorch text-classification torchtext
我有两个单独的文件,一个是文本文件,每一行都是一个文本。另一个文件包含相应行的类标签。如何将其加载到 PyTorch 并进行进一步的标记化、嵌入等?
【问题讨论】:
标签: python nlp pytorch text-classification torchtext
您已经尝试过什么?你所描述的仍然不是很相关 PyTorch,你可以制作一个预处理脚本,将所有句子加载到单个数据结构中,例如:(文本,标签)元组列表。你也可以已经将数据拆分为训练和在此步骤中设置的保留。然后,您可以将所有这些转储到 .csv 文件中。
然后,一种方法是分 3 步:
然后您可以使用它来生成句子的向量表示并将其传递给神经网络。
查看此笔记本以更详细地了解所有这些:
【讨论】: