将纯文本文件加载到 PyTorch

Load a plain text file into PyTorch

我有两个单独的文件,一个是文本文件,每一行都是一个文本。另一个文件包含相应行的 class 标签。我如何将它加载到 PyTorch 中并进行进一步的标记化、嵌入等?

你已经尝试过什么?您所描述的内容与 PyTorch 仍然不是很相关,您可以制作一个预处理脚本,将所有句子加载到单个数据结构中,例如:(文本,标签)tuple.You 的列表也可以将您的数据拆分为training 和 hold-out 设置在这一步。然后您可以将所有这些转储到 .csv 文件中。

然后,一种方法是分 3 个步骤:

  • 实施 class Dataset - 高效加载您的数据,读取生成的 .csv 文件;
  • 有另一个像 Vocabulary 保持从标记到 ids 的映射,反之亦然;
  • 类似 Vectorizer 的东西,它可以将你的句子转换成向量,可以是单热编码,也可以是嵌入;

然后您可以使用它来生成句子的向量表示并将其传递给神经网络。

查看此笔记本以更详细地了解所有这些内容: