将纯文本文件加载到 PyTorch

Load a plain text file into PyTorch

我有两个单独的文件，一个是文本文件，每一行都是一个文本。另一个文件包含相应行的 class 标签。我如何将它加载到 PyTorch 中并进行进一步的标记化、嵌入等？

你已经尝试过什么？您所描述的内容与 PyTorch 仍然不是很相关，您可以制作一个预处理脚本，将所有句子加载到单个数据结构中，例如：（文本，标签）tuple.You 的列表也可以将您的数据拆分为training 和 hold-out 设置在这一步。然后您可以将所有这些转储到 .csv 文件中。

然后，一种方法是分 3 个步骤：

实施 class Dataset - 高效加载您的数据，读取生成的 .csv 文件；
有另一个像 Vocabulary 保持从标记到 ids 的映射，反之亦然；
类似 Vectorizer 的东西，它可以将你的句子转换成向量，可以是单热编码，也可以是嵌入；

然后您可以使用它来生成句子的向量表示并将其传递给神经网络。

查看此笔记本以更详细地了解所有这些内容：

Sentiment Classification