用于句子的 Pytorch 数据加载器
Pytorch dataloader for sentences
我收集了一个用于二进制文本分类的小数据集,我的目标是使用 Convolutional Neural Networks for Sentence Classification
提出的方法训练模型
我使用 torch.util.data.Dataset
开始实施。基本上我数据集中的每个样本 my_data
看起来像这样(例如):
{"words":[0,1,2,3,4],"label":1},
{"words":[4,9,20,30,4,2,3,4,1],"label":0}
接下来我看了一下Writing custom dataloaders with pytorch:
使用:
dataloader = DataLoader(my_data, batch_size=2,
shuffle=False, num_workers=4)
我怀疑对一个批次进行枚举会产生以下结果:
{"words":[[0,1,2,3,4],[4,9,20,30,4,2,3,4,1]],"labels":[1,0]}
然而更像是这样:
{"words":[[0,4],[1,9],[2,20],[3,30],[4,4]],"label":[1,0]}
我想这与它们大小不等有关。
它们是否需要相同的尺寸,如果需要,我该如何实现?对于了解这篇论文的人,您的训练数据是什么样的?
编辑:
class CustomDataset(Dataset):
def __init__(self, path_to_file, max_size=10, transform=None):
with open(path_to_file) as f:
self.data = json.load(f)
self.transform = transform
self.vocab = self.build_vocab(self.data)
self.word2idx, self.idx2word = self.word2index(self.vocab)
def get_vocab(self):
return self.vocab
def get_word2idx(self):
return self.word2idx, self.idx2word
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
if torch.is_tensor(idx):
idx = idx.tolist()
inputs_ = word_tokenize(self.data[idx][0])
inputs_ = [w for w in inputs_ if w not in stopwords]
inputs_ = [w for w in inputs_ if w not in punctuation]
inputs_ = [self.word2idx[w] for w in inputs_] # convert words to index
label = {"positive": 1,"negative": 0}
label_ = label[self.data[idx][1]] #convert label to 0|1
sample = {"words": inputs_, "label": label_}
if self.transform:
sample = self.transform(sample)
return sample
def build_vocab(self, corpus):
word_count = {}
for sentence in corpus:
tokens = word_tokenize(sentence[0])
for token in tokens:
if token not in word_count:
word_count[token] = 1
else:
word_count[token] += 1
return word_count
def word2index(self, word_count):
word_index = {w: i for i, w in enumerate(word_count)}
idx_word = {i: w for i, w in enumerate(word_count)}
return word_index, idx_word
正如您猜想的那样,这主要是张量形状不同的问题。幸运的是,PyTorch 为您提供了几种不同简单性的解决方案来实现您想要的(文本样本的批量大小 >= 1):
- 最高级别的解决方案可能是
torchtext
,它提供了几种开箱即用的解决方案来加载(自定义)NLP 任务的数据集。如果您可以使您的训练数据适合所描述的任何一个加载器,这可能是推荐的选项,因为有一个不错的文档和几个示例。
- 如果您更喜欢构建解决方案,可以使用
torch.nn.utils.rnn.pad_sequence
, in combination with torch.nn.utils.pack_padded_sequence
, or the combination of both (torch.nn.utils.rnn.pack_sequence 等填充解决方案。这通常会给您带来更大的灵活性,这可能是您需要的,也可能不是。
就我个人而言,仅使用 pad_sequence
就有很好的体验,为了更清晰的调试状态牺牲了一点速度,看起来 others have similar recommendations.
我收集了一个用于二进制文本分类的小数据集,我的目标是使用 Convolutional Neural Networks for Sentence Classification
提出的方法训练模型我使用 torch.util.data.Dataset
开始实施。基本上我数据集中的每个样本 my_data
看起来像这样(例如):
{"words":[0,1,2,3,4],"label":1},
{"words":[4,9,20,30,4,2,3,4,1],"label":0}
接下来我看了一下Writing custom dataloaders with pytorch: 使用:
dataloader = DataLoader(my_data, batch_size=2,
shuffle=False, num_workers=4)
我怀疑对一个批次进行枚举会产生以下结果:
{"words":[[0,1,2,3,4],[4,9,20,30,4,2,3,4,1]],"labels":[1,0]}
然而更像是这样:
{"words":[[0,4],[1,9],[2,20],[3,30],[4,4]],"label":[1,0]}
我想这与它们大小不等有关。 它们是否需要相同的尺寸,如果需要,我该如何实现?对于了解这篇论文的人,您的训练数据是什么样的?
编辑:
class CustomDataset(Dataset):
def __init__(self, path_to_file, max_size=10, transform=None):
with open(path_to_file) as f:
self.data = json.load(f)
self.transform = transform
self.vocab = self.build_vocab(self.data)
self.word2idx, self.idx2word = self.word2index(self.vocab)
def get_vocab(self):
return self.vocab
def get_word2idx(self):
return self.word2idx, self.idx2word
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
if torch.is_tensor(idx):
idx = idx.tolist()
inputs_ = word_tokenize(self.data[idx][0])
inputs_ = [w for w in inputs_ if w not in stopwords]
inputs_ = [w for w in inputs_ if w not in punctuation]
inputs_ = [self.word2idx[w] for w in inputs_] # convert words to index
label = {"positive": 1,"negative": 0}
label_ = label[self.data[idx][1]] #convert label to 0|1
sample = {"words": inputs_, "label": label_}
if self.transform:
sample = self.transform(sample)
return sample
def build_vocab(self, corpus):
word_count = {}
for sentence in corpus:
tokens = word_tokenize(sentence[0])
for token in tokens:
if token not in word_count:
word_count[token] = 1
else:
word_count[token] += 1
return word_count
def word2index(self, word_count):
word_index = {w: i for i, w in enumerate(word_count)}
idx_word = {i: w for i, w in enumerate(word_count)}
return word_index, idx_word
正如您猜想的那样,这主要是张量形状不同的问题。幸运的是,PyTorch 为您提供了几种不同简单性的解决方案来实现您想要的(文本样本的批量大小 >= 1):
- 最高级别的解决方案可能是
torchtext
,它提供了几种开箱即用的解决方案来加载(自定义)NLP 任务的数据集。如果您可以使您的训练数据适合所描述的任何一个加载器,这可能是推荐的选项,因为有一个不错的文档和几个示例。 - 如果您更喜欢构建解决方案,可以使用
torch.nn.utils.rnn.pad_sequence
, in combination withtorch.nn.utils.pack_padded_sequence
, or the combination of both (torch.nn.utils.rnn.pack_sequence 等填充解决方案。这通常会给您带来更大的灵活性,这可能是您需要的,也可能不是。
就我个人而言,仅使用 pad_sequence
就有很好的体验,为了更清晰的调试状态牺牲了一点速度,看起来 others have similar recommendations.