Torchtext TabularDataset:data.Field 不包含实际导入的数据?
Torchtext TabularDataset: data.Field doesn't contain actual imported data?
我从Torchtext的文档中了解到,导入csv文件的方式是通过TabularDataset。我是这样做的:
train = data.TabularDataset(path='./data.csv',
format='csv',
fields=[("label",data.Field(use_vocab=True,include_lengths=False)),
("statement",data.Field(use_vocab=True,include_lengths=True))],
skip_header=True)
"label" 和 "statement" 是我的 csv 文件中两列的 header 名称。我将它们定义为 data.Field,但 "label" 和 "statement" 似乎实际上并不包含我的 csv 文件中的数据,尽管被控制台识别为数据字段 objects没问题。我在尝试使用 statement.build_vocab(train, max_size=25000) 构建词汇表时发现了这个问题。我打印了 len(statement.vocab),return 是“2”,这显然不能反映 csv 文件中的实际数据。是我在导入 csv 数据时做错了什么,还是我的词汇构建做错了?是否有单独的方法将数据放在字段 objects 中?谢谢!!
字段必须像这样单独定义
TEXT = data.Field(sequential=True,tokenize=tokenize, lower=True, include_lengths=True)
LABEL = data.Field(sequential=True,tokenize=tokenize, lower=True)
train = data.TabularDataset(path='./data.csv',
format='csv',
fields=[("label",LABEL),
("statement",TEXT)],
skip_header=True)
test = data.TabularDataset(path='./test.csv',
format='csv',
fields=[("label",LABEL),
("statement",TEXT)],
skip_header=True)
我从Torchtext的文档中了解到,导入csv文件的方式是通过TabularDataset。我是这样做的:
train = data.TabularDataset(path='./data.csv',
format='csv',
fields=[("label",data.Field(use_vocab=True,include_lengths=False)),
("statement",data.Field(use_vocab=True,include_lengths=True))],
skip_header=True)
"label" 和 "statement" 是我的 csv 文件中两列的 header 名称。我将它们定义为 data.Field,但 "label" 和 "statement" 似乎实际上并不包含我的 csv 文件中的数据,尽管被控制台识别为数据字段 objects没问题。我在尝试使用 statement.build_vocab(train, max_size=25000) 构建词汇表时发现了这个问题。我打印了 len(statement.vocab),return 是“2”,这显然不能反映 csv 文件中的实际数据。是我在导入 csv 数据时做错了什么,还是我的词汇构建做错了?是否有单独的方法将数据放在字段 objects 中?谢谢!!
字段必须像这样单独定义
TEXT = data.Field(sequential=True,tokenize=tokenize, lower=True, include_lengths=True)
LABEL = data.Field(sequential=True,tokenize=tokenize, lower=True)
train = data.TabularDataset(path='./data.csv',
format='csv',
fields=[("label",LABEL),
("statement",TEXT)],
skip_header=True)
test = data.TabularDataset(path='./test.csv',
format='csv',
fields=[("label",LABEL),
("statement",TEXT)],
skip_header=True)