如何从 python 中的 csv 文件创建词袋？

Question

我是 python 的新手。我有一个已清理推文的 csv 文件。我想为这些推文创建一个词袋。我有以下代码，但它无法正常工作。

import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer

data = pd.read_csv(open("Twidb11.csv"), sep=' ')
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data.Text)
count_vect.vocabulary_

错误：

.ParserError: Error tokenizing data. C error: Expected 19 fields in line 5, saw 22

Answer 1

我认为它是重复的。你可以看到答案 here。有很多的回答和评论。

所以，解决方案可以是：

data = pd.read_csv('Twidb11.csv', error_bad_lines=False)

或者：

df = pandas.read_csv(fileName, sep='delimiter', header=None)

"In the code above, sep defines your delimiter and header=None tells pandas that your source data has no row for headers / column titles. Thus saith the docs: "如果文件不包含 header 行，那么您应该显式传递 header=None”。在这种情况下，pandas 会自动创建whole-number 每个字段 {0,1,2,...} 的索引。"

如何从 python 中的 csv 文件创建词袋？

How to create a bag of words from csv file in python?

machine-learning

python-2.7

sentiment-analysis