如何从 python 中的 csv 文件创建词袋?
How to create a bag of words from csv file in python?
我是 python 的新手。我有一个已清理推文的 csv 文件。我想为这些推文创建一个词袋。
我有以下代码,但它无法正常工作。
import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer
data = pd.read_csv(open("Twidb11.csv"), sep=' ')
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data.Text)
count_vect.vocabulary_
错误:
.ParserError: Error tokenizing data. C error: Expected 19 fields in
line 5, saw 22
我认为它是重复的。你可以看到答案 here。有很多的回答和评论。
所以,解决方案可以是:
data = pd.read_csv('Twidb11.csv', error_bad_lines=False)
或者:
df = pandas.read_csv(fileName, sep='delimiter', header=None)
"In the code above, sep defines your delimiter and header=None tells pandas that your source data has no row for headers / column titles. Thus saith the docs: "如果文件不包含 header 行,那么您应该显式传递 header=None”。在这种情况下,pandas 会自动创建whole-number 每个字段 {0,1,2,...} 的索引。"
我是 python 的新手。我有一个已清理推文的 csv 文件。我想为这些推文创建一个词袋。 我有以下代码,但它无法正常工作。
import pandas as pd
from sklearn import svm
from sklearn.feature_extraction.text import CountVectorizer
data = pd.read_csv(open("Twidb11.csv"), sep=' ')
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(data.Text)
count_vect.vocabulary_
错误:
.ParserError: Error tokenizing data. C error: Expected 19 fields in line 5, saw 22
我认为它是重复的。你可以看到答案 here。有很多的回答和评论。
所以,解决方案可以是:
data = pd.read_csv('Twidb11.csv', error_bad_lines=False)
或者:
df = pandas.read_csv(fileName, sep='delimiter', header=None)
"In the code above, sep defines your delimiter and header=None tells pandas that your source data has no row for headers / column titles. Thus saith the docs: "如果文件不包含 header 行,那么您应该显式传递 header=None”。在这种情况下,pandas 会自动创建whole-number 每个字段 {0,1,2,...} 的索引。"