无法标记整个列
unable to tokenise whole column
我想标记化 CSV 文件中的数据。我正在使用此代码,但无法标记整个列。我只能标记列中的第一行。该列称为 'tweet'。
import pandas as pd
import nltk
from nltk import word_tokenize
data=pd.read_csv('/Users/yoshithKotla/Desktop/dingdang/nov19Tweets.csv')
Texts=list(data['tweet'].values)
tokenData = [nltk.word_tokenize(tweet) for tweet in Texts]
print(tokenData)
试试这个代码,看看你得到了什么:
import csv
from nltk import word_tokenize
with open('/Users/yoshithKotla/Desktop/dingdang/nov19Tweets.csv', 'r') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
tweet = row["tweet"]
print("Tweet: %s" % tweet)
tokens = word_tokenize(tweet)
print(tokens)
要将输出保存为 csv 文件,您可以使用 csv.writer
:
writer = csv.writer(open("path_to_output", 'w'))
for row in tokens:
if counter[row[0]] >= 4:
writer.writerow(row)
我想标记化 CSV 文件中的数据。我正在使用此代码,但无法标记整个列。我只能标记列中的第一行。该列称为 'tweet'。
import pandas as pd
import nltk
from nltk import word_tokenize
data=pd.read_csv('/Users/yoshithKotla/Desktop/dingdang/nov19Tweets.csv')
Texts=list(data['tweet'].values)
tokenData = [nltk.word_tokenize(tweet) for tweet in Texts]
print(tokenData)
试试这个代码,看看你得到了什么:
import csv
from nltk import word_tokenize
with open('/Users/yoshithKotla/Desktop/dingdang/nov19Tweets.csv', 'r') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
tweet = row["tweet"]
print("Tweet: %s" % tweet)
tokens = word_tokenize(tweet)
print(tokens)
要将输出保存为 csv 文件,您可以使用 csv.writer
:
writer = csv.writer(open("path_to_output", 'w'))
for row in tokens:
if counter[row[0]] >= 4:
writer.writerow(row)