如何使用 Python 标记 csv 文件中特定列中的所有行?
How can i tokenize all rows in a specific column from a csv file using Python?
我正在使用 Python 进行情绪分析(对于这种特定的编程语言,我仍然是菜鸟)。我在一个 csv 文件中有一些 Twitter 数据,我需要在进行真正的分析之前对其进行预处理。首先,我需要标记特定列中的文本,在我的例子中是第二列或 B 列。我发现了一些如何进行标记化但不选择特定列的建议。谁有这方面的经验?
我试过这段代码,它似乎适用于所有列,但我怎样才能将它隔离到第二个列?
import csv
import nltk
from nltk import word_tokenize
with open('TwitterData.csv', 'r') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
print(row)
对用于情感分析预处理的模块和代码有什么建议吗?
非常感谢!
我强烈推荐您 scikit-learn 文档和模块,尤其是关于 "Working with Text Data" 的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
那里还有一个关于情绪分析的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-2-sentiment-analysis-on-movie-reviews
如果您需要更具体的代码帮助,最好始终提供 "minimal reproducable example":https://whosebug.com/help/minimal-reproducible-example
这样,其他人可以更好地帮助您解决您面临的特定问题。
希望对您有所帮助:)
我正在使用 Python 进行情绪分析(对于这种特定的编程语言,我仍然是菜鸟)。我在一个 csv 文件中有一些 Twitter 数据,我需要在进行真正的分析之前对其进行预处理。首先,我需要标记特定列中的文本,在我的例子中是第二列或 B 列。我发现了一些如何进行标记化但不选择特定列的建议。谁有这方面的经验?
我试过这段代码,它似乎适用于所有列,但我怎样才能将它隔离到第二个列?
import csv
import nltk
from nltk import word_tokenize
with open('TwitterData.csv', 'r') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
print(row)
对用于情感分析预处理的模块和代码有什么建议吗?
非常感谢!
我强烈推荐您 scikit-learn 文档和模块,尤其是关于 "Working with Text Data" 的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
那里还有一个关于情绪分析的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-2-sentiment-analysis-on-movie-reviews
如果您需要更具体的代码帮助,最好始终提供 "minimal reproducable example":https://whosebug.com/help/minimal-reproducible-example 这样,其他人可以更好地帮助您解决您面临的特定问题。
希望对您有所帮助:)