Python Pandas:Dataframe 中整列的 NLTK 词性标注
Python Pandas: NLTK Part of Speech Tagging for Entire Column in Dataframe
我有如下所示的示例数据框。它已经被标记化了。
No category problem_definition_stopwords
175 2521 ['coffee', 'maker', 'brewing', 'properly', '2', '420', '420', '420']
211 1438 ['galley', 'work', 'table', 'stuck']
912 2698 ['cloth', 'stuck']
572 2521 ['stuck', 'coffee']
我想在这个数据框上做词性标注。下面是我的代码的开头。它出错了:
from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer
train_text = state_union.raw(df['problem_definition_stopwords'])
错误
TypeError: join() argument must be str or bytes, not 'list'
我想要的结果如下,其中 'XXX' 是一个标记化的词,在它之后是词性(即 NNP):
[('XXX', 'NNP'), ('XXX', 'VBD'), ('XXX', 'POS')]
将 problem_definition_stopwords 转换为字符串并传递给 nltk.sent_tokenize 如果您尝试使用 pos_tag 进行标记化并获取 POS。
我有如下所示的示例数据框。它已经被标记化了。
No category problem_definition_stopwords
175 2521 ['coffee', 'maker', 'brewing', 'properly', '2', '420', '420', '420']
211 1438 ['galley', 'work', 'table', 'stuck']
912 2698 ['cloth', 'stuck']
572 2521 ['stuck', 'coffee']
我想在这个数据框上做词性标注。下面是我的代码的开头。它出错了:
from nltk.corpus import state_union
from nltk.tokenize import PunktSentenceTokenizer
train_text = state_union.raw(df['problem_definition_stopwords'])
错误
TypeError: join() argument must be str or bytes, not 'list'
我想要的结果如下,其中 'XXX' 是一个标记化的词,在它之后是词性(即 NNP):
[('XXX', 'NNP'), ('XXX', 'VBD'), ('XXX', 'POS')]
将 problem_definition_stopwords 转换为字符串并传递给 nltk.sent_tokenize 如果您尝试使用 pos_tag 进行标记化并获取 POS。