TypeError: argument of type 'WordListCorpusReader' is not iterable

Question

我创建了以下方法

import numpy as np
import re
from nltk.corpus import stopwords

def clean_tweet(tweet):
    if type(tweet) == np.float:
        return ""
    temp = tweet.lower()
    temp = re.sub("'", "", temp) # to avoid removing contractions in english
    temp = re.sub("@[A-Za-z0-9_]+","", temp)
    temp = re.sub("#[A-Za-z0-9_]+","", temp)
    temp = re.sub(r'http\S+', '', temp)
    temp = re.sub('[()!?]', ' ', temp)
    temp = re.sub('\[.*?\]',' ', temp)
    temp = re.sub("[^a-z0-9]"," ", temp)
    temp = temp.split()
    temp = [w for w in temp if not w in stopwords]
    temp = " ".join(word for word in temp)
    return temp

我有一个 pandas 数据框，其中有 1000 条推文需要清理

如果我试试这个：

df['cleantweet'] = df.apply(lambda row : clean_tweet(row['Tweet']), axis = 1)

我收到这个错误：

<1 sec
TypeError: argument of type 'WordListCorpusReader' is not iterable

更新：我是如何填充数据框的

paginator = tweepy.Paginator(
    client.search_recent_tweets,               # The method you want to use
    "#GunControlNow -is:retweet",                            # Some argument for this method
    max_results=100                        # How many tweets asked per request
)

import pandas as pd
tweets = []
for tweet in paginator.flatten(limit=10000): # Total number of tweets to retrieve
  tweets.append(tweet.text)

df = pd.DataFrame (tweets, columns = ['Tweet'])
df

from azureml.core import Workspace, Dataset

subscription_id = 'x'
resource_group = 'x'
workspace_name = 'x'

workspace = Workspace(subscription_id, resource_group, workspace_name)


from azureml.core import Datastore, Dataset
datastore = Datastore.get(workspace, 'workspaceblobstore')
dataset = Dataset.Tabular.register_pandas_dataframe(df, datastore, "tweets", show_progress=True)

Answer 1

参考以下内容：

您只需要为从 nltk 语料库导入的停用词对象中读取的停用词定义一个变量：

stopwords = set(stopwords.words("english"))

TypeError: argument of type 'WordListCorpusReader' is not iterable

TypeError: argument of type 'WordListCorpusReader' is not iterable

python

pandas

nltk