如何用 Pandas 删除少于一定数量的项目或字符串的行？

Question

我进行了很多搜索，但找不到针对此特定案例的解决方案。我想删除列表中包含少于 3 个字符串或项目的任何行。我的问题将在后面更清楚地解决。

我正在 pandas 中使用大型瑞典数据库准备 LDA 主题建模，并将测试用例限制为 1000 行。我只关心特定的专栏，到目前为止我的方法如下：

con = sqlite3.connect('/Users/mo/EXP/NAV/afm.db')
sql = """
select * from stillinger limit 1000
"""
dfs = pd.read_sql(sql, con)

plb = """
select PLATSBESKRIVNING from stillinger limit 1000
"""
dfp = pd.read_sql(plb, con);dfp

然后我定义了一个正则表达式，其中第一个参数删除任何元字符，同时保留瑞典语和挪威语特定的字母。第二个参数删除单词 < 3:

rep = {
   'PLATSBESKRIVNING': {
     r'[^A-Za-zÅåÄäÖöÆØÅæøå]+': ' ',
     r'\W*\b\w{1,3}\b': ' '}
}

p0 = (pd.DataFrame(dfp['PLATSBESKRIVNING'].str.lower()).replace(rep, regex=True).
  drop_duplicates('PLATSBESKRIVNING').reset_index(drop=True));p0

PLATSBESKRIVNING
0   medrek rekrytering söker uppdrag manpower h...
1   familj barn tjejer kille söker pair ...
2   uppgift blir tillsammans medarbetare leda ...
3   behov operasjonssykepleiere langtidsoppdr...
4   detta perfekta jobbet arbetstiderna vardaga...
5   familj paris barn söker älskar barn v...
6   alla inom cafe restaurang förekommande arbets...
.
.

正在创建一个 pandas 系列：

s0 = p0['PLATSBESKRIVNING']

然后：

ts = s0.str.lower().str.split();ts

0      [medrek, rekrytering, söker, uppdrag, manpower...
1      [familj, barn, tjejer, kille, söker, pair, vil...
2      [uppgift, blir, tillsammans, medarbetare, leda...
3      [behov, operasjonssykepleiere, langtidsoppdrag...
4      [detta, perfekta, jobbet, arbetstiderna, varda...
5      [familj, paris, barn, söker, älskar, barn, vil...
6      [alla, inom, cafe, restaurang, förekommande, a...
7      [diskare, till, cafe, dubbel, sökes, arbetet, ...
8      [diskare, till, thelins, konditori, sökes, arb...

正在从数据库中删除停用词：

r = s0.str.split().apply(lambda x: [item for item in x if item not in mswl]);r

0      [uppdrag, bemanningsföretag, erbjuds, tillägg,...
1      [föräldrarna, citycentre, stort, tomt, mamman,...
2      [utveckla, övergripande, strategiska, frågor, ...
3                   [erfaring, sykepleier, legitimasjon]
4      [arbetstiderna, vardagar, härliga, människor, ...
5      [paris, utav, badrum, båda, yngsta, endast, fö...
6                       [förekommande, emot, utbildning]
7                                                     []
8                                              [thelins]
9      [paris, baby, månader, våning, delar, badrum, ...

正在创建一个新的 DataFrame 并删除空括号：

dr = pd.DataFrame(r)
dr0 = dr[dr.astype(str)['PLATSBESKRIVNING'] != '[]'].reset_index(drop=True); dr0

PLATSBESKRIVNING
0   [uppdrag, bemanningsföretag, erbjuds, tillägg,...
1   [föräldrarna, citycentre, stort, tomt, mamman,...
2   [utveckla, övergripande, strategiska, frågor, ...
3   [erfaring, sykepleier, legitimasjon]
4   [arbetstiderna, vardagar, härliga, människor, ...
5   [paris, utav, badrum, båda, yngsta, endast, fö...
6   [förekommande, emot, utbildning]
7   [thelins]
8   [paris, baby, månader, våning, delar, badrum, ...

维护字符串：

dr1 = dr0['PLATSBESKRIVNING'].apply(str);  len(dr1),type(dr1), dr1

0      ['uppdrag', 'bemanningsföretag', 'erbjuds', 't...
1      ['föräldrarna', 'citycentre', 'stort', 'tomt',...
2      ['utveckla', 'övergripande', 'strategiska', 'f...
3             ['erfaring', 'sykepleier', 'legitimasjon']
4      ['arbetstiderna', 'vardagar', 'härliga', 'männ...
5      ['paris', 'utav', 'badrum', 'båda', 'yngsta', ...
6                 ['förekommande', 'emot', 'utbildning']
7                                            ['thelins']
8      ['paris', 'baby', 'månader', 'våning', 'delar'...

我现在的问题是我想删除列表中包含少于 3 个字符串的任何行，例如第 3、6 和 7 行。期望的结果是这样的：

0      ['uppdrag', 'bemanningsföretag', 'erbjuds', 't...
1      ['föräldrarna', 'citycentre', 'stort', 'tomt',...
2      ['utveckla', 'övergripande', 'strategiska', 'f...
3      ['arbetstiderna', 'vardagar', 'härliga', 'männ...
4      ['paris', 'utav', 'badrum', 'båda', 'yngsta', ...
5      ['paris', 'baby', 'månader', 'våning', 'delar'...
.
.

我怎样才能得到这个？我也想知道这是否可以以更整洁的方式完成？我的方法看起来很笨拙和麻烦。

我还想删除 LDA 主题建模的索引和列名，这样我就可以将它写入没有 header 和索引数字的文本文件。我试过：

dr1.to_csv('LDA1.txt',header=None,index=False)

但这会将引号“['word1', 'word2', 't.. ]” 引到文件中的每个字符串列表。

如有任何建议，我们将不胜感激。

此致莫

Answer 1

只需测量列表中的项目数并过滤长度小于 3 的行

dr0['length'] = dr0['PLATSBESKRIVNING'].apply(lambda x: len(x))
cond = dr0['length'] > 3
dr0 = dr0[cond]

Answer 2

您可以使用 apply len 然后 select data 将其存储在您喜欢的数据帧变量中，即

df[df['PLATSBESKRIVNING'].apply(len)>3]

输出：

                               PLATSBESKRIVNING
0   [uppdrag, bemanningsföretag, erbjuds, nice]
1        [föräldrarna, citycentre, stort, tomt]
2  [utveckla, övergripande, strategiska, fince]
4      [arbetstiderna, vardagar, härliga, männ]
5           [paris, utav, badrum, båda, yngsta]
8         [paris, baby, månader, våning, delar]

如何用 Pandas 删除少于一定数量的项目或字符串的行？

How to delete rows with less than a certain amount of items or strings with Pandas?

python

regex

nltk

pandas

lda