如何删除csv列中的重复元素

Question

我需要帮助删除使用 python.

出现不止一次的重复元素 language 列

这是我的 csv：

f = pd.DataFrame({'Movie': ['name1','name2','name3','name4'],
                  'Year': ['1905', '1905','1906','1907'],
                  'Id': ['tt0283985', 'tt0283986','tt0284043','tt3402904'],
                  'language':['Mandarin,Mandarin','Mandarin,Cantonese,Mandarin','Mandarin,Cantonese','Cantonese,Cantonese']})

f 现在看起来像：

   Movie  Year         Id   language
0  name1  1905  tt0283985  Mandarin,Mandarin
1  name2  1905  tt0283986  Mandarin,Cantonese,Mandarin
2  name3  1906  tt0284043  Mandarin,Cantonese
3  name4  1907  tt3402904  Cantonese,Cantonese

结果应该是这样的：

   Movie  Year         Id             language
0  name1  1905  tt0283985            Mandarin
1  name2  1905  tt0283986            Mandarin,Cantonese
2  name3  1906  tt0284043            Mandarin,Cantonese
3  name4  1907  tt3402904            Cantonese

我在编写删除语言列中复杂值的函数时遇到问题。提前致谢！

Answer 1

试试这个：

f['language'].str.split(',').map(lambda x: ','.join(set(x)))

输出：

0              Mandarin
1    Mandarin,Cantonese
2    Mandarin,Cantonese
3             Cantonese

如何删除csv列中的重复元素

How to delete duplicated elements in columns of csv

python

csv

excel

pandas

data-cleaning