如何删除csv列中的重复元素

How to delete duplicated elements in columns of csv

我需要帮助删除使用 python.

出现不止一次的重复元素 language

这是我的 csv:

f = pd.DataFrame({'Movie': ['name1','name2','name3','name4'],
                  'Year': ['1905', '1905','1906','1907'],
                  'Id': ['tt0283985', 'tt0283986','tt0284043','tt3402904'],
                  'language':['Mandarin,Mandarin','Mandarin,Cantonese,Mandarin','Mandarin,Cantonese','Cantonese,Cantonese']})

f 现在看起来像:

   Movie  Year         Id   language
0  name1  1905  tt0283985  Mandarin,Mandarin
1  name2  1905  tt0283986  Mandarin,Cantonese,Mandarin
2  name3  1906  tt0284043  Mandarin,Cantonese
3  name4  1907  tt3402904  Cantonese,Cantonese

结果应该是这样的:

   Movie  Year         Id             language
0  name1  1905  tt0283985            Mandarin
1  name2  1905  tt0283986            Mandarin,Cantonese
2  name3  1906  tt0284043            Mandarin,Cantonese
3  name4  1907  tt3402904            Cantonese

我在编写删除语言列中复杂值的函数时遇到问题。 提前致谢!


试试这个:

f['language'].str.split(',').map(lambda x: ','.join(set(x)))

输出:

0              Mandarin
1    Mandarin,Cantonese
2    Mandarin,Cantonese
3             Cantonese