如何删除csv列中的重复元素
How to delete duplicated elements in columns of csv
我需要帮助删除使用 python.
出现不止一次的重复元素 language
列
这是我的 csv:
f = pd.DataFrame({'Movie': ['name1','name2','name3','name4'],
'Year': ['1905', '1905','1906','1907'],
'Id': ['tt0283985', 'tt0283986','tt0284043','tt3402904'],
'language':['Mandarin,Mandarin','Mandarin,Cantonese,Mandarin','Mandarin,Cantonese','Cantonese,Cantonese']})
f
现在看起来像:
Movie Year Id language
0 name1 1905 tt0283985 Mandarin,Mandarin
1 name2 1905 tt0283986 Mandarin,Cantonese,Mandarin
2 name3 1906 tt0284043 Mandarin,Cantonese
3 name4 1907 tt3402904 Cantonese,Cantonese
结果应该是这样的:
Movie Year Id language
0 name1 1905 tt0283985 Mandarin
1 name2 1905 tt0283986 Mandarin,Cantonese
2 name3 1906 tt0284043 Mandarin,Cantonese
3 name4 1907 tt3402904 Cantonese
我在编写删除语言列中复杂值的函数时遇到问题。
提前致谢!
试试这个:
f['language'].str.split(',').map(lambda x: ','.join(set(x)))
输出:
0 Mandarin
1 Mandarin,Cantonese
2 Mandarin,Cantonese
3 Cantonese
我需要帮助删除使用 python.
出现不止一次的重复元素language
列
这是我的 csv:
f = pd.DataFrame({'Movie': ['name1','name2','name3','name4'],
'Year': ['1905', '1905','1906','1907'],
'Id': ['tt0283985', 'tt0283986','tt0284043','tt3402904'],
'language':['Mandarin,Mandarin','Mandarin,Cantonese,Mandarin','Mandarin,Cantonese','Cantonese,Cantonese']})
f
现在看起来像:
Movie Year Id language
0 name1 1905 tt0283985 Mandarin,Mandarin
1 name2 1905 tt0283986 Mandarin,Cantonese,Mandarin
2 name3 1906 tt0284043 Mandarin,Cantonese
3 name4 1907 tt3402904 Cantonese,Cantonese
结果应该是这样的:
Movie Year Id language
0 name1 1905 tt0283985 Mandarin
1 name2 1905 tt0283986 Mandarin,Cantonese
2 name3 1906 tt0284043 Mandarin,Cantonese
3 name4 1907 tt3402904 Cantonese
我在编写删除语言列中复杂值的函数时遇到问题。 提前致谢!
试试这个:
f['language'].str.split(',').map(lambda x: ','.join(set(x)))
输出:
0 Mandarin
1 Mandarin,Cantonese
2 Mandarin,Cantonese
3 Cantonese