如何将标签分配给变量值
How do I assign labels to values of variables
我有一个基本数据集,其中一个变量表示加利福尼亚州的一个县。这是一个连续变量,1
是第一个字母顺序的县,58
是最后一个字母顺序的县。
例如:
ID County
1 1
2 58
3 5
4 43
5 2
6 19
7 42
8 2
9 1
10 14
在 Stata 中,我会执行以下操作:
label define county_label 1 "Alameda" 2 "Alpine" 3 "Amador" 58 "Yuba"
label val county county_label
接下来,使用 tabulate
命令我得到以下输出:
ID County
1 Alameda
2 Yuba
3 Calaveras
4 Santa Clara
5 Alpine
6 Los Angeles
7 Santa Barbara
8 Alpine
9 Alameda
10 Inyo
在 Python 中,我尝试创建字典作为第一步:
county_dictionary = {1 : 'Alameda', 2 : 'Alpine', ...... 58 : 'Yuba'}
然而,在这之后我完全迷失了;我什至不确定是否有必要。
如何在 Python 中获得相同的输出?
试试这个:
df['County'] = df.apply(lambda x: county_dictionary.get(x['County'], 'Unknown'), axis=1)
我有一个基本数据集,其中一个变量表示加利福尼亚州的一个县。这是一个连续变量,1
是第一个字母顺序的县,58
是最后一个字母顺序的县。
例如:
ID County
1 1
2 58
3 5
4 43
5 2
6 19
7 42
8 2
9 1
10 14
在 Stata 中,我会执行以下操作:
label define county_label 1 "Alameda" 2 "Alpine" 3 "Amador" 58 "Yuba"
label val county county_label
接下来,使用 tabulate
命令我得到以下输出:
ID County
1 Alameda
2 Yuba
3 Calaveras
4 Santa Clara
5 Alpine
6 Los Angeles
7 Santa Barbara
8 Alpine
9 Alameda
10 Inyo
在 Python 中,我尝试创建字典作为第一步:
county_dictionary = {1 : 'Alameda', 2 : 'Alpine', ...... 58 : 'Yuba'}
然而,在这之后我完全迷失了;我什至不确定是否有必要。
如何在 Python 中获得相同的输出?
试试这个:
df['County'] = df.apply(lambda x: county_dictionary.get(x['County'], 'Unknown'), axis=1)