SAS:如何在DATA步中使用RETAIN语句创建求和变量,相当于PROC PRINT中的SUM语句输出
SAS: How to use RETAIN statement to create a summed variable in the DATA step, equivalent to the SUM statement output in PROC PRINT
在 SAS 中,我试图创建一个变量,它是另一个变量的总和。在这种情况下,我试图创建两个变量:Total_All_Ages
,它是 2013 年美国人口的总和 POPESTIMATE2013
,以及 Total_18Plus
,它是 2013 年美国人口老龄化的总和18+ POPEST18PLUS2013
.
我希望这些变量的输出看起来好像我在 proc print
下使用了 sum
语句(其中总和出现在新行中变量列的底部)。但是,我不想使用 print
程序。相反,我只想使用 data
步骤创建我的输出。
我需要这样做的方法是使用 retain
(和 input
)语句。
我的代码如下:
data _NULL_;
retain Total_All_Ages Total_18Plus;
infile RAWfoldr DLM=',' firstobs=3 obs=53;
informat STATE . NAME .;
input SUMLEV REGION $ DIVISION STATE $ NAME $ POPESTIMATE2013 POPEST18PLUS2013 PCNT_POPEST18PLUS;
Total_All_Ages = sum(Total_All_Ages, POPESTIMATE2013);
Total_18Plus = sum(Total_18Plus, POPEST18PLUS2013);
keep STATE NAME POPESTIMATE2013 POPEST18PLUS2013 Total_All_Ages Total_18Plus;
format POPESTIMATE2013 comma11. POPEST18PLUS2013 comma11.;
file print notitles;
if _n_=1 then put '=== U.S. Resident Population Estimates for All Ages and ===
Ages 18 or Older by State (in Alphabetical Order), 2013';
if _n_=1 then put ' ';
if _n_=1 then put @5 'FIPS Code' @16 'State Name' @40 'All Ages' @55 'Ages 18 or Older';
if _n_=1 then put ' ';
put @5 STATE @16 NAME @40 POPESTIMATE2013 @55 POPEST18PLUS2013;
run;
您可以看到,在我的 input
语句中,我创建了我提到的两个变量。我还在我的 retain
声明中提到了它们。但是,我不确定如何让它们按照我指定的方式出现在我的输出中。
我希望它们在输出的底部显示为总计行,如下所示:
POPESTIMATE2013 POPEST18PLUS2013
112312234 1234123412341234
23413412341234 213412341234
============ ============ ============
Total 23423423429 242234545345
有没有办法将这些变量放在输出最底部的新行中(有点像我如何使用 if _n_=1
代码放置变量标签)?
如果我需要更好地解释自己,请告诉我。感谢您对此提供的任何帮助。谢谢。
如果我理解你的问题,你就快成功了。
首先,将 end=eof
添加到您的 infile
语句中。这会初始化一个等于 0 的变量 "eof",但只有当 SAS 读取最后一行数据时才会等于 1。这也适用于 set
语句。
接下来,添加这个 do 块,当 sas 在文件的最后一行时执行:
if eof then do;
put @5 9*'=' @40 11*'=' @55 11*'=';
put @5 'Total' @40 Total_All_Ages comma11. @55 Total_18Plus comma11.;
end;
在这里,您使用 put 语句打印出格式(重复的 = 符号)和总计。完整代码如下:
data _NULL_;
retain Total_All_Ages Total_18Plus;
infile RAWfoldr DLM=',' firstobs=3 obs=53 end=eof;
informat STATE . NAME .;
input SUMLEV REGION $ DIVISION STATE $ NAME $ POPESTIMATE2013 POPEST18PLUS2013 PCNT_POPEST18PLUS;
Total_All_Ages = sum(Total_All_Ages, POPESTIMATE2013);
Total_18Plus = sum(Total_18Plus, POPEST18PLUS2013);
keep STATE NAME POPESTIMATE2013 POPEST18PLUS2013 Total_All_Ages Total_18Plus;
format POPESTIMATE2013 comma11. POPEST18PLUS2013 comma11.;
file print notitles;
if _n_=1 then put '=== U.S. Resident Population Estimates for All Ages and ===
Ages 18 or Older by State (in Alphabetical Order), 2013';
if _n_=1 then put ' ';
if _n_=1 then put @5 'FIPS Code' @16 'State Name' @40 'All Ages' @55 'Ages 18 or Older';
if _n_=1 then put ' ';
put @5 STATE @16 NAME @40 POPESTIMATE2013 comma11. @55 POPEST18PLUS2013 comma11.;
if eof then do;
put @5 9*'=' @40 11*'=' @55 11*'=';
put @5 'Total' @40 Total_All_Ages comma11. @55 Total_18Plus comma11.;
end;
run;
关于代码的最后一点说明:您可以通过在 put 语句中指定格式后跟“-r”来右对齐数字,例如:
put @5 STATE @16 NAME @40 POPESTIMATE2013 comma11.-r @55 POPEST18PLUS2013 comma11.-r;
这将覆盖您拥有的任何格式声明。
在 SAS 中,我试图创建一个变量,它是另一个变量的总和。在这种情况下,我试图创建两个变量:Total_All_Ages
,它是 2013 年美国人口的总和 POPESTIMATE2013
,以及 Total_18Plus
,它是 2013 年美国人口老龄化的总和18+ POPEST18PLUS2013
.
我希望这些变量的输出看起来好像我在 proc print
下使用了 sum
语句(其中总和出现在新行中变量列的底部)。但是,我不想使用 print
程序。相反,我只想使用 data
步骤创建我的输出。
我需要这样做的方法是使用 retain
(和 input
)语句。
我的代码如下:
data _NULL_;
retain Total_All_Ages Total_18Plus;
infile RAWfoldr DLM=',' firstobs=3 obs=53;
informat STATE . NAME .;
input SUMLEV REGION $ DIVISION STATE $ NAME $ POPESTIMATE2013 POPEST18PLUS2013 PCNT_POPEST18PLUS;
Total_All_Ages = sum(Total_All_Ages, POPESTIMATE2013);
Total_18Plus = sum(Total_18Plus, POPEST18PLUS2013);
keep STATE NAME POPESTIMATE2013 POPEST18PLUS2013 Total_All_Ages Total_18Plus;
format POPESTIMATE2013 comma11. POPEST18PLUS2013 comma11.;
file print notitles;
if _n_=1 then put '=== U.S. Resident Population Estimates for All Ages and ===
Ages 18 or Older by State (in Alphabetical Order), 2013';
if _n_=1 then put ' ';
if _n_=1 then put @5 'FIPS Code' @16 'State Name' @40 'All Ages' @55 'Ages 18 or Older';
if _n_=1 then put ' ';
put @5 STATE @16 NAME @40 POPESTIMATE2013 @55 POPEST18PLUS2013;
run;
您可以看到,在我的 input
语句中,我创建了我提到的两个变量。我还在我的 retain
声明中提到了它们。但是,我不确定如何让它们按照我指定的方式出现在我的输出中。
我希望它们在输出的底部显示为总计行,如下所示:
POPESTIMATE2013 POPEST18PLUS2013
112312234 1234123412341234
23413412341234 213412341234
============ ============ ============
Total 23423423429 242234545345
有没有办法将这些变量放在输出最底部的新行中(有点像我如何使用 if _n_=1
代码放置变量标签)?
如果我需要更好地解释自己,请告诉我。感谢您对此提供的任何帮助。谢谢。
如果我理解你的问题,你就快成功了。
首先,将 end=eof
添加到您的 infile
语句中。这会初始化一个等于 0 的变量 "eof",但只有当 SAS 读取最后一行数据时才会等于 1。这也适用于 set
语句。
接下来,添加这个 do 块,当 sas 在文件的最后一行时执行:
if eof then do;
put @5 9*'=' @40 11*'=' @55 11*'=';
put @5 'Total' @40 Total_All_Ages comma11. @55 Total_18Plus comma11.;
end;
在这里,您使用 put 语句打印出格式(重复的 = 符号)和总计。完整代码如下:
data _NULL_;
retain Total_All_Ages Total_18Plus;
infile RAWfoldr DLM=',' firstobs=3 obs=53 end=eof;
informat STATE . NAME .;
input SUMLEV REGION $ DIVISION STATE $ NAME $ POPESTIMATE2013 POPEST18PLUS2013 PCNT_POPEST18PLUS;
Total_All_Ages = sum(Total_All_Ages, POPESTIMATE2013);
Total_18Plus = sum(Total_18Plus, POPEST18PLUS2013);
keep STATE NAME POPESTIMATE2013 POPEST18PLUS2013 Total_All_Ages Total_18Plus;
format POPESTIMATE2013 comma11. POPEST18PLUS2013 comma11.;
file print notitles;
if _n_=1 then put '=== U.S. Resident Population Estimates for All Ages and ===
Ages 18 or Older by State (in Alphabetical Order), 2013';
if _n_=1 then put ' ';
if _n_=1 then put @5 'FIPS Code' @16 'State Name' @40 'All Ages' @55 'Ages 18 or Older';
if _n_=1 then put ' ';
put @5 STATE @16 NAME @40 POPESTIMATE2013 comma11. @55 POPEST18PLUS2013 comma11.;
if eof then do;
put @5 9*'=' @40 11*'=' @55 11*'=';
put @5 'Total' @40 Total_All_Ages comma11. @55 Total_18Plus comma11.;
end;
run;
关于代码的最后一点说明:您可以通过在 put 语句中指定格式后跟“-r”来右对齐数字,例如:
put @5 STATE @16 NAME @40 POPESTIMATE2013 comma11.-r @55 POPEST18PLUS2013 comma11.-r;
这将覆盖您拥有的任何格式声明。