如果在工作中,需要将保存在EXCEL的数据集内容导入到SAS,并进行变量的属性处理,一般会涉及Import过程步。这过程可能会遇到一些导入问题,以下是我梳理的相关内容。
1. EXCEL导入数据集
EXCEL内容导入SAS数据集,常用的方法是Import过程步,为了文件处理方便,我先把EXCEL文件地址设为工作路径。
**Set work space;
%sysexec cd "E:_SAS_import";
EXCEL文件中,页面如下,第1行为变量Lable,第2行为变量名称,之后就是具体的观测数。
使用Import过程步,进行初步导入。从结果中可以看出,所有的数据都是从字符读入,并且日期格式也是读成了数字。关于日期数字问题,这里不进一步解释,感兴趣的读者可以参考SAS编程:关于EXCEL时间变量导入SAS数据集的问题。
**Import EXCEL;
proc import datafile="test.xlsx" /*or datafile="E:_SAS_import\test.xlsx"*/
out=DM1 dbms=xlsx replace;
sheet = "DM";
getnames = no;
run;
2. 特定EXCEL记录导入数据集
2.1 range = 选项
虽然字符格式后续也方便处理成想要的属性,但是SAS导入的时候也方便自动处理。这里我们可以直接将第2行的信息读取成变量名称,第3行开始读取成SAS记录数。导入的数据集,自动将全部为数字的列转化为数值变量。(关于range=
选项,可以参考SAS官方文档SAS Help Center: Microsoft Workbook Files)。
**Import EXCEL 2;
proc import datafile="test.xlsx"
out=DM2 dbms=xlsx replace;
range="DM$A2:"n;
getnames = yes;
run;
2.2 sheet = 选项能否实现?
处理读入EXCEL记录时,有些读者可能会考虑使用sheet = "DM";
、 datarow = 2
以及getnames = yes;
进行实现从第2行读入并将第2行读取为变量名称。事实上,这样无法实现想要的效果。
虽然,语句sheet = "DM";
与range="DM$:"n;
是等价的,我们可以正常导入sheet页面中所有的信息,但是语句getname =
指定IMPORT过程,是否从输入文件第一行的数据值生成SAS变量名。而数据集所需要的变量名称保存在第2行,所以无法用来直接命名。(SAS Help Center: Syntax: PROC IMPORT GETNAMES Statement)
不过,语句datarow = 3
可以读取所需要的数据记录。
**Import EXCEL 3;
proc import datafile="test.xlsx"
out=DM3 dbms=xlsx replace;
sheet = "DM";
datarow = 3;
getnames = yes;
run;
这一点与Data步中,where
与if
语句筛选记录的对比关系类似。where
语句筛选进入数据集处理的观测记录;而if
语句在纳入所有观测记录后,再进行筛选。
Import过程步中,语句range="sheet$XX:XX"n
筛选好进入SAS数据集的EXCEL记录;而语句datarow = n;
,是在进入SAS数据集的记录中,进行筛选。
编程中,使用range
语句筛选记录,更精准一些。
3. Libname语句使用注意点
在这篇文章中,就不介绍批量设置变量Label的过程。在设置单个数据集属性后,需要批量导入EXCEL Sheet内容。批量处理的关键是,获取所有Sheet的名称。这里可以,通过将EXCEL设置为SAS逻辑库来实现,代码如下。目前,test.xlsx
文件中有两个sheet(DM,VS)。
libname tmp excel "test.xlsx";
导入的数据集内容,是sheet中的所有信息。信息保存到逻辑库中,我们就可以通过SAS字典,来获取EXCEL中sheet名称和数目信息,并把这两个信息保存到宏变量&sheetnam
、&sheetnum
中。
关于Proc SQL如何将一整列变量值或一行记录值保存到宏变量,可以参考SAS编程:Proc SQL生成宏变量时INTO子句的使用。
*Get sheet names and sheet num and save them into macro vars;
proc sql noprint;
create table tmp1 as
select distinct scan(memname, 1, "$") as name, count(distinct scan(memname, 1, "$") ) as num
from dictionary.tables
where libname = "TMP";
select distinct scan(memname, 1, "$"), count(distinct scan(memname, 1, "$") ) into: sheetnam separated by "!" , :sheetnum
from dictionary.tables
where libname = "TMP";
quit;
经过一番整理后,批量处理Sheet的程序基本完善,但是批量使用Import过程步时,会出Error。
proc import datafile="test.xlsx"
out=DM dbms=xlsx replace;
sheet = "DM";
getnames = no;
run;
检查后发现原因:逻辑库在调用EXCEL时,Import过程步无法读取EXCEL信息。这个问题取消逻辑库的分配可以解决。
在日常编程中,如果需要临时使用逻辑库,使用完毕后可以立即释放,避免后续调用出现问题。
libname tmp excel "test.xlsx";
结语
本文介绍了使用Proct Import将EXCEL文件导入SAS数据集时,记录筛选、命名的问题,建议使用range
语句筛选记录,避免偏误。对于临时逻辑库,建议使用完毕后立即释放,避免后续调用文本出现问题。