输出一张频数汇总表,遇到一个问题。TFLShell中,频数百分比保留一位小数,我直接用5.1的格式将百分比put出来 (put(percent, 5.1)
)。这样做,本来没什么问题。但这张表的BigN大于1000,分类中有频数为0和1的情况,这样对于频数为0和1的类别,百分比输出都为“(0.0)”,直观上看这两个百分比相同。
跟统计师进行确认,对于频数不为0的记录,如果频率小于0.1,显示为“(<0.1)”。这样,频率百分比显示要求具体如下:
- 对于>0以及<0.1的值,显示“<0.1”;
- 对于0或≥0.1的值,显示
5.1
的格式。
对于每一个试验分组,我目前的代码如下:
c1 = strip(put(_0, 5)) || " (" || strip(put(_0/&n_0.*100, 5.1)) ||")";
基于新的逻辑,我需要判断频数是否为0,以及频率是否小于0.1之后,再进行赋值。同时,5个不同的试验分组需要单独处理。
直接进行条件判断,程序更新比较繁琐,所以我考虑通过设置百分比的Format来实现统计师的要求。设置好符合条件的Format之后,直接替换格式5.1
,就可以完成程序的更新。
而这个格式的设置,就是通过Format过程步中的pircture
语句来实现。
这里为什么不能使用value
语句来设置Format呢?value
语句设置的Format,是固定的值或范围对应具体的字符串,而条件2显示具体的格式,是无法用value
语句实现的。
下面开始介绍Format过程步中的Picture语句,读者也可以直接跳到第4部分,先看一下Picture语句的具体应用。
0. Picture语句语法
Picture
语句是用于创建输出数值的模板 (Creates a template for printing numbers.),其主要语法为:
proc format;
picture fmtname
value-or-range-1 = 'picture-1'
value-or-range-2 = 'picture-2'
... ...
;
run;
1. value-or-range
等号左侧的value-or-range, 有两类形式,一是具体的值,二是具体的范围。具体的离散值不做详细的介绍,具体的范围主要有三种形式:
- 范围端点包含无限值(正无穷或负无穷),举例:0-high, low-0, low-high;
- 范围端点为有限值,且包含有限值,举例:0-1,1-100,-1-6
- 范围端点为有限值,但不包含有限值,举例:0<-1, 1-<100, -1<-<6。
同时,value-or-range的两类形式可以互相并列,中间用,
间隔:
proc format;
picture fmtname
1,3, 4-10 = 'picture1'
11-20, 21 = 'picture2'
;
run;
2. 'Picture'
等号右侧的'Picture'可以理解成一种具体的数值模板,主要有3类:
- 数值选择符 (digit selectors);
- 信息字符 (message characters)
- 指令 (directives)
2.1 数值选择符 (digit selectors);
数值选择符,用于定义数值位置的0-9的字符,1个选择符代表1位数字。如果是非0选择符在最左侧,不足位的数值将会用0补位;如果是0选择符在最左侧,不足位的数值将不会用0补位;通常用数字9来表示非0字符。代码示例如下:
proc format;
picture fmt
1-5 = '009.9'
5<-10 = '999.9'
;
run;
data tmp;
a = 1; b = put(a, fmt.); output;
a = 10; b = put(a, fmt.); output;
run;
格式fmt的含义为,对于1到5之间的数值,保留1位小数;对于5到10之间的数据值,保留1位小数,如果小数点左侧位数小于3位,则用0补位。
数值1的格式为0选择符在最左侧,整数位不足3位时,不需要用0补足位数;数值10的格式为非0选择符在最左侧,整数位不足3位时,需要用0补足位数。
2.2 信息字符 (message characters);
信息字符,是指非数字字符,直接输出字符串的内容,这类似于Value
语句生成的格式。
proc format;
picture fmt
1-5 = 'ha'
5<-10 = 'hei'
;
run;
data tmp;
a = 1; b = put(a, fmt.); output;
a = 10; b = put(a, fmt.); output;
run;
Picture模板中,也可以同时包括数值选择符和信息字符,不过数值字符必须在模板的开头,这样数值选择符的格式才能正常显示。
proc format;
picture fmt
1-5 = '000.00 ha'
5<-10 = '999.9 hei'
;
run;
data tmp;
a = 1; b = put(a, fmt.); output;
a = 10; b = put(a, fmt.); output;
run;
2.3 指令 (directives);
指令,是一些特殊字符,可以用来格式化日期、时间或日期时间值。这一内容在日常工作中,比较少用到,这里不做过多介绍,感兴趣的读者可以自行查看SAS官方文档(SAS Help Center: Syntax: PROC FORMAT PICTURE Statement)。
3. 常用选项
Picture语句中的选项,分为Format选项和Picture选项。在Format过程步使用选项时,要将选项放置到括号()
中。Format选项放在格式名称之后,Picture选项放在模板'Picture'之后。介绍3个常用选项,Round
,Noedit
以及Prefix=""
。
3.1 Format选项——Round
Round
选项的作用是,对数值进行格式化时,会将数值四舍五入到最近的整数。直接看定义不方便理解,直接看代码演示:
**Without Round option;
proc format;
picture fmt
1-5 = '000.00'
5<-10 = '999.99 '
;
run;
data tmp1;
a = 1.444; b = put(a, fmt.); output;
a = 1.445; b = put(a, fmt.); output;
a = 9.444; b = put(a, fmt.); output;
a = 9.445; b = put(a, fmt.); output;
run;
未使用Round
选项时,对数值进行保留两位小数的操作,会直接取小数位的后两位,不管小数点后第3位数值的大小。
**With Round option;
proc format;
picture fmt (round)
1-5 = '000.00'
5<-10 = '999.99 '
;
run;
data tmp2;
a = 1.444; b = put(a, fmt.); output;
a = 1.445; b = put(a, fmt.); output;
a = 9.444; b = put(a, fmt.); output;
a = 9.445; b = put(a, fmt.); output;
run;
使用Round
选项后,对数值进行保留两位小数的操作,会根据小数点后第3位数值的大小进行四舍五入。代码示例中,第3位为5时,会向前进一位。
3.2 Picture选项——Noedit
Noedit
选项作用是,将Picture模板中的数值当做信息字符 (message characters),而不是数值选择符 (digit selectors)。前面介绍到,模板中的数字都有对应的含义,Noedit
选项会抹去模板中数字的含义,直接将数字当作纯粹的字符,与Value语句生成Format的作用完全相同。
代码举例如下:
**Noedit option;
proc format;
picture fmt
1-5 = '000.00 ha' (noedit)
5<-10 = '999.9 hei'
;
run;
data tmp;
a = 1; b = put(a, fmt.); output;
a = 10; b = put(a, fmt.); output;
run;
数字1的Format,对应字符000.00 ha
;数字10的Format,对应保留1位小数,并在数值后面添加字符"hei
"。
3.3 Picture选项——Prefix=
Prefix=
选项的作用是,指定一个字符作为格式化值的前缀。这个比较容易理解,直接看代码实例,输出结果中直接添加前缀中的内容。关于Prefix=
选项的具体应用,我们在下一部分介绍。
**Prefix= option;
proc format;
picture fmt
1-5 = '000.00' (prefix = "Haha - ")
5<-10 = '999.99' (prefix = "Heihei - ")
;
run;
data tmp;
a = 1; b = put(a, fmt.); output;
a = 10; b = put(a, fmt.); output;
run;
4. Picture语句应用举例
4.1 频率格式自带括号——Prefix=
通常我们在输出频数汇总时,频数和频率的输出都是以n (xx.x)
的形式输出。常规的做法是将数值Put出来后,与左右括号进行拼接。
c1 = strip(put(_0, 5)) || " (" || strip(put(_0/&n_0.*100, 5.1)) ||")";
通过Picture语句生成的频率格式也可以自带括号,这需要Prefix选项来实现。
前面谈到,'Picture'模板,可以同时使用数值选择符和信息字符,但是数值选择符必须位于模板的开头。
特定范围的数值可以使用数值选择符设置特定的格式,后面添加信息字符右括号)
,而开头的左括号可以通过prefix="( "
选项来实现。
具体演示代码如下,Format选项中min =
选项指定格式的最小长度。如果不指定长度的话,默认长度是第一条记录Format值的长度,这可能造成后续值的截断。
代码中也展示了手动输出括号的结果,两者的显示略有区别。使用Picture格式的输出,左括号始终距离数字1个空格;而手动输出括号的方法,左括号的位置始终固定。
具体如何展示,需要看各个公司、项目、统计师的要求,不能一概而论。
proc format;
picture fmt (round min = 10)
0-<99.95 = '009.9 )' (prefix = "( ")
99.95-100 = '999.9 )' (prefix = "( ")
;
run;
data tmp1;
a = 0.15; b = put(a, fmt.); output;
a = 10.15; b = put(a, fmt.); output;
a = 99.92; b = put(a, fmt.); output;
a = 99.96; b = put(a, fmt.); output;
run;
data tmp2;
a = 0.15; b = "( " || put(a, 5.1) || " ) "; output;
a = 10.15; b = "( " || put(a, 5.1) || " ) "; output;
a = 99.92; b = "( " || put(a, 5.1) || " ) "; output;
a = 99.96; b = "( " || put(a, 5.1) || " ) "; output;
run;
4.2 频率输出演示
最近手头项目的要求,频率百分比大于0且小于0.1,输出为<0.1
;其他则输出保留1位小数。
具体实现的代码如下:
proc format;
picture fmt (round min = 10)
0<-<0.1 = '( <0.1 )' (noedit)
0, 0.1-high = '009.9 )' (prefix = "( ")
;
run;
data tmp;
a = 0.05; b = put(a, fmt.); output;
a = 0; b = put(a, fmt.); output;
a = 90.15; b = put(a, fmt.); output;
a = 99.96; b = put(a, fmt.); output;
run;
取值为0与≥0.1的Format值相同,设置格式时可以使用,
进行并列。Format选项round
使保留小数位时,进行四舍五入。
4.3 p值输出演示
医学期刊一般对p值的输出有要求,例如:
- p > 0.1, p值保留2位小数;
- 0.1 > p ≥ 0.001,p值保留3位小数;
- p < 0.001,p值显示为"p < 0.001"。
实现代码如下:
proc format;
picture fmt (round min = 10)
0-<0.001 = 'p < 0.001' (noedit)
0.001-<0.01 = '9.999'
0.01-1 = '9.99'
;
run;
data tmp;
a = 0.0005; b = put(a, fmt.); output;
a = 0.0015; b = put(a, fmt.); output;
a = 0.624; b = put(a, fmt.); output;
a = 0.625; b = put(a, fmt.); output;
run;
总结
这篇文章介绍了Format过程步中Picture语句基本语法,Pircture语句生成的Format与Value语句生成的不同,模板设置的多样性可以应对更加复杂的格式要求。文章还介绍了3个常用的选项,以及3个Picture语句的应用举例。
希望给读者在日常工作中一些思路启发,提供不一样的解决格式问题的视角。