/* 先建立一個測試用的 data set, 以下以此當例子 */ *以下的例子片段都可以copy 到 data a 那段程式中, run 之前, 便可以實驗及跑出結果;
data d;
input id name$ vol ;
cards;
1 AABBCCDD 10
1 A 12
1 A 9
1 A 3
2 B 4
2 B 5
2 B 6
2 B 7
8 C 1
8 C 1
8 C 1
;
run;

//==========================================//

1. 數字轉文字.

   X=put(vol, 12.); /* 將 VOL 以12. 格式轉換為 字串 */
2. 定義變數格式.
  length   : 定義長度
  例:

data a; /* 資料 a */
  set d; /* 使用 data d */
  length n $6; /* 設定新變數 n 為長度6 的字串 */
  n=cats("0",put(name,12.)); /* cat 可以將二個字串, 合併串成一字串, 這邊誤用 put, put 內容應為 數 */
  nt=cats("0",name); /* 將 0, 與 name 變數串成新的字串變數 nt, 因未指定 length 為內部指定,,在我的環境是長度200 */
  length volx $10; /* 定義一新的變數欄位 volx, 長度為10. */
  volx=cats("123", vol); * 將123字串與原來的數字("10")合併為新字串, 例第一筆會變為 "12310" ;
XXX= put(vol, 11.); /* 將 VOL 以11. 格式轉換為 字串, length 為11 */
run;

/* ======================*/

data az1;
set d;
format num1 z5.; /* 5 ditital 未滿補0 */
num1=vol; /* 第一筆num1="00010" */
run;

/*=========================;
proc print data=az1;
run;

//=================================
3. 文字轉數字
  X=input (MM, date9.);  * MM為文字 ;
  Y=input(MM,12.); *數字;
  格式:
  yymmdd6.; 日期6 格式
  best5. ; 數字5 格式,
  z5. : 數字前用補0表示
  $3. :

ex: 例子

data az2;
set a;
X=input(volx,12.); * vol 為數字->正確使用;
Y=input (volx, date8.); * volx為文字. 錯誤使用 ;
Z=input ("19990102", date8.); *. 錯誤使用 ;
dd= MDY(12,11,2014); * 建立SAS 日期, 為2014 年, 12月 11日;
length xx $8;
XX=cats(year(dd), month(dd), day(dd)); *將SAS 日期換為字串 /正確使用;
XXX=input(dd, date8.);
a='26oct02'd; * 定義一日期變數;;
a2='26oct02'; *定義為一字串;
format X1 date9.;
X1=input(a2,date9.); /* 用日期9 格式顯示 ;
X2=input(a2,date9.); * 用日期數字顯示 (SAS 定義的數字 19600101 為0);
run;

4. 文字function, 字串處理

  用 || ,   X="a" ||"XYZ" ||"PPPP"; * --> X=aXYZpppp;
  cat(a, b, n, c); /* 文數字都可以參數, 數字前會有空白 */;
  catt = catt(a, b, n, c); /* 文數字都可以參數, 數字前不會留空白 */;
  cats = cats(a, b, n, c); /* 文數字都可以參數, 所有空白自動拿掉 */;
  catx = catx(',', a, b, n, c); /* 第一個參數為分隔符號(字串), 文數字都可以參數, leading 空白自動拿掉 */;


  Substr() ; 取子字串
     X="19901206";
     d_Year=substr(X,1,4); /* get 1990, 從第一個字, 取4個字 */
     d_month=substr(X,5,2); /* get 12, 從第5個字, 取2個字 */   
     d_day=substr(X,7,2); /* get 06 *,  從第7個字, 取2個字 */
    dd=mdy(input(d_month,12.),input(d_day,12.), input(d_year,12.)); * create SAS date dd;
    format dd yymmdd10.; /* set display format for var dd yymmdd10. -> 1990-12-06. yymmdd8. -> 90-12-06 */


  trim() ; 去掉後面的空白字
   Y=" ABC "; *前後都有空白字;
   Y1="ZZZ";
   Y2=Y||Y1; 
   yy2=trim(Y)||Y1;
  substrn()
length

  length()
    str="ABC";
    I=length(str); * 字串的長度, i=3 , 雖然用attributes看str 是$4;

  lengthn() 
  str=""; /* 空字串 */
  I2=length(str); * I2=1;
  I3=lengthn(str); * I3=0;

  vvalue() ;將變數名稱, 依格式轉成 可見字串 
      format dd yymmdd10.;
     X=vvalue(dd); /* 日期dd 依 format 轉成字串放到 X 變數 */ 
     put(X); 
   

  vvaluex(); ;將變數名稱, 依格式轉成 可見字串
    name_dd='dd'; * 把變數名稱換成字串;
    ddd2=vvaluex(name_dd); * 有 interpreter 的意思, 由字串(name_dd)中的名字取出依格式印出之字串;

  scan()  

  find(); 
    i=find("ABCD,DEF",','); * i 會等於 5, 第5 個字出現 ','  ;
    以下的例子可以將字串依分割符號拆開成數個字串
    length zz $11; * 先將字串設成長度11 以容納之後的處理;
    zz="ABCD,DEF,P1"; /* 定義字串 */
    i=find(zz,','); * 找分隔符號 , 的位置;
    lenzz=length(zz); * 拿出字串的長度;
    aa= substr(zz,1,i-1); * 依分隔符號 , 的位置i, 取出 ABCD;
    tail=substr(zz,i+1, lenzz-i); * 依分隔符號 , 的位置i, 剩下未處理的字串 DEF,P1;
    j=find(tail, ','); * j=4;
    bb= substr(tail,1,j-1); *取出 DEF;
    cc=substr(tail,j+1, lenzz-j);    *取出 P1;
    /* aa=ABCD, bb=DEF, cc=P1 */
    另一個例子: 從日期字期取出年月日
    '1990/1/30' ; 依上述方法即可取出

5. data processing step
DATA xxx; //容易找到資料, 就不詳細說明了. 

_N_ : 內部變數, 可指出目前正在處理的行數(ith row).

data bx;

  set data d;

  if _N_ > 5 then delete; /* 只留下前5 筆 */

run;

 

retain 使用

a. summation: retain 可以用來算 sum=sum + vol;

data a;
  set d;

  retain sum; /* sum 的結果可以往下一筆傳 */
if (sum=.) then sum=0; /* initial variable : 第一筆進來時, 內定值為 . *;
  sum=sum+vol; /* 累加 *;
run;

 

b. FIRST.varLAST.var, 分組 統計用

要搭配 by 分組

EX: //同上, 同一組各別做加總

data a;
set d;

retain sum;
if (first.id) then sum=0; /* 各組第一筆先將sum 清成0 , 以便相加 *;
sum=sum+vol;
by ID; /* 以 ID 分組 */
run;

 

可能很多人都不是很清楚, first 跟 BY A B C 的關係, 因此用下面的Table 當例子. 可以清楚知道 first 成立的row.

 以下是一個例子, by ID year Month, 請觀察 Yes 的位置

ID Year Month First.year First.month
A 1990 3 Yes Yes
A 1990 6 No Yes
A 1991 1 Yes Yes
A 1991 1 No No
A 1991 2 No Yes
A 1992 2 No No
A 1992 3 No Yes
A 1992 3 No No
A 1992 3 No No

 

 

 

 

 

6. 日期變換

建立SAS日期: MDY(month, day, year);

ex:   dd=mdy(10,20, 2014); // 2014, 10 月, 20 日

從SAS日期取回 年月日

    myear=year(dd);

    mmonth=month(dd);

    mday=day(dd);

 -----

日期格式:

日期變數說明:
  因為在SAS內部要比較好處理, 所以日期會轉換為SAS內部的數字,
可看成流水號, 以1960/1月1 日為0, 往現在1 天, 就加1, 往以前一天就減一.
如要做日期比較, 可以減少計算量, 並加速度.
也因此可以透過 sas 內建function, 以此日期比較容易取得星期幾, 第幾週, 第幾季的資訊.

以下我們會以 SAS日期, 數字日期, 及字串日期. 說明例子, 以免弄錯.
SAS日期, 1990/10/12, 12 以best 12 看到: 11242 跟年月日看似無關的數字)
  優點: 可計算, (要改display 格式 才好看好觀察)
數字日期: 19801231, (以best 12 看到 就是19801231, 數字型)
  優點: 好看好觀察
字串日期: "1980/12/31", "26oct02", "1999/12/31", "1999/3/6", "1999/03/06" (字串 型, 可能會有任意格式)
  如有各種寫法. 不好處理.

辨識方法. 用viewtable, 在sas的檔案總管, 開啟資料檔, 在最上面的欄位名稱(double click)或按下滑鼠右鍵選column attributes, 將 format 選成best 12.
# informat; 內部格式 , $8 : ex:字串, 長度8,
# format:display 顯示格式,
如上例: infomat: 12. 如數值為14242,
format : best12. 看到是14242,
format : yymmdd. , 看到是 90-10-12  


依據接下來你要對日期如何處理, 做選擇.
有時你拿到的資料檔是別人提供的, 這時最好先做轉換, 到SAS 日期, 或是 數字日期
這二種對計算比較是比較好的格式. 

##SAS 日期 轉 數字日期: 19980329

ndate=year(d_date) *10000+ month(d_date) *100 + day(d_date); * d_date SAS 日期;

##數字日期 SAS 日期 : 19980329

d_date= MDY( mod(int(ndate/100),100)   , mod(ndate,100) , int(ndate/10000) ); * input ndate 數字日期;

##字串日期 轉 SAS 日期 :

見 4. substr(), find() 的例子

##日期計算, 取出3個月前的日期: 如 1999/05/20 --> 1999/05/21

d_date= MDY( mod(int(date/100),100) , mod(date,100) , int(date/10000) );
dlast = intnx('month',d_date,1)-1; /*本月最後一天 */
dayA=day(d_date);
d_pre3month=intnx('month',d_date,-3)+dayA

 

7. 時間

sas_T=hms(t_hour, t_minute, t_second); *造出一 SAS 時間;
從SAS T 變數值取回, 小時, 分鐘, 秒.
thour=hour(sas_t);
tminute=minute(sas_t);
tsecond=second(sas_t);

如交易時間. 13:45:12
sas_t=hms(13:45,12);

如需要數字時間, 請參考上面的日期例子, 同樣方法定義即可.

dhms(d_date,t_hour, t_minute, t_second); *造出一 SAS日期+時間變數;
d_date: sas日期.

8. 其他函數

   weekday(d_date): 星期幾, 1. 星期日, 7. 星期六  

   HOLIDAY( 'holiday', year )

   QTR( d_date ) ; 第幾季

    YYQ( year, quarter ); return 年季

    TODAY() : 今天 sas_date

    DHMS( date, hour, minute, second ) 

 

我的相關文章: 

                     [SAS 問題集常見問題]: 

                     [Data Step][Sas] 徹底研究 DATA STEP 運作原理及觀念

                     SAS Proc IML sample- IML: matrix 矩陣計算處理語言

                     SAS PROC SQL : 常用SQL指令及寫法.

                     SAS programming 雜項 DATA SORT MERGE : 未整理

                     SAS input, infile, dlm, DSD, missover, @@ 的使用法, EXpand,:未整理

                     [SQL] 如何取出分組最大值, 最小值, 總和, 平均數, 及各分組各有多少筆 

                     [Cartesian product] 合併相關概念, 資料庫, sql,

                     [SQL] 取出上一筆交易時間, 與本次交易的間隔

                     [Data Step][Sas] 徹底研究 DATA STEP - 2 : merge, first last var

                     [Data Step] 取出分組最大值, 最小值, 總和, 平均數, 標準差及各分組各有多少筆 ?

                     [IML][SAS] 算移動平均數5期

                     [SAS] 隨機抽樣, 如何從一個資料集中隨機取出 N 個樣本?

其他日誌:

            軟體破解入門

文章標籤
全站熱搜
創作者介紹
創作者 cianfen 的頭像
cianfen

cianfen的部落格

cianfen 發表在 痞客邦 留言(0) 人氣(1,010)