菜鸟笔记
提升您的技术认知

shell 技巧 awk编程-ag真人游戏

阅读 : 430

awk编程:

    1.  变量:
    在awk中变量无须定义即可使用,变量在赋值时即已经完成了定义。变量的类型可以是数字、字符串。根据使用的不同,未初始化变量的值为0或空白字符串" ",这主要取决于变量应用的上下文。下面为变量的赋值负号列表:

符号 含义 等价形式
= a = 5 a = 5
= a = a 5 a = 5
-= a = a - 5 a -= 5
*= a = a * 5 a *= 5
/= a = a / 5 a /= 5
%= a = a % 5 a %= 5
^= a = a ^ 5 a ^= 5

    /> awk '$1 ~ /tom/ {wage = $2 * $3; print wage}' filename
    该命令将从文件中读取,并查找第一个域字段匹配tom的记录,再将其第二和第三个字段的乘积赋值给自定义的wage变量,最后通过print命令将该变量打印输出。

    /> awk ' {$5 = 1000 * $3 / $2; print}' filename
    在上面的命令中,如果$5不存在,awk将计算表达式1000 * $3 / $2的值,并将其赋值给$5。如果第五个域存在,则用表达式覆盖$5原来的值。

    我们同样也可以在命令行中定义自定义的变量,用法如下:
    /> awk -f: -f awkscript month=4 year=2011 filename
    这里的month和year都是自定义变量,且分别被赋值为4和2000,在awk的脚本中这些变量将可以被直接使用,他们和脚本中定义的变量在使用上没有任何区别。

    除此之外,awk还提供了一组内建变量(变量名全部大写),见如下列表:

变量名 变量内容
argc 命令行参数的数量。
argind 命令行正在处理的当前文件的agv的索引。
argv 命令行参数数组。
convfmt 转换数字格式。
environ shell中传递来的包含当前环境变量的数组。
errno 当使用close函数或者通过getline函数读取的时候,发生的重新定向错误的描述信息就保存在这个变量中。
fieldwidths 在对记录进行固定域宽的分割时,可以替代fs的分隔符的列表。
filename 当前的输入文件名。
fnr 当前文件的记录号。
fs 输入分隔符,默认是空格。
ignorecase 在正则表达式和字符串操作中关闭大小写敏感。
nf 当前文件域的数量。
nr 当前文件记录数。
ofmt 数字输出格式。
ofs 输出域分隔符。
ors 输出记录分隔符。
rlength 通过match函数匹配的字符串的长度。
rs 输入记录分隔符。
rstart 通过match函数匹配的字符串的偏移量。
subsep 下标分隔符。

    /> cat employees2
    tom jones:4424:5/12/66:543354
    mary adams:5346:11/4/63:28765
    sally chang:1654:7/22/54:650000
    mary black:1683:9/23/44:336500

    /> awk -f: '{ignorecase = 1}; $1 == "mary adams" { print nr, $1, $2, $nf}' employees2
    2 mary adams 5346 28765
    /> awk -f: ' $1 == "mary adams" { print nr, $1, $2, $nf}' employees2
    没有输出结果。
    当ignorecase内置变量的值为非0时,表示在进行字符串操作和处理正则表达式时关闭大小写敏感。这里的"mary adams"将匹配文件中的"mary admams"记录。最后print打印出第一、第二和最后一个域。需要说明的是nf表示当前记录域的数量,因此$nf将表示最后一个域的值。

    awk在动作部分还提供了begin块和end块。其中begin动作块在awk处理任何输入文件行之前执行。事实上,begin块可以在没有任何输入 文件的条件下测试。因为在begin块执行完毕以前awk将不读取任何输入文件。begin块通常被用来改变内建变量的值,如ofs、rs或fs等。也可 以用于初始化自定义变量值,或打印输出标题。
    /> awk 'begin {fs = ":"; ofs = "\t"; ors = "\n\n"} { print $1,$2,$3} filename
    上例中awk在处理文件之前,已经将域分隔符(fs)设置为冒号,输出文件域分隔符(ofs)设置为制表符,输出记录分隔符(ors)被设置为两个换行符。begin之后的动作模块中如果有多个语句,他们之间用分号分隔。
    和begin恰恰相反,end模块中的动作是在整个文件处理完毕之后被执行的。
    /> awk 'end {print "the number of the records is " nr }' filename
    awk在处理输入文件之后,执行end模块中的动作,上例中nr的值是读入的最后一个记录的记录号。

    /> awk '/mary/{count } end{print "mary was found " count " times." }' employees2
    mary was found 2 times.

    /> awk '/mary/{count } end{print "mary was found " count " times." }' employees2
    mary was found 2 times.
    
    /> cat testfile
    northwest       nw      charles main                3.0     .98     3       34
    western          we      sharon gray                5.3     .97     5       23
    southwest       sw      lewis dalsass              2.7     .8      2       18
    southern         so      suan chin                   5.1     .95     4       15
    southeast        se      patricia hemenway        4.0     .7      4       17
    eastern           ea      tb savage                   4.4     .84     5       20
    northeast        ne      am main jr.                  5.1     .94     3       13
    north             no       margot weber             4.5     .89     5       9
    central           ct       ann stephens              5.7     .94     5       13

    /> awk '/^north/{count = 1; print count}' testfile     #如记录以正则north开头,则创建变量count同时增一,再输出其值。
    1
    2
    3
    
    #这里只是输出前三个字段,其中第七个域先被赋值给变量x,在自减一,最后再同时打印出他们。
    /> awk 'nr <= 3 {x = $7--; print "x = " x ", $7 = " $7}' testfile
    x = 3, $7 = 2
    x = 5, $7 = 4
    x = 2, $7 = 1    
    
    #打印nr(记录号)的值在2--5之间的记录。
    /> awk 'nr == 2,nr == 5 {print "the record number is " nr}' testfile
    the record number is 2
    the record number is 3
    the record number is 4
    the record number is 5

    #打印环境变量user和home的值。环境变量的值由父进程shell传递给awk程序的。
    /> awk 'begin { print environ["user"],environ["home"]}'
    root /root
    
    #begin块儿中对ofs内置变量重新赋值了,因此后面的输出域分隔符改为了\t。
    /> awk 'begin { ofs = "\t"}; /^sharon/{ print $1,$2,$7}' testfile
    western we      5
    
    #从输入文件中找到以north开头的记录count就加一,最后在end块中输出该变量。
    /> awk '/^north/{count }; end{print count}' testfile
    3

    2.  重新定向:
    在 动作语句中使用shell通用的重定向输出符号">"就可以完成awk的重定向操作,当使用>的时候,原有文件将被清空,同时文件持续打开, 直到文件被明确的关闭或者awk程序终止。来自后面的打印语句的输出会追加到前面内容的后面。符号">>"用来打开一个文件但是不清空原有文 件的内容,重定向的输出只是被追加到这个文件的末尾。
    /> awk '$4 >= 70 {print $1,$2 > "passing_file"}' filename  #注意这里的文件名需要用双引号括起来。
    #通过两次cat的结果可以看出>和>>的区别。
    /> awk '/north/{print $1,$3,$4 > "districts" }' testfile
    /> cat districts
    northwest joel craig
    northeast tj nichols
    north val shultz
    /> awk '/south/{print $1,$3,$4 >> "districts" }' testfile
    /> cat districts
    northwest joel craig
    northeast tj nichols
    north val shultz
    southwest chris foster
    southern may chin
    southeast derek jonhson

   
    awk中对于输入重定向是通过getline函数来完成的。getline函数的作用是从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得 输入。他负责从输入获得下一行的内容,并给nf、nr和fnr等内建变量赋值。如果得到一个记录,getline就返回1,如果达到文件末尾就返回0。如 果出现错误,如打开文件失败,就返回-1。
    /> awk 'begin { "date" | getline d; print d}'
    tue nov 15 15:31:42 cst 2011
    上例中的begin动作模块中,先执行shell命令date,并通过管道输出给getline,然后再把输出赋值给自定义变量d并打印输出它。
    
    /> awk 'begin { "date" | getline d; split(d,mon); print mon[2]}'
    nov
    上例中date命令通过管道输出给getline并赋值给d变量,再通过内置函数split将d拆分为mon数组,最后print出mon数组的第二个元素。
    
    /> awk 'begin { while("ls" | getline) print}'
    employees
    employees2
    testfile
    命令ls的输出传递给getline作为输入,循环的每个反复,getline都从ls的结果中读取一行输入,并把他打印到屏幕。
    
    /> awk 'begin { printf "what is your name? "; \
        getline name < "/dev/tty"}\
        $1 ~ name {print "found" name " on line ", nr "."}\
        end {print "see ya, " name "."}' employees2
    what is your name? mary
    found mary on line  2.
    see ya, mary.    
    上例先是打印出begin块中的"what is your name? ",然后等待用户从/dev/tty输入,并将读入的数据赋值给name变量,之后再从输入文件中读取记录,并找到匹配输入变量的记录并打印出来,最后在end块中输出结尾信息。
    
    /> awk 'begin { while(getline < "/etc/passwd" > 0) lc ; print lc}'
    32
    awk将逐行读取/etc/passwd文件中的内容,在达到文件末尾之前,计数器lc一直自增1,当到了末尾后打印lc的值。lc的值为/etc/passwd文件的行数。
    由于awk中同时打开的管道只有一个,那么在打开下一个管道之前必须关闭它,管道符号右边可以通过可以通过双引号关闭管道。如果不关闭,它将始终保持打开状态,直到awk退出。
    /> awk {print $1,$2,$3 | "sort -4 1 -2 0 -1"} end {close("sort -4 1 -2 0 -1") } filename
    上例中end模块中的close显示关闭了sort的管道,需要注意的是close中关闭的命令必须和当初打开时的完全匹配,否则end模块产生的输出会和以前的输出一起被sort分类。

    3.  条件语句:
    awk中的条件语句是从c语言中借鉴来的,见如下声明方式:
    if (expression) {
        statement;
        statement;
        ... ...
    }
    /> awk '{if ($6 > 50) print $1 "too hign"}' filename
    /> awk '{if ($6 > 20 && $6 <= 50) { safe ; print "ok}}' filename

    if (expression) {
        statement;
    } else {
        statement2;
    }
    /> awk '{if ($6 > 50) print $1 " too high"; else print "range is ok" }' filename
    /> awk '{if ($6 > 50) { count ; print $3 } else { x = 5; print $5 }' filename

    if (expression) {
        statement1;
    } else if (expression1) {
        statement2;
    } else {
        statement3;
    }
    /> awk '{if ($6 > 50) print "$6 > 50" else if ($6 > 30) print "$6 > 30" else print "other"}' filename

   4.  循环语句:
    awk中的循环语句同样借鉴于c语言,支持while、do/while、for、break、continue,这些关键字的语义和c语言中的语义完全相同。

    5.  流程控制语句:
    next语句是从文件中读取下一行,然后从头开始执行awk脚本。
    exit语句用于结束awk程序。它终止对记录的处理。但是不会略过end模块,如果exit()语句被赋值0--255之间的参数,如exit(1),这个参数就被打印到命令行,以判断退出成功还是失败。

    6.  数组:
    因 为awk中数组的下标可以是数字和字母,数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格 里。由于hash不是顺序存储,因此在显示数组内容时会发现,它们并不是按照你预料的顺序显示出来的。数组和变量一样,都是在使用时自动创建的,awk也 同样会自动判断其存储的是数字还是字符串。一般而言,awk中的数组用来从记录中收集信息,可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。
    /> cat employees
    tom jones       4424    5/12/66         543354
    mary adams      5346    11/4/63         28765
    sally chang     1654    7/22/54         650000
    billy black     1683    9/23/44         336500

    /> awk '{name[x ] = $2}; end{for (i = 0; i < nr; i ) print i, name[i]}' employees    
    0 jones
    1 adams
    2 chang
    3 black
    在上例中,数组name的下标是变量x。awk初始化该变量的值为0,在每次使用后自增1,读取文件中的第二个域的值被依次赋值给name数组的各个元素。在end模块中,for循环遍历数组的值。因为下标是关键字,所以它不一定从0开始,可以从任何值开始。

    #这里是用内置变量nr作为数组的下标了。
    /> awk '{id[nr] = $3}; end {for (x = 1; x <= nr; x ) print id[x]}' employees
    4424
    5346
    1654
    1683

    awk中还提供了一种special for的循环,见如下声明:
    for (item in arrayname) {
        print arrayname[item]
    }

    /> cat db
    tom jones
    mary adams
    sally chang
    billy black
    tom savage
    tom chung
    reggie steel
    tommy tucker

    /> awk '/^tom/{name[nr]=$1}; end {for(i = 1;i <= nr; i ) print name[i]}' db
    tom

    tom
    tom

    tommy
    从输出结果可以看出,只有匹配正则表达式的记录的第一个域被赋值给数组name的指定下标元素。因为用nr作为下标,所以数组的下标不可能是连续的,因 此在end模块中用传统的for循环打印时,不存在的元素就打印空字符串了。下面我们看看用special for的方式会有什么样的输出。
    /> awk '/^tom/{name[nr]=$1};end{for(i in name) print name[i]}' db
    tom
    tom
    tommy
    tom

    下面我们看一下用字符串作为下标的例子:(如果下标是字符串文字常量,则需要用双引号括起来)    
    /> cat testfile2
    tom
    mary
    sean
    tom
    mary
    mary
    bob
    mary
    alex
    /> awk '/tom/{count["tom"] }; /mary/{count["mary"] }; end{print "there are " count["tom"] \
        " toms and " count["mary"] " marys in the file."} testfile2
    there are 2 toms and 4 marys in the file.
    在上例中,count数组有两个元素,下标分别为tom和mary,每一个元素的初始值都是0,没有tom被匹配的时候,count["tom"]就会加一,count["mary"]在匹配mary的时候也同样如此。end模块中打印出存储在数组中的各个元素。

    /> awk '{count[$1] }; end{for(name in count) printf "%-5s%d\n",name, count[name]}' testfile2
    mary 4
    tom  2
    alex 1
    bob  1
    sean 1
    在上例中,awk是以记录的域作为数组count的下标。

    /> awk '{count[$1] ; if (count[$1] > 1) name[$1] }; end{print "the duplicates were "; for(i in name) print i}' testfile2
    the duplicates were
    mary
    tom
    在上例中,如count[$1]的元素值大于1的时候,也就是当名字出现多次的时候,一个新的数组name将被初始化,最后打印出那么数组中重复出现的名字下标。

    之前我们介绍的都是如何给数组添加新的元素,并赋予初值,现在我们需要介绍一下如何删除数组中已经存在的元素。要完成这一功能我们需要使用内置函数delete,见如下命令:
    /> awk '{count[$1] }; \
        end{for(name in count) {\
                if (count[name] == 1)\
                    delete count[name];\
            } \
            for (name in count) \
                print name}' testfile2
    mary
    tom
    上例中的主要技巧来自end模块,先是变量count数组,如果数组中某个元素的值等于1,则删除该元素,这样等同于删除只出现一次的名字。最后用special for循环打印出数组中仍然存在的元素下标名称。

    最后我们来看一下如何使用命令行参数数组,见如下命令:
    /> awk 'begin {for(i = 0; i < argc; i ) printf("argv[%d] is %s.\n",i,argv[i]); printf("the number of arguments, argc=%d\n",argc)}' testfile "peter pan" 12
    argv[0] is awk.
    argv[1] is testfile.
    argv[2] is peter pan.
    argv[3] is 12.
    the number of arguments, argc=4
    从输出结果可以看出,命令行参数数组argv是以0作为起始下标的,命令行的第一个参数为命令本身(awk),这个使用方式和c语句main函数完全一致。

    /> awk 'begin{name=argv[2]; print "argv[2] is " argv[2]}; $1 ~ name{print $0}' testfile2 "bob"    
    argv[2] is bob
    bob
    awk: (filename=testfile2 fnr=9) fatal: cannot open file `bob' for reading (no such file or directory)
    先解释一下以上命令的含义,name变量被赋值为命令行的第三个参数,即bob,之后再在输入文件中找到匹配该变量值的记录,并打印出该记录。
    在输出的第二行报出了awk的处理错误信息,这主要是因为awk将bob视为输入文件来处理了,然而事实上这个文件并不存在,下面我们需要做进一步的处理来修正这个问题。
    /> awk 'begin{name=argv[2]; print "argv[2] is " argv[2]; delete argv[2]}; $1 ~ name{print $0}' testfile2 "bob"    
    argv[2] is bob
    bob
    从输出结果中我们可以看到我们得到了我们想要的结果。需要注意的是delete函数的调用必要要在begin模块中完成,因为这时awk还没有开始读取命令行参数中指定的文件。

    7.  内建函数:
    字符串函数
    sub(regular expression,substitution string);
    sub(regular expression,substitution string,target string);

    /> awk '{sub("tom","tommy"); print}' employees   #这里使用tommy替换了tom。
    tommy jones       4424    5/12/66         543354

    #当正则表达式tom在第一个域中第一次被匹配后,他将被字符串"tommy"替换,如果将sub函数的第三个参数改为$2,将不会有替换发生。
    /> awk '{sub("tom","tommy",$1); print}' employees
    tommy jones       4424    5/12/66         543354

    gsub(regular expression,substitution string);
    gsub(regular expression,substitution string,target string);
    和sub不同的是,如果第一个参数中正则表达式在记录中出现多次,那么gsub将完成多次替换,而sub只是替换第一次出现的。

    index(string,substring)
    该函数将返回第二个参数在第一个参数中出现的位置,偏移量从1开始。
    /> awk 'begin{print index("hello","el")}'
    2

    length(string)
    该函数返回字符串的长度。
    /> awk 'begin{print length("hello")}'
    5

    substr(string,starting position)
    substr(string,starting position,length of string)
    该函数返回第一个参数的子字符串,其截取起始位置为第二个参数(偏移量为1),截取长度为第三个参数,如果没有该参数,则从第二个参数指定的位置起,直到string的末尾。
    />  awk 'begin{name = substr("hello world",2,3); print name}'
    ell

    match(string,regular expression)
    该函数返回在字符串中正则表达式位置的索引,如果找不到指定的正则表达式就返回0.match函数设置内置变量rstart为字符串中子字符串的开始位置,rlength为到字字符串末尾的字符个数。
    /> awk 'begin{start=match("good ole china", /[a-z] $/); print start}'
    10
    上例中的正则表达式[a-z] $表示在字符串的末尾搜索连续的大写字母。在字符串"good ole china"的第10个位置找到字符串"china"。

    /> awk 'begin{start=match("good ole china", /[a-z] $/); print rstart, rlength}'
    10 5
    rstart表示匹配时的起始索引,rlength表示匹配的长度。

    /> awk 'begin{string="good ole china";start=match(string, /[a-z] $/); print substr(string,rstart, rlength)}'
    china
    这里将match、rstart、rlength和substr巧妙的结合起来了。

    toupper(string)
    tolower(string)
    以上两个函数分别返回参数字符串的大写和小写的形式。
    /> awk 'begin {print toupper("hello"); print tolower("world")}'
    hello
    world

    split(string,array,field seperator)
    split(string,array)
    该函数使用作为第三个参数的域分隔符把字符串分隔为一个数组。如果第三个参数没有提供,则使用当前默认的fs值。
    /> awk 'begin{split("11/20/2011",date,"/"); print date[2]}'
    20

    variable = sprintf("string with format specifiers ",expr1,expr2,...)
    该函数和printf的差别等同于c语言中printf和sprintf的差别。前者将格式化后的结果输出到输出流,而后者输出到函数的返回值中。
    /> awk 'begin{line = sprintf("%-15s %6.2f ", "hello",4.2); print line}'
    hello             4.20

    时间函数:
    systime()
    该函数返回当前时间距离1970年1月1日之间相差的秒数。
    /> awk 'begin{print systime()}'
    1321369554

    strftime()
    时间格式化函数,其格式化规则等同于c语言中的strftime函数提供的规则,见以下列表:

数据格式 含义
%a abbreviated weekday name
%a full weekday name
%b abbreviated month name
%b full month name
%c date and time representation appropriate for locale
%d day of month as decimal number (01 – 31)
%h hour in 24-hour format (00 – 23)
%i hour in 12-hour format (01 – 12)
%j day of year as decimal number (001 – 366)
%m month as decimal number (01 – 12)
%m minute as decimal number (00 – 59)
%p current locale's a.m./p.m. indicator for 12-hour clock
%s second as decimal number (00 – 59)
%u week of year as decimal number, with sunday as first day of week (00 – 53)
%w weekday as decimal number (0 – 6; sunday is 0)
%w week of year as decimal number, with monday as first day of week (00 – 53)
%x date representation for current locale
%x time representation for current locale
%y year without century, as decimal number (00 – 99)
%y year with century, as decimal number

    /> awk 'begin{ print strftime("%d",systime())}'
    11/15/11
    /> awk 'begin{ now = strftime("%t"); print now}'
    23:17:29

    内置数学函数:

名称 返回值
atan2(x,y) y,x范围内的余切
cos(x) 余弦函数
exp(x) 求幂
int(x) 取整
log(x) 自然对数
sin(x) 正弦函数
sqrt(x) 平方根

    /> awk 'begin{print 31/3}'
    10.3333
    /> awk 'begin{print int(31/3)}'
    10

    自定义函数:
    自定义函数可以放在awk脚本的任何可以放置模板和动作的地方。
    function name(parameter1,parameter2,...) {
        statements
        return expression
    }
    给函数中本地变量传递值。只使用变量的拷贝。数组通过地址或者指针传递,所以可以在函数内部直接改变数组元素的值。函数内部使用的任何没有作为参数传递 的变量都被看做是全局变量,也就是这些变量对于整个程序都是可见的。如果变量在函数中发生了变化,那么就是在整个程序中发生了改变。唯一向函数提供本地变 量的办法就是把他们放在参数列表中,这些参数通常被放在列表的最后。如果函数调用没有提供正式的参数,那么参数就初始化为空。return语句通常就返回 程序控制并向调用者返回一个值。
    /> cat grades
    20 10
    30 20
    40 30

    /> cat add.sc
    function add(first,second) {
            return first second
    }
    { print add($1,$2) }

    /> awk -f add.sc grades
    30
    50
    70

 

 

转载自stephen liu
,仅做学习收藏用途。  

,

十一.  awk编程:

    1.  变量:
    在awk中变量无须定义即可使用,变量在赋值时即已经完成了定义。变量的类型可以是数字、字符串。根据使用的不同,未初始化变量的值为0或空白字符串" ",这主要取决于变量应用的上下文。下面为变量的赋值负号列表:

符号 含义 等价形式
= a = 5 a = 5
= a = a 5 a = 5
-= a = a - 5 a -= 5
*= a = a * 5 a *= 5
/= a = a / 5 a /= 5
%= a = a % 5 a %= 5
^= a = a ^ 5 a ^= 5

    /> awk '$1 ~ /tom/ {wage = $2 * $3; print wage}' filename
    该命令将从文件中读取,并查找第一个域字段匹配tom的记录,再将其第二和第三个字段的乘积赋值给自定义的wage变量,最后通过print命令将该变量打印输出。

    /> awk ' {$5 = 1000 * $3 / $2; print}' filename
    在上面的命令中,如果$5不存在,awk将计算表达式1000 * $3 / $2的值,并将其赋值给$5。如果第五个域存在,则用表达式覆盖$5原来的值。

    我们同样也可以在命令行中定义自定义的变量,用法如下:
    /> awk -f: -f awkscript month=4 year=2011 filename
    这里的month和year都是自定义变量,且分别被赋值为4和2000,在awk的脚本中这些变量将可以被直接使用,他们和脚本中定义的变量在使用上没有任何区别。

    除此之外,awk还提供了一组内建变量(变量名全部大写),见如下列表:

变量名 变量内容
argc 命令行参数的数量。
argind 命令行正在处理的当前文件的agv的索引。
argv 命令行参数数组。
convfmt 转换数字格式。
environ 从shell中传递来的包含当前环境变量的数组。
errno 当使用close函数或者通过getline函数读取的时候,发生的重新定向错误的描述信息就保存在这个变量中。
fieldwidths 在对记录进行固定域宽的分割时,可以替代fs的分隔符的列表。
filename 当前的输入文件名。
fnr 当前文件的记录号。
fs 输入分隔符,默认是空格。
ignorecase 在正则表达式和字符串操作中关闭大小写敏感。
nf 当前文件域的数量。
nr 当前文件记录数。
ofmt 数字输出格式。
ofs 输出域分隔符。
ors 输出记录分隔符。
rlength 通过match函数匹配的字符串的长度。
rs 输入记录分隔符。
rstart 通过match函数匹配的字符串的偏移量。
subsep 下标分隔符。

    /> cat employees2
    tom jones:4424:5/12/66:543354
    mary adams:5346:11/4/63:28765
    sally chang:1654:7/22/54:650000
    mary black:1683:9/23/44:336500

    /> awk -f: '{ignorecase = 1}; $1 == "mary adams" { print nr, $1, $2, $nf}' employees2
    2 mary adams 5346 28765
    /> awk -f: ' $1 == "mary adams" { print nr, $1, $2, $nf}' employees2
    没有输出结果。
    当ignorecase内置变量的值为非0时,表示在进行字符串操作和处理正则表达式时关闭大小写敏感。这里的"mary adams"将匹配文件中的"mary admams"记录。最后print打印出第一、第二和最后一个域。需要说明的是nf表示当前记录域的数量,因此$nf将表示最后一个域的值。

    awk在动作部分还提供了begin块和end块。其中begin动作块在awk处理任何输入文件行之前执行。事实上,begin块可以在没有任何输入 文件的条件下测试。因为在begin块执行完毕以前awk将不读取任何输入文件。begin块通常被用来改变内建变量的值,如ofs、rs或fs等。也可 以用于初始化自定义变量值,或打印输出标题。
    /> awk 'begin {fs = ":"; ofs = "\t"; ors = "\n\n"} { print $1,$2,$3} filename
    上例中awk在处理文件之前,已经将域分隔符(fs)设置为冒号,输出文件域分隔符(ofs)设置为制表符,输出记录分隔符(ors)被设置为两个换行符。begin之后的动作模块中如果有多个语句,他们之间用分号分隔。
    和begin恰恰相反,end模块中的动作是在整个文件处理完毕之后被执行的。
    /> awk 'end {print "the number of the records is " nr }' filename
    awk在处理输入文件之后,执行end模块中的动作,上例中nr的值是读入的最后一个记录的记录号。

    /> awk '/mary/{count } end{print "mary was found " count " times." }' employees2
    mary was found 2 times.

    /> awk '/mary/{count } end{print "mary was found " count " times." }' employees2
    mary was found 2 times.
    
    /> cat testfile
    northwest       nw      charles main                3.0     .98     3       34
    western          we      sharon gray                5.3     .97     5       23
    southwest       sw      lewis dalsass              2.7     .8      2       18
    southern         so      suan chin                   5.1     .95     4       15
    southeast        se      patricia hemenway        4.0     .7      4       17
    eastern           ea      tb savage                   4.4     .84     5       20
    northeast        ne      am main jr.                  5.1     .94     3       13
    north             no       margot weber             4.5     .89     5       9
    central           ct       ann stephens              5.7     .94     5       13

    /> awk '/^north/{count = 1; print count}' testfile     #如记录以正则north开头,则创建变量count同时增一,再输出其值。
    1
    2
    3
    
    #这里只是输出前三个字段,其中第七个域先被赋值给变量x,在自减一,最后再同时打印出他们。
    /> awk 'nr <= 3 {x = $7--; print "x = " x ", $7 = " $7}' testfile
    x = 3, $7 = 2
    x = 5, $7 = 4
    x = 2, $7 = 1    
    
    #打印nr(记录号)的值在2--5之间的记录。
    /> awk 'nr == 2,nr == 5 {print "the record number is " nr}' testfile
    the record number is 2
    the record number is 3
    the record number is 4
    the record number is 5

    #打印环境变量user和home的值。环境变量的值由父进程shell传递给awk程序的。
    /> awk 'begin { print environ["user"],environ["home"]}'
    root /root
    
    #begin块儿中对ofs内置变量重新赋值了,因此后面的输出域分隔符改为了\t。
    /> awk 'begin { ofs = "\t"}; /^sharon/{ print $1,$2,$7}' testfile
    western we      5
    
    #从输入文件中找到以north开头的记录count就加一,最后在end块中输出该变量。
    /> awk '/^north/{count }; end{print count}' testfile
    3

    2.  重新定向:
    在 动作语句中使用shell通用的重定向输出符号">"就可以完成awk的重定向操作,当使用>的时候,原有文件将被清空,同时文件持续打开, 直到文件被明确的关闭或者awk程序终止。来自后面的打印语句的输出会追加到前面内容的后面。符号">>"用来打开一个文件但是不清空原有文 件的内容,重定向的输出只是被追加到这个文件的末尾。
    /> awk '$4 >= 70 {print $1,$2 > "passing_file"}' filename  #注意这里的文件名需要用双引号括起来。
    #通过两次cat的结果可以看出>和>>的区别。
    /> awk '/north/{print $1,$3,$4 > "districts" }' testfile
    /> cat districts
    northwest joel craig
    northeast tj nichols
    north val shultz
    /> awk '/south/{print $1,$3,$4 >> "districts" }' testfile
    /> cat districts
    northwest joel craig
    northeast tj nichols
    north val shultz
    southwest chris foster
    southern may chin
    southeast derek jonhson

   
    awk中对于输入重定向是通过getline函数来完成的。getline函数的作用是从标准输入、管道或者当前正在处理的文件之外的其他输入文件获得 输入。他负责从输入获得下一行的内容,并给nf、nr和fnr等内建变量赋值。如果得到一个记录,getline就返回1,如果达到文件末尾就返回0。如 果出现错误,如打开文件失败,就返回-1。
    /> awk 'begin { "date" | getline d; print d}'
    tue nov 15 15:31:42 cst 2011
    上例中的begin动作模块中,先执行shell命令date,并通过管道输出给getline,然后再把输出赋值给自定义变量d并打印输出它。
    
    /> awk 'begin { "date" | getline d; split(d,mon); print mon[2]}'
    nov
    上例中date命令通过管道输出给getline并赋值给d变量,再通过内置函数split将d拆分为mon数组,最后print出mon数组的第二个元素。
    
    /> awk 'begin { while("ls" | getline) print}'
    employees
    employees2
    testfile
    命令ls的输出传递给getline作为输入,循环的每个反复,getline都从ls的结果中读取一行输入,并把他打印到屏幕。
    
    /> awk 'begin { printf "what is your name? "; \
        getline name < "/dev/tty"}\
        $1 ~ name {print "found" name " on line ", nr "."}\
        end {print "see ya, " name "."}' employees2
    what is your name? mary
    found mary on line  2.
    see ya, mary.    
    上例先是打印出begin块中的"what is your name? ",然后等待用户从/dev/tty输入,并将读入的数据赋值给name变量,之后再从输入文件中读取记录,并找到匹配输入变量的记录并打印出来,最后在end块中输出结尾信息。
    
    /> awk 'begin { while(getline < "/etc/passwd" > 0) lc ; print lc}'
    32
    awk将逐行读取/etc/passwd文件中的内容,在达到文件末尾之前,计数器lc一直自增1,当到了末尾后打印lc的值。lc的值为/etc/passwd文件的行数。
    由于awk中同时打开的管道只有一个,那么在打开下一个管道之前必须关闭它,管道符号右边可以通过可以通过双引号关闭管道。如果不关闭,它将始终保持打开状态,直到awk退出。
    /> awk {print $1,$2,$3 | "sort -4 1 -2 0 -1"} end {close("sort -4 1 -2 0 -1") } filename
    上例中end模块中的close显示关闭了sort的管道,需要注意的是close中关闭的命令必须和当初打开时的完全匹配,否则end模块产生的输出会和以前的输出一起被sort分类。

    3.  条件语句:
    awk中的条件语句是从c语言中借鉴来的,见如下声明方式:
    if (expression) {
        statement;
        statement;
        ... ...
    }
    /> awk '{if ($6 > 50) print $1 "too hign"}' filename
    /> awk '{if ($6 > 20 && $6 <= 50) { safe ; print "ok}}' filename

    if (expression) {
        statement;
    } else {
        statement2;
    }
    /> awk '{if ($6 > 50) print $1 " too high"; else print "range is ok" }' filename
    /> awk '{if ($6 > 50) { count ; print $3 } else { x = 5; print $5 }' filename

    if (expression) {
        statement1;
    } else if (expression1) {
        statement2;
    } else {
        statement3;
    }
    /> awk '{if ($6 > 50) print "$6 > 50" else if ($6 > 30) print "$6 > 30" else print "other"}' filename

   4.  循环语句:
    awk中的循环语句同样借鉴于c语言,支持while、do/while、for、break、continue,这些关键字的语义和c语言中的语义完全相同。

    5.  流程控制语句:
    next语句是从文件中读取下一行,然后从头开始执行awk脚本。
    exit语句用于结束awk程序。它终止对记录的处理。但是不会略过end模块,如果exit()语句被赋值0--255之间的参数,如exit(1),这个参数就被打印到命令行,以判断退出成功还是失败。

    6.  数组:
    因 为awk中数组的下标可以是数字和字母,数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格 里。由于hash不是顺序存储,因此在显示数组内容时会发现,它们并不是按照你预料的顺序显示出来的。数组和变量一样,都是在使用时自动创建的,awk也 同样会自动判断其存储的是数字还是字符串。一般而言,awk中的数组用来从记录中收集信息,可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。
    /> cat employees
    tom jones       4424    5/12/66         543354
    mary adams      5346    11/4/63         28765
    sally chang     1654    7/22/54         650000
    billy black     1683    9/23/44         336500

    /> awk '{name[x ] = $2}; end{for (i = 0; i < nr; i ) print i, name[i]}' employees    
    0 jones
    1 adams
    2 chang
    3 black
    在上例中,数组name的下标是变量x。awk初始化该变量的值为0,在每次使用后自增1,读取文件中的第二个域的值被依次赋值给name数组的各个元素。在end模块中,for循环遍历数组的值。因为下标是关键字,所以它不一定从0开始,可以从任何值开始。

    #这里是用内置变量nr作为数组的下标了。
    /> awk '{id[nr] = $3}; end {for (x = 1; x <= nr; x ) print id[x]}' employees
    4424
    5346
    1654
    1683

    awk中还提供了一种special for的循环,见如下声明:
    for (item in arrayname) {
        print arrayname[item]
    }

    /> cat db
    tom jones
    mary adams
    sally chang
    billy black
    tom savage
    tom chung
    reggie steel
    tommy tucker

    /> awk '/^tom/{name[nr]=$1}; end {for(i = 1;i <= nr; i ) print name[i]}' db
    tom

    tom
    tom

    tommy
    从输出结果可以看出,只有匹配正则表达式的记录的第一个域被赋值给数组name的指定下标元素。因为用nr作为下标,所以数组的下标不可能是连续的,因 此在end模块中用传统的for循环打印时,不存在的元素就打印空字符串了。下面我们看看用special for的方式会有什么样的输出。
    /> awk '/^tom/{name[nr]=$1};end{for(i in name) print name[i]}' db
    tom
    tom
    tommy
    tom

    下面我们看一下用字符串作为下标的例子:(如果下标是字符串文字常量,则需要用双引号括起来)    
    /> cat testfile2
    tom
    mary
    sean
    tom
    mary
    mary
    bob
    mary
    alex
    /> awk '/tom/{count["tom"] }; /mary/{count["mary"] }; end{print "there are " count["tom"] \
        " toms and " count["mary"] " marys in the file."} testfile2
    there are 2 toms and 4 marys in the file.
    在上例中,count数组有两个元素,下标分别为tom和mary,每一个元素的初始值都是0,没有tom被匹配的时候,count["tom"]就会加一,count["mary"]在匹配mary的时候也同样如此。end模块中打印出存储在数组中的各个元素。

    /> awk '{count[$1] }; end{for(name in count) printf "%-5s%d\n",name, count[name]}' testfile2
    mary 4
    tom  2
    alex 1
    bob  1
    sean 1
    在上例中,awk是以记录的域作为数组count的下标。

    /> awk '{count[$1] ; if (count[$1] > 1) name[$1] }; end{print "the duplicates were "; for(i in name) print i}' testfile2
    the duplicates were
    mary
    tom
    在上例中,如count[$1]的元素值大于1的时候,也就是当名字出现多次的时候,一个新的数组name将被初始化,最后打印出那么数组中重复出现的名字下标。

    之前我们介绍的都是如何给数组添加新的元素,并赋予初值,现在我们需要介绍一下如何删除数组中已经存在的元素。要完成这一功能我们需要使用内置函数delete,见如下命令:
    /> awk '{count[$1] }; \
        end{for(name in count) {\
                if (count[name] == 1)\
                    delete count[name];\
            } \
            for (name in count) \
                print name}' testfile2
    mary
    tom
    上例中的主要技巧来自end模块,先是变量count数组,如果数组中某个元素的值等于1,则删除该元素,这样等同于删除只出现一次的名字。最后用special for循环打印出数组中仍然存在的元素下标名称。

    最后我们来看一下如何使用命令行参数数组,见如下命令:
    /> awk 'begin {for(i = 0; i < argc; i ) printf("argv[%d] is %s.\n",i,argv[i]); printf("the number of arguments, argc=%d\n",argc)}' testfile "peter pan" 12
    argv[0] is awk.
    argv[1] is testfile.
    argv[2] is peter pan.
    argv[3] is 12.
    the number of arguments, argc=4
    从输出结果可以看出,命令行参数数组argv是以0作为起始下标的,命令行的第一个参数为命令本身(awk),这个使用方式和c语句main函数完全一致。

    /> awk 'begin{name=argv[2]; print "argv[2] is " argv[2]}; $1 ~ name{print $0}' testfile2 "bob"    
    argv[2] is bob
    bob
    awk: (filename=testfile2 fnr=9) fatal: cannot open file `bob' for reading (no such file or directory)
    先解释一下以上命令的含义,name变量被赋值为命令行的第三个参数,即bob,之后再在输入文件中找到匹配该变量值的记录,并打印出该记录。
    在输出的第二行报出了awk的处理错误信息,这主要是因为awk将bob视为输入文件来处理了,然而事实上这个文件并不存在,下面我们需要做进一步的处理来修正这个问题。
    /> awk 'begin{name=argv[2]; print "argv[2] is " argv[2]; delete argv[2]}; $1 ~ name{print $0}' testfile2 "bob"    
    argv[2] is bob
    bob
    从输出结果中我们可以看到我们得到了我们想要的结果。需要注意的是delete函数的调用必要要在begin模块中完成,因为这时awk还没有开始读取命令行参数中指定的文件。

    7.  内建函数:
    字符串函数
    sub(regular expression,substitution string);
    sub(regular expression,substitution string,target string);

    /> awk '{sub("tom","tommy"); print}' employees   #这里使用tommy替换了tom。
    tommy jones       4424    5/12/66         543354

    #当正则表达式tom在第一个域中第一次被匹配后,他将被字符串"tommy"替换,如果将sub函数的第三个参数改为$2,将不会有替换发生。
    /> awk '{sub("tom","tommy",$1); print}' employees
    tommy jones       4424    5/12/66         543354

    gsub(regular expression,substitution string);
    gsub(regular expression,substitution string,target string);
    和sub不同的是,如果第一个参数中正则表达式在记录中出现多次,那么gsub将完成多次替换,而sub只是替换第一次出现的。

    index(string,substring)
    该函数将返回第二个参数在第一个参数中出现的位置,偏移量从1开始。
    /> awk 'begin{print index("hello","el")}'
    2

    length(string)
    该函数返回字符串的长度。
    /> awk 'begin{print length("hello")}'
    5

    substr(string,starting position)
    substr(string,starting position,length of string)
    该函数返回第一个参数的子字符串,其截取起始位置为第二个参数(偏移量为1),截取长度为第三个参数,如果没有该参数,则从第二个参数指定的位置起,直到string的末尾。
    />  awk 'begin{name = substr("hello world",2,3); print name}'
    ell

    match(string,regular expression)
    该函数返回在字符串中正则表达式位置的索引,如果找不到指定的正则表达式就返回0.match函数设置内置变量rstart为字符串中子字符串的开始位置,rlength为到字字符串末尾的字符个数。
    /> awk 'begin{start=match("good ole china", /[a-z] $/); print start}'
    10
    上例中的正则表达式[a-z] $表示在字符串的末尾搜索连续的大写字母。在字符串"good ole china"的第10个位置找到字符串"china"。

    /> awk 'begin{start=match("good ole china", /[a-z] $/); print rstart, rlength}'
    10 5
    rstart表示匹配时的起始索引,rlength表示匹配的长度。

    /> awk 'begin{string="good ole china";start=match(string, /[a-z] $/); print substr(string,rstart, rlength)}'
    china
    这里将match、rstart、rlength和substr巧妙的结合起来了。

    toupper(string)
    tolower(string)
    以上两个函数分别返回参数字符串的大写和小写的形式。
    /> awk 'begin {print toupper("hello"); print tolower("world")}'
    hello
    world

    split(string,array,field seperator)
    split(string,array)
    该函数使用作为第三个参数的域分隔符把字符串分隔为一个数组。如果第三个参数没有提供,则使用当前默认的fs值。
    /> awk 'begin{split("11/20/2011",date,"/"); print date[2]}'
    20

    variable = sprintf("string with format specifiers ",expr1,expr2,...)
    该函数和printf的差别等同于c语言中printf和sprintf的差别。前者将格式化后的结果输出到输出流,而后者输出到函数的返回值中。
    /> awk 'begin{line = sprintf("%-15s %6.2f ", "hello",4.2); print line}'
    hello             4.20

    时间函数:
    systime()
    该函数返回当前时间距离1970年1月1日之间相差的秒数。
    /> awk 'begin{print systime()}'
    1321369554

    strftime()
    时间格式化函数,其格式化规则等同于c语言中的strftime函数提供的规则,见以下列表:

数据格式 含义
%a abbreviated weekday name
%a full weekday name
%b abbreviated month name
%b full month name
%c date and time representation appropriate for locale
%d day of month as decimal number (01 – 31)
%h hour in 24-hour format (00 – 23)
%i hour in 12-hour format (01 – 12)
%j day of year as decimal number (001 – 366)
%m month as decimal number (01 – 12)
%m minute as decimal number (00 – 59)
%p current locale's a.m./p.m. indicator for 12-hour clock
%s second as decimal number (00 – 59)
%u week of year as decimal number, with sunday as first day of week (00 – 53)
%w weekday as decimal number (0 – 6; sunday is 0)
%w week of year as decimal number, with monday as first day of week (00 – 53)
%x date representation for current locale
%x time representation for current locale
%y year without century, as decimal number (00 – 99)
%y year with century, as decimal number

    /> awk 'begin{ print strftime("%d",systime())}'
    11/15/11
    /> awk 'begin{ now = strftime("%t"); print now}'
    23:17:29

    内置数学函数:

名称 返回值
atan2(x,y) y,x范围内的余切
cos(x) 余弦函数
exp(x) 求幂
int(x) 取整
log(x) 自然对数
sin(x) 正弦函数
sqrt(x) 平方根

    /> awk 'begin{print 31/3}'
    10.3333
    /> awk 'begin{print int(31/3)}'
    10

    自定义函数:
    自定义函数可以放在awk脚本的任何可以放置模板和动作的地方。
    function name(parameter1,parameter2,...) {
        statements
        return expression
    }
    给函数中本地变量传递值。只使用变量的拷贝。数组通过地址或者指针传递,所以可以在函数内部直接改变数组元素的值。函数内部使用的任何没有作为参数传递 的变量都被看做是全局变量,也就是这些变量对于整个程序都是可见的。如果变量在函数中发生了变化,那么就是在整个程序中发生了改变。唯一向函数提供本地变 量的办法就是把他们放在参数列表中,这些参数通常被放在列表的最后。如果函数调用没有提供正式的参数,那么参数就初始化为空。return语句通常就返回 程序控制并向调用者返回一个值。
    /> cat grades
    20 10
    30 20
    40 30

    /> cat add.sc
    function add(first,second) {
            return first second
    }
    { print add($1,$2) }

    /> awk -f add.sc grades
    30
    50
    70

网站地图