Centos7 Shell編程之正則表達式、文本處理工具詳解

Posted on 2022-08-04 by WalkonNet

1. 正則表達式

正則表達式可以很靈活的提供各種模糊匹配的篩選規則。常被用來檢索、替換那些符合某個模式的文本。grep、sed、awk等文本處理工具都支持通過正則表達式進行模式匹配

1.1 常規匹配

一串不包含特殊字符的正則表達式，匹配包含它自己的字符，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep root
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@bigdata001 ~]#

1.2 常用特殊字符

特殊字符：^：匹配一行的開頭，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep ^root
root:x:0:0:root:/root:/bin/bash
[root@bigdata001 ~]#

特殊字符：$：匹配一行的結束，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep bash$
root:x:0:0:root:/root:/bin/bash
[root@bigdata001 ~]#

特殊字符：.：匹配一個任意的字符，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep r..t
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
[root@bigdata001 ~]#

特殊字符：*：不單獨使用，和上一個字符連用，表示匹配上一個字符0次或多次，例如

[root@bigdata001 ~]# cat /etc/passwd | grep ro*t
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@bigdata001 ~]#

字符區間：[ ]：表示匹配某個范圍內的一個字符

[68]：匹配6或者8
[0-9]：匹配一個0-9的數字
[0-9]*：匹配任意長度的數字字符串
[a-z]：匹配一個a-z之間的字符
[a-c, e-f]-匹配a-c或者e-f之間的任意一個字符

[root@bigdata001 ~]# echo 12345 | grep "[0-9]*"
12345
[root@bigdata001 ~]#

**特殊字符：**：表示轉義，並不會單獨使用。由於所有特殊字符都有其特定匹配模式，當我們想匹配某一特殊字符本身時(例如我想找出所有包含’$'的行)，就會碰到困難。此時我們就要將轉義字符和特殊字符連用，來表示特殊字符本身，例如：

[root@bigdata001 ~]# echo -e 'abc$def'"\n123456" | grep '\$'
abc$def
[root@bigdata001 ~]#

實戰練習：

[root@bigdata001 ~]# echo 13667894536 | grep -E ^1[34578][0-9]{9}$
13667894536
[root@bigdata001 ~]#

grep默認是不支持正則特殊字符{}的，需要開啟拓展正則表達式功能

2. 文本處理工具

2.1 cut

cut可以將文件中內容(也可以通過管道符傳輸)，按照指定分隔符將每一行進行切割，然後取指定字節、字符、字段進行輸出

基本語法： cut [選項參數] filename

選項參數如下：

-d 分隔符：按照指定分隔符分割每行數據，默認是制表符\t

-f 列號：取第幾列。可以使用3,5表示取第三列和第五列，-3、3-5、5-分佈表示取前三列、第三列到第五列、第五列和後面所有列

-c 字符號：表示取第個字符。不能指定分隔符

-b 字節號：表示取第個字節。不能指定分隔符

示例：

[root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 1
root
bigdata
[root@bigdata001 ~]# 
[root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 6-
/root:/bin/bash
/home/bigdata:/bin/bash
[root@bigdata001 ~]#
[root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -c 1
r
g
[root@bigdata001 ~]#

實戰示例：

[root@bigdata001 ~]# ifconfig ens33 | grep netmask | cut -d " " -f 10
192.168.8.111
[root@bigdata001 ~]#

2.2 awk

awk把文件逐行的讀入(文件名或通過管道符傳輸)，以空格為默認分隔符將每行切片，切開的部分再進行分析處理

基本語法：awk [選項參數] ‘/pattern1/{action1} /pattern2/{action2} …’ filename

pattern：表示awk在數據中查找的內容，就是正則表達式匹配
action：在找到匹配內容時所執行的一系列命令

選項參數說明

-F 分隔符：指定輸入文件每行分隔符
-v 變量名=變量值：賦值一個用戶定義變量

awk的內置變量

FILENAME：文件名NR：數據所在的行號NF：每行切割後的列數

示例1：

[root@bigdata001 ~]# cat /etc/passwd | grep bash$
root:x:0:0:root:/root:/bin/bash
bigdata:x:996:1000::/home/bigdata:/bin/bash
[root@bigdata001 ~]# 
[root@bigdata001 ~]# awk -F ":" -v my_var=1 'BEGIN{print "begin line"} /bash$/{print $3+my_var", "$1", 文件名: "FILENAME", 行號: "NR",  列數: "NF} END{print "end line"}' /etc/passwd
begin line
1, root, 文件名: /etc/passwd, 行號: 1, 列數: 7
997, gpadmin, 文件名: /etc/passwd, 行號: 22, 列數: 7
end line
[root@bigdata001 ~]#

BEGIN和END都是可選的，表示在所有數據行讀取之前或之後執行的操作
可以不定義pattern，隻定義action
print是awk內部的命令
$1表示第一列，$2表示第二列，依次類推

示例2：

[root@bigdata001 ~]# ifconfig | awk '/netmask/{print $2}'
192.168.8.111
127.0.0.1
[root@bigdata001 ~]#

前面的多個空格會當作一個空格，且隻統計有內容的列所在的位置

示例3：

[root@bigdata001 ~]# cat test.awk
#!/bin/awk -f
# 在所有數據行讀取之前的操作
BEGIN {
    # 定義變量
    math = 0
    english = 0
 
    printf "name         math   english   total\n"
}

# 對每行數據進行的操作
{
    math+=$2
    english+=$3
    printf "%-10s %6d %9d %7d\n", $1, $2, $3, $2+$3
}
# 在所有數據行讀取之後的操作
END {
    printf "total:     %6d %9d\n", math, english
    printf "average:   %6.2f %9.2f\n", math/NR, english/NR
}
[root@bigdata001 ~]# 
[root@bigdata001 ~]# echo -e "zhang_san 60 80\nli_si 70 90" | awk -f test.awk
name         math   english   total
zhang_san      60        80     140
li_si          70        90     160
total:        130       170
average:    65.00     85.00
[root@bigdata001 ~]#

printf是wak內置命令
printf中-表示左對齊，默認右對齊。數字表示寬度。s表示字符串，d表示數字，f表示浮點數(數字1.數字2：數字1表示寬度，數字2表示小數點位數)

到此這篇關於Centos7 Shell編程之正則表達式、文本處理工具的文章就介紹到這瞭,更多相關正則表達式、文本處理工具內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Centos7 Shell編程之正則表達式、文本處理工具詳解

目錄

1. 正則表達式

1.1 常規匹配

1.2 常用特殊字符

2. 文本處理工具

2.1 cut

2.2 awk

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

1. 正則表達式

1.1 常規匹配

1.2 常用特殊字符

2. 文本處理工具

2.1 cut

2.2 awk

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆