咔叽游戏

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 433|回复: 0

[正则表达式] linux 正则表达式grep实例分析

[复制链接]
  • TA的每日心情
    无聊
    2019-5-27 08:20
  • 签到天数: 4 天

    [LV.2]圆转纯熟

    发表于 2020-7-1 22:13:57 | 显示全部楼层 |阅读模式
    在很多技术领域(如:自然语言处理,数据存储等),正则表达式可以很方便的提取我们想要的信息,所以正则表达式是一个很重要的知识点!
    一、概念
    正则表达式(Regular Expression)是用于描述一组字符串特征的模式,用来匹配特定的字符串。通过特殊字符+普通字符来进行模式描述,从而达到文本匹配目的工具。
    正则表达式目前被集成到了各种文本编辑器/文本处理工具当中
    二、应用场景
    (1)验证:表单提交时,进行用户名密码的验证。
    (2)查找:从大量信息中快速提取指定内容,在一批url中,查找指定url。
    (3)替换:将指定格式的文本进行正则匹配查找,找到之后进行特定替换。
    三、基本要素
    (1)字符类
    (2)数量限定符
    (3)位置限定符
    (4)特殊符号
    注意:正则表达式基本是与语言无关的,我们可以结合语言/工具与正则表达式进行文本处理,在后面的博客中,我将使用grep来进行验证。(grep是一款Linux下按行匹配文本的工具,如下,使我们常使用的两个选项)
    -E:使用扩展正则匹配
    --color:将匹配得到的内容进行语法高亮
    1.字符类



    举例如下:
    例1:



    注意:1.grep采用的贪心匹配,它会匹配当前行中的所有匹配内容
    2.echo $?表示是否匹配成功(如果成功返回值为0,不成功返回值为1)
    例2:



    例3:



    例4:



    例5:



    2.数量限定符



    举例如下:
    例1:



    例2:



    由此,我们可以看出,“前面的单元”默认是指?或+前面的字符
    例3:



    例4:



    例5:



    例6:



    注意:该结果为匹配失败,在相关文档中并未出现,应该啊是错误或者废弃的用法
    例7:



    3.位置限定符



    举例如下:
    例1:



    例2:



    例3:



    例4:



    例5:



    例6:



    4.特殊符号



    举例如下:



    假如我们去掉-E选项,会有什么现象呢?



    此时,不难发现,去掉-E选项之后没有进行正常的正则匹配,这种现象需要我们引入如下的两个概念!
    5.基本正则表达式&扩展正则表达式
    区别:正则表达式的扩展正则(Extended规范)和基本正则(Basic规范)下,有些字符
    应该解释为普通字符,要表示上述特殊含义则需要加“\”转义字符。反之,在扩展规范下,
    应被理解为特殊含义,要取其字面值,也要对其进行“\”转义。
    因此,grep工具带上-E选项,表示使用扩展正则来进行匹配,若没有该选项,则表示使用基准正则来进行匹配。
    对于上述的问题,我们举例如下:
    例1:



    例2:当目标字符串当中本身就包含了
    字符,要想进行正则匹配,应该这样做:



    例3:



    5.其他普通字符集及其替换



    举个例子:



    综上,正则表达式有以下三个分类:
    (1)基本正则表达式:Basic即BPEs
    (2)扩展正则表达式:Extended即EREs
    (3)Perl的正则表达式:PREs
    因此,当grep指令不跟任何参数时,表示要使用BREs,后面跟“-E”表示使用EREs,后面跟“-P”参数,表示使用PREs
    四、贪婪模式与非贪婪模式
    1.贪婪模式:正则表达式匹配时,会尽量多的匹配符合条件的内容
    举例如下:



    注意:grep默认采用贪婪匹配,可能会对我们的测试结果造成干扰,大家可以上网使用“正则在线转换工具”进行测试
    2.非贪婪模式:正则表达式匹配时,会尽量少的匹配符合条件的内容,也就是说,一旦发现匹配符合要求,立马就匹配成功,而不会继续匹配下去(除非有g,开启下一组匹配)
    举例如下:



    五、零宽断言
    1.所谓断言,是用来声明一个应该为真的事实。在正则表达式中,只有当断言为真时才会继续进行匹配。
    2.零宽断言:像用于查找某些内容之前或者之后的东西,其中一些特殊字符如“\b、^、$”等用于指定一个位置,这个位置应满足一定的条件。
    3.分类:
    (1)零宽度正预测先行断言(?=exp)
    它断言自身出现的位置之后能匹配的表达式exp。如:\b\w+(?=ing\b),表示匹配以ing结尾的单词的前面的部分(除ing以外的部分)。当我们要查找“I'm singing while you're dancing.”时,它会匹配sing和danc
    举例如下:



    (2)零宽度正回顾后发断言(?>=exp)
    它断言自身出现的位置的前面能匹配的表达式exp。如:(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除er以外的部分),例如:在查找“reading a book”时,它匹配ading
    举例如下:



    六、简单练习
    1.手机号码



    2.非零的正整数



    3.非零开头的最多带两位小数的数字



    4.由数字和26位字母组成的字符串



    5.QQ号,从10000开始



    6.IP地址
    \d+\.\d+\.\d+\.\d+
    7.判断账号是否合法
    ^[a-zA-Z0-9][a-zA-Z0-9_]{4,15}$
    8.日期格式
    ^\d{4}-\d{1,2}-\d{1,2}
    正则表达式的学习就到这里结束啦,如果有小伙伴没有看明白的,可以上网查询正则的更多知识点!


    原文地址:https://www.jb51.net/article/184538.htm

    QQ|免责声明|小黑屋|手机版|Archiver|咔叽游戏

    GMT+8, 2024-3-29 23:16

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表