Posts Python-正则表达式二
Post
Cancel

Python-正则表达式二

一、常用的匹配规则总结表

字符说明
\w匹配字母数字及下划线
\W匹配非字母数字及下划线
\s匹配任意空白字符,等价于 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意数字,等价于 [0-9]
\D匹配任意非数字
\A匹配字符串开始
\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串
\z匹配字符串结束
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配字符串的开头
$匹配字符串的末尾
.匹配任意字符,除了换行符
[...]用来表示一组字符,单独列出:[amk] 匹配 ‘a’,’m’ 或 ‘k’
[^...]不在 [] 中的字符:[^abc]匹配除了 a,b,c 之外的字符。
*匹配 0 个或多个的表达式。
+匹配 1 个或多个的表达式。
?匹配 0 个或 1 个由前面的正则表达式定义的片段,非贪婪方式
{n}精确匹配 n 个前面表达式。
{n, m}匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
a | b匹配 a 或 b
( )匹配括号内的表达式,也表示一个组

二、re库中常用方法

re.match(pattern, string, flags=0) 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none

re.search(pattern, string, flags=0) 扫描整个字符串并返回第一个成功的匹配

re.sub(pattern, repl, string, count=0) 用于替换字符串中的匹配项,repl : 替换的字符串,也可为一个函数

re.compile(pattern[, flags]) 用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用

re.findall(string[, pos[, endpos]]) 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表

re.split(pattern, string[, maxsplit=0, flags=0]) 能够匹配的子串将字符串分割后返回列表


三、修饰符总结

修饰符说明
re.I使匹配对大小写不敏感
re.L做本地化识别(locale-aware)匹配
re.M多行匹配,影响 ^ 和 $
re.S使 . 匹配包括换行在内的所有字符
re.U根据Unicode字符集解析字符, 这个标志影响 \w, \W, \b, \B.
re.X该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

取值可以使用按位或运算符’|‘表示同时生效,比如re.I | re.M


四、常用正则表达式

1、匹配email地址: [\w!#$%&'*+/=?^_{|}~-]+(?:.[\w!#$%&’*+/=?^_{|}~-]+)*@(?:[\w](?:[\w-]*[\w])?\.)+[\w](?:[\w-]*[\w])?

2、匹配网址URL: [a-zA-z]+://[^\s]*

3、匹配18位身份证号: ^(\d{6})(\d{4})(\d{2})(\d{2})(\d{3})([0-9]|X)$

4、匹配年月日格式: ([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|[1-9][0-9]{3})-(((0[13578]|1[02])-(0[1-9]|[12][0-9]|3[01]))|((0[469]|11)-(0[1-9]|[12][0-9]|30))|(02-(0[1-9]|[1][0-9]|2[0-8])))

5、匹配整数: ^-?[1-9]\d*$

6、匹配正整数: ^[1-9]\d*$

7、匹配负整数: ^-[1-9]\d*$

8、匹配空白行: \n\s*\r

This post is licensed under CC BY 4.0 by the author.