正则表达式是一个特殊的字符序列,用于判断一个字符串是否与我们所设定的字符序列是否匹配,也就是说检查一个字符串是否与某种模式匹配。
Python 自 1.5 版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。
下面通过实例,一步一步来初步认识正则表达式。
比如在一段字符串中寻找是否含有某个字符或某些字符,通常我们使用内置函数来实现,如下:
- # 设定一个常量
- a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
- # 判断是否有 “两点水” 这个字符串,使用 PY 自带函数
- print('是否含有“两点水”这个字符串:{0}'.format(a.index('两点水') > -1))
- print('是否含有“两点水”这个字符串:{0}'.format('两点水' in a))
输出的结果如下:
- 是否含有“两点水”这个字符串:True
- 是否含有“两点水”这个字符串:True
那么,如果使用正则表达式呢?
刚刚提到过,Python 给我们提供了 re 模块来实现正则表达式的所有功能,那么我们先使用其中的一个函数:
- re.findall(pattern, string[, flags])
该函数实现了在字符串中找到正则表达式所匹配的所有子串,并组成一个列表返回,具体操作如下:
- import re
- # 设定一个常量
- a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
- # 正则表达式
- findall = re.findall('两点水', a)
- print(findall)
- if len(findall) > 0:
- print('a 含有“两点水”这个字符串')
- else:
- print('a 不含有“两点水”这个字符串')
输出的结果:
从输出结果可以看到,可以实现和内置函数一样的功能,可是在这里也要强调一点,上面这个例子只是方便我们理解正则表达式,这个正则表达式的写法是毫无意义的。为什么这样说呢?
因为用 Python 自带函数就能解决的问题,我们就没必要使用正则表达式了,这样做多此一举。而且上面例子中的正则表达式设置成为了一个常量,并不是一个正则表达式的规则,正则表达式的灵魂在于规则,所以这样做意义不大。
那么正则表达式的规则怎么写呢?先不急,我们一步一步来,先来一个简单的,找出字符串中的所有小写字母。首先我们在 findall 函数中第一个参数写正则表达式的规则,其中 [a-z] 就是匹配任何小写字母,第二个参数只要填写要匹配的字符串就行了。具体如下:
- import re
- # 设定一个常量
- a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'
- # 选择 a 里面的所有小写英文字母
- re_findall = re.findall('[a-z]', a)
- print(re_findall)
输出的结果:
- ['t', 'w', 'o', 'w', 'a', 't', 'e', 'r', 'l', 'i', 'a', 'n', 'g', 'd', 'i', 'a', 'n', 's', 'h', 'u', 'i', 'e', 'a', 'd', 'i', 'n', 'g', 'i', 't', 'h']
这样我们就拿到了字符串中的所有小写字母了。