python爬虫
直播中

mushenmu

3年用户 732经验值
擅长:可编程逻辑
私信 关注
[经验]

初识 Python 正则表达式

正则表达式是一个特殊的字符序列,用于判断一个字符串是否与我们所设定的字符序列是否匹配,也就是说检查一个字符串是否与某种模式匹配。
Python 自 1.5 版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。
下面通过实例,一步一步来初步认识正则表达式。
比如在一段字符串中寻找是否含有某个字符或某些字符,通常我们使用内置函数来实现,如下:
  1. # 设定一个常量
  2. a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'

  3. # 判断是否有 “两点水” 这个字符串,使用 PY 自带函数

  4. print('是否含有“两点水”这个字符串:{0}'.format(a.index('两点水') > -1))
  5. print('是否含有“两点水”这个字符串:{0}'.format('两点水' in a))
输出的结果如下:
  1. 是否含有“两点水”这个字符串:True
  2. 是否含有“两点水”这个字符串:True
那么,如果使用正则表达式呢?
刚刚提到过,Python 给我们提供了 re 模块来实现正则表达式的所有功能,那么我们先使用其中的一个函数:
  1. re.findall(pattern, string[, flags])
该函数实现了在字符串中找到正则表达式所匹配的所有子串,并组成一个列表返回,具体操作如下:
  1. import re

  2. # 设定一个常量
  3. a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'

  4. # 正则表达式

  5. findall = re.findall('两点水', a)
  6. print(findall)

  7. if len(findall) > 0:
  8.     print('a 含有“两点水”这个字符串')
  9. else:
  10.     print('a 不含有“两点水”这个字符串')
输出的结果:
  1. ['两点水']
  2. a 含有“两点水”这个字符串
从输出结果可以看到,可以实现和内置函数一样的功能,可是在这里也要强调一点,上面这个例子只是方便我们理解正则表达式,这个正则表达式的写法是毫无意义的。为什么这样说呢?
因为用 Python 自带函数就能解决的问题,我们就没必要使用正则表达式了,这样做多此一举。而且上面例子中的正则表达式设置成为了一个常量,并不是一个正则表达式的规则,正则表达式的灵魂在于规则,所以这样做意义不大。
那么正则表达式的规则怎么写呢?先不急,我们一步一步来,先来一个简单的,找出字符串中的所有小写字母。首先我们在 findall 函数中第一个参数写正则表达式的规则,其中 [a-z] 就是匹配任何小写字母,第二个参数只要填写要匹配的字符串就行了。具体如下:
  1. import re

  2. # 设定一个常量
  3. a = '两点水|twowater|liangdianshui|草根程序员|ReadingWithU'

  4. # 选择 a 里面的所有小写英文字母

  5. re_findall = re.findall('[a-z]', a)

  6. print(re_findall)
输出的结果:
  1. ['t', 'w', 'o', 'w', 'a', 't', 'e', 'r', 'l', 'i', 'a', 'n', 'g', 'd', 'i', 'a', 'n', 's', 'h', 'u', 'i', 'e', 'a', 'd', 'i', 'n', 'g', 'i', 't', 'h']

这样我们就拿到了字符串中的所有小写字母了。

更多回帖

发帖
×
20
完善资料,
赚取积分