正则表达式教程pdf(正则表达式教程pdf:学会提取文本数据的必备技能)
正则表达式教程pdf:学会提取文本数据的必备技能
什么是正则表达式
正则表达式(Regular Expression),简称正则,是文本模式的描述工具,是一种文本模式匹配工具,用来匹配字符串,特别是用来检查字符串是否符合某种模式的工具。


基本语法和模式
正则表达式由普通字符(包括大小写字母、数字和标点符号)和特殊字符(元字符)组成。在正则表达式中,我们通常使用以下几种元字符:
.:匹配除换行符以外的任意字符。^:匹配字符串开头。$:匹配字符串结尾。*:重复零次或多次。+:重复一次或多次。?:重复零次或一次。{n}:重复n次。{n,}:重复n次以上。{n,m}:重复n到m次。[abc]:匹配a、b、c其中任意一个字符。[a-z]:匹配英文字母a到z之间的任意一个字符。[^abc]:匹配除了a、b、c之外的任意一个字符。(...):匹配括号内的正则表达式并捕获到分组中。
类别匹配
正则表达式中还有一些关于匹配所给字符的类别,比如所有数字、所有字母、所有空白符等,这些类别可以帮助我们快速匹配相应的字符。

\\d:任意数字。\\D:任意非数字。\\w:任意字母数字字符。\\W:任意非字母数字字符。\\s:任意空白符。\\S:任意非空白符。\\b:单词边界。\\B:非单词边界。
常用正则表达式例子
以下是一些常见的正则表达式的例子,可以帮助我们快速解决相应的问题:
- 匹配手机号:
/^1[3-9]\\d{9}$/ - 匹配邮箱:
/^\\w+([-+.]\\w+)*@\\w+([-.]\\w+)*\\.\\w+([-.]\\w+)*$/ - 匹配身份证:
/^\\d{15}|\\d{18}$/ - 匹配URL:
/^(ht|f)tps?:\\/\\/[^\\s]+$/ - 匹配中文:
/^[\\u4e00-\\u9fa5]+$/
