Skip to content

php匹配HTML标签

问题描述

php经常需要去匹配html标签,然而由于html标签可能有很多个重复的,甚至可能含有一些嵌套,因此匹配困难。

php正则问号的用法

1、只想匹配字符“?”

需要进行转义,即\?

2、用于非贪婪匹配

即最近匹配:

【贪婪】

  • 模式:a.*c
  • 字符串:abcabc
  • 匹配结果:abcabc

【非贪婪】

  • 模式:a.*?c
  • 字符串:abcabc
  • 匹配结果:abc

常用:

  • *?重复任意次,但尽可能少
  • +?重复1次或更多次,但尽可能少
  • ??重复0次或1次,但尽可能少
  • {n,m}?重复n到m次,但尽可能少
  • {n,}?重复n次以上,但尽可能少

3、不捕捉模式?:

意思就是对于不想要用()捕捉到的数据,加一个?:即可,例如:

模式:(?:aaa)(bbb) 匹配结果: $1=bbbaaa不会被$1捕捉到

php匹配任意字符(含换行符)的bug

1、[.\n]*?

完全不行……原因未知

2、.*?

可以,需要在后面加/s,复习:

  1. i不区分大小写
  2. s模式中的.匹配所有字符,包括换行符

3、(.|\n)*?

感觉上是可以的,但是对于很长很长的字符串就不行,没匹配完就结束了,导致文章无法显示。 据《关于php中正则匹配包括换行符在内的任意字符的问题总结》说,是和php所绑定的PCRE库版本有关,可我用得是php7.0啊……

4、[\s\S]*?

最佳匹配方式,这里的

  1. \s匹配任意空白字符,包括换行符, 等价于[\f\n\r\t\v]
  2. \S匹配任意非空白字符,等价于^[\f\n\r\t\v]

合起来就是匹配所有字符。

匹配HTML标签:pre code

需要匹配<pre><code> </pre></code>,只要文本不出现这个标签,就可以这样匹配:

regexp
/<pre><code>([\s\S]*?)<\/code><\/pre>/i
转载请注明出处https://bananaoven.com/articles/176.html | 香蕉微波炉
分享许可方式知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议
重大发现:转载注明原文网址的同学刚买了彩票就中奖,刚写完代码就跑通,刚转身就遇到了真爱。