[正则表达式]正则表达式页面代码抓取
测试代码
x1xx
<p class=’ctext’ href=”">
<i>x2xx</i>
<div>
x3x x <br/>x4xx<br >x5xxxx
<div class=”"> x6xx<br> x7x</div>
x8xxx
<div>x9x<br>x10x</div>
x11xxxxxxx<b><br></b><br>x12xxx.</div>
</p>
<p>
<b>x13<img >x14<br>x15x</b>
x16xxx
<u>x17x<br/>x18x</u>
x19xx
<td>x20xx</td>
x21xxxxx
<td class=”" style=”>x22xx</td>
x23xx
<div>
<div>x24x<br>x25<a>x26xx</a>x27</div>
x28xx
<div><a>x29xx</a></div>
</div>
</p>
x30xx正则表达式
抓取全部可视文本(规则:抓取><之间的内容) //按照 >要抓取的内容< 截取。 //需要处理空格和换行 (?<=>+)[^<>]+|[^<>]+(?=<+)