[正则表达式]正则表达式页面代码抓取

测试代码

x1xx
<p class=’ctext’ href=”">
<i>x2xx</i>
    <div>
    x3x x <br/>x4xx<br >x5xxxx
        <div class=”"> x6xx<br>  x7x</div>
        x8xxx
<div>x9x<br>x10x</div>
    x11xxxxxxx<b><br></b><br>x12xxx.</div>
</p>
<p>
<b>x13<img >x14<br>x15x</b>
    x16xxx
<u>x17x<br/>x18x</u>
    x19xx
    <td>x20xx</td>
    x21xxxxx
    <td class=”" style=”>x22xx</td>
    x23xx
    <div>
    <div>x24x<br>x25<a>x26xx</a>x27</div>
        x28xx
        <div><a>x29xx</a></div>
</div>
</p>
x30xx

正则表达式

抓取全部可视文本(规则:抓取><之间的内容) //按照 >要抓取的内容< 截取。
//需要处理空格和换行
(?<=>+)[^<>]+|[^<>]+(?=<+)

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据