现在有一些网站的文章数据是写在 JSON 数据里面的,然后网页上的文章数据存储在 <script></script > 标签里面,现在用 PHP 的 file_get_content 函数获取了整个网页上的字符串数据,如何截取出 < script></script > 内部的 JSON 数据呢?
用正则表达式去非常正确的想法,正则表达式的用法有 3 种:
- 正则匹配;
- 正则替换;
- 正则分割;
这里用到的是正则匹配,下面是从网上找到的、经过验证的正确性的代码:
<?php
//获取开始字符串和结尾字符串之间的部分
$subject = "[i=s] 本帖最后由 areyouok 于 2016-3-5 15:12 编辑 [\/i]\n\n[attach]41[\/attach][attach]10[\/attach]太阳光,金亮亮,雄鸡高高唱\r\n";
$pattern = '#\[attach](.*?)\[\\\/attach]#i';
$items = preg_match_all($pattern, $subject, $matches);
echo "<pre>";
var_dump($matches);
echo "</pre>";
?>
运行效果的截图如下所示:
说明一点,由于网页上的 <script></script > 肯定是有很多对的,上面的正则处理表达式考虑到了多种情况的。将多对标签内部的字符串都截取了下来保存在字符串中的。