用 PHP 做采集功能网站的思路

1、指定一个列表页,用 curl 或 file_get_contents 将页面读取进来;
2、用正则或者 XML 分析 DOM,获取到列表中文章的超链接,将其保存为一个任务数组;
3、遍历数组(循环),使用 curl 或 file_get_contents 将数组中的超链接指向的页面读取进来;
4、用正则或者 XML 分析 DOM,获取到文章正文内容,将内容写入数据库中或者使用 file_put_contents 保存下来。
这是我的大体思路,有错误之处请指正。
可能需要注意的问题:如果页面超时,可以改大脚本运行超时间;为了提高效率是否要改为并发执行的 curl_multi;如果被盗取的网站使用了参考 referer 的防盗链机制需要伪造 referer 等。