抓取网站的思路分析

这段期间,我在公司主要从事抓取网站的工作,让我真的是收益非浅:

  1. 分析了大量的站点:
  • 投中网:https://www.chinaventure.com.cn/
  • 中国招商网:http://www.zhaoshang.net/
  • 投资界:http://www.pedaily.cn/
  • 36kr:http://www.36kr.com
  • 铅笔道:https://www.pencilnews.cn/
  • GPLP:http://www.gplp.cn/

上面这些站点,都是比较成熟的,从上面分析网站的思路入手,得到了很多的思路和启发。其中,上面的站点当中,以 36kr 为最为困难的,36kr 所有的文章数据都是获取在底部的 JSON 数据中,通过 HTML 标签进行定位的方式,根本抓取不到。好在我想出了,利用正则表达式去抓取 JSON 数据,轻松获取所需要的文章信息数组。

        2. 抓取网站的基本思路

最关键的是获取网站的内容页面。前面的程序,获取索引等等,都是为了能在最终获取网站的内容页面 content。

       3.simple_html_dom.php

抓取网站,用的 php 脚本是 simple_html_dom.php,这个是国外人写得抓取工具包,与 jQuery 的语法很类似的。我看了下内部的源代码,利用了大量的正则表达式去定位,达到 CSS 选择器的效果,获取标签内部的字符串是最终的目的。

      4. 关于抓取文章数据存储

为了方便和简洁考虑,所有的文章数据都存储在一个数据表中,不建议多建立数据表存储。我都只建立了一个表 articlde 表,一个模型层操作文件 article_m.php 文件。能够精简的尽量精简化。

    5. 关于分页函数的处理

现在的网站的分页函数的处理,都是基本上利用 AJAX 来实现动态加载分页的,很多网站都是的。异步加载获取网站的页面数据。