解决 PHP 无法通过 file_get_contents 或 curl 采集页面内容

在 php 中经常用到的采集函数就是 file_get_contents 和 curl 函数。php 在用 file_get_contents 函数采集网站时会返回 false,但是在浏览器里打开连接地址就可以看到网页内容。

这是因为服务器上做了设置,通过 php $_SERVER [“HTTP_USER_AGENT”] 获取 User_agent 判断是否为正常的浏览器请求,因为默认 php 的 file_get_contents 函数是不发送 User_agent 的。

User Agent 中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

我通过测试,在要抓取的页面输出变量 $_SERVER [“HTTP_USER_AGENT”] 为空。这样在被抓取的服务器通过 php 来获取 $_SERVER [“HTTP_USER_AGENT”] 的值,如果为空的话,就跳转到 404 错误页面,这样就无法抓取到页面信息。

解决这个问题有 2 种方法

1、设置 php.ini 配置文件,找到 user_agent 这个开启,把前面的分号去掉;

2、通过 php 的 ini_set () 方法设置用户代理。

实例如下

ini_set(‘user_agent’,’Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)’);

echo file_get_contents (‘你想要采集的页面 url’);

通过上面 2 种方法就可以让 $_SERVER [“HTTP_USER_AGENT”] 的值不为空,就可以顺利的采集到你想要的内容。

注意:在设置 user_agent 的时候,最好使用浏览器的版本或者蜘蛛,像我上面设置的是火狐的,这样被采集的服务器就会正常的通过认证。因为服务器不会屏蔽蜘蛛或者浏览器的版本的,这个问题你应该清楚吧,哈哈。如果他要是把这个也屏蔽了的话,那就是不让蜘蛛抓取页面,也无法识别用户使用的浏览器里。