php抓取网页连接函数(具体分析如下:get_meta设置为1将促使PHP尝试 )

优采云 发布时间: 2022-02-24 15:14

  php抓取网页连接函数(具体分析如下:get_meta设置为1将促使PHP尝试

)

  停在那里。

  将 use_include_path 设置为 1 将导致 PHP 尝试根据 include_path 标准收录路径中的每个点打开文件。这仅适用于本地文件,不适用于 URL。

  本文分析了get_meta_tags()、CURL和user-agent在php中的用法。分享给大家,供大家参考。具体分析如下:

  get_meta_tags()函数用于获取网页形式的标签并加载到一维数组中,其中name为元素下标,content为元素值。上例中的标签可以以数组的形式获取:array('A'=>'1', 'b'=>'2'),其他标签不会被处理,这个函数只会处理直到标签被终止,后续的将不再继续处理,但仍会处理前面的。

  User-agent 是浏览器向服务器请求网页时提交的不可见头部信息的一部分。头信息是一个收录多个信息的数组,如本地缓存目录、cookies等,其中user-agent为浏览器类型声明,如IE、Chrome、FF等。

  今天爬取一个网页的标签时,总是得到一个空值,但是直接查看网页的源代码是正常的,所以我怀疑服务器是否设置为根据header信息判断输出,首先尝试使用get_meta_tags()爬取一个本地文件,然后这个本地文件将获取到的头信息写入该文件,结果如下,为了方便查看,替换为/,代码如下:

  array (

'HTTP_HOST' => '192.168.30.205',

'PATH' => 'C:/Program Files/Common Files/NetSarang;C:/Program Files/NVIDIA Corporation/PhysX/Common;C:/Program Files/Common Files/Microsoft Shared/Windows Live;C:/Program Files/Intel/iCLS Client/;C:/Windows/system32;C:/Windows;C:/Windows/System32/Wbem;C:/Windows/System32/WindowsPowerShell/v1.0/;C:/Program Files/Intel/Intel(R) Management Engine Components/DAL;C:/Program Files/Intel/Intel(R) Management Engine Components/IPT;C:/Program Files/Intel/OpenCL SDK/2.0/bin/x86;C:/Program Files/Common Files/Thunder Network/KanKan/Codecs;C:/Program Files/QuickTime Alternative/QTSystem;C:/Program Files/Windows Live/Shared;C:/Program Files/QuickTime Alternative/QTSystem/; %JAVA_HOME%/bin;%JAVA_HOME%/jre/bin;',

'SystemRoot' => 'C:/Windows',

'COMSPEC' => 'C:/Windows/system32/cmd.exe',

'PATHEXT' => '.COM;.EXE;.BAT;.CMD;.VBS;.VBE;.JS;.JSE;.WSF;.WSH;.MSC',

'WINDIR' => 'C:/Windows',

'SERVER_SIGNATURE' => '',

'SERVER_SOFTWARE' => 'Apache/2.2.11 (Win32) PHP/5.2.8',

'SERVER_NAME' => '192.168.30.205',

'SERVER_ADDR' => '192.168.30.205',

'SERVER_PORT' => '80',

'REMOTE_ADDR' => '192.168.30.205',

'DOCUMENT_ROOT' => 'E:/wamp/www',

'SERVER_ADMIN' => 'admin@admin.com',

'SCRIPT_FILENAME' => 'E:/wamp/www/user-agent.php',

'REMOTE_PORT' => '59479',

'GATEWAY_INTERFACE' => 'CGI/1.1',

'SERVER_PROTOCOL' => 'HTTP/1.0',

'REQUEST_METHOD' => 'GET',

'QUERY_STRING' => '',

'REQUEST_URI' => '/user-agent.php',

'SCRIPT_NAME' => '/user-agent.php',

'PHP_SELF' => '/user-agent.php',

'REQUEST_TIME' => 1400747529,

)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线