php用正则表达抓取网页中文章(精品文档2016全新精品资料-全新公文范文-全程指导写作)

优采云 发布时间: 2022-01-06 04:02

  php用正则表达抓取网页中文章(精品文档2016全新精品资料-全新公文范文-全程指导写作)

  Fine Documents 2016 全新精品素材-全新官方文档样例-完整指导写作-独家原创 如何使用PHP抓取页面中的URL到另一个元素(文本、图像、视频等)。网页中的链接一般分为三种,一种是绝对网址超链接,即一个页面的完整路径;另一种是相对URL超链接,一般链接到相同网站的其他页面;另一种是页面内的超链接,一般链接到同一页面内的其他位置。搞清楚了链接的类型,就知道要抓取的链接主要是绝对URL超链接和相对URL超链接。要编写正确的正则表达式,我们必须了解我们正在寻找的对象的模式。让我们来谈谈绝对链接,也叫URL(Uniform Resource Locator),它标识了互联网上唯一的资源。URL 的结构由三部分组成:协议、服务器名、路径和文件名。该协议告诉浏览器如何处理要打开的文件的识别,最常见的是http协议。本文也只考虑了HTTP协议,至于其他https、ftp、mailto、telnet协议等,也可以根据需要自行添加。服务器名称是告诉浏览器如何到达该服务器的方式。它通常是域名或IP地址,有时还包括端口号(默认为80)。该协议告诉浏览器如何处理要打开的文件的识别,最常见的是http协议。本文也只考虑了HTTP协议,至于其他https、ftp、mailto、telnet协议等,也可以根据需要自行添加。服务器名称是告诉浏览器如何到达该服务器的方式。它通常是域名或IP地址,有时还包括端口号(默认为80)。该协议告诉浏览器如何处理要打开的文件的识别,最常见的是http协议。本文也只考虑了HTTP协议,至于其他https、ftp、mailto、telnet协议等,也可以根据需要自行添加。服务器名称是告诉浏览器如何到达该服务器的方式。它通常是域名或IP地址,有时还包括端口号(默认为80)。

  在FTP协议中,也可以收录用户名和密码,本文不考虑。拆分,指出文件的路径和文件本身的名称。如果没有具体的文件名,请访问这个精品文档 2016 全新精品信息-全新官方文档样本-完整指导写作-独家原创 可以的字符范围有明确的规范各部分使用。详情请参考RFC1738。然后就可以写正则表达式了。写到这里,基本上大部分的url都可以匹配,但是带参数的url爬不出来,可能会导致再次访问时页面报错。关于RFC1738规范中要求的参数,有没有用到?要分段,后面有参数,但是现代 RIA 应用程序可能会使用其他奇怪的形式进行分割。稍作修改,即可搜索查询参数部分。还是没有涵盖所有的情况,比如URL中的中文、空格等特殊字符,但是基本可以满足我的需求,所以就没有继续深入了。精品文档2016全新精品素材-全新官方文档范文-全程指导写作-独家原创/(http|ftp|https):\/\/([\w\d\-_] +[\.\w \d\-_]+)[:\d+]?([\/]?[\w\/\.\?=&;%@#\+,]+)/i使用括号的好处是,在处理结果时,可以方便的获取到协议内容、域名、相对路径,方便后续处理。例如,当使用 preg_match_all() 进行匹配时,结果数组索引为所有结果为0,协议为1,域名为2,相对路径为3。以上就是使用PHP的正则抓取页面中URL的全部内容,希望对大家使用PHP有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线