php用正则表达抓取网页中文章(PHP正则表达式如何处理将要打开文件的标识和几种形式?)
优采云 发布时间: 2021-09-16 04:18php用正则表达抓取网页中文章(PHP正则表达式如何处理将要打开文件的标识和几种形式?)
最近,有一项任务是从页面中获取页面中的所有链接。当然,使用PHP正则表达式是最方便的方法。要编写正则表达式,我们必须首先总结模式。页面中有多少种形式的链接
链接是一种超链接,它将一个元素(文本、图片、视频等)链接到另一个元素(文本、图片、视频等)。网页中通常有三种链接。一种是绝对URL超链接,即页面的完整路径;另一种是相对URL超链接,通常链接到相同网站的其他页面;页面中还有一个超链接,通常链接到同一页面中的其他位置
找出链接的类型,掌握你知道的链接,主要是绝对URL超链接和相对URL超链接。为了编写正确的正则表达式,我们必须了解我们正在寻找的对象的模式
让我们从绝对链接开始,也称为URL(统一资源定位器),它标识Internet上唯一的资源。URL结构由三部分组成:协议、服务器名、路径和文件名
该协议告诉浏览器如何处理要打开的文件的标识。最常见的是HTTP协议。本文只考虑HTTP协议。还可以根据需要添加其他HTTPS、FTP、mailto和telnet协议
服务器名是告诉浏览器如何访问服务器的方式,通常是域名或IP地址,有时是端口号(默认为80)FTP协议还可以包括用户名和密码,这在本文中不会考虑
路径和文件名,通常用/分隔,表示文件的路径和文件本身的名称。如果没有特定的文件名,请访问此文件夹下的默认文件(可在服务器上设置)
现在很明显,要获取的绝对链接的典型形式可以概括为
每个部分中可以使用的字符范围都有明确的规范。有关详细信息,请参阅rfc1738。然后可以编写正则表达式