php用正则表达抓取网页中文章( 暂时没有写,这里第二种应急解决方法实现(图))
优采云 发布时间: 2021-11-12 14:00php用正则表达抓取网页中文章(
暂时没有写,这里第二种应急解决方法实现(图))
定时获取图片地址的链接地址
更新时间:2008年12月10日14:11:24 作者:
可以得到网页中所有图片地址和链接地址的代码,貌似一般都是用来获取网页中的资源地址的。
复制代码代码如下:
reg = /]*src\s*=\s*('|")?([^'">]*)\1([^>])*>/ig
定期获取图片地址
一、问题:
我在采集的过程中遇到了一个问题:从数据库读取的图片显示不正常。经过分析,发现数据库中的图片存放在网站根目录的相对路径下。图片地址如下:/uploads/allimg/090403/012F31N9-1.jpg,原来读取的图片是通过开关的URL的绝对图片获取的,所以出现了以根目录开头的图片地址在采集采集失败。
二、解决方案:
分析HTML代码并显示图片
标签,写正则表达式得到
在网站和网站中添加图片地址转换为URL的绝对URL,然后交给下面的代码(远程图片本地获取)。
1) 改进方案,用“2)应急方案,只考虑以“src=”属性开头的正则表达式,但是这个方法有不完善的地方,只要“src=”出现在会被替换。出现“src=”的可能性:javascript,文本中的“src”等,不过这些都比较少,再加上图片格式的常规限制,不正确替换的概率会小一些。
三、 实现代码:
考虑到第一种方法的难度还没有写出来,这里是第二种应急方案的实现(实现中涉及的正则表达式内容这里不做解释分析,知识内容请google或百度^v^正则表达式):
复制代码代码如下: