php用正则表达抓取网页中文章( 暂时没有写,这里第二种应急解决方法实现(图))

优采云 发布时间: 2021-11-12 14:00

  php用正则表达抓取网页中文章(

暂时没有写,这里第二种应急解决方法实现(图))

  定时获取图片地址的链接地址

  更新时间:2008年12月10日14:11:24 作者:

  可以得到网页中所有图片地址和链接地址的代码,貌似一般都是用来获取网页中的资源地址的。

  复制代码代码如下:

  reg = /]*src\s*=\s*('|")?([^'">]*)\1([^>])*>/ig

  定期获取图片地址

  一、问题:

  我在采集的过程中遇到了一个问题:从数据库读取的图片显示不正常。经过分析,发现数据库中的图片存放在网站根目录的相对路径下。图片地址如下:/uploads/allimg/090403/012F31N9-1.jpg,原来读取的图片是通过开关的URL的绝对图片获取的,所以出现了以根目录开头的图片地址在采集采集失败。

  二、解决方案:

  分析HTML代码并显示图片

  标签,写正则表达式得到

  在网站和网站中添加图片地址转换为URL的绝对URL,然后交给下面的代码(远程图片本地获取)。

  1) 改进方案,用“2)应急方案,只考虑以“src=”属性开头的正则表达式,但是这个方法有不完善的地方,只要“src=”出现在会被替换。出现“src=”的可能性:javascript,文本中的“src”等,不过这些都比较少,再加上图片格式的常规限制,不正确替换的概率会小一些。

  三、 实现代码:

  考虑到第一种方法的难度还没有写出来,这里是第二种应急方案的实现(实现中涉及的正则表达式内容这里不做解释分析,知识内容请google或百度^v^正则表达式):

  复制代码代码如下:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线