用php来做采集器的基本格式是抓取别人网页内容的
优采云 发布时间: 2021-06-11 03:07用php来做采集器的基本格式是抓取别人网页内容的
来源:天际网
采集器,通常称为小偷程序,主要用于抓取他人网页的内容。关于采集器的制作,其实并不难。就是远程打开需要采集的网页,然后用正则表达式匹配需要的内容。只要你有一点正则表达式基础,就可以让自己的采集器来了。
前几天做了一个小说连载程序,因为怕更新麻烦,写了个采集器,采集八路中文网,功能比较简单,不能自定义规则,但可能想法就在那里。在里面,自定义规则可以自己扩展。
使用php做采集器主要使用两个函数:file_get_contents()和preg_match_all()。第一个是远程阅读网页内容,但只能在php5以上版本使用,后者是常规功能。 , 用于提取需要的内容。
以下是函数实现的分步说明。
因为是采集fiction,先提取标题,作者,流派。其他信息可根据需要提取。
这里是《回明朝太子》的目标,先打开书目页面,链接:
再打开几本书,你会发现书名的基本格式是:book number/Index.aspx,所以我们可以制作一个起始页,定义一个,用它来输入需要的书号采集,然后我们可以通过 $_POST['number'] 这个格式来接收采集的书号。收到书号后,接下来要做的就是构造书目页面:$url=$_POST['number']/Index.aspx,当然这里是一个例子,主要是为了方便说明,就是最好以实际生产为准。 _POST['number'] 的合法性。
构建好URL后,即可开启采集书信息。使用file_get_contents()函数打开书目页面:$content=file_get_contents($url),这样就可以读取书目页面的内容了。下一步是匹配书名、作者和类型。这里以书为例,其他都一样。打开书目页面,查看源文件,找到《回明为主》,这是要提取的书名。提取书名的正则表达式:/(.*?)\/is,使用preg_match_all()函数提取书名:preg_match_all("/(.*?)\/is",$contents,$title ); $title[0][0]的内容就是我们想要的title(preg_match_all函数的用法可以百度查,这里就不详细解释了)。取出书籍信息后,下一步就是取出章节内容。取章节内容,首先要找到每个章节的地址,然后远程打开章节,使用正则规则取出内容,存入库或者直接生成html静态文件。这是章节列表的地址: 可以看出这个和参考书目页面是一样的,可以定期找到:分类号/书号/List.shtm。 ISBN已经拿到了。这里的关键是找到分类号。分类号可以在之前的参考书目页面上找到。提取分类号:
preg_match_all("/Html\/Book\/[0-9]{1,}\/[0-9]{1,}\/List\.shtm/is",$contents,$typeid);这还不够,我们还需要一个cut函数:
[复制PHP代码][-]PHP代码如下:
function cut($string,$start,$end){
$message = expand($start,$string);
$message=explode($end,$message[1]); return $message[0];} 其中 $string 是要剪切的内容,$start 是开头,$end 是结尾。检索分类号:
$start = "Html/Book/";
$end
="列表.shtm";
$typeid = cut($typeid[0][0],$start,$end);
$typeid = expand("/",$typeid);[/php]
这样,$typeid[0]就是我们要找的分类号。下一步是构造章节列表的地址:$chapterurl = $typeid[0]/$_POST[‘number’]/List.shtm。有了这个,你可以找到每章的地址。方法如下:
$ustart = """;
$uend
=""";
//t代表title的缩写
$tstart = ">";
$趋向
="