PHP写微信公众号文章页采集方法
优采云 发布时间: 2020-07-24 08:04;我的正则匹配水平有限,只能写成这样的了。希望有高手能赐教更好的正则匹配方式。
另外注意:这个匹配规则会可能在一段时间以后有变化。这篇文章会尽量保持更新。如果你按照我的文章制作了采集系统以后,当某三天失效了,别忘了回去再瞧瞧文章是否有更新。
2)内容处理:
通过前面的方式我们获得了文章内容的html,但是你将文章内容显示下来以后才会发觉,图片和视频不能正常显示。因为这个html还须要一些加工:
首先是图片,微信文章中的标签中的src属性全部都用了data-src属性替代。只有在显示的时侯就会被替换过来。所以我们也有两个方案,将源代码直接替换过来,或者用js在显示时侯再替换。下面我先介绍直接替换html的方式:
1
2
3
4
//$content变量的值是上面获取到的文章内容html
$content = str_replace("data-src","src",$content);
然后是视频,视频的显示不正常,经过常年测试后发觉只要替换一个页面地址才能解决,过程就不说了,直接说结果:
1
2
3
4
//$content变量的值是上面获取到的文章内容html
$content = str_replace("preview.html","player.html",$content);
通过这两个替换过后,文章内容html中的图片和视频就都正常了。
3) 公众号相关信息:
通过本专栏之前的文章,介绍了我们使用陌陌客户端,任意打开一个公众号的历史消息页以后。系统从数据库中辨识biz的值,发现数据库中没有记录,就会插入一条新的纪录。之后的采集队列都会定期按照这个biz来获取这个公众号的历史消息列表。
但是我们只获得了这个公众号的biz,公众号的名称,头像这两个重要信息还是没有获取到。主要诱因是历史消息页面中没有这两个信息。但是我们可以从文章页面中获取到。
在陌陌文章页面html的顶部,有一些js的变量形参的代码,通过正则匹配然后我们就可以获得这两个公众号的信息:
1
2
3
4
5
6
7
//$html变量的值是上面获取到的文章全部html
preg_match_all('/var nickname = \"(.*?)\";/si',$html,$m);
$nickname = $m[1][0];//公众号爱称
preg_match_all('/var round_head_img = \"(.*?)\";/si',$html,$m);
$head_img = $m[1][0];//公众号头像
通过这两个正则匹配,我们才能获取到公众号的头像和爱称,然后按照文章地址中的biz,可以保存到对应的微信号数据表中。
3、文章的保存和处理
前面的代码已然将文章内容获取到变量中了。如何保存虽然每个人似乎都有自己的看法。我这儿介绍一下我的保存内容的方式:
将文章内容的html以数据库id为文件名保存成html文件,以biz数组为目录。
1
2
3
4
5
6
7
8
9
10
11
$dir = "./".$biz."/";
$filename = $dir.$id.".html";
if(!is_dir($dir)) {
mkdir($cache_dir);
chmod($cache_dir,0777);
}
$file = fopen($filename, "w");
fwrite($file, $content);
fclose($file);
以上代码是一个标准的php构建文件夹保存文件的代码,大家可以依照自己的实际情况安排保存方式。
在这以后我们就可以在自己的服务器上得到一个html文件,内容就是公众号的文章内容。我们可以从浏览器中打开看一下。这时你或许会发觉图片防盗链了!无法正常显示!包括数据库中保存的文章封面图,公众号的头像都是防盗链的。
别急,这个问题挺好解决,只须要将图片也保存到自己的服务器,无非是将来会占用自己的服务器空间和带宽。
图片防盗链的原理是当图片在网页中显示的时侯php 采集微信文章图片,图片服务器会测量到引用这张图片的服务器域名,当发觉服务器域名不包含或的时侯才会被替换成防盗链图片。
但是假若测量不到引用页面的域名才会正常显示,所以我们通过php的函数file_get_content()就可以将图片的二进制代码获取过来,然后按照自己的看法起个文件名保存到自己的服务器上。在这里再介绍一个保存图片的方式,我目前使用了腾讯云的“万象优图”,通过它们提供的api将图片保存到云空间,这样的用处是读取图片时直接在图片的链接地址加上希望得到的图片规格大小参数,就可以直接得到一张缩略图。比存在自己的服务器便捷得多。阿里云也应当有同样的产品php 采集微信文章图片,好像名叫对象储存。
另外,我采集公众号内容的目的是制做成一个新闻app,在app上将html代码显示下来以后,因为app同样没有域名,防盗链服务器也同样不会觉得图片被盗链了。这样就可以直接显示图片下来。