搜狗搜索采集公众号历史消息(图)问题解析
优采云 发布时间: 2021-08-24 07:37搜狗搜索采集公众号历史消息(图)问题解析
通过搜狗搜索采集公众号的历史记录存在一些问题:
1、有验证码;
2、历史消息列表只有最近10条群发消息;
3、文章地址有有效期;
4、据说批量采集需要改ip;
通过我之前的文章方法,没有出现这样的问题,虽然采集系统设置不像传统的采集器写规则爬行那么简单。但是batch采集构建一次后的效率还是可以的。而且采集的文章地址是永久有效的,你可以通过采集获取一个公众号的所有历史信息。
先从公众号文章的链接地址说起:
1、微信右上角菜单复制的链接地址:
2、从历史消息列表中获取的地址:
#wechat_redirect
3、完整真实地址:
%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&1w_head
以上三个地址是同一篇文章文章的地址,在不同位置获取时得到三个完全不同的结果。
和历史新闻页面一样,微信也有自动添加参数的机制。第一个地址是通过复制链接获得的,看起来像一个变相的代码。其实没用,我们不去想。第二个地址是通过上面文章介绍的方法从json文章历史消息列表中得到的链接地址,我们可以把这个地址保存到数据库中。然后就可以通过这个地址从服务器获取文章的内容了。第三个链接添加参数后,目的是让文章页面中的阅读js获取阅读和点赞的json结果。在我们之前的文章方法中,因为文章页面是由客户端打开显示的,因为有这些参数,文章页面中的js会自动获取阅读量,所以我们可以通过代理服务获取这个文章的阅读量。
本文章的内容是根据本专栏前面文章介绍的方法获得的大量微信文章,我们详细研究了如何获取文章内容和其他一些有用的信息。方法。
(文章list 保存在我的数据库中,一些字段)
1、Get文章源代码:
文章源代码可以通过php函数file_get_content()读入一个变量。因为微信文章的源码可以从浏览器打开,这里就不贴了,以免浪费页面空间。
2、源代码中的有用信息:
1)原创内容:
原创内容收录在一个标签中,通过php代码获取:
<p>