意外:采集乱七八糟记录下
优采云 发布时间: 2020-10-30 12:00采集乱七八糟的记录
最近正在做采集条新闻,只需对其进行记录
微信公众号采集
使用了PHP QueryList库,并且可以很好地安装作曲家
__ biz微信官方帐户的唯一标识符,可以通过在PC上登录微信并复制链接来查看
场景= 124写死
wxtokenkey = 777很难写
wxuin = 1146460420当前微信登录的ID
用户代理UA是必须的
wap_sid2这是最重要的参数
获取cookie是由老板完成的。这里只是对所依赖的思想和软件的简要介绍:按钮向导,查找器
服务器数据库配置有官方帐户数据,例如__biz参数
在win系统上安装按钮向导。在PC版微信中,使用按钮向导进行个性化编程可自动打开官方帐户页面
安装fidder数据包捕获工具,获取微信历史记录页面请求,然后将cookie同步到服务器数据库
可以对自定义程序编程:抓取cookie并同步到服务器
按钮向导可以自动编程:获取cookie的正式帐户已过期,重新打开历史记录页面,以方便查找该cookie的食物
服务器采集程序负责采集,将页面解析到数据库中,并发现cookie过期并更新与官方帐户相对应的cookie的状态
... item 一个公众号好数据
QueryList::get($page, [
'action' => 'home',
'__biz' => $item['biz'],
'scene' => 124,
], [
'headers' => [
'Accept' => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'User-Agent' => 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1',
//'Cookie'=>'wxtokenkey=777; wxuin=1146460420; devicetype=iMacMacBookPro121OSXOSX10.12.6build(16G1114); version=12030c10; lang=zh_CN; wap_sid2=CISy1qIEElxZYXdfanZra01NRS1DTGo5RndaeWNBQjEyaDhZQ3BaRHc5LVREQ1NjMFpHT1lPWFdDajVlandhaU9RLTZmWE9KemIxU3U1Q2lXXzZOMFBfVjlueGhXZjBEQUFBfjDbz87qBTgNQJVO'
//'Cookie'=>'wxtokenkey=777; wxuin=1146460420; devicetype=iMacMacBookPro121OSXOSX10.12.6build(16G1114); version=12030c10; lang=zh_CN; wap_sid2=CISy1qIEEnBFQzkyUy1oZW5fWDNBMVFUY3NlUFBsZm51NGdUbFBvVDg1SG5iZXY0UWFjb29hT2VPWXF1U3FiN3A2M2RLWktWVXFReWg5OHhjME1uUVRRa1JvNnJoeGttRHRDc3poWU9nc19sTy1Wek1uZi1Bd0FBMLPAz+oFOA1AlU4='
'Cookie' => $item['cookie'],
],
]);
列表数据的解析非常简单。页面数据是输出到html的json数据,只需处理匹配即可获得数据列表。