【爬虫实战教程】通过搜狗搜索采集微信文章

优采云 发布时间: 2022-05-04 17:01

  【爬虫实战教程】通过搜狗搜索采集微信文章

  一.场景简介

  1.场景描述:通过搜狗采集微信公众号的文章

  2.入口网址:%E5%89%8D%E5%97%85&ie=utf8&_sug_=n&_sug_type_=

  

  3.采集内容:

  采集搜狗微信平台中,关键词搜索出来的微信公众号文章的标题、正文、作者、公众号名称等。

  

  

  二.思路分析

  |配置思路概览

  

  |配置步骤

  1.新建采集任务

  选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

  

  继续勾选普通翻页,然后点击完成,创建成功。

  

  2.关键词配置

  ①在入口页搜索不同关键词,发现不同关键词搜索结果的链接,只更换了图中红框部分,而红框部分正是经过转码后的关键词,于是得出关键词链接的拼接规则为:

  关键词

  

  ②得到关键词链接拼接规则后,开始配置关键词搜索:

  点击屏幕右下角【高级配置】,将采集地址填写到【请求地址】中,点击【+】添加一个参数,名称可以自定义,此项配置是用于后期脚本能将关键词从关键词列表中取出,配置完成点击【确定】即可。

  

  将参数类型选择为检索关键词,点击保存。

  

  ③由于本模板是以关键词搜索为入口,所以在【模板抽取配置】选择频道(即任务名称),选择【脚本窗口】,将关键词搜索配置在频道处即可。

  

  ④具体配置脚本如下:

  

  文本如下:

  var sear=EXTRACT.GetSearch(this); //关键词获取var k=sear.Search();while(k){ //遍历关键词url u;//定义一个urlu.urlname="https://weixin.sogou.com/weixin?type=2&s_from=hotnews&query="+k.wk; //拼搜索关键词的地址var tit=TransFrom(u.UnEscape(k.wk),7);//将转码后的关键词转为中文u.title=tit;//将标题设置为关键词名称u.entryid=this.id;u.tmplid=1;k=sear.Search();RESULT.AddLink(u);}

  添加一个或多个关键词,并保存,如下图所示。(多个关键词用英文;隔开)

  

  ⑤效果预览:

  在【关键词列表】中填写关键词,点击【保存】,点击【采集预览】,即可看到配置效果。

  

  如果采集预览异常,可打开前嗅官网,咨询技术支持。

  3.翻页配置

  关键词配置完成,下一步是获取关键词搜索结果中的全部翻页链接。

  ①同样选择【脚本窗口】,配置翻页脚本。

  

  ②对关键词搜索出的网页翻页,观察网页地址的变化。

  第二页

  第三页

  发现翻页链接是在原地址中增加了“&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8”部分,随着页码的改变,仅有page参数的值在变化。page为页码的配置参数,其它不变部分,直接拼接在链接中即可。

  ③具体配置脚本如下:

  

  文本如下:

<p>url u;for(i=1;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线