优采云采集器怎样判别抓取的数据难易程度|附上常见问题与解决方案

优采云 发布时间: 2020-08-27 06:31

  优采云采集器怎样判别抓取的数据难易程度|附上常见问题与解决方案

  数据抓取的难易程度判定和问题解决方案

  第1章 难易程度判定

  ① 采集文章地址 → 列表页查看采集页的源代码

  (1)简单—普通超链接(例如:文章名)

  (2)困难—Js传入文章id的链接(例如:javascript:_doPostBack(xxxx) )

  (3)较难—Js传入整个数据模块(例如: InitData27630;InitData27630=['.......)

  ② 采集分页地址 → 查看列表页分页的代码

  (1)简单—普通超链接(例如:页数)

  (2)困难(可能简单,原因是列表页可以通过批量添加采集网址做到不需要用优采云分析下一页)—dopost分页(例如:javascript:_doPostBack(xxxx) )

  (3)困难—jQuery分页,调用插件分页

  ③ 采集实际内容 → 查看文章页源代码

  (1)简单—内容源代码为明码可直接采集

  (2)困难—当前采集页为跳转页不是真实内容页

  第2章 问题结局方案

  2.1 利用优采云获取分页代码造成,分页获取不全

  问题出现的缘由:在优采云第一步中,分页的链接是使用“前后截取”的形式在这段范围内扫描标签的链接当作分页代码,当你把如下形式的代码全部贴进去的时侯很会扫描这其中的超链接。会链接到1,2,3,4,5,6,7,下一页,末页,如果使优采云扫描完末页,那么我们如今优采云所扫描的页面源代码为末页的是不会有下一页的所以,优采云会终止扫描。所以要注意这个获取分页的“前后截取”作用是扫描当前我们输入的范围内的超链接,我们可以看见下一页的后面就是下一页的超链接,所以为我们可以把结束的代码直接填“下一页”就可以直接使优采云一直扫描下一页直至末页

  图片:图片1.png

  

  正确的填写:

  图片:图片2.png

  

  2.2 采集分页为js分页

  当采集的列表页为js分页的时侯,可以通过”fiddler”工具抓包,抓取到传输的page值或则一切可以传输分页值的对象,通过优采云的post传值功能可以使优采云工具来手动翻页,并采集分业内的文章链接

  图片:图片3.png

  

  2.3 采集文章页面没有采集到内容,页面跳转

  当页面采集值为空的情况下,有可能出现的缘由是,点击列表页的超链接步入文章页面的时侯,我们要自己查看条转完的页面的地址链接跟列表页的点击的链接是否有变化(如果没变化就不需要看这个问题了),如果有变化,那么就是跳转了一个页面,才达到了内容页。解决方案:跳转页面就相当于从列表页到了跳转页再到内容页。通过右图可以解释

  图片:图片4.png

  

  2.4 采集新闻数据的时间不容易匹配规则

  当采集时间的时侯,有可能时间所在的标签还有其他内容不容易采集

  解决办法:

  1、搜索源代码中,查看是否有其他格式时间如在var time=”xxx”或者 xxxx等等

  2、采集网址链接时间:一般新闻站的链接就会富含时间通过下边截图的功 能实现

  图片:图片5.png

  

  3、采集列表页时间通过自动填写地址规则来把列表页的时间附加到内容页 中

  2.5 采集内容页分页

  如果是静态地址链接分页的话,直接使用分页网址提取区域就可以获取分页的链接,

  图片:图片6.png

  

  采集内容页假如有分页的话,普遍做法就是写插件来达到目的,另一种比较麻烦的做法就是,把内容页当作列表页来做这样在列表页可以传post的值,这样分页就可以做到了

  第3章 替换功能

  替换功能是一个神技

  1.标签的数据处理是从上至下依次执行的,我们借助替换功能可以做到太强悍的疗效

  2.替换功能是可以吧当前的参数替换成另一个标签的诸如

  图片:图片7.png

  

  本文标题:优采云采集器怎样判别抓取的数据难易程度|附上常见问题与解决方案

  本文作者:admin

  本文来自:蚁安黑客官网

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线