采集网站内容(优采云采集器如何采集多级网页的操作注意事项?)

优采云 发布时间: 2021-10-09 04:05

  采集网站内容(优采云采集器如何采集多级网页的操作注意事项?)

  前面我们用优采云采集器学习的教程主要是针对单级网页采集,而实际网络中的大部分网页都是多级网页(比如内容页), 采集多级网页时,使用优采云采集器的操作会有所不同,下面介绍一下优采云采集器如何采集多级网页详细介绍。.

  优采云采集器如何采集多级网页?

  1、多级网页采集步骤与单级网页类似:【新建任务】—输入网址—采集配置。

  

  2、如何判断网页是否为多级网页?多级网页自动生成的字段必须收录一个或多个用于提取链接的字段(即提取属性为Href的字段)。

  

  3、 点击链接栏的标题,选中该栏后,中间菜单栏右侧会出现【深度链接页面采集】选项。

  

  4、 点击【深度链接页面采集】,系统自动新建配置标签,并自动打开选中字段的URL。

  

  5、此时采集模式也会默认为【单机模式】,如果不是,点击调整。

  注意:

  1) 列表模式用于从网页列表中提取数据,预览中可以看到多条数据

  2)单项输入模式适用于采集内容详情页中的各种信息,如文章标题、时间、正文等。

  

  6、 点击【添加字段】,首先手动提取网页中的信息发布时间,由于标题在前面的列表采集中已经提取过了,这里就不再赘述了。

  

  7、 再次点击【添加字段】,手动从网页中提取信息正文。

  

  8、 这里要注意将字段的value属性调整为InnerHtml,保持原来的格式。

  

  这是优采云采集器如何采集多级网页操作的介绍。有兴趣的朋友可以多看几遍以上教程,相信很快就能掌握!

  (免责声明:如果文章内容涉及作品内容、版权等问题,请及时联系我们,我们会尽快删除内容。文章内容仅供参考仅供参考)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线