采集网站内容(优采云采集器如何采集多级网页的操作注意事项?)
优采云 发布时间: 2021-10-09 04:05采集网站内容(优采云采集器如何采集多级网页的操作注意事项?)
前面我们用优采云采集器学习的教程主要是针对单级网页采集,而实际网络中的大部分网页都是多级网页(比如内容页), 采集多级网页时,使用优采云采集器的操作会有所不同,下面介绍一下优采云采集器如何采集多级网页详细介绍。.
优采云采集器如何采集多级网页?
1、多级网页采集步骤与单级网页类似:【新建任务】—输入网址—采集配置。
2、如何判断网页是否为多级网页?多级网页自动生成的字段必须收录一个或多个用于提取链接的字段(即提取属性为Href的字段)。
3、 点击链接栏的标题,选中该栏后,中间菜单栏右侧会出现【深度链接页面采集】选项。
4、 点击【深度链接页面采集】,系统自动新建配置标签,并自动打开选中字段的URL。
5、此时采集模式也会默认为【单机模式】,如果不是,点击调整。
注意:
1) 列表模式用于从网页列表中提取数据,预览中可以看到多条数据
2)单项输入模式适用于采集内容详情页中的各种信息,如文章标题、时间、正文等。
6、 点击【添加字段】,首先手动提取网页中的信息发布时间,由于标题在前面的列表采集中已经提取过了,这里就不再赘述了。
7、 再次点击【添加字段】,手动从网页中提取信息正文。
8、 这里要注意将字段的value属性调整为InnerHtml,保持原来的格式。
这是优采云采集器如何采集多级网页操作的介绍。有兴趣的朋友可以多看几遍以上教程,相信很快就能掌握!
(免责声明:如果文章内容涉及作品内容、版权等问题,请及时联系我们,我们会尽快删除内容。文章内容仅供参考仅供参考)