可采集文章(采集文章流程(图)网址页→获取内容页字段分析)
优采云 发布时间: 2021-08-30 00:03可采集文章(采集文章流程(图)网址页→获取内容页字段分析)
采集文章 流程:列表页→获取内容页URL→内容页字段分析
起始页网址
比如所有文章都在列表中,即起始页为网址
可以添加多个起始页(例如列表分页)
内容页面网址
点击“保存”后,我们将测试抓取“内容页网址”中的内容页网址
默认获取所有 URL(包括样式和 js 文件)
部分网址不收录域名(因为程序直接抓取html源码),可以在“采集器Settings”中选择“自动补全网址”
我们只需要采集文章页面,经过分析,文章 URL的格式大致为“article/news/show/id/number.html”。
在“Result URL过滤>>必须收录”中直接输入“article/news/show/id/”,保存测试看看
如果需要准确,也可以输入常规的“article/news/show/id/d+.html”(d+为匹配数字)
如果要过滤某些网址,在“不能被收录”中输入,例如过滤掉文章 of 25、27、29,输入:“25|27|29”。
如果列表页面的布局比较复杂,文章list区域很多,我们只需要获取某个区域的文章,使用“从选定区域提取URL”,新手推荐“ xpath”获取表单,可以在“获取内容>>测试>>测试爬取数据>>分析网页”中输入列表页面URL,点击页面元素获取对应的xpath值
如果内容页链接无法直接获取(js生成)或者需要拼接成新的网址,可以在“匹配内容网址”中设置
获取内容
分析内容页URL后,我们需要抓取文章的标题、正文等信息,然后需要添加字段来匹配数据
新手推荐使用“xpath”匹配,并在“测试>>分析网页”中输入文章链接
点击分析页面得到标题xpath:"///*[@id="title"]/h1[1]",正文xpath:"///*[@id="content"]"
分别添加字段:title和body,获取方式选择“xpath匹配”,填写获取的xpath值
保存后点击Test获取数据,效果:
正文收录很多html标签,如果需要过滤可以使用“数据处理>>html标签过滤”功能
如果需要采集page内容,请参考文章page教程
相关知识点:
本站文章摘自书融网权威资料、书籍或网络原创文章。如果您有任何版权纠纷或侵权,请立即联系我们进行删除。未经许可禁止复制和转载!谢谢...