可采集文章(采集文章流程(图)网址页→获取内容页字段分析)

优采云发布时间: 2021-08-30 00:03

　　采集文章流程：列表页→获取内容页URL→内容页字段分析

　　起始页网址

　　比如所有文章都在列表中，即起始页为网址

　　可以添加多个起始页（例如列表分页）

　　内容页面网址

　　点击“保存”后，我们将测试抓取“内容页网址”中的内容页网址

　　默认获取所有 URL（包括样式和 js 文件）

　　部分网址不收录域名（因为程序直接抓取html源码），可以在“采集器Settings”中选择“自动补全网址”

　　我们只需要采集文章页面，经过分析，文章 URL的格式大致为“article/news/show/id/number.html”。

　　在“Result URL过滤>>必须收录”中直接输入“article/news/show/id/”，保存测试看看

　　如果需要准确，也可以输入常规的“article/news/show/id/d+.html”（d+为匹配数字）

　　如果要过滤某些网址，在“不能被收录”中输入，例如过滤掉文章 of 25、27、29，输入：“25|27|29”。

　　如果列表页面的布局比较复杂，文章list区域很多，我们只需要获取某个区域的文章，使用“从选定区域提取URL”，新手推荐“ xpath”获取表单，可以在“获取内容>>测试>>测试爬取数据>>分析网页”中输入列表页面URL，点击页面元素获取对应的xpath值

　　如果内容页链接无法直接获取（js生成）或者需要拼接成新的网址，可以在“匹配内容网址”中设置

　　获取内容

　　分析内容页URL后，我们需要抓取文章的标题、正文等信息，然后需要添加字段来匹配数据

　　新手推荐使用“xpath”匹配，并在“测试>>分析网页”中输入文章链接

　　点击分析页面得到标题xpath："///*[@id="title"]/h1[1]"，正文xpath："///*[@id="content"]"

　　分别添加字段：title和body，获取方式选择“xpath匹配”，填写获取的xpath值

　　保存后点击Test获取数据，效果：

　　正文收录很多html标签，如果需要过滤可以使用“数据处理>>html标签过滤”功能

　　如果需要采集page内容，请参考文章page教程

　　相关知识点：

　　本站文章摘自书融网权威资料、书籍或网络原创文章。如果您有任何版权纠纷或侵权，请立即联系我们进行删除。未经许可禁止复制和转载！谢谢...

0

2021-08-30

可采集文章

0 个评论

要回复文章请先登录或注册