干货教程:优采云采集器文章采集示例教程

优采云发布时间: 2021-01-09 11:05

　　干货教程:优采云采集器文章采集示例教程

　　采集文章处理：列表页面→获取内容页面URL→内容页面字段分析

　　起始页网址

　　例如，所有文章都在列表中，即起始页面是URL

　　可以添加多个起始页（例如，列表分页）

　　内容页面网址

　　点击“保存”后，我们将测试对“内容页面URL”中的内容页面URL进行爬网

　　默认情况下获取所有网址（包括样式和js文件）

　　某些URL不收录域名（因为该程序直接获取html源代码），因此可以在“采集器设置”中选择“自动完成URL”

　　我们只需要采集文章页，通过分析，文章 URL的格式大致为“文章/新闻/show/id/number.html”。

　　直接在“结果URL过滤器>>必须收录”中输入“ article / news / show / id /”，保存测试并查看

　　如果您需要准确性，也可以输入常规的“文章/新闻/节目/id/d+.html”（d+是匹配的数字）

　　例如，如果要过滤某些URL并将其输入“不能收录”，请过滤掉25、27、29中的文章，然后输入：“ 25 | 27 | 29”。

　　如果列表页面的布局较为复杂，则有很多文章列表区域，我们只需要获取某个区域的文章，请使用“从选定区域提取URL”，新手建议“ xpath”获取表格，可以在“获取内容>>测试>>测试爬网数据>>分析网页”中输入列表页面的URL，单击页面元素获取相应的xpath值

　　如果无法直接获取内容页面链接（由js生成）或需要将其拼接成新的URL，则可以在“匹配的内容URL”中进行设置

　　获取内容

　　分析内容页面的URL后，我们需要获取文章的标题，正文和其他信息，然后需要添加字段以匹配数据

　　新手建议使用“ xpath”匹配，然后在“测试>>分析网页”中输入文章链接

　　单击分析页面以获取标题xpath：“ // * [@ id =” title“] / h1 [1]”，正文xpath：“ // * [@ id =” content“]”

　　分别添加字段：标题和正文，选择“ xpath匹配”作为获取方法，并填写获取的xpath值

　　保存后，单击“测试”以获取数据，效果：

　　主体中收录许多html标签，如果需要过滤，则可以使用“数据处理>> html标记过滤”功能

　　有关采集分页内容，请参阅文章分页指南

　　相关知识点：

　　此站点文章摘自Shurong网络上的权威资料，书籍或网络原创文章。如果您有任何版权纠纷或侵权，请立即与我们联系以将其删除。禁止擅自复制和转载！谢谢...

0

2021-01-09

文章采集文章采集

0 个评论

要回复文章请先登录或注册