最新版:搜狗微信_采集微信公众号的最新文章
优采云 发布时间: 2020-09-04 14:30最新的搜狗微信_ 采集微信公众号文章
以下是对微信公众号文章(xpath +列表页+内容页)的采集方法的详细介绍
采集 网站:扬子晚报&ie = utf8&sug = n&sug_type =
采集内容:微信公众号文章
采集字段:文章名称,发布时间,内容
第1步:创建一个新任务
进入主页,选择“新任务”,然后输入采集的URL。
第2步:获取数据
由于网页的结构,该列表无法自动识别,需要手动添加
全部清空,添加字段/单击标题(标题链接内容,因此请获取链接)
标题是链接,请删除多余的标题字段
链接部分需要手动设置xpath(xpath学习:)
设置xpath属性值
选择链接/深入了解此链接
跳转到标题列表页面,您可以看到列表数据已自动加载
到采集标题内容页面(标题链接内容页面,标题为链接)
文章需要保留标题,添加字段/单击标题(目的是获取链接),该值属于设置:“ hrefs”
检查链接/深此链接
转到内容页面,添加一个字段,单击以选中整篇文章文章
第3步:设置
根据需要自定义设置,可以大大提高加载速度和工作效率。
第4步:加载数据
在任务列表中:选择任务/单击以开始
指向数据,您可以预览数据,还可以查看加载过程
第5步:查看数据并将其保存在任务列表中:选择任务/单击以查看预览数据,还可以查看数据并导出数据
选择适当的保存格式