如何文章采集(一下如何用优采云采集器采集文章?模板怎么保存?)
优采云 发布时间: 2021-09-03 19:03如何文章采集(一下如何用优采云采集器采集文章?模板怎么保存?)
有时我们看到一个网站文章,我们就想保存这些文章。一张一张的复制保存很麻烦。这时候就需要使用优采云采集器。 文章采集 保存了它。下面是优采云采集器采集文章的使用方法。
第一步采集网址,下载优采云采集器并打开,新建一个任务,任务名称任意。将需要采集的网站文章列表页面URL添加到起始URL。从图中可以看出列表页有34页,每页有N条文章。
列表页会获取一级网址,并添加多级网址获取二级网址(文章页网址)
设置要通过分页检索的列表。三处分别为:分页源代码前后中间位置。此步骤用于获取列表页链接,因为列表页共有 34 个。设置后保存。
网址获取选项,此步骤用于获取列表页上文章页面的链接,根据自己的需要设置需要拦截的部分,设置收录或排除某些字符根据 URL 的结构。如果为空,则没有限制,设置后保存。
设置链接采集规则后,可以测试URL并根据测试结果调整规则。看图可以看到采集链接规则成功了采集从初始链接到综合列表页到列表页上的文章页链接。
第二步是采集内容。首先修改标题规则,在页面源码中找到标题代码,将标题前后的标题剪掉。保存。
修改内容采集规则,和title规则类似,也是在源码中找到的内容前后的代码。这里的内容会有一些其他的html标签,所以需要添加html标签排除规则。
完成测试后,检查结果,从测试结果中调试规则,直到测试结果是你想要的。
第三步是采集export。首先1、2分两步设置规则,最后文章将被导出。首先制作一个导出的模板。
然后选择方法二,将每个文章分别记录成一个txt文本,选择保存位置,选择刚刚为模板制作的导出模板。保存的文件名以文章 标题命名。其他默认,保存。
勾选采集网址,采集内容,发布3个选项框,然后启动采集。完成后在刚才保存的文件夹中自动生成文本。
优采云采集器采集文章 教程现已完成。由于每个网站都不一样,这里只能用一个网站演示,这只是一个方法思路。我的采集文章还需要灵活。
如果这篇文章对您有帮助,请分享给您的朋友,或按Ctrl+D采集本页,谢谢!