优采云采集器采集发布文章作者、时间、标签等内容

优采云 发布时间: 2020-08-10 15:33

  优采云采集器采集发布文章作者、时间、标签等内容

  教程总目录:优采云采集器使用教程

  为什么采集这些东西,这里就不屁话了。

  下面一个一个的说如何设置

  1.作者

  作者是在插口文件里设置的,这个插口文件不支持随机作者等。只能设置一个固定的。

  在插口文件的30行左右。里面有个值我们按照自己具体情况填。

  

  请注意,那上面的不是作者名子,也不是作者用户名。是作者帐号的ID数字。

  比如我们创建wordpress站点时默认创建的管理员帐户ID就是1,后面的用户依次递增。2、3、4、5等等。这个应当挺好理解。

  内容采集规则里不需要再做作者的采集

  2.时间

  我们在内容采集规则里点击减号,添加一组标签

  名字就填时间即可

  

  

  然后开始设置数据的提取规则。

  我们还以景安的这篇文章为例:

  

  他这个文章是有发表时间的,我们查看网页源代码,搜索:发表日期

  

  然后将日期前后的内容填写到优采云采集规则里

  

  可以点下边的测试瞧瞧食肉采集到了时间,这里就不发截图了。

  3.标签

  标签对于网站的SEO还是很重要的,它可以降低我们网站里文章的内链,而且百度还很喜欢采集标签上面的内容的。

  标签跟时间采集思路一样,对比要采集的文章里标签前后的源代码。创建个采集项,然后设置采集规则。就行了

  

  

  我们测试瞧瞧里面的采集效果

  

  扩展知识

  为什么添加的时间和标签两个项目名子一个填的“时间”,一个填的是“tag”?

  

  这两个名子不是随意写的,是依照我们的发布模块上面的设置来写的。我们看下发布模块的具体内容

  内容发布规则里点击更改配置

  

  选择对应的模块,点击旁边的编辑

  

  这上面有发布参数,参数后面的表单名对应的是数据库上面的项目,后面的表单值是我们自己写的。

  

  也就是说,这上面有的表单项目你才可以采集发布。没有的项目,你有动手能力就自己写。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线