自动采集文章内容(五、文章网址匹配规则文章的设置和设置)

优采云 发布时间: 2021-09-17 01:04

  自动采集文章内容(五、文章网址匹配规则文章的设置和设置)

  五、文章URL匹配规则

  文章web地址匹配规则设置非常简单,无需复杂的设置。提供了两种匹配模式。您可以使用URL通配符匹配或CSS选择器进行匹配。通常,使用URL通配符匹配相对简单

  1.使用URL通配符匹配

  单击列表URL上的文章可以发现每个文章的URL都有以下结构

  因此,将URL中更改的数字或字母替换为通配符(*),例如:(*)/(*)。Shtml

  

  2.使用CSS选择器进行匹配

  使用CSS选择器进行匹配,我们只需要设置文章URL的CSS选择器(我们不知道CSS选择器是什么,并在一分钟内学习如何设置CSS选择器)。我们可以通过查看列表URL的源代码轻松设置,并在列表URL下找到特定文章hyperlink的代码,如下所示:

  

  您可以看到文章的超链接a标记位于类为“contlist”的标记内,因此文章网站的CSS选择器只需设置为。续表a,如下所示:

  

  设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,列表网址下的所有文章名称和对应的网页地址都会被列出,如下图:

  

  六、文章抓取设置

  在此页签中,我们需要设置文章title和文章content的匹配规则。设置它们有两种方法。建议使用CSS选择器,它更简单、更准确。(我不知道CSS选择器是什么。我将在一分钟内学习如何设置CSS选择器)

  我们只需设置文章Title CSS选择器和文章content CSS选择器即可准确捕获文章Title和文章content

  在文章source设置中,我们以采集“新浪互联网新闻”为例,这里仍将对此进行解释。您可以通过查看列表网站下文章的源代码轻松设置它。例如,我们可以查看特定文章的源代码,如下所示:

  

  您可以看到,文章title位于ID为“articletTitle”的标记内,因此文章title CSS选择器只需要设置为#articletTitle

  类似地,查找文章内容相关代码:

  

  如您所见,文章content位于ID为“artist”的标记内,因此文章content CSS selector只需设置为#artist,如下所示:

  

  设置后,如果不知道设置是否正确,可以单击测试按钮并输入测试地址。如果设置正确,将显示文章标题和文章内容,以便于检查设置

  

  七、grab文章分页内容

  如果文章内容太长,多个页面也可以捕获所有内容。此时,您需要设置文章page link CSS选择器,通过查看特定文章网站的源代码来查找页面链接。例如,文章页面链接的代码如下:

  

  您可以看到分页链接a标签位于类为“page link”的标签内

  因此,文章page link CSS选择器可以设置为。页面链接a,如下图所示:

  

  如果选中此选项,当发布也被分页时,发布文章也将被分页。如果你的WordPress主题不支持标签,请不要检查

  八、文章内容过滤功能

  文章content过滤功能可以过滤掉你不想在体内发布的内容(如广告代码、版权信息等)。您可以设置两个关键词并删除两个关键词之间的内容关键词2可以为空,表示删除关键词1之后的一切

  如下所示,通过测试捕获文章后,我们发现文章中有我们不想发布的内容。切换到HTML显示,找到内容的HTML代码,分别设置两个关键词来过滤内容

  

  

  如果需要过滤多个内容,可以添加多组设置

  九、HTML标签过滤功能

  HTML标记过滤函数,可以过滤掉采集文章中的超链接(如标记)@

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线