网站自动采集发布(选项卡下需要设置文章来源的文章列表网址及具体文章的匹配规则)
优采云 发布时间: 2021-11-23 05:09网站自动采集发布(选项卡下需要设置文章来源的文章列表网址及具体文章的匹配规则)
在这个标签下,我们需要设置文章源的列表URL和具体的文章匹配规则
以采集《新浪网》为例,文章列表网址是,所以在手动指定的文章列表网址中输入,如下图:
之后需要设置特定文章URL的匹配规则
在文章列表网址下。
五、文章网址匹配规则
文章 URL匹配规则的设置很简单。不需要复杂的设置。提供两种匹配模式。您可以使用 URL 通配符匹配或 CSS 选择器进行匹配。通常,URL 通配符匹配比较简单。
1. 使用 URL 通配符匹配
通过点击列表URL上的文章,我们可以发现每个文章的URL都有如下结构
所以用通配符(*)替换URL中改变的数字或字母,例如:(*)/(*).shtml
2. 使用 CSS 选择器进行匹配
使用CSS选择器进行匹配,我们只需要设置文章 URL的CSS选择器即可(不知道CSS选择器是什么,一分钟学会设置CSS选择器),通过查看URL列表源码可以很方便的设置,在列表URL下找到具体的文章超链接代码,如下图:
如你所见,文章的a标签的超链接在类为“contList”的标签内,所以文章 URL的CSS选择器只需要设置为.contList a ,如下图所示:
设置完成后,如果不知道设置是否正确,可以点击上图中的测试按钮。如果设置正确,将列出列表URL下的所有文章名称和对应的网址,如下图:
六、文章抓取设置
在这个标签下,我们需要设置文章标题和文章内容的匹配规则。提供了两种设置方法。推荐使用CSS选择器方式,使用更方便。准确的。 (不懂什么是CSS选择器,一分钟学会设置CSS选择器)
我们只需要设置文章标题CSS选择器和文章内容CSS选择器就可以准确抓取文章标题和文章内容。
在文章的来源设置中,我们以采集《新浪网》为例。下面我们就用这个例子来说明。通过查看列表URL,可以很容易地设置某篇文章的来源文章的代码,例如我们可以查看特定文章的源代码如下:
如您所见,文章 标题位于 id 为“artibodyTitle”的标签内,因此 文章title CSS 选择器只需设置为 #artibodyTitle;
同理,找到文章内容的相关代码:
如你所见,文章的内容在id为“artibody”的标签内,所以文章content CSS选择器只需要设置为#artibody即可;如下图:
设置完成后,如果不知道设置是否正确,可以点击测试按钮,输入测试地址。如果设置正确,会显示文章标题和文章内容,方便查看设置
七、获取文章页面内容
<p>如果文章的内容太长,有多个tab也可以抓取所有内容,那么需要设置文章tab链接CSS选择器,通过查看具体的