采集文章内容(#分页列表采集##1.基本信息基本配置很简单)

优采云 发布时间: 2022-02-11 13:25

  采集文章内容(#分页列表采集##1.基本信息基本配置很简单)

  ##分页列表采集这里我们以采集站长之家的列表页为例:[]()##1.基本信息基本信息配置很简单,按照表单备注填写即可。 ![]()>[info] 目标代码:用谷歌浏览器打开你要采集的URL,右键-检查元素,查看网页源代码。如下图: ![]()>[info] URL类型: 分页列表:采集常规分页数据。固定 URL:采集一个或多个固定页面。>[info] 列表首页:一些网站的列表的起始页是索引或其他命名规则。当有效页码数从 2 开始时,此为必填项。>[info] 链接前缀:当列表页中的内容链接不是完整路径时,例如:/detail/124.html,当需要这样的链接时,这是必需的。>[info] 资源前缀:当图片或文件的访问地址不是全路径时,例如:/upload/img/123.png,地址相似时,此为必填项。## 2.列表页面规则>[info] 当基本信息中的URL类型设置为分页列表时,必须配置列表页面规则。如果是固定网址,请忽略列表页规则的配置。![]()> 标题:顾名思义就是字段对应的标题> 字段名:指数据库对应的字段名。如果需要存储,则必须与真实数据库字段同名> 选择器:即我们要 采集 的 CSS 选择器,例如:.post-title>a> 属性:即,

  [警告] 列表页规则默认创建详细链接规则。如果不填写此规则,将无法正常抓取完整的内容页面。我们以采集站长之家的列表页为例: ![]()*****正确的规则如下: *****![]()*****If您需要采集其他字段信息(例如:文章Title),点击右侧蓝色加号。*****![]()*****正确规则如下: *****![]()## 内容页规则>[info] 内容页规则含义同上. 我们以采集这个链接为例:[]()## 需求一:采集文章Source![]()*****找到采集< @文章 通过浏览器检查元素 @文章 源收录在具有类名 source 的 span 标记中,其中嵌套了一个 a 标记。

  那么我们的 采集 规则就变得非常简单了。CSS 选择器写成:`.source>a`。我们需要的采集是A标签中收录的文本信息,所以我们的Attributes可以直接用`text`来填充。如下图所示: ![]()## 需求2:采集文章内容![]()*****我们发现文章的内容是通过检查元素收录在元素中的 div 标签内,其类为 detail。采集规则的选择器很简单,直接填写`.detail`即可。文章的内容收录很多排版,排版中收录html标签,所以我们的采集属性需要填写`html`。如下图: ![]()>[info] 细心的朋友可能已经发现,在内容分页规则中添加了分页选项,有些网站的< @文章 内容较长 ([]()) ,使用内容分页,如果我们想 采集 到完整的内容,我们需要检查分页选项。## 3. 高级配置![]()*****>[info] 内容分页就是上面提到的文章 内容分页,分页代码还是由CSS选择器提取的。![]()***** 我们看到分页代码被包裹在一个类名为 pagebreak 的 div 标签中。填写 `.pagebreak>a` 作为选择器名称。该属性可以保持 `href` 的默认值。根据实际使用情况选择编辑器。选择编辑器的主要目的是自动转换不同编辑器的分页标记。![]()>[info] 回调方法:为了方便你对接不同业务模块的采集需求,在数据采集之后 完成后,将根据您自定义的存储字段结构生成新数据,并将其推送到您指定的回调方法。您可以根据自己的需要对采集的数据进行重新处理并存储。````

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线