采集文章内容(#分页列表采集##1.基本信息基本配置很简单)

优采云发布时间: 2022-02-11 13:25

　　##分页列表采集这里我们以采集站长之家的列表页为例：[]()##1.基本信息基本信息配置很简单，按照表单备注填写即可。 ![]()>[info] 目标代码：用谷歌浏览器打开你要采集的URL，右键-检查元素，查看网页源代码。如下图： ![]()>[info] URL类型：分页列表：采集常规分页数据。固定 URL：采集一个或多个固定页面。>[info] 列表首页：一些网站的列表的起始页是索引或其他命名规则。当有效页码数从 2 开始时，此为必填项。>[info] 链接前缀：当列表页中的内容链接不是完整路径时，例如：/detail/124.html，当需要这样的链接时，这是必需的。>[info] 资源前缀：当图片或文件的访问地址不是全路径时，例如：/upload/img/123.png，地址相似时，此为必填项。## 2.列表页面规则>[info] 当基本信息中的URL类型设置为分页列表时，必须配置列表页面规则。如果是固定网址，请忽略列表页规则的配置。![]()> 标题：顾名思义就是字段对应的标题> 字段名：指数据库对应的字段名。如果需要存储，则必须与真实数据库字段同名> 选择器：即我们要采集的 CSS 选择器，例如：.post-title>a> 属性：即，

　　[警告] 列表页规则默认创建详细链接规则。如果不填写此规则，将无法正常抓取完整的内容页面。我们以采集站长之家的列表页为例： ![]()*****正确的规则如下： *****![]()*****If您需要采集其他字段信息（例如：文章Title），点击右侧蓝色加号。*****![]()*****正确规则如下： *****![]()## 内容页规则>[info] 内容页规则含义同上. 我们以采集这个链接为例：[]()## 需求一：采集文章Source![]()*****找到采集< @文章通过浏览器检查元素 @文章源收录在具有类名 source 的 span 标记中，其中嵌套了一个 a 标记。

　　那么我们的采集规则就变得非常简单了。CSS 选择器写成：`.source>a`。我们需要的采集是A标签中收录的文本信息，所以我们的Attributes可以直接用`text`来填充。如下图所示： ![]()## 需求2：采集文章内容！[]()*****我们发现文章的内容是通过检查元素收录在元素中的 div 标签内，其类为 detail。采集规则的选择器很简单，直接填写`.detail`即可。文章的内容收录很多排版，排版中收录html标签，所以我们的采集属性需要填写`html`。如下图： ![]()>[info] 细心的朋友可能已经发现，在内容分页规则中添加了分页选项，有些网站的< @文章内容较长 ([]()) ，使用内容分页，如果我们想采集到完整的内容，我们需要检查分页选项。## 3. 高级配置！[]()*****>[info] 内容分页就是上面提到的文章内容分页，分页代码还是由CSS选择器提取的。![]()***** 我们看到分页代码被包裹在一个类名为 pagebreak 的 div 标签中。填写 `.pagebreak>a` 作为选择器名称。该属性可以保持 `href` 的默认值。根据实际使用情况选择编辑器。选择编辑器的主要目的是自动转换不同编辑器的分页标记。![]()>[info] 回调方法：为了方便你对接不同业务模块的采集需求，在数据采集之后完成后，将根据您自定义的存储字段结构生成新数据，并将其推送到您指定的回调方法。您可以根据自己的需要对采集的数据进行重新处理并存储。````

0

2022-02-11

采集文章内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集文章内容(#分页列表采集##1.基本信息基本配置很简单)

0 个评论

发起人

AI时代内容工厂

采集文章内容(#分页列表采集##1.基本信息基本配置很简单)

0 个评论

发起人

相关问题