采集 列表页和详情页的使用方法有哪些?怎么用?

优采云 发布时间: 2021-03-21 20:13

  采集 列表页和详情页的使用方法有哪些?怎么用?

  一个小概念:

  大多数网站以列表页面和详细信息页面的层次结构进行组织。例如,当我们进入新浪新闻频道时,有很多标题链接,可以将其视为列表页面。单击标题链接后,进入详细信息页面。

  使用data 采集工具的一般目的是在详细信息页面中获取大量特定的内容数据,并将这些数据用于各种分析,发布自己的网站等。

  列表页面:指的是列或目录页面,通常收录多个标题链接。例如:网站第一页或列页面是列表页面。主要功能:您可以通过列表页面获得到多个详细信息页面的链接。

  详细信息页面:收录特定内容的页面,例如网页文章,其中收录:标题,作者,出版日期,正文内容,标签等。

  要开始,请登录“ 优采云控制面板”:

  详细的使用步骤:

  第一步:创建采集任务

  单击左侧菜单按钮“创建采集任务”,输入采集任务名称和想要的采集“列表页面”的URL,例如:,可以保留详细信息页面链接空白,系统将自动识别它。

  如下所示:

  

  输入后,单击“下一步”。

  第2步:改善列表页面的智能提取结果(可选)

  系统将首先使用智能算法来获取需要采集的详细信息页面链接(多个)。用户可以双击打开支票。如果您不需要数据,则可以单击“列表提取器”以手动指定它,仅在可视化中使用鼠标单击界面。

  智能采集的结果如下:

  

  打开列表提取器后的下图:

  

  第3步:改善明细页的智能提取结果(可选)

  在上一步中获得多个详细信息页面链接后,继续进行下一步。系统将使用详细页面链接之一来智能地提取详细页面数据(例如:标题,作者,发布日期,内容,标签等)

  详细信息页面的智能提取结果如下:

  

  如果智能提取的内容不是您想要的,则可以打开“详细信息提取器”进行修改。

  如下所示:

  

  您可以修改,添加或删除左侧的字段。

  您还可以为每个字段(双击字段)执行详细的设置或数据处理:替换,提取,过滤,设置默认值等,

  如下所示:

  

  第4步:启动并运行

  完成后,即可启动运行,进行数据采集了:

  

  采集之后的数据结果,在采集任务的“结果数据和发布”中,您可以在此处修改数据或直接导出excel或发布您的网站(WordPress,织梦 DEDE, HTTP接口等)。

  

  完成,数据采集就这么简单! ! !

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线