采集 列表页和详情页的使用方法有哪些?怎么用?
优采云 发布时间: 2021-03-21 20:13采集 列表页和详情页的使用方法有哪些?怎么用?
一个小概念:
大多数网站以列表页面和详细信息页面的层次结构进行组织。例如,当我们进入新浪新闻频道时,有很多标题链接,可以将其视为列表页面。单击标题链接后,进入详细信息页面。
使用data 采集工具的一般目的是在详细信息页面中获取大量特定的内容数据,并将这些数据用于各种分析,发布自己的网站等。
列表页面:指的是列或目录页面,通常收录多个标题链接。例如:网站第一页或列页面是列表页面。主要功能:您可以通过列表页面获得到多个详细信息页面的链接。
详细信息页面:收录特定内容的页面,例如网页文章,其中收录:标题,作者,出版日期,正文内容,标签等。
要开始,请登录“ 优采云控制面板”:
详细的使用步骤:
第一步:创建采集任务
单击左侧菜单按钮“创建采集任务”,输入采集任务名称和想要的采集“列表页面”的URL,例如:,可以保留详细信息页面链接空白,系统将自动识别它。
如下所示:
输入后,单击“下一步”。
第2步:改善列表页面的智能提取结果(可选)
系统将首先使用智能算法来获取需要采集的详细信息页面链接(多个)。用户可以双击打开支票。如果您不需要数据,则可以单击“列表提取器”以手动指定它,仅在可视化中使用鼠标单击界面。
智能采集的结果如下:
打开列表提取器后的下图:
第3步:改善明细页的智能提取结果(可选)
在上一步中获得多个详细信息页面链接后,继续进行下一步。系统将使用详细页面链接之一来智能地提取详细页面数据(例如:标题,作者,发布日期,内容,标签等)
详细信息页面的智能提取结果如下:
如果智能提取的内容不是您想要的,则可以打开“详细信息提取器”进行修改。
如下所示:
您可以修改,添加或删除左侧的字段。
您还可以为每个字段(双击字段)执行详细的设置或数据处理:替换,提取,过滤,设置默认值等,
如下所示:
第4步:启动并运行
完成后,即可启动运行,进行数据采集了:
采集之后的数据结果,在采集任务的“结果数据和发布”中,您可以在此处修改数据或直接导出excel或发布您的网站(WordPress,织梦 DEDE, HTTP接口等)。
完成,数据采集就这么简单! ! !