集搜客网页抓取软件(集搜客入门——三步掌握集对集搜客功能按钮)
优采云 发布时间: 2022-02-01 18:32集搜客网页抓取软件(集搜客入门——三步掌握集对集搜客功能按钮)
即速客入门——三步掌握速速克当您对速速克的功能按键有了一定的了解后,下面将讲解速速克的实际应用。让我们从最基本的介绍开始。以规则感受Jisouke是如何使用的。按照以下三个步骤完成抓取规则的定义和抓取数据,如下图所示。步骤一:使用MS搭建排序框 l 确定目标网页并抓取内容 确定目标网页(即样本URL)和要爬取的网页信息(即要爬取的内容) ),根据网页信息的结构,建立一个Organizer,用于组织和存储网页信息。1.示例网址:2.采集内容:< @采集页面上所有帖子的主题标题和回复数。3.网页分析:示例网页是一个简单的列表结构,采集的内容是列表中的标题和回复数,以便信息点存储在可以确定分拣箱。另外,为了完整爬取网页列表的信息,会用到MS Moshutai的样本复制功能。另外,要抓取网页的所有帖子,需要设置翻页抓取,但是本章只讲解如何抓取网页列表信息和翻页的详细操作,请学习如何翻页抓取网页数据。4.规则:Jisouke_Getting Started,想了解更多操作方法,您可以在资源上下载Jisouke_Getting Started Rules 来查看和体验。l 命名主题加载示例URL,将页面命名为主题,然后根据主题名称搜索修改页面的爬取规则,如图1所示。
图1:命名主题 l 图1 步骤分解:1.点击火狐浏览器的“工具”菜单,打开MS Moshu。2.在“网址框”输入或复制粘贴示例网址,回车即可自动加载网页。加载完成后,状态栏会显示“完成”标志,“页面地址”也会自动填写当前示例URL,这两个是页面加载完成的标志。3.输入主题名称,可以是中文、英文、数字、字符的组合。4.因为要求主题名唯一,所以点击“检查重复”按钮,检查主题名是否唯一有效。l 创建排序框根据要爬取的网页信息,建立分类框结构来存储信息。图2:创建排序框 l 图2 步骤分解:1.切换到“创建规则”窗口,在排序框操作区点击“新建”创建排序框,输入排序框名称并确认,这是排序框的顶层节点,用于收录新创建的爬取内容。2.在排序框空白处右击,会弹出快捷菜单,选择“添加”->“收录”,输入抓取内容的名称,创建一个收录抓取的内容节点顶级节点。3.按照步骤2的方法,依次创建新的爬取内容。4.网页的关键信息(即 网页上显示的信息和可用的采集),您可以点击抓取的内容并勾选“关键内容”,它告诉DS计算机密重点采集此信息。第二步:将网页信息映射到排序框 l 建立排序框的映射关系。如果要从网页中抓取数据,则必须告诉软件网页上的哪些信息是抓取的内容。这个过程称为“映射”,见图3,将浏览器中红框的内容映射到排序框的“标题”。为了准确捕捉目标信息,需要在网页结构窗口中进行映射操作。定位,依次点击网页结构窗口中的HTML标签,并且还可以在浏览器窗口中看到闪烁的红框(如果可以一只眼看顶部,另一只眼看底部,联动效果更明显);把网页的信息与排序框的爬取内容建立了映射关系。MS摸手会根据映射关系自动生成网页的提取程序,即爬取规则。
图 3:建立映射关系 l 图 3 步骤分解:1.点击定位:点击网页列表中的第一个标题,会弹出信息的定位提示框,一般用于定位模块节点(即收录多个下层节点,可以双击展开,比如A节点) 2.找出网页信息对应的HTML标签:双击该节点展开下一个层,并找到收录标题的HTML标签,每个节点收录的信息都可以在“如在文本内容框中看到的”中找到,一般网页上的文本信息显示在#text节点中。3.内容映射:右击节点弹出快捷菜单,选择“内容映射”->“ l 样本副本 为了获取完整的网页列表信息,需要制作排序框的样本副本。对于网页上结构相同的信息,使用样本复制功能,只需要定义和组织网页列表的第一条信息即可。框的映射关系可以捕获网页上相同结构的所有信息,如图4所示。
图 4:样本拷贝 l 图 4 步骤分解:1.选中排序框的“列表”节点,勾选“样本拷贝管理”框中的“启用”按钮,在“列表”中制作样本" 节点 例如,可以应用“标题”和“回复数”的映射关系,从而可以提取网页上结构相同的信息。PS:通常选择排序框中收录抓取内容的上层节点进行样本复制,已经完成“样本复制”的节点(如顶级节点“列表”)无法再执行内容映射。2.启用