集搜客网页抓取软件(第一步:用MS谋数台建立整理箱?确定目标网页和抓取规则)
优采云 发布时间: 2022-04-10 03:06集搜客网页抓取软件(第一步:用MS谋数台建立整理箱?确定目标网页和抓取规则)
即刻入门——三步精通即刻你对即刻的功能按键有了一定的了解之后,下面就来讲解一下即刻的实际应用。让我们从最基本的介绍开始。以规则感受Jisouke是如何使用的。按照以下三个步骤完成抓取规则的定义和抓取数据,如下图所示。Step 1:用MS搭建排序框?确定目标网页并抓取内容 确定目标网页(即样本URL)和要爬取的网页信息(即要爬取的内容),并建立Organizer,用于组织和抓取在网页上存储信息。1.示例网址:/forum/72.采集内容:采集 页面上所有帖子的主题标题和回复数。3.网页分析:示例网页是一个简单的列表结构,采集的内容是列表中的标题和回复数,以便信息点存储在可以确定分拣箱。另外,为了完整爬取网页列表的信息,会用到MS Moshutai的样本复制功能。另外,要爬取网页的所有帖子,需要设置翻页爬取,但是本章只讲解如何抓取网页列表信息和翻页的详细操作,请学习如何翻页抓取网页数据。4.规则:Jisouke_Getting Started,如果想了解更多操作方法,您可以在资源上下载Jisouke_Getting Started Rules 来查看和体验。?命名主题加载示例URL,将页面命名为主题,然后根据主题名称搜索修改页面的爬取规则,如图1所示。
图 1:命名主题?图1 步骤分解:1.点击火狐浏览器的“工具”菜单打开MS。2.在“网址框”输入或复制粘贴示例网址,回车即可自动加载网页。加载完成后,状态栏会显示“完成”标志,“页面地址”也会自动填写当前示例URL,这两个是页面加载完成的标志。3.输入主题名称,可以是中文、英文、数字和字符的组合。4.因为要求主题名唯一,所以点击“检查重复”按钮,检查主题名是否唯一有效。?创建排序框根据要抓取的网页信息,建立分类框结构来存储信息。图 2:创建一个排序框?图2 步骤分解:1.切换到“创建规则”窗口,在排序框操作区点击“新建”创建排序框,输入排序框名称并确认,这就是排序框的顶层节点,用于收录新创建的爬取内容。2.在排序框空白处右键,弹出快捷菜单,选择“添加”->“收录”,输入抓取内容的名称,创建收录抓取的内容节点为顶级节点。3.按照步骤2的方法,依次创建新的爬取内容。4.网页的关键信息(即 网页上显示的信息和可用的采集),您可以点击抓取的内容并勾选“关键内容”,它告诉DS计算机密重点采集此信息。第二步:将网页信息映射到排序框,将浏览器中红框的内容映射到排序框的“标题”。为了准确捕捉目标信息,需要在网页结构窗口中进行映射操作。定位,依次点击网页结构窗口中的HTML标签,在浏览器窗口中也可以看到闪烁的红框(如果可以一只眼看顶部,另一只眼看底部,联动效果为更明显);把网页的信息与排序框的爬取内容建立了映射关系。MS摸手会根据映射关系自动生成网页的提取程序,即爬取规则。
图3:建立映射关系?图3 步骤分解:1.点击定位:点击网页列表的第一个标题,会弹出信息的定位提示框,一般是定位模块节点(即收录多个下层节点,可以双击展开,比如A节点)2.找到网页信息对应的HTML标签:双击节点展开下一层,找到HTML标签收录标题,每个节点收录的信息都可以在“如在文本内容框中看到的”中找到,一般网页上的文本信息显示在#text节点中。3.内容映射:右击节点弹出快捷菜单,选择“内容映射”->“ ? 样本副本 为了获取完整的网页列表信息,需要制作排序框的样本副本。对于网页上结构相同的信息,使用样本复制功能,只需要定义和组织网页列表的第一个信息。框的映射关系可以捕获网页上相同结构的所有信息,如图4所示。
图 4:样本副本?图4 步骤分解:1.选中排序框的“List”节点,勾选“Sample Copy Management”框中的“Enable”按钮,在“List”节点上打样例可以应用“标题”和“回复数”之间的映射关系,从而可以提取网页上结构相同的信息。PS:通常会选择排序框中收录抓取内容的上层节点进行样本复制,已经完成“样本复制”的节点(如顶级节点“列表”)不能再被复制。