集搜客网络爬虫案例规则+操作步骤及注意事项

优采云 发布时间: 2021-02-04 08:07

  集搜客网络爬虫案例规则+操作步骤及注意事项

  一、操作步骤

  

  二、案例规则+操作步骤

  注意:在这种情况下,京东搜索具有独立的URL。对于具有独立URL的页面,最简单的方法是为每个关键词构造一个搜索URL,然后将线索URL导入规则中,您可以批量采集而不是设置连续操作,可以参考“构建网站”和“如何管理线索规则”。

  第1步:定义一级规则

  1.1打开Jishouke Web采集器,输入URL并输入,在加载网页后,单击“定义规则”按钮,您将看到一个显示的浮动窗口,称为工作台,您可以在其中定义规则;

  注意:此处的屏幕截图和文字描述均为Jishouke Web采集器版本。如果要安装Firefox插件版本,则没有“定义规则”按钮,但是您应该运行MS Museum。

  1.2在工作台中输入第一级规则的主题名称,然后单击“检查重复项”,提示“可以使用此名称”或“名称已被占用,可编辑:是” ,您可以使用此使用者名称,否则请重命名。

  

  1.3此级别的规则主要是设置连续的操作,因此排序框可以随意获取一条信息,并使用它来判断是否对采集器执行采集。双击网页上的信息,输入标签名称,然后单击确认,然后在关键内容上打勾,并输入第一个标签的排序框的名称,然后完成标签映射。

  提示:为了准确定位网页信息,单击定义规则将冻结整个网页,并且无法跳转到网页链接。再次单击定义规则以返回到正常的网页模式。

  第2步:定义连续的操作

  单击工作台的“连续动作”选项卡,单击“新建”按钮创建一个新动作,每个动作的设置方法相同,基本操作如下:

  

  2.1,输入目标使用者名称

  此处的目标主题名称是填写第二级主题名称,单击“正在使用谁”以检查目标主题名称是否可用,如果已被占用,则只需更改主题名称即可。

  2.2,创建第一个动作:输入

  创建一个新动作并选择动作类型作为输入。

  

  2.2.1,填写定位表达式

  首先单击输入框,找到输入框的节点,然后单击“自动生成XPath”按钮,可以选择“ Preference id”或“ Preference class”,可以获得输入的xpath表达式框,然后单击“搜索”按钮,检查此xpath是否可以唯一地位于输入框中,如果没有问题,请将xpath复制到定位表达式框中。

  注意:定位表达式中的xpath用于锁定操作对象的整个有效操作范围。具体来说,它是指可以通过鼠标成功单击或输入的网页模块。不要在底部找到text()节点。

  2.2.2,输入关键词

  输入关键词以填写要搜索的关键词,可以输入一个关键词,也可以输入多个关键词,输入多个关键词以使用双分号;将每个关键词分开,免费版仅支持5个内的5个关键词,旗舰版可以使用连发杂志功能,支持10,000个内的关键词

  2.2.3,输入动作名称

  告诉自己该步骤的用途,以便稍后进行修改。

  2.3,创建第二个动作:单击

  

  请参考2.2的操作,创建第二个动作,选择类型为click,找到搜索按钮,然后自动生成xpath来检查它是否被锁定到唯一节点,以及是否没有被锁定。问题,将其填写在定位表达式中。

  2.4,保存规则

  点击“保存规则”按钮以保存已完成的第一级规则

  第3步:定义二级规则

  3.1,创建一个新规则

  

  创建第二级规则,单击“定义规则”以返回正常的网页模式,输入关键词搜索结果,再次单击“定义规则”以切换到规则制定模式,然后单击“规则”菜单的左上角->“新建”,输入主题名称,其中主题名称是在第一级规则的连续操作中填充的目标主题名称。

  3.2,标记您想要的信息采集

  

  3.2.1,在网页上标记所需的信息采集,此处标记产品名称和价格,因为该标记仅对文本信息有效,因此链接是属性节点@href,因此它无法用采集标记链接,但可以进行内容映射,请参阅以下操作以获取详细信息。

  3.2.2,用鼠标选择排序框的名称,按鼠标右键,选择“添加”->“收录”以创建用于内容爬行的“链接”,单击在产品名称上的A标记上可以找到它,您可以在属性下找到相应的@href节点,右键单击该节点,然后选择要映射到“链接”的内容。

  3.2.3,设置“密钥内容”选项,以便爬网程序可以判断采集规则是否合适。在排序框中,选择不可避免地在网页上可用的标签,然后勾选“关键内容”。在这里,“名称”被选作“关键内容”。

  

  3.2.4,如果仅在前面标记一个产品,则可以获得产品信息。如果要在整个页面上采集每个产品,都可以制作示例副本,否。如果您了解,请参阅基本教程“ 采集列表数据”

  3.3,设置翻页路线

  

  设置爬虫路线中的翻页功能,这是标记提示,如果您不了解,请参考基本教程“设置翻页采集”

  3.4,保存规则

  单击“测试”以检查信息的完整性。如果不完整,则注释可以覆盖以前的内容。检查没有问题后,单击“保存规则”。

  第4步:捕获数据

  

  4.1,连续动作是连续执行的,因此只要您运行第一级主题,就不需要运行第二级主题。打开DS计数器,搜索第一级主题名称,单击“单一搜索”或“集合”,可以看到在浏览器窗口中自动输入并搜索了关键词,然后调用第二级主题自动采集搜索结果。

  4.2,第一级主题未采集有意义的信息,因此我们仅查看第二级主题文件夹,即可看到采集的搜索结果数据,并搜索关键词默认情况下记录在xml文件的actionvalue字段中,以便它可以一一对应。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线