集搜客网络爬虫案例规则+操作步骤及注意事项

优采云发布时间: 2021-02-04 08:07

　　一、操作步骤

　　二、案例规则+操作步骤

　　注意：在这种情况下，京东搜索具有独立的URL。对于具有独立URL的页面，最简单的方法是为每个关键词构造一个搜索URL，然后将线索URL导入规则中，您可以批量采集而不是设置连续操作，可以参考“构建网站”和“如何管理线索规则”。

　　第1步：定义一级规则

　　1.1打开Jishouke Web采集器，输入URL并输入，在加载网页后，单击“定义规则”按钮，您将看到一个显示的浮动窗口，称为工作台，您可以在其中定义规则；

　　注意：此处的屏幕截图和文字描述均为Jishouke Web采集器版本。如果要安装Firefox插件版本，则没有“定义规则”按钮，但是您应该运行MS Museum。

　　1.2在工作台中输入第一级规则的主题名称，然后单击“检查重复项”，提示“可以使用此名称”或“名称已被占用，可编辑：是” ，您可以使用此使用者名称，否则请重命名。

　　1.3此级别的规则主要是设置连续的操作，因此排序框可以随意获取一条信息，并使用它来判断是否对采集器执行采集。双击网页上的信息，输入标签名称，然后单击确认，然后在关键内容上打勾，并输入第一个标签的排序框的名称，然后完成标签映射。

　　提示：为了准确定位网页信息，单击定义规则将冻结整个网页，并且无法跳转到网页链接。再次单击定义规则以返回到正常的网页模式。

　　第2步：定义连续的操作

　　单击工作台的“连续动作”选项卡，单击“新建”按钮创建一个新动作，每个动作的设置方法相同，基本操作如下：

　　2.1，输入目标使用者名称

　　此处的目标主题名称是填写第二级主题名称，单击“正在使用谁”以检查目标主题名称是否可用，如果已被占用，则只需更改主题名称即可。

　　2.2，创建第一个动作：输入

　　创建一个新动作并选择动作类型作为输入。

　　2.２.1，填写定位表达式

　　首先单击输入框，找到输入框的节点，然后单击“自动生成XPath”按钮，可以选择“ Preference id”或“ Preference class”，可以获得输入的xpath表达式框，然后单击“搜索”按钮，检查此xpath是否可以唯一地位于输入框中，如果没有问题，请将xpath复制到定位表达式框中。

　　注意：定位表达式中的xpath用于锁定操作对象的整个有效操作范围。具体来说，它是指可以通过鼠标成功单击或输入的网页模块。不要在底部找到text（）节点。

　　2.2.2，输入关键词

　　输入关键词以填写要搜索的关键词，可以输入一个关键词，也可以输入多个关键词，输入多个关键词以使用双分号；将每个关键词分开，免费版仅支持5个内的5个关键词，旗舰版可以使用连发杂志功能，支持10,000个内的关键词

　　2.2.3，输入动作名称

　　告诉自己该步骤的用途，以便稍后进行修改。

　　2.3，创建第二个动作：单击

　　请参考2.2的操作，创建第二个动作，选择类型为click，找到搜索按钮，然后自动生成xpath来检查它是否被锁定到唯一节点，以及是否没有被锁定。问题，将其填写在定位表达式中。

　　2.4，保存规则

　　点击“保存规则”按钮以保存已完成的第一级规则

　　第3步：定义二级规则

　　3.1，创建一个新规则

　　创建第二级规则，单击“定义规则”以返回正常的网页模式，输入关键词搜索结果，再次单击“定义规则”以切换到规则制定模式，然后单击“规则”菜单的左上角->“新建”，输入主题名称，其中主题名称是在第一级规则的连续操作中填充的目标主题名称。

　　3.2，标记您想要的信息采集

　　3.2.1，在网页上标记所需的信息采集，此处标记产品名称和价格，因为该标记仅对文本信息有效，因此链接是属性节点@href，因此它无法用采集标记链接，但可以进行内容映射，请参阅以下操作以获取详细信息。

　　3.2.2，用鼠标选择排序框的名称，按鼠标右键，选择“添加”->“收录”以创建用于内容爬行的“链接”，单击在产品名称上的A标记上可以找到它，您可以在属性下找到相应的@href节点，右键单击该节点，然后选择要映射到“链接”的内容。

　　3.2.3，设置“密钥内容”选项，以便爬网程序可以判断采集规则是否合适。在排序框中，选择不可避免地在网页上可用的标签，然后勾选“关键内容”。在这里，“名称”被选作“关键内容”。

　　3.2.4，如果仅在前面标记一个产品，则可以获得产品信息。如果要在整个页面上采集每个产品，都可以制作示例副本，否。如果您了解，请参阅基本教程“ 采集列表数据”

　　3.3，设置翻页路线

　　设置爬虫路线中的翻页功能，这是标记提示，如果您不了解，请参考基本教程“设置翻页采集”

　　3.4，保存规则

　　单击“测试”以检查信息的完整性。如果不完整，则注释可以覆盖以前的内容。检查没有问题后，单击“保存规则”。

　　第4步：捕获数据

　　4.1，连续动作是连续执行的，因此只要您运行第一级主题，就不需要运行第二级主题。打开DS计数器，搜索第一级主题名称，单击“单一搜索”或“集合”，可以看到在浏览器窗口中自动输入并搜索了关键词，然后调用第二级主题自动采集搜索结果。

　　4.2，第一级主题未采集有意义的信息，因此我们仅查看第二级主题文件夹，即可看到采集的搜索结果数据，并搜索关键词默认情况下记录在xml文件的actionvalue字段中，以便它可以一一对应。

0

2021-02-04

自动关键词采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

集搜客网络爬虫案例规则+操作步骤及注意事项

0 个评论

发起人