汇总:Python学习笔记(19)自动搜索关键词采集信息—以京东为例

优采云 发布时间: 2020-12-21 08:12

  汇总:Python学习笔记(19)自动搜索关键词采集信息—以京东为例

  一、操作步骤

  如果网页上有一个搜索框,但搜索结果页面没有单独的URL,并且如果您要采集个搜索结果,则可以直接制定采集不能的规则,并且您必须执行连续操作(输入+单击)以实现自动输入关键词和搜索,然后搜索采集数据。让我们以京东搜索为例来演示自动搜索采集。操作步骤如下:

  

  

  二、案例规则+操作步骤

  **注意:**在这种情况下,京东搜索具有独立的URL。对于具有独立URL的页面,最简单的方法是为每个关键词构造一个搜索URL,然后将线索URL导入规则中,您可以批量采集而不是设置连续操作

  第1步:定义一级规则

  

  1.1打开Jishouke Web采集器,输入URL并按Enter,然后在加载网页后单击“定义规则”按钮,您将看到一个显示的浮动窗口,称为工作台,您可以在该窗口上工作定义规则;

  注意:此处的屏幕截图和文字描述是Jishouke的所有Web爬网程序版本。如果安装Firefox插件版本,则没有“定义规则”按钮。相反,您应该运行MS Muse。

  1.2在工作台中输入一级规则的主题名称,然后单击“检查重复项”,提示“可以使用该名称”或“该名称已被占用,可编辑:是” ,您可以使用此使用者名称,否则请重命名。

  

  1.3此级别的规则主要是设置连续的操作,因此排序框可以随意获取一条信息,并使用它来判断是否对采集器执行采集。双击网页上的信息,输入标签名称,勾选确认,然后在关键内容上勾选,输入第一个标签的分类框名称,即可完成标签映射。

  提示:为了准确定位网页信息,单击定义规则将冻结整个网页,并且无法跳转到网页链接。再次单击定义规则以返回到正常的网页模式。

  第2步:定义连续的操作

  单击工作台的“连续动作”选项卡,单击“新建”按钮创建一个新动作,每个动作的设置方法相同,基本操作如下:

  

  2.1,输入目标主题名称

  此处的目标主题名称是填写第二级主题名称,单击“正在使用谁”以检查目标主题名称是否可用,如果已被占用,则只需更改主题名称即可。

  2.2,创建第一个动作:输入

  创建一个新动作并选择动作类型作为输入。

  

  2.2.1,填写定位表达式

  首先单击输入框,找到输入框的节点,然后单击“自动生成XPath”按钮,可以选择“ Preference id”或“ Preference class”,可以获得输入的xpath表达式框,然后单击“搜索”按钮,检查此xpath是否可以唯一地位于输入框中,如果没有问题,请将xpath复制到定位表达式框中。

  **注意:**定位表达式中的xpath用来锁定动作对象的整个有效操作范围,特别是指可以通过鼠标成功单击或输入的网页模块,而不是在底部找到text()节点。

  2.2.2,输入关键词

  输入关键词以填写要搜索的关键词,可以输入一个关键词,也可以输入多个关键词,输入多个关键词以使用双分号;将每个关键词分开,免费版仅支持5个内的5个关键词,旗舰版可以使用连发杂志功能,支持10,000个内的关键词

  2.2.3,输入动作名称

  告诉自己该步骤的用途,以便稍后进行修改。

  2.3,创建第二个动作:单击

  

  请参考2.2的操作,创建第二个动作,选择类型为click,找到搜索按钮,然后自动生成xpath来检查它是否被锁定到唯一节点(如果没有)问题,将其填写在定位表达式中。

  2.4,保存规则

  点击“保存规则”按钮以保存已完成的一级规则

  第3步:定义二级规则

  3.1,创建一个新规则

  

  创建第二级规则,单击“定义规则”以返回正常的网页模式,输入关键词搜索结果,再次单击“定义规则”以切换到规则制定模式,然后单击“规则”菜单的左上角->“新建”,输入主题名称,其中主题名称是在第一级规则的连续操作中填充的目标主题名称。

  3.2,标记您想要的信息采集

  

  3.2.1,在网页上标记您想要的信息采集,这里是产品名称和价格的标记,因为该标记仅对文本信息有效,因此指向产品详细信息的链接是属性节点@href,因此,您不能在链接上进行这样直观的标记,但是要进行内容映射,请参阅以下操作以获取详细信息。

  3.2.2,单击产品名称,下面的DOM节点找到A标签,展开A标签下的attribute节点,您可以找到代表URL的@href节点,右键单击节点,然后选择“新建捕获”,然后单击“获取内容”,输入一个名称,通常为爬网的内容指定一个与地址相关的名称,例如“下属URL”或“下属链接”等。然后在工作台上,我看到已抓取的内容可用。如果您仍要进入产品详细信息页面采集,则必须检查与该抓取内容有关的较低级线索以进行分层抓取。

  3.2.3,设置“密钥内容”选项,以便爬网程序可以判断采集规则是否合适。在排序框中,选择不可避免地在网页上可用的标签,然后勾选“关键内容”。在这里,“名称”被选作“关键内容”。

  

  3.2.4,如果仅在前面标记一个产品,则可以获得产品信息。如果您想在整个页面上采集每个产品,都可以制作一个样本副本,否。如果您理解,请参阅基本教程“ 采集列表数据”

  3.3,设置翻页路线

  

  设置爬虫路线中的翻页功能,这是标记提示,如果您不了解,请参考基本教程“设置翻页采集”

  3.4,保存规则

  单击“测试”以检查信息的完整性。如果不完整,则注释可以覆盖以前的内容。检查没有问题后,单击“保存规则”。

  第4步:捕获数据

  

  4.1,连续动作是连续执行的,因此只要您运行第一级主题,就不需要运行第二级主题。打开DS计数器,搜索第一级主题名称,单击“单一搜索”或“集合”,可以看到在浏览器窗口中自动输入并搜索了关键词,然后调用第二级主题自动采集搜索结果。

  4.2,第一级主题未采集有意义的信息,因此我们仅查看第二级主题的文件夹,即可看到采集的搜索结果数据,并搜索关键词 Is默认情况下记录在xml文件的actionvalue字段中,以便它可以一一对应。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线