汇总：Python学习笔记(19)自动搜索关键词采集信息—以京东为例

优采云发布时间: 2020-12-21 08:12

　　一、操作步骤

　　如果网页上有一个搜索框，但搜索结果页面没有单独的URL，并且如果您要采集个搜索结果，则可以直接制定采集不能的规则，并且您必须执行连续操作（输入+单击）以实现自动输入关键词和搜索，然后搜索采集数据。让我们以京东搜索为例来演示自动搜索采集。操作步骤如下：

　　二、案例规则+操作步骤

　　**注意：**在这种情况下，京东搜索具有独立的URL。对于具有独立URL的页面，最简单的方法是为每个关键词构造一个搜索URL，然后将线索URL导入规则中，您可以批量采集而不是设置连续操作

　　第1步：定义一级规则

　　1.1打开Jishouke Web采集器，输入URL并按Enter，然后在加载网页后单击“定义规则”按钮，您将看到一个显示的浮动窗口，称为工作台，您可以在该窗口上工作定义规则；

　　注意：此处的屏幕截图和文字描述是Jishouke的所有Web爬网程序版本。如果安装Firefox插件版本，则没有“定义规则”按钮。相反，您应该运行MS Muse。

　　1.2在工作台中输入一级规则的主题名称，然后单击“检查重复项”，提示“可以使用该名称”或“该名称已被占用，可编辑：是” ，您可以使用此使用者名称，否则请重命名。

　　1.3此级别的规则主要是设置连续的操作，因此排序框可以随意获取一条信息，并使用它来判断是否对采集器执行采集。双击网页上的信息，输入标签名称，勾选确认，然后在关键内容上勾选，输入第一个标签的分类框名称，即可完成标签映射。

　　提示：为了准确定位网页信息，单击定义规则将冻结整个网页，并且无法跳转到网页链接。再次单击定义规则以返回到正常的网页模式。

　　第2步：定义连续的操作

　　单击工作台的“连续动作”选项卡，单击“新建”按钮创建一个新动作，每个动作的设置方法相同，基本操作如下：

　　2.1，输入目标主题名称

　　此处的目标主题名称是填写第二级主题名称，单击“正在使用谁”以检查目标主题名称是否可用，如果已被占用，则只需更改主题名称即可。

　　2.2，创建第一个动作：输入

　　创建一个新动作并选择动作类型作为输入。

　　2.２.1，填写定位表达式

　　首先单击输入框，找到输入框的节点，然后单击“自动生成XPath”按钮，可以选择“ Preference id”或“ Preference class”，可以获得输入的xpath表达式框，然后单击“搜索”按钮，检查此xpath是否可以唯一地位于输入框中，如果没有问题，请将xpath复制到定位表达式框中。

　　**注意：**定位表达式中的xpath用来锁定动作对象的整个有效操作范围，特别是指可以通过鼠标成功单击或输入的网页模块，而不是在底部找到text（）节点。

　　2.2.2，输入关键词

　　输入关键词以填写要搜索的关键词，可以输入一个关键词，也可以输入多个关键词，输入多个关键词以使用双分号；将每个关键词分开，免费版仅支持5个内的5个关键词，旗舰版可以使用连发杂志功能，支持10,000个内的关键词

　　2.2.3，输入动作名称

　　告诉自己该步骤的用途，以便稍后进行修改。

　　2.3，创建第二个动作：单击

　　请参考2.2的操作，创建第二个动作，选择类型为click，找到搜索按钮，然后自动生成xpath来检查它是否被锁定到唯一节点（如果没有）问题，将其填写在定位表达式中。

　　2.4，保存规则

　　点击“保存规则”按钮以保存已完成的一级规则

　　第3步：定义二级规则

　　3.1，创建一个新规则

　　创建第二级规则，单击“定义规则”以返回正常的网页模式，输入关键词搜索结果，再次单击“定义规则”以切换到规则制定模式，然后单击“规则”菜单的左上角->“新建”，输入主题名称，其中主题名称是在第一级规则的连续操作中填充的目标主题名称。

　　3.2，标记您想要的信息采集

　　3.2.1，在网页上标记您想要的信息采集，这里是产品名称和价格的标记，因为该标记仅对文本信息有效，因此指向产品详细信息的链接是属性节点@href，因此，您不能在链接上进行这样直观的标记，但是要进行内容映射，请参阅以下操作以获取详细信息。

　　3.2.2，单击产品名称，下面的DOM节点找到A标签，展开A标签下的attribute节点，您可以找到代表URL的@href节点，右键单击节点，然后选择“新建捕获”，然后单击“获取内容”，输入一个名称，通常为爬网的内容指定一个与地址相关的名称，例如“下属URL”或“下属链接”等。然后在工作台上，我看到已抓取的内容可用。如果您仍要进入产品详细信息页面采集，则必须检查与该抓取内容有关的较低级线索以进行分层抓取。

　　3.2.3，设置“密钥内容”选项，以便爬网程序可以判断采集规则是否合适。在排序框中，选择不可避免地在网页上可用的标签，然后勾选“关键内容”。在这里，“名称”被选作“关键内容”。

　　3.2.4，如果仅在前面标记一个产品，则可以获得产品信息。如果您想在整个页面上采集每个产品，都可以制作一个样本副本，否。如果您理解，请参阅基本教程“ 采集列表数据”

　　3.3，设置翻页路线

　　设置爬虫路线中的翻页功能，这是标记提示，如果您不了解，请参考基本教程“设置翻页采集”

　　3.4，保存规则

　　单击“测试”以检查信息的完整性。如果不完整，则注释可以覆盖以前的内容。检查没有问题后，单击“保存规则”。

　　第4步：捕获数据

　　4.1，连续动作是连续执行的，因此只要您运行第一级主题，就不需要运行第二级主题。打开DS计数器，搜索第一级主题名称，单击“单一搜索”或“集合”，可以看到在浏览器窗口中自动输入并搜索了关键词，然后调用第二级主题自动采集搜索结果。

　　4.2，第一级主题未采集有意义的信息，因此我们仅查看第二级主题的文件夹，即可看到采集的搜索结果数据，并搜索关键词 Is默认情况下记录在xml文件的actionvalue字段中，以便它可以一一对应。

0

2020-12-21

自动关键词采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

汇总：Python学习笔记(19)自动搜索关键词采集信息—以京东为例

0 个评论

发起人

AI时代内容工厂

汇总：Python学习笔记(19)自动搜索关键词采集信息—以京东为例

0 个评论

发起人

相关问题