豆瓣读书书籍信息采集方法

优采云 发布时间: 2020-08-13 10:54

  本文介绍使用优采云采集器v7采集豆瓣读书详尽信息。

  采集网站:

  %E5%B0%8F%E8%AF%B4?start=0&type=T

  使用功能点:

  l分页列表及详尽信息提取

  /tutorial/fylbxq7.aspx?t=1

  lXpath

  /tutorialdetail-1/xpath1.html

  豆瓣读书:豆瓣读书为豆瓣网的一个子栏目。豆瓣读书自2005年上线,已成为国外信息最全、用户数目最大且最为活跃的读书网站。我们专注于为用户提供全面且精细化的读书服务,同时不断探求新的产品模式。到2012年豆瓣读书每个月有超过800万的来访用户,过亿的访问次数。。

  豆瓣读书采集数据说明:本文进行了豆瓣读书-书籍详尽信息的采集,本文首先进去豆瓣读书分类列表页,然后循环点击每一条图书信息,进入图书详情页采集具体详尽信息 。本文仅以“豆瓣读书采集”为例。大家在实操过程中,可依照自身需求,更换豆瓣的其他内容进行数据采集。

  豆瓣读书采集字段详尽说明:图书名称,图书作者,图书定价,图书价钱,图书出版年,图书作者简介。

  步骤1:创建采集任务

  1)进入主界面,选择“自定义模式”

  

  2)将要采集的网址URL,复制粘贴到网址输入框中,点击“保存网址”

  

  步骤2:创建翻页循环

  1)在页面右上角,打开“流程”,以突显出“流程设计器”和“定制当前操作”两个蓝筹股。将页面下拉到顶部,点击“后页>”按钮,在两侧的操作提示框中,选择“更多操作”

  

  2)选择“循环点击单个链接”

  

  步骤3:创建列表循环

  1)移动滑鼠,选中页面里的第一个图书链接。选中后,系统会手动辨识页面里的其他相像链接。在左侧操作提示框中,选择“选中全部”

  

  2)选择“循环点击每位链接”,以创建一个列表循环

  

  步骤4:提取图书信息

  1)在创建列表循环后,系统会手动点击第一个图书链接,进入图书详尽信息页。

  点击须要的数组信息,在两侧的操作提示框中,选择“采集该元素的文本”。我们在这里,采集了图书名称、图书出版信息、内容简介、作者简介

  

  2)字段信息选择完成后,选中相应的数组,可以进行数组的自定义命名,修改完成后,点击“确定”。完成后,点击左上角的“保存并启动”,启动采集任务

  

  3)选择“启动本地采集”

  

  4)采集完成后,会跳出提示,选择“导出数据”。选择“合适的导入方法”,将采集好的数据导入。这里我们选择excel作为导入为格式,数据导入后如下图

  

  步骤5:修改Xpath

  通过上述导入的数据我们可以发觉,部分图书的“内容简介”、“作者简介”没有采集下来(如:《解忧杂货店》图书详情页的“内容简介”采集下来了,但是《雪落香杉树》图书详情页的“内容简介”并未采集下来)。这是因为,每个图书详情页的网页情况有所不同,系统手动生成的Xpath,不能完全正确定位到每位图书详情页的“内容简介”和“作者简介”。以下将以“内容简介”这个数组为例,具体讲解xpath的更改。“作者简介”字段更改同理,在此文中不做多讲。

  1)选中“提取元素”步骤,点击“内容简介”字段,再点击如图所示的按键

  

  2)选择“自定义定位元素形式”

  

  3)将优采云系统手动生成的这条Xpath:

  //DIV[@id='link-report']/DIV[1]/DIV[1]/P[1],复制粘贴到火狐浏览器中进行测量

  

  4)将优采云系统手动生成的此条Xpath,删减为

  //DIV[@id='link-report']/DIV[1]/DIV[1](P[1]代表内容简介里的第一段,删掉即可定位到整个内容简介段落)。我们发觉:通过此条Xpath:

  //DIV[@id='link-report']/DIV[1]/DIV[1],在《解忧杂货店》图书详情页,可以定位到“内容简介”字段,但是在《雪落香杉树》图书详情页,不能定位到“内容简介”字段

  

  《解忧杂货店》图书详情页:可定位到“内容简介”字段

  

  《雪落香杉树》图书详情页:不能定位到“内容简介”字段

  5)观察网页源码发觉,图书详情页“内容简介”字段,都具有相同的class属性,通过class属性,我们可写出一条才能定位所有图书详情页“内容简介”字段的Xpath:.//*[@id='link-report']//div[@class='intro']。在火狐浏览器中检测发觉,通过此条Xpath,确实能都定位到所有图书详情页的“内容简介”字段

  

  6)将新写的此条Xpath:.//*[@id='link-report']//div[@class='intro'],复制粘贴到优采云中的相应位置,并点击“确定”

  

  7)重新“启动本地采集”并导入数据。可以看见,所有图书详情页的“内容简介”字段均被抓取出来

  

  注意:“作者简介”字段更改同理,需要更改Xpath,在此文中不做多讲。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线