在10分钟内不会在58.com的微博,微信,搜狐上采集任何代码,数据和信息

优采云 发布时间: 2020-08-08 03:51

  有必要学习信息并快速采集数据,因为它可以大大提高工作效率. 在学习python和优采云之前,web scraper是我最常用的采集工具. 设置简单,效率很高. 采集Mimeng文章的标题仅需2分钟,而采集58个相同城市中的5000个租借信息仅需5分钟.

  Web scraper是Google强大的插件库中非常强大的数据采集插件. 它具有强大的防爬网功能. 您只需要简单地在插件上进行设置,就可以快速抓取知乎,jianshu,douban和public 58等大型,中小型网站,包括文本,图片,表格和其他内容,最后快速导出csv格式文件. 网络上的Google官方

  scraper给出的描述是:

  使用我们的扩展程序,您可以创建计划(站点地图),如何遍历网站以及应提取什么内容. 使用这些站点地图,网络抓取工具将相应地导航该站点并提取所有数据. 您可以稍后将剪辑数据导出到CSV.

  Webscraperk课程将以知乎,Jianshu和其他网站为例,对该过程进行完整的介绍,以介绍如何采集文本,表格,多元素爬网,不规则页面爬网,辅助页面爬网和动态网站爬网. ,以及一些反爬行技术和所有内容.

  

  安装网络抓取器

  Web scraper是Google浏览器的扩展插件,其安装与其他插件相同.

  

  

  以知乎为例,介绍完整的Webscraper爬网过程

  1. 打开目标网站. 这里以芝湖一号诉张家卫案的下列对象为例. 需要抓取的是关注者的姓名,答案数量,发表的文章数量以及关注者数量.

  

  2. 右键单击网页上的鼠标,选择检查选项,或使用快捷键Ctrl + Shift + I / F12打开Web Scraper.

  

  3. 打开后,单击创建站点地图,然后选择创建站点地图以创建站点地图.

  

  点击创建站点地图后,您将获得如图所示的页面. 您需要填写站点地图名称,即站点的名称. 只要您能理解它,就可以随便写. 您还需要填写starturl,即指向页面的链接. 填写后,单击创建站点地图以完成站点地图的创建.

  

  

  4. 设置第一级选择器: 选择采集范围

  下一个是最高优先级. 这是对Web爬虫的爬网逻辑的介绍: 您需要设置一个第一级选择器(选择器)来设置需要爬网的范围. 在第一级选择器下创建一个第二级选择器(选择器),并将其设置为获取元素和内容.

  以张家卫的关注为例. 我们的范围是张家卫关注的目标. 然后,我们需要为此范围创建一个选择器. 次要选择者是张家卫关注的目标对象的粉丝数和文章数. 内容. 具体步骤如下:

  (1)添加新的选择器以创建一级选择器选择器:

  

  单击后,您将获得以下页面,并在此页面上设置了要抓取的内容.

  

  [if!supportLists] l [endif] id: 只需命名选择器,出于相同的原因,只要您能自己理解它,这里就叫jiawei-scrap.

  [if!supportLists] l [endif] Type: 它是要捕获的内容的类型,例如元素元素/文本/链接链接/图片图像/元素在动态加载中向下滚动等,这里有多个元素选择元素.

  [if!supportLists] l [endif] Selector: 是指要获取的内容的选择. 单击选择以选择页面上的内容. 这部分将在下面详细描述.

  [if!supportLists] l [endif]选中多个: 选中“ Multiple”前面的小框,因为要选择多个元素而不是单个元素. 选中后,采集器插件将识别出存在相同属性的内容;

  (2)在此步骤中,需要设置选定的内容,在选择选项下单击“选择”以获取以下图片:

  

  将鼠标移到需要选择的内容上,此时需要选择的内容将变为绿色,表示已选择该内容. 在这里您需要提醒您,如果您需要的内容是多元素,则需要更改元素. 选择两者. 例如,如下图所示,绿色表示所选内容在绿色范围内.

  

  选择内容范围后,单击鼠标,所选内容范围将变为红色,如下图所示:

  

  当内容变成红色时,我们可以选择下一个内容. 单击后,Web采集器将自动识别您想要的内容,并且具有相同元素的内容将全部变为红色. 如下图所示:

  

  在确认我们在此页面上需要的所有内容都变成红色后,可以单击“完成”选择选项,然后得到以下图片:

  

  单击“保存选择器”以保存设置. 此后,将创建第一级选择器.

  

  5. 设置辅助选择器: 选择要采集的元素内容.

  (1)单击下图红色框中的内容,进入第一级选择器jiawei-scrap:

  

  (2)单击添加新选择器以创建用于选择特定内容的辅助选择器.

  

  获取以下图片,该图片与第一级选择器的内容相同,但是设置不同.

  

  [if!supportLists]Ø[endif] id: 表示捕获哪个字段. 您可以选择该领域的英语. 例如,如果要选择“作者”,请写“作者”;

  [if!supportLists]Ø[endif]类型: 在此处选择“文本”选项,因为您要获取文本内容;

  [if!supportLists]Ø[endif] Multiple: 请勿在Multiple前面的小方框中打勾,因为这是要捕获的单个元素;

  [如果!supportLists]Ø[endif]保留设置: 保留未提及的其他部分的默认设置.

  (3)单​​击选择选项后,将鼠标移至特定元素,该元素将变为*敏*感*词*,如下图所示:

  

  在单击特定元素后,该元素将变为红色,这表示已选择内容.

  

  (4)单击“完成选择”完成选择,然后单击“保存选择器”完成对关注者名称的选择.

  

  重复上述操作,直到选择了要爬坡的田地为止.

  

  (5)单击红色框以查看采集的内容.

  

  6. 抓取数据

  (1)您只需要设置所有选择器,就可以开始爬网数据,单击“刮擦”图,选择刮擦;:

  

  (2)单击后,将跳至时间设置页面,如下图所示. 由于集合的数量不大,因此您可以默认保存它. 点击开始抓取,然后会弹出一个窗口,然后开始正式采集.

  

  (3)过一会儿,您可以获得采集效果,如下图所示:

  

  (4)选择站点地图下的export data as csv选项,以表格形式导出采集的结果.

  表格效果(部分数据):

  

  此外,我们还使用网络抓取工具采集了58个城市的租赁信息,公众评论食物信息,微信公众号密蒙文章,京东小米手机评论等.

  作者: 学者Wan Yau

  博客:

  ·END·

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线